WordPress robots.txt with disallow, noindex and sitemap filetype

robots-txt-wordpress
robots-txt-wordpress

Sintaxe do robots.txt, como funciona e ajuda na indexação

  • http://www.searchtools.com/robots/robots-txt.html
  • http://www.askapache.com/seo/seo-with-robotstxt.html

Construtores automáticos de robots.txt

Geradores automáticos de robots.txt não são bons de serem usados. Pois o robots.txt deve ser feito de acordo com a estrutura de navegação do site e da plataforma em cima da qual foi contruído. O difícil em montar um bom robots.txt não consiste na linguagem, que é banal, e sim no conhecimento sobre oque deve ou não ser indexado, e é isto que varia de site para site e/ou de plataforma para plataforma. Como disse, não tem porque usar isto. Portanto que te sirva apenas de exemplo:

  • http://www.marketingdebusca.com.br/robots-txt/
  • http://www.mcanerin.com/EN/search-engine/robots-txt.asp

Ferramentas para testar sintaxe:

Ferramenta boa para aconselhar e verificar se tem erros em seu robots.txt, mas quem deve dar a palavra final deve ser você. Não entendi porque ele aconselha a não fazer várias coisas que todo mundo faz, talvez ele te aconselha do ponto de vista mais genérico. Por isto é bom entender como os diversos robôs funcionam também, e vale à pena seguir as diretrizes apenas da google.

  • https://www.google.com/webmasters/tools/robots

Veja como os Robôs veêm sua página em tempo real:

Uma excelente ferramenta para “sentir-se na pele” de um robô de busca:

  • http://www.xml-sitemaps.com/se-bot-simulator.html

Erros de SEO que podem levar seu site a perder audiência

  • http://www.brpoint.net/nao-crie-uma-gaiola-para-o-google.html

Textos sobre robots.txt específicos para WordPress

  • http://codex.wordpress.org/Search_Engine_Optimization_for_Wordpress
  • http://www.twentysteps.com/creating-the-ultimate-wordpress-robotstxt-file/ (o que mais gostei até agora e que tem mais haver com o oficial)
  • http://www.askapache.com/seo/wordpress-robotstxt-seo.html

Exemplos de robots.txt de sites respeitados e de boa audiência

Todos os sites abaixo usam o WordPress como CMS para gerenciarem seus sites. Notem que há muita coisa em comum entre eles. Vale notar também que o robots.txt da Smashing Magazine possui alguns “Allows” para “tags” em seu robots.txt, isto acontece quando se tem certeza que não causará conteúdo duplicado e sua tag está otimizada como uma boa palavra-chave. Talvez seja interessante “dar um Allow” também para as tags de mais audiência do seu site, isto pode ser visto pelo Analytics. Talvez elas sejam de grande audiência justamente por estarem bem otimizadas do ponto de vista de SEO.

Reparem também que há pessoas que usam bloquear totalmente as páginas de datas, tags, pages ou categorias. Ao bloquear as minhas pages, archives e tags, eu perdi muita audiência e vi que os textos oficiais do WordPress.org e vários outros textos não recomendam isto, por isto, por enquanto não recomendo.

Notem que os que retiraram as tags por inteiro (a Smashing Magazine não fez isto), ainda o fizeram de forma errada, porque se escreve /tag/ no robots.txt e não /tags/, pois não existe esta pasta no plural. Parece que isto aconteceu porque todo mundo copiou o robots.txt do brPoint, que pelo que vi é o texto em português mais famoso sobre o assunto. Vamos aprender inglês galera!

Robots.txt da Smashing Magazine: http://www.smashingmagazine.com/robots.txt

Sitemap: http://smashingmagazine.com/sitemap.xml

User-agent: Mediapartners-Google*
Disallow:

User-agent: *
Disallow: /cc/
Disallow: /wp-admin/
Disallow: /tag/
Disallow: /wp-rss.php
Disallow: /wp-rss2.php
Disallow: /*?
Disallow: /*comment-page

User-agent: *
Allow: /tag/wallpapers/
Allow: /tag/icons/
Allow: /tag/photos/
Allow: /tag/css/
Allow: /tag/javascript/
Allow: /tag/wordpress/
Allow: /tag/photoshop/
Allow: /tag/typography/
Allow: /tag/freebies/
Allow: /tag/tools/
Allow: /tag/tutorials/
Allow: /tag/freelance/
Allow: /tag/CMS/
Allow: /tag/illustrator/
Allow: /tag/ui/
Allow: /tag/usability/
Allow: /tag/flash/
Allow: /tag/blogs/
Allow: /tag/navigation/
Allow: /tag/portfolios/
Allow: /tag/textures/
Allow: /tag/brushes/
Allow: /tag/favicons/
Allow: /tag/logos/

User-agent: MSIECrawler
Disallow: /

User-agent: psbot
Disallow: /

User-agent: Fasterfox
Disallow: /

Sitemap do Brpoint: http://www.brpoint.net/robots.txt
Artigo escrito sobre Robots.txt: http://www.brpoint.net/o-robotstxt-ideal-para-o-wordpress.html

# BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.brpoint.net/sitemap.xml.gz
# END XML-SITEMAP-PLUGIN

User-agent: *
# remova os diretorios
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: */feed/
Disallow: /tags/
Disallow: /*feed*
Disallow: /*index.html$
Disallow: /recomendo

User-agent: Googlebot
# remover scrips css e afins
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

# permitir o adsense em qualquer url
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

Robots.txt do Futilidade Pública: http://futilidadepublica.semjuizo.com/robots.txt
Artigo escrito sobre Robots.txt: http://futilidadepublica.semjuizo.com/2007/06/17/brpoint-o-blog-que-duplicou-as-visitas-deste-blog/

User-agent: *
# remova os diretorios
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /tags/
Disallow: /programas

User-agent: Googlebot
# remover scrips css e afins
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

# qualquer endereco que contenha ?
Disallow: /*?*

# permitir o adsense em qualquer url
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

#Sitemap
Sitemap: http://futilidadepublica.semjuizo.com/sitemap.xml

Robots.txt do Yogodoshi: http://www.yogodoshi.com/blog/robots.txt
Artigo escrito sobre Robots.txt: http://www.yogodoshi.com/blog/wordpress/robotstxt-para-wordpress

User-agent: *
Allow: *
# remova os diretorios
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /tags/

User-agent: Googlebot
# remover scrips css e afins
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$

# permitir o adsense em qualquer url
User-agent: Mediapartners-Google*
Disallow:
Allow: *

Robots.txt para imgens

Artigo escrito sobre Robots.txt: http://www.fique-rico.com/2009/08/10/semana-do-seo-gerindo-o-acesso-dos-robots-ao-seu-blog/

Geradores automáticos de robots.txt não são bons de serem usados. Pois o robots.txt deve ser feito de acordo com a estrutura de navegação do site e da plataforma em cima da qual foi contruído. O difícil em montar um bom robots.txt não consiste na linguagem, que é banal, e sim no conhecimento sobre oque deve ou não ser indexado, e é isto que varia de site para site e/ou de plataforma para plataforma.