Sintaxe do robots.txt, como funciona e ajuda na indexação
- http://www.searchtools.com/robots/robots-txt.html
- http://www.askapache.com/seo/seo-with-robotstxt.html
Construtores automáticos de robots.txt
Geradores automáticos de robots.txt não são bons de serem usados. Pois o robots.txt deve ser feito de acordo com a estrutura de navegação do site e da plataforma em cima da qual foi contruído. O difícil em montar um bom robots.txt não consiste na linguagem, que é banal, e sim no conhecimento sobre oque deve ou não ser indexado, e é isto que varia de site para site e/ou de plataforma para plataforma. Como disse, não tem porque usar isto. Portanto que te sirva apenas de exemplo:
- http://www.marketingdebusca.com.br/robots-txt/
- http://www.mcanerin.com/EN/search-engine/robots-txt.asp
Ferramentas para testar sintaxe:
Ferramenta boa para aconselhar e verificar se tem erros em seu robots.txt, mas quem deve dar a palavra final deve ser você. Não entendi porque ele aconselha a não fazer várias coisas que todo mundo faz, talvez ele te aconselha do ponto de vista mais genérico. Por isto é bom entender como os diversos robôs funcionam também, e vale à pena seguir as diretrizes apenas da google.
- https://www.google.com/webmasters/tools/robots
Veja como os Robôs veêm sua página em tempo real:
Uma excelente ferramenta para “sentir-se na pele” de um robô de busca:
- http://www.xml-sitemaps.com/se-bot-simulator.html
Erros de SEO que podem levar seu site a perder audiência
- http://www.brpoint.net/nao-crie-uma-gaiola-para-o-google.html
Textos sobre robots.txt específicos para WordPress
- http://codex.wordpress.org/Search_Engine_Optimization_for_Wordpress
- http://www.twentysteps.com/creating-the-ultimate-wordpress-robotstxt-file/ (o que mais gostei até agora e que tem mais haver com o oficial)
- http://www.askapache.com/seo/wordpress-robotstxt-seo.html
Exemplos de robots.txt de sites respeitados e de boa audiência
Todos os sites abaixo usam o WordPress como CMS para gerenciarem seus sites. Notem que há muita coisa em comum entre eles. Vale notar também que o robots.txt da Smashing Magazine possui alguns “Allows” para “tags” em seu robots.txt, isto acontece quando se tem certeza que não causará conteúdo duplicado e sua tag está otimizada como uma boa palavra-chave. Talvez seja interessante “dar um Allow” também para as tags de mais audiência do seu site, isto pode ser visto pelo Analytics. Talvez elas sejam de grande audiência justamente por estarem bem otimizadas do ponto de vista de SEO.
Reparem também que há pessoas que usam bloquear totalmente as páginas de datas, tags, pages ou categorias. Ao bloquear as minhas pages, archives e tags, eu perdi muita audiência e vi que os textos oficiais do WordPress.org e vários outros textos não recomendam isto, por isto, por enquanto não recomendo.
Notem que os que retiraram as tags por inteiro (a Smashing Magazine não fez isto), ainda o fizeram de forma errada, porque se escreve /tag/ no robots.txt e não /tags/, pois não existe esta pasta no plural. Parece que isto aconteceu porque todo mundo copiou o robots.txt do brPoint, que pelo que vi é o texto em português mais famoso sobre o assunto. Vamos aprender inglês galera!
Robots.txt da Smashing Magazine: http://www.smashingmagazine.com/robots.txt
Sitemap: http://smashingmagazine.com/sitemap.xml User-agent: Mediapartners-Google* Disallow: User-agent: * Disallow: /cc/ Disallow: /wp-admin/ Disallow: /tag/ Disallow: /wp-rss.php Disallow: /wp-rss2.php Disallow: /*? Disallow: /*comment-page User-agent: * Allow: /tag/wallpapers/ Allow: /tag/icons/ Allow: /tag/photos/ Allow: /tag/css/ Allow: /tag/javascript/ Allow: /tag/wordpress/ Allow: /tag/photoshop/ Allow: /tag/typography/ Allow: /tag/freebies/ Allow: /tag/tools/ Allow: /tag/tutorials/ Allow: /tag/freelance/ Allow: /tag/CMS/ Allow: /tag/illustrator/ Allow: /tag/ui/ Allow: /tag/usability/ Allow: /tag/flash/ Allow: /tag/blogs/ Allow: /tag/navigation/ Allow: /tag/portfolios/ Allow: /tag/textures/ Allow: /tag/brushes/ Allow: /tag/favicons/ Allow: /tag/logos/ User-agent: MSIECrawler Disallow: / User-agent: psbot Disallow: / User-agent: Fasterfox Disallow: /
Sitemap do Brpoint: http://www.brpoint.net/robots.txt
Artigo escrito sobre Robots.txt: http://www.brpoint.net/o-robotstxt-ideal-para-o-wordpress.html
# BEGIN XML-SITEMAP-PLUGIN Sitemap: http://www.brpoint.net/sitemap.xml.gz # END XML-SITEMAP-PLUGIN User-agent: * # remova os diretorios Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /trackback/ Disallow: /feed/ Disallow: */feed/ Disallow: /tags/ Disallow: /*feed* Disallow: /*index.html$ Disallow: /recomendo User-agent: Googlebot # remover scrips css e afins Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.wmv$ Disallow: /*.cgi$ Disallow: /*.xhtml$ # permitir o adsense em qualquer url User-agent: Mediapartners-Google* Disallow: Allow: /*
Robots.txt do Futilidade Pública: http://futilidadepublica.semjuizo.com/robots.txt
Artigo escrito sobre Robots.txt: http://futilidadepublica.semjuizo.com/2007/06/17/brpoint-o-blog-que-duplicou-as-visitas-deste-blog/
User-agent: *
# remova os diretorios
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /tags/
Disallow: /programas
User-agent: Googlebot
# remover scrips css e afins
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# qualquer endereco que contenha ?
Disallow: /*?*
# permitir o adsense em qualquer url
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
#Sitemap
Sitemap: http://futilidadepublica.semjuizo.com/sitemap.xml
Robots.txt do Yogodoshi: http://www.yogodoshi.com/blog/robots.txt
Artigo escrito sobre Robots.txt: http://www.yogodoshi.com/blog/wordpress/robotstxt-para-wordpress
User-agent: *
Allow: *
# remova os diretorios
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /tags/
User-agent: Googlebot
# remover scrips css e afins
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
# permitir o adsense em qualquer url
User-agent: Mediapartners-Google*
Disallow:
Allow: *
Robots.txt para imgens
Artigo escrito sobre Robots.txt: http://www.fique-rico.com/2009/08/10/semana-do-seo-gerindo-o-acesso-dos-robots-ao-seu-blog/
Um comentário em “WordPress robots.txt with disallow, noindex and sitemap filetype”