Sitemaps

robots.txt são pequenos arquivos texto que servem para indicar aos mecanismos de busca quais arquivos que devem ou não devem ser indexados.
Um robots pode se parecer com esse:

# robots.txt gerado em
# www.colmeiaweb.com.br/robots-txt/
User-agent: *
Disallow:
Disallow: /templates/
sitemap: http://www.colmeiaweb.com.br/sitemap.xml

Nesse caso estou dizendo para indexar todo o conteudo menos os arquivos da pasta templates, além de procurar por meu sitemap.xml
O processo é parecido com o uso de um sitemap. Você colocará no diretório raiz do seu site, em seguida, usando o serviço "Ferramentas para webmasters" da Google, pedirá uma análise do mesmo, isso poderá levar alguns minutos ou mais, depende do tráfego para esse serviço no momento.
É bom você usar em conjunto com a meta tag abaixo, que deve ser colocada entre as tags HEAD do seu index.
<meta name="robots" content="all" />

Os valores são:

  • all. Valor padrão, significa "vazio" - o robô de busca não recebe nenhuma informação;
  • index. Os robôs de busca podem incluir a página normalmente;
  • follow. Robôs podem indexar a página e ainda seguir os links para outras páginas que ela contém;
  • noindex. Os links podem ser seguidos, mas a página não é indexada;
  • noFollow. A página é indexada, mas os links não são seguidos;
  • none. Os robôs podem ignorar a página;
  • noarchive (apenas GoogleBot). A página não é arquivada.
Segue alguns links abaixo onde você poderá gerar o seu robots.txt.