robots.txt são pequenos arquivos texto que servem para indicar aos mecanismos de
busca quais arquivos que devem ou não devem ser indexados.
Um robots pode se parecer com esse:
# robots.txt gerado em
# www.colmeiaweb.com.br/robots-txt/
User-agent: *
Disallow:
Disallow: /templates/
sitemap: http://www.colmeiaweb.com.br/sitemap.xml
Nesse caso estou dizendo para indexar todo o conteudo menos os arquivos da
pasta templates, além de procurar
por meu sitemap.xml
O processo é parecido com o uso de um sitemap. Você colocará no diretório
raiz do seu site, em seguida, usando o serviço
"Ferramentas para webmasters"
da Google, pedirá uma análise do mesmo, isso poderá levar alguns minutos ou mais,
depende do tráfego para esse serviço no momento.
É bom você usar em conjunto com a meta tag abaixo, que deve ser colocada
entre as tags HEAD do seu index.
<meta name="robots" content="all" />
Os valores são:
- all. Valor padrão, significa "vazio" - o robô de busca não recebe nenhuma informação;
- index. Os robôs de busca podem incluir a página normalmente;
- follow. Robôs podem indexar a página e ainda seguir os links para outras páginas que ela contém;
- noindex. Os links podem ser seguidos, mas a página não é indexada;
- noFollow. A página é indexada, mas os links não são seguidos;
- none. Os robôs podem ignorar a página;
- noarchive (apenas GoogleBot). A página não é arquivada.
Segue alguns links abaixo onde você poderá gerar o seu robots.txt.