Mesmo que você não cadastre suas páginas em nenhum site de busca, alguns robôs podem fazer isso automaticamente e incluí-los em seus mecanismos de busca.
Para que, esses "robôs" não incluam seu site, utilizamos o arquivo robots.txt e colocamos ele no diretório raiz do site
http://www.minha-empresa.com.br/robots.txt
Aqui vão alguns exemplos para excluir o site todo ou alguns diretórios
User-agent: *
Disallow: /
usando o exemplo acima, impedimos que todos os robôs ( User-agent: * ) cadastrem o diretório raiz ( Disallow: / ) e todos os seu subdiretórios, ou o site todo.
Agora para impedirmos que os robôs não cadastrem a pasta admin, usamos assim:
User-agent: *
Disallow: /admin/
Para impedir outras pastas, devemos apenas inserir mais linhas Disallow
User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /images/
Para impedir que, apenas o Google, cadastre o site todo
User-agent: Googlebot
Disallow: /
E por último, para liberar para todos os robôs (sem maldade), deixamos "Disallow" vazio
User-agent: *
Disallow:
Agora se você quiser que apenas algumas páginas não sejam inseridas nos mecanismos de busca, podemos usar meta tags
<META NAME="ROBOTS" CONTENT="NOINDEX">
O problema é que alguns robôs não suportam essa tag.
Depois que você fazer o seu arquivo robots.txt e colocá-lo no diretório raiz de seu site, você pode verificar se ele está funcionando utilizando o site
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
Nesse site ainda tem alguns outros exemplos de como utilizar o arquivo robots.txt
Espero que seja de grande ajuda
[]'s
Esta matéria foi postada originalmente no ASP4Developers por Rogério César (Craz¥ Man) (site), que na época era "Analista de Sistemas, programador, web Designer.". Hoje, vai saber...