terça-feira, 26 de agosto de 2003

Evitando que mecanismos de busca cadastrem suas páginas

Mesmo que você não cadastre suas páginas em nenhum site de busca, alguns robôs podem fazer isso automaticamente e incluí-los em seus mecanismos de busca.


Para que, esses "robôs" não incluam seu site, utilizamos o arquivo robots.txt e colocamos ele no diretório raiz do site
http://www.minha-empresa.com.br/robots.txt


Aqui vão alguns exemplos para excluir o site todo ou alguns diretórios


User-agent: *
Disallow: /


usando o exemplo acima, impedimos que todos os robôs ( User-agent: * ) cadastrem o diretório raiz ( Disallow: / ) e todos os seu subdiretórios, ou o site todo.


Agora para impedirmos que os robôs não cadastrem a pasta admin, usamos assim:


User-agent: *
Disallow: /admin/


Para impedir outras pastas, devemos apenas inserir mais linhas Disallow


User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /images/


Para impedir que, apenas o Google, cadastre o site todo


User-agent: Googlebot
Disallow: /


E por último, para liberar para todos os robôs (sem maldade), deixamos "Disallow" vazio


User-agent: *
Disallow:


Agora se você quiser que apenas algumas páginas não sejam inseridas nos mecanismos de busca, podemos usar meta tags


<META NAME="ROBOTS" CONTENT="NOINDEX">


O problema é que alguns robôs não suportam essa tag.


Depois que você fazer o seu arquivo robots.txt e colocá-lo no diretório raiz de seu site, você pode verificar se ele está funcionando utilizando o site
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi


Nesse site ainda tem alguns outros exemplos de como utilizar o arquivo robots.txt


Espero que seja de grande ajuda


[]'s



Esta matéria foi postada originalmente no ASP4Developers por Rogério César (Craz¥ Man) (site), que na época era "Analista de Sistemas, programador, web Designer.". Hoje, vai saber...

0 comentários: