Como evitar que determinadas páginas do site apareçam no Google?
Como já vimos na seção Googlebot, robots, ou robôs, são aplicativos que percorrem a internet em busca de conteúdo com o objetivo de indexá-lo ou verificarem alterações ocorridas desde a última “visita” Nem todo o conteúdo de um site deve ser indexado pelos robots. Páginas de login, páginas repetidas, páginas de impressão são alguns desses exemplos. O que é robots.txt, então? Como o próprio nome já diz, é um arquivo no formato txt que funciona como um filtro para os Crawlers, fazendo com que webmasters possam controlar permissões de acesso a determinados pontos dos sites. O robots.txt controla qual informação de um site deve ou não deve ser indexado pelos sites de busca. A sintaxe do arquivo é bem simples, e deve ser colocada pelo webmaster responsável pelo site na raíz da hospedagem.
ROBOTS.TXT – SINTAXE
O arquivo robots.txt tem o papel de criar uma política de acesso para os Robots. Para a execução dessas tarefas há palavras reservadas, ou seja, palavras com a função de comandos que permitirão ou não o acesso a determinados diretórios ou páginas de um site:
User-agent
A função deste comando é apenas dizer quais Robots devem seguir as regras indicadas no Robots.txt. Supondo que você deseje apenas que o mecanismo de busca do google siga as definições constantes no arquivo robots.txt, este deve ser indicado como User-agent: Googlebot. Eis as principais opções:
- Google: User-agent: Googlebot
- Yahoo: User-agent: Slurp
- MSN: User-agent: msnbot.
- Todos os mecanismos: User-agent: *.
Disallow
Este comando diz aos mecanismos qual diretório ou página deve ser impedida de ter o conteúdo verificado. Exemplos:
- Disallow: /images diz aos robots para que não seja indexado o conteúdo do diretório /images
- Disallow: print1.html instrui os robots a não indexarem a página print1.html.
Allow
Este comando diz aos robots qual diretório ou página deve ter o conteúdo verificado. Mas qual seria a necessidade deste comando, sendo que diretórios e páginas são por definição sempre permitidos? Este será útil em situações em que o webmaster bloqueu o acesso a um diretório através do comando Disallow, mas gostaria de ter indexado um arquivo ou sub-diretório dentro do diretório bloqueado.
EXEMPLOS DE ROBOTS.TXT
Exemplo 1: O webmaster não deseja que o conteúdo do diretório /docs seja indexado pelos robots. Dessa bloqueou o acesso ao diretório /docs usando o comando Disallow: /docs no arquivo robots.txt. Dentro deste diretório, porém, existe um sub-diretório chamado “public”, que deve ter seu conteúdo indexado. Para que isto aconteça, basta usar no arquivo robots.txt a instrução Allow: /docs/public/.
Exemplo 2: Considere a seguinte estrutura de um determinado site:
/
Index.html
Contato.html
/Interno
Ambiente.html
/News
Novidades.html
/Admin
Restrito.html
Seguranca.html
robots.txt
Como pode ser observado, há na raíz 2 diretórios e 2 páginas. No diretório “Interno” há 1 página e 1 diretório, cujo nome é “News”, onde existe 1 página. No diretório “Admin”, podemos observar outras 2 páginas. Ainda na raíz está o arquivo robots.txt.
O webmaster responsável pelo site definiu que o diretório “Interno” terá seu conteúdo bloqueado aos robots, isto é, não deverá ser indexado pelo Google e outros sites de busca. , mas o diretório “News” deverá será indexado. Já o diretório “Admin” deve ser completamente bloqueado. As instruções, segundo o webmaster, devem ser seguidas por qualquer mecanismo de busca. O conteúdo do arquivo Robots.txt deve ser o seguinte:
User-agent: *
Disallow: /Interno
Allow: /Interno/News
Disallow: /Admin
Com as regras acima, os mecanismos irão indexar o conteúdo apenas da raíz e do diretório “News”.
EXEMPLOS REAIS DE ROBOTS.TXT
Google: www.google.com.br/robots.txt
Registro.br: http://registro.br/robots.txt