Testes de SEO: Como o robots.txt pode impactar seu site

Testes de SEO: Como o robots.txt pode impactar seu site

LC
Leo Cruz
Compartilhar:

Uma linha pode causar uma grande dor de cabeça para o seu negócio quando falamos do universo do SEO.

Recentemente analisava as boas práticas de linkagem interna em grandes portais nacionais usando o Screaming Frog e percebi que em um deles uma série de URLs importantes exibia o status “bloqueadas pelo robots.txt”. Achei curioso e fui analisar seu robots.txt.

Antes de explicar o que notei, quero deixar claro que mudei todas as regras e inventei uma estrutura de URL genérica, para que não parece que esse é uma publicação feita para expor um colega de profissão. Já trabalhei no R7 e Exame e sei que esta é uma regra de negócio criada para funcionar dessa maneira.

Dito isso, vamos ao teste:

Usando a URL https://www.exemplo.com/colunas/leocruz/2021/02/teste-robots-txt e simulando o User Agent Googlebot Smartphone tive o seguinte resultado:

Não foi fornecido texto alternativo para esta imagem

Quem está familiarizado com o arquivo robots.txt consegue entender minha estranheza, já que a linha 5 informava para todos os User-agent (User-agent: *) que eles não deveriam acessar essa URL (Disallow: /colunas/).

Comentei com alguns amigos e o Vinicius Castro apontou que em caso de conflito entre regras a menos restritiva é aplicada. Para entender exatamente como isso funciona fui para a documentação do Google e encontrei o seguinte trecho:

“Em um nível de group-member, em especial para diretivas allow e disallow, a regra mais específica baseada no tamanho da entrada [path] se sobrepõe à regra menos específica (mais curta). No caso de regras conflitantes, incluindo as com curingas, a regra menos restritiva será usada.”

Agora ficou claro o motivo do Google poder ler a página, pois mesmo a linha 5 negando acesso ele acaba sendo permitido na linha 12. Como a regra menos restritiva é adotada nesses casos, o acesso está garantido.

Ainda curioso sobre essas regras testei se o Bing poderia acessar essa página, já que não existe uma regra específica para ele. Como era de se esperar, o resultado foi o seguinte:

Não foi fornecido texto alternativo para esta imagem

Conferi se a matéria do portal real estava indexada no Bing e não deu outra: não estava. Procurei por outras colunas feitas em fevereiro e também não encontre nenhuma.

Apesar de ter um pequeno potencial de perda, normalmente a audiência do Bing e demais buscadores não chega a 1% do total do orgânico, essa regra é uma decisão importante e exclui totalmente o acesso de vários buscadores a parte do site.

Para fechar o texto, deixo como alerta que a má configuração é um problema comum em sites de todos os tamanhos, por isso tome bastante cuidado quando for mexer nesse arquivo e sempre teste se o Google não foi bloqueado por engano.

Você sabia que decisões tão importantes como essa podem ser tomadas em um simples arquivo .txt?

O mundo do SEO é realmente feito nos detalhes.