Testes de SEO: Como o robots.txt pode impactar seu site
Uma linha pode causar uma grande dor de cabeça para o seu negócio quando falamos do universo do SEO.
Recentemente analisava as boas práticas de linkagem interna em grandes portais nacionais usando o Screaming Frog e percebi que em um deles uma série de URLs importantes exibia o status “bloqueadas pelo robots.txt”. Achei curioso e fui analisar seu robots.txt.
Antes de explicar o que notei, quero deixar claro que mudei todas as regras e inventei uma estrutura de URL genérica, para que não parece que esse é uma publicação feita para expor um colega de profissão. Já trabalhei no R7 e Exame e sei que esta é uma regra de negócio criada para funcionar dessa maneira.
Dito isso, vamos ao teste:
Usando a URL https://www.exemplo.com/colunas/leocruz/2021/02/teste-robots-txt e simulando o User Agent Googlebot Smartphone tive o seguinte resultado:
Quem está familiarizado com o arquivo robots.txt consegue entender minha estranheza, já que a linha 5 informava para todos os User-agent (User-agent: *) que eles não deveriam acessar essa URL (Disallow: /colunas/).
Comentei com alguns amigos e o Vinicius Castro apontou que em caso de conflito entre regras a menos restritiva é aplicada. Para entender exatamente como isso funciona fui para a documentação do Google e encontrei o seguinte trecho:
“Em um nível de group-member, em especial para diretivas allow e disallow, a regra mais específica baseada no tamanho da entrada [path] se sobrepõe à regra menos específica (mais curta). No caso de regras conflitantes, incluindo as com curingas, a regra menos restritiva será usada.”
Agora ficou claro o motivo do Google poder ler a página, pois mesmo a linha 5 negando acesso ele acaba sendo permitido na linha 12. Como a regra menos restritiva é adotada nesses casos, o acesso está garantido.
Ainda curioso sobre essas regras testei se o Bing poderia acessar essa página, já que não existe uma regra específica para ele. Como era de se esperar, o resultado foi o seguinte:
Conferi se a matéria do portal real estava indexada no Bing e não deu outra: não estava. Procurei por outras colunas feitas em fevereiro e também não encontre nenhuma.
Apesar de ter um pequeno potencial de perda, normalmente a audiência do Bing e demais buscadores não chega a 1% do total do orgânico, essa regra é uma decisão importante e exclui totalmente o acesso de vários buscadores a parte do site.
Para fechar o texto, deixo como alerta que a má configuração é um problema comum em sites de todos os tamanhos, por isso tome bastante cuidado quando for mexer nesse arquivo e sempre teste se o Google não foi bloqueado por engano.
Você sabia que decisões tão importantes como essa podem ser tomadas em um simples arquivo .txt?
O mundo do SEO é realmente feito nos detalhes.