Um bloco de aranha eficaz para WordPress

Se não fosse por spiders, não poderíamos pesquisar no Google para localizar o conteúdo da Web. As aranhas são robôs que vasculham a Web e indexam tudo o que encontram, de modo que, quando você deseja pesquisar artigos no WordPress, ele sabe onde esses artigos estão e pode direcioná-los para eles. Você não tem que deixar um indexador de aranha WordPress, no entanto, e há uma maneira fácil de criar um bloco de aranha eficaz para o WordPress que bloqueia as aranhas de empresas conceituadas. Um bloco de aranha ainda mais eficaz inclui alguma configuração e um processo para identificar e bloquear aranhas ruins que ignoram suas instruções e indexam conteúdo da Web que você designou como fora dos limites para aranhas.

Robots.txt

Quando uma aranha visita seu site WordPress, a primeira coisa que deve fazer é ler o arquivo "robots.txt". Este arquivo contém regras que especificam os arquivos e diretórios que podem ou não ser indexados por todas as aranhas ou aranhas nomeadas individualmente. Uma aranha encontra seu código "user-agent" exclusivo no arquivo ou um caractere curinga que indica "todas as aranhas". Em seguida, ele lê a lista de arquivos e diretórios permitidos ou não permitidos. Em seguida, começa a indexar apenas as partes do site que é permitido indexar.

Bloqueando Aranhas

Você pode criar um bloco spider eficaz para o WordPress criando um arquivo "robots.txt" no diretório raiz do WordPress e especificando uma regra que proíba a indexação do diretório raiz do site. Isso desativa automaticamente a indexação de qualquer subdiretório da raiz. No arquivo, você também deve especificar que essa regra se aplica a todos os códigos do agente do usuário do spider. Toda aranha que visita seu site deve ler o arquivo e sair sem indexar qualquer parte do site. Por exemplo, o arquivo "robots.txt" deve se parecer com:

User-agent: * Não permitir: /

Boas e más aranhas

Existem boas aranhas e há aranhas ruins. Boas aranhas são de empresas conceituadas, como Google, Yahoo ou Microsoft, e obedecem às regras do arquivo "robots.txt". As aranhas ruins são de indivíduos ou empresas que ignoram intencionalmente o arquivo "robots.txt" e potencialmente indexam todo o conteúdo do seu site, independentemente do que você permitir ou não permitir. Às vezes, esses robôs procuram informações específicas, como endereços de e-mail, para vender a remetentes de spam ou informações pessoais sobre usuários, para vender a outras empresas. As aranhas vasculham todo o seu site, procurando por informações ou conteúdo que você não tenha ocultado ou protegido adequadamente. Webmasters diferentes têm maneiras diferentes de lidar com aranhas desonestos. Alguns simplesmente tentam identificar quem são e impedem que indexem conteúdo no site. Outros tentam infligir dano envenenando o banco de dados da aranha com informações falsas ou enganando a aranha em um loop infinito que faz com que ele pare ou aborte.

Pote de mel

Um honeypot ou tarpit é uma técnica usada por alguns webmasters para identificar aranhas nocivas para que possam ser bloqueadas. Você pode criar um honeypot simplesmente adicionando um diretório que contenha conteúdo falso, como endereços de e-mail e, especificamente, desabilitando esse diretório no arquivo "robots.txt". Os logs do servidor informam quais spiders acessaram o diretório e você pode gravar sua string do agente do usuário e o endereço IP. Com essa informação, você pode criar regras no arquivo "htaccess" do WordPress que nega acesso a esses invasores. O honeypot precisa ser verificado regularmente para detectar novos robôs desonestos que acessam seu site.

Publicações Populares