Como: Verificar seu site para links de spam usando o Screaming Frog


eu tenho isto amiga. Alguns neandertais hackearam o site e espalharam links de spam por todo o blog, no estilo de 2008.

Então, é isso amiga teve dois problemas:

  1. Encontre todos os links de spam
  2. Detectar novos links de spam conforme eles ocorrem

Eu Meu amigo veio com um processo relativamente simples usando ScreamingFrog. Aqui está:

Sim, sim, fomos nós. Eu não vou detalhar como. É embaraçoso e eu não quero ser espancado no playground de nerds.

Este processo usa o Screaming Frog. Você pode usar outro rastreador, mas o Screaming Frog é um ótimo.

O processo

Veja o que você fará:

  1. Rastrear seu site
  2. Limpe os links ruins
  3. Faça um "rastreamento limpo"
  4. Alguns dias / semanas depois, faça um novo rastreamento e compare-o ao anterior, procurando novos links suspeitos
  5. Repetir 2 e 3

Etapa 1: rastreamento

Primeiro, rastreie seu site:

  1. Abra Screaming Frog (Eu sei, eu sei, é óbvio, mas eu gosto de ser abrangente no meu passo-a-passo).
  2. Clique Configuração >> Aranha
  3. Na guia "Básico", desmarque "Verificar imagens", "Verificar CSS" e "Verificar JavaScript". Desmarque a opção "Verificar SWF" se ainda estiver usando o Flash. Mas você não é, certo? Sua configuração do Spider deve ficar assim:
    Configuração de aranha de sapo grita básica

    Configuração de aranha de sapo grita básica

  4. Certifique-se de que a opção "Seguir nofollow externo" não está marcada.
  5. Opcional: se o seu site tiver dezenas de milhares ou mais páginas e seu computador tiver uma unidade de estado sólido, considere ir para Configuração >> Sistema >> Armazenamento e alternar para o armazenamento de banco de dados.
  6. Comece o seu rastreamento. Se você tem um site grande, tome um café ou algo assim. O fã do seu computador pode começar a gritar em protesto. Está certo. Apenas mantenha um extintor de incêndio à mão.
  7. Configure um filtro de exclusão. Consulte "Configurar um filtro de exclusão" abaixo.
  8. Salve o rastreamento concluído. Seu computador trabalhou duro. É o mínimo que você pode fazer.

Configurar um filtro de exclusão

A maioria dos rastreamentos gera uma longa lista de links externos. Você pode facilitar a vida filtrando links para o Twitter, LinkedIn, etc. Em teoria, os links para esses sites são legítimos. Um bom filtro é um protetor de sanidade. Pode reduzir a lista de links que você precisa rever em 70 a 80%. Screaming Frog tem uma ferramenta de exclusão útil para esse propósito.

  1. Em Screaming Frog, clique em Configuração >> Excluir
  2. Digite os URLs que você deseja excluir

O filtro do Screaming Frog usa expressões regulares. Veja o que nosso gênio da regex, Matthew Henry, criou:

https?: // (?:[^/.]+ .) * domainname .com /.* irá filtrar www.domainname.com e domainname.com.

Por exemplo, https?: // (?:[^/.]+ .) * twitter .com /.* filtra https://www.twitter.com/whatever e https://twitter.com/whatever

Veja como o filtro de exclusão parece depois que você inseriu alguns domínios:

Filtro de exclusão de rã gritando
Filtro de exclusão de rã gritando

Filtro de exclusão de rã gritando

Você pode usar a guia "Teste" para ver se o filtro funciona.

Você pode ver nossa lista de filtros aqui. Se você quiser, baixe-o, copie-o e cole-o no campo Excluir. Note que esta lista é perfeita para nos, mas você precisará personalizar o seu ao longo do tempo. Ou conviva com um filtro de exclusão menos relevante, baseado no nosso perfil de link de saída.

Salve seu filtro de exclusão !!! Você executará rastreamentos regulares. Salve o filtro. Não perca isso.

O que você tem

Com o rastreamento completo, você tem uma lista completa de links externos, menos os domínios filtrados. Clique na guia "Links externos" e você verá algo assim:

A guia Links Externos
external-links-tab

A guia Links Externos

Hora de trabalhar.

Você terá que ver todos esses links.

Caso você esteja se perguntando, sim, isso é tediosamente tedioso. Nós tentamos todos os tipos de automação. Nada disso foi preciso, e precisamos da precisão máxima de 100%. Nós seguimos em frente. Você também.

Não desista. Após essa primeira limpeza, você pode automatizar a detecção.

  1. Na guia Links Externos, limpe um pouco as coisas. Olhe para a direita dos rótulos da coluna. Clique no sinal "+".
  2. Eu sempre desmarque “Conteúdo”, “Status” e “Profundidade de Rastreamento”. Isso facilita a navegação pelos links e mantém suas exportações mais limpas.
    Alterando Colunas
    alterar colunas

    Alterando Colunas

  3. Comece a percorrer a lista de links.
  4. Ao rolar, olhe para o painel de informações na parte inferior esquerda de Screaming Frog.

O painel de informações mostra o tipo de link, a página de origem e o destino. Também mostra (e isso é importante) a âncora e o texto ALT. Olhe para eles, e o spam salta em você. Veja este exemplo:

Revendo um link
rever-um link

Revendo um link

Esse é um link da versão em HTML do Marketing de conversas. Aponta para o Cooper.com. O texto âncora é “Cooper.com”. Fiquei desconfiado, mas uma olhada na página “de” mostrou que era legítimo. Nós filtramos todos os links, procurando por:

  • Texto de âncora morônica
  • Links para conteúdo irrelevante. Geralmente, você pode descobrir isso consultando os URLs de origem e de destino
  • Links para agências de SEO que não reconhecemos

A propósito, se você é uma agência de SEO, não hackea links de sites de outras empresas de marketing. É como acertar um carro da polícia cheio de estagiários zangados e com maças, todos ansiosos para provar a si mesmos. Existem apenas alguns finais. Nada é bom para você. A única razão pela qual não estou listando todos vocês nesta postagem e assinando seu endereço de webmaster em todos os sites pornográficos na Internet é a chance muito pequena de alguém ter colocado esses links.

Quando você encontrar um link de spam, observe a página "De". Essa é a página de vinculação do seu site. Você vai até lá para excluir o link. Agora, remova todos esses links! É muito satisfatório.

Exemplos

Aqui estão três dos links que captamos e por quê:

  • Um link para outra agência de SEO apontada em www.agencyname.com/seo-[city] página com o texto âncora “SEO-[cityname]”De um post de 2014 sobre análise de SEO. Não fazia sentido. Essa foi fácil.
  • Um link para uma empresa de cartões (? !!!) de uma postagem de blog sobre estratégia de marketing digital para a página “deixar cartões” em seu site com o texto âncora “cartões de saída”. Okaaaayyyy.
  • Um link para uma agência de SEO com o texto âncora “[city in Australia] SEO ". Tenho certeza [city] é lindo, mas usaríamos melhor texto âncora do que se de repente decidíssemos começar a analisar as agências de SEO australianas.

Por que não usar dados de link?

Você pode usar as métricas de link fornecidas por ferramentas como Moz, ahrefs e Majestic para classificar o spamminess de um link. Isso pode poupar muito tempo e nós tentamos. Descobrimos que muitas das páginas de destino pareciam legítimas. Por exemplo, um dos links encontrados apontava para um site com uma pontuação de spam de 1%.

Se um link de spam apontar para uma página perfeitamente normal, as métricas de link não o sinalizarão.

Etapa 2a (opcional): atualize sua lista de exclusões

Se você encontrar muitos links externos para um único domínio legítimo, adicione esse domínio à sua lista de exclusões. Tornará os rastreamentos e análises futuros mais fáceis e manterá os arquivos de rastreamento sob controle.

Após nossa primeira análise, copiámos todos os domínios que sabíamos que eram aceitáveis, utilizamos algumas pesquisas e substituições e adicionamos esses domínios à nossa lista de exclusão. Ele cortou a próxima exportação de rastreamento pela metade.

O que você tem

Você agora tem um site limpo. Você pode fazer um rastreamento limpo.

Etapa 3: execute e salve outro rastreamento

Agora, execute outro rastreamento usando o mesmo filtro de exclusão. Você salvou o filtro, certo?

Depois que o rastreamento terminar:

  1. Limpe as coisas um pouco. Olhe para a direita dos rótulos da coluna. Clique no sinal "+".
  2. Desmarque tudo, exceto "Endereço".
  3. Clique no botão "Exportar". Está ao lado do menu suspenso Filtro. Salve o resultado.

Eu converto o resultado de um csv para um arquivo de texto. É uma lista de uma coluna. Por que ficar complicado?

Você comparará seu próximo rastreamento com este e nunca mais terá que revisar manualmente milhares de links novamente.

Etapa 4: executar um novo rastreamento e comparar

Executar um novo rastreamento e salvá-lo, assim como você fez na etapa 3. Eu mantenho meus rastreamentos antigos e organizar arquivos por data. Compulsivo. Eu sei.

Agora a parte divertida! Você vai comparar o rastreamento mais recente ao novo, procurando novos links. Não se preocupe – você não precisa fazer isso manualmente. Embora os computadores não consigam encontrar links de spam, eles são excelentes em encontrar diferenças entre os arquivos.

Toneladas de ferramentas permitem comparar arquivos. Se você quer algo simples, eu gosto do Mergely.

Veja como é a comparação dos últimos e mais recentes rastreamentos em:

Comparação de arquivos unidos
mesclado

Comparação de arquivos unidos

A linha destacada é um novo link. Fácil!

Simplesmente pode atolar com arquivos gigantescos, no entanto.

Então eu uso a linha de comando. No Linux, este comando funciona como um encanto:

‘Comm –13 [oldfile] [newfile]'

Esse comando compara oldfile para novo arquivo, mostrando coisas novas em novo arquivo. Tente comparar arquivos (FC) no Windows. Seus resultados podem variar.

Veja como é a comparação dos últimos e mais recentes rastreamentos no comm:

Comparação de arquivos de comunicação
comm

Comparação de arquivos de comunicação

É fussier do que o Mergely, então você pode obter alguns falsos positivos.

Revise novos links. Se eles são spam, você sabe o que fazer.

Este é um excelente momento para atualizar seu filtro de exclusão também. Veja o Passo 2a, acima.

Passo 5: Repetir

Salve o último rastreamento como sua nova linha de base. Quando você executa o próximo rastreamento, você o compara ao último. E assim por diante. Repita as etapas 3 a 5 conforme desejado.

Eu corro rasteja a cada duas ou três semanas. Se você tem um site de crescimento mais rápido, execute rastreamentos com mais frequência. Isso facilitará a etapa 5 reduzindo as possíveis diferenças e fornecendo listas mais curtas de novos links.

Alternativas de escala empresarial

Nosso site tem cerca de 5700 páginas. Com o filtro de exclusão, nosso rastreamento gerou uma lista de 2300 links. Revisar manualmente essas coisas não é tão ruim assim. Dividi em pedaços de 100, passei-os pelo escritório e terminamos razoavelmente rápido. Se o seu site é de milhões de páginas, você pode precisar usar um rastreador como o Deepcrawl ou OnCrawl.

Você pode precisar olhar para o aprendizado de máquina como uma ferramenta de detecção de links de spam (lá eu disse “aprendizado de máquina”, então este é agora um artigo de marketing legítimo). No entanto, o aprendizado de máquina fica pegajoso quando você está farejando links de spam que apontam para páginas que não são spam.

Vale a pena?

Vale todo esse trabalho?

O Google não penaliza você por links de lixo que apontam para outros sites. Provavelmente. Os sites vinculados não se beneficiam desses links. Muito de.

Tudo se resume a mesquinhez. Eu sou uma pessoa mesquinha. Eu tenho um intenso ódio pelo sleaze. Todos os spammers que encontramos "adquiriram" links de outros sites. Entramos em contato com todos os proprietários do site. Em seguida, informamos todos os sites vinculados ao Google.

Não faço ideia se isso terá algum impacto. Mas tenho certeza que me sinto melhor.

O post Como: Verifique seu site para links de spam Usando Screaming Frog apareceu em primeiro lugar em Portent.

Artigos que podem interessar:

Charles Ong Sessão de perguntas e Respostas de junho de 2015

Soda é tão 2017. Aqui está como economizar em nossa nova bebida favorita, AKA Water

Ganhe dinheiro vendendo fotos on-line

16 especialistas em marketing compartilham as métricas que enfatizam em 2018

 Estratégia de Marketing na Internet – 5 abordagens básicas

Fácil serialização de XML no c# – código-bude.net

A abordagem correta para os clientes … – Noções básicas de trabalho independente bem-sucedido

Porque a Dieta Detox tem feito tanto sucesso?