Google met à jour son algorithme contre le webspam

Cela faisait plusieurs mois que Google jouait avec les nerfs des webmasters et autres prestataires SEO…en fait depuis l’apparition du filtre Panda.

Et depuis quelques semaines, le rythme des modifications apportées à l’affichage des pages de résultats ne fait que s’accélérer. Le point culminant de ce « printemps noir » pour les référenceurs est arrivé cette nuit à 00:00, avec la mise en application en France de la mise à jour de l’algorithme au travers de critères principalement orientés anti-spam.

Google met à jour son algorithme contre le webspam

Référencement : bonnes pratiques contre Black Hat

Le blog dédié de Google sur le sujet, lire http://insidesearch.blogspot.fr/2012/04/another-step-to-reward-high-quality.html, parle clairement de politique d’amélioration des résultats de recherche qualitatifs dans les pages. Matt Cutts mentionne les différentes façons de promouvoir un site internet, ou plutôt, il fustige les méthodes assimilées au Black Hat qui consistent à créer des liens artificiels en masse vers des sites pauvres en contenu. Car selon l’article qui vise à récompenser les sites de grande qualité, c’est d’abord le contenu qui prime, et Google préfère que les webmasters usent leur énergie et leur créativité à publier de beaux sites bien faits et utiles aux internautes plutôt que d’utiliser des outils dont la finalité est de duper le moteur de recherche par la création d’un très grand nombre de liens postés automatiquement, conférant ainsi au site ciblé une popularité mal acquise.


Il en ressort que de nombreux sites permettant cette acquisition de liens (backlinks) sont sous le joug de Google depuis quelques temps, et parmi eux les sites de communiqués de presse. Si le principe du communiqué de presse n’a en teneur rien à se reprocher, c’est l’utilisation qui en est faite sur internet qui se révèle problématique :

Sites de communiqués de presse en ligne : le fourre-tout du référenceur

Facilement et rapidement installé, par exemple en automatisant le déploiement sur un serveur dédié de blogs WordPress optimisés SEO grâce à quelques plugins, le site de CP de base n’a pas pour vocation de fournir un contenu ciblé vers l’internaute. Il s’agit plutôt de publier des liens vers les sites à promouvoir au sein d’articles, le tout en comptant sur le meilleur ratio quantité/temps.

En effet, pour « rentabiliser » l’investissement déjà minime, les éditeurs de tels sites invitent leurs congénères à poster leurs propres articles sur leurs plateformes afin de maximiser l’effet de fraîcheur de contenus, montrant ainsi à Google que le site est très « vivant » puisqu’il engrange chaque jours de nombreux communiqués.

Il s’est ainsi constitué un réseau impressionnant de sites CP, qui ne cessait de croître… tant que cela fonctionnait ! Devant l’ampleur du mouvement, Google ne pouvait pas rester de marbre et laisser ainsi son algorithme trompé par un de ses critères le plus ancien : le nombre de backlinks pointant vers un site.

D’autant plus que les communiqués, bien intégrés dans des réseaux de sites destinés à pousser (du bas des pages de classement vers le haut de la première page Google) un certain nombre d’outils de publication, qui font office de fusibles : en cas de détection et de sanction par le moteur, ces intermédiaires se retrouvaient blacklistés et sortaient de l’index, sans toutefois faire tomber avec eux le site à référencer, qui dans le pire des cas perdait quelques places dans les serps.

La fin des Linkwheel

Or depuis ce mercredi 25 avril 2012 (même si des changements ont pu être enregistrés auparavant), la fonction de fusible ne fonctionne plus : en plus des sites à faible valeur ajoutée repérés et sanctionnés par Google, les sites liés à leurs pages se trouvent eux aussi touchés par le déclassement.

Du coup, les réseaux de sites / linkwheel / mininets n’ont plus raison d’être ! L’analogie avec la biologie permettra peut-être de mieux comprendre :

Imaginez les sites intermédiaires (qu’ils soient CP, annuaires, digg-like, blogs ou autres) comme étant porteurs de microbes. Avant Google Panda update 3.4, Google éradiquait ces sites une fois repérés (ce qui n’était ni immédiat, ni automatique : de nombreuses interventions manuelles humaines ont été, et sont encore, réalisées, par des équipes de Googlers et de Quality Rater, dont la plupart sont des travailleurs indépendants à domicile), mais sans prendre en compte le maillage de liens : le site « malade » était déclassé, et Google passait au site suivant présentant les symptômes de la même maladie (ces symptômes pouvant être : publication régulière de contenus parfois dupliqués comportant uniquement des liens sortants fabriqués avec des ancres optimisées – nous y reviendrons).

Dorénavant, Google pénalise également les sites qui sont liés à l’intermédiaire CP. Mais comme toujours dès lors qu’il y a un grand nombre de critères, la pondération est de mise. C’est à dire que la maladie qui est transmise affecte le mode de transmission, à savoir le lien, ou plutôt l’intitulé du lien qu’on appelle « ancre ».

De fait, il apparaît que dans mes tests, les ancres de liens (optimisées pour le positionnement des sites sur des termes pouvant être utilisés dans les requêtes des internautes sur le moteur) publiés sur des sites de communiqués ne transmettent (au mieux) aucun jus, c’est à dire que je ne retrouve plus le site référencé en tapant cette requête. C’est clairement nouveau dans le fonctionnement du moteur, surtout lorsque les termes de recherche en question sont plus ou moins uniques sur le web (3 à 4 termes).

Google contre le spam : plus qu’une mise à jour, une mission !

Ce qui est présenté comme une mise à jour de l’algorithme n’est pas une tâche automatisable. Il s’agit plutôt d’actions manuelles de la part de Googlers ou de Quality Raters, car le prise en compte des signaux de détection de sites spammy, et surtout l’application de sanctions pouvant être très préjudiciables à certains propriétaires de sites, ne doit pas être fait automatiquement.

Cela reviendrait à corriger ensuite à la main un nombre inimaginable de sites en attente de statut (spammy ou non). Google veut sans doute faire croire que tout est automatisé mais le fondement même de son algorithme (le lien, et surtout le nombre de backlinks pointant vers une adresse, lui conférant ainsi une popularité voire une autorité truquées dans le cas des sites spammy) ne peut être modifié sans complètement bouleverser le fonctionnement du moteur. Et ce, malgré l’annonce récente de Matt Cutts à propos du bug des sites malencontreusement assimilés à du squatting de noms de domaine (cybersquatting).

Un filtrage continu sur les signaux sensibles ?

Reste à penser que Google va s’attacher à démanteler les mininets en appliquant ce déclassement / cette non-indexation des pages liées par des ancres sur-optimisées. C’est en effet une façon assez simple et rapide (selon la complexité de la linkwheel) de procéder à la purge de bien des sites spammy : si les pages ne répondent plus (n’apparaissent plus) dans les serps pour les requêtes qui intéressaient les webmasters, le positionnement sur ces termes n’est plus possible (ou grandement altéré), ce qui revient à perdre tout le bénéfice de l’entreprise (c’est à dire que la linkwheel ne transmet plus de jus qualifié et ne pousse plus vraiment les moneysites).

Pour l’instant ce sont les sites CP qui sont dans le collimateur des modérateurs, sûrement du fait de leur grand nombre de signaux très caractéristiques lors-qu’utilisés à des fins spammy basiques, qu’on pourrait résumer ainsi :

  • Moteur de template type Blog ou CMS, le plus utilisé étant WordPress
  • Adresses IP communes ou voisines lors de réseaux montés sur des serveurs dédiés/privés
  • Aspect graphique réduit à néant ou presque (selon les standards du moteur, template WP gratuite, maquette basique…)
  • Typologie de contenus toujours identique : volume de texte contenant un nombre de liens sortants. La norme pour les sites CP était de rédiger un texte de 300 mots minimum dans le but d’y poser 2 à 3 liens
  • Contenu rédactionnel généralement pauvre. Qu’il s’agisse de spun (textes spinnés) ou non, les textes ne sont pas rédigés pour vraiment intéresser l’internaute
  • Le site n’est clairement pas choyé par son webmaster, il ne bénéficie que de très peu de liens internes, n’a pas fait l’objet de référencement lui-même ou alors avec d’autres sites CP. Tout cela se comprend, puisque le site CP spammy n’a pas pour vocation d’occuper le devant de la scène (on se rendrait alors vite compte de l’imposture et des dénonciations seraient faites). Je rappelle que son but et de passer du linkjuice aux moneysites
  • La structure du site est clairement choyée par son webmaster, elle bénéficie des meilleurs plug-in SEO, tout est optimisé pour faire ressortir les termes utilisés dans les communiqués : tags/étiquettes, catégorisation thématique du communiqué, calcul de densité des mots-clés dans la page, calcul du nombre de caractères, chapô d’article, fil RSS, etc… Il y a donc une sur-optimisation du site, surtout si l’on compare à la médiocrité de son contenu et à sa très faible popularité (fréquentation anecdotique, taux de rebond très élevé, signaux sociaux inexistants…)

Pour savoir comment éviter le filtrage appliqué à la sur-optimisation de sites, regardez ces vidéos : http://www.seomoz.org/blog/6-changes-every-seo-should-make-before-the-over-optimization-penalty-hits-whiteboard-friday ainsi que http://www.seomoz.org/blog/stop-optimizing-and-start-creating-whiteboard-friday

  • Incitation au système de publication participatif par la distribution de comptes auteur et l’incitation aux comptes VIP (les articles n’ont alors pas besoin d’être validés/modérés par l’éditeur du site) : ce schéma fait que les référenceurs ont tendance à s’ouvrir des accès partout mais ne répartissent pas toujours bien leur publication. Résultat : les même liens vers les même moneysites sont ainsi publiés sur des plateformes différentes en un temps très court, facilitant la détection du spam

Cette liste n’est pas exhaustive 😉

On peut lui ajouter un signal supplémentaire, qui n’est pas toujours du fait des éditeurs de sites : le blast. Réalisés avec des logiciels d’automatisation de création de liens, ces blasts pointent tous vers le communiqué qui a été publié par le détenteur du compte auteur. Ils émanent la plupart du temps de sites sans aucun rapport avec le thème de l’article (profil de forum, profil social, referrer…)

Il est souvent à l’initiative de l’auteur du communiqué qui espère ainsi lui envoyer du jus. Mais l’afflux massif de milliers de liens en même temps vers une page nouvelle, sur un site ne faisant pas autorité est maintenant perçu comme signal de spam. C’est ce qui fait dire à de nombreux référenceurs, francophones ou autres, que ce critère risque grandement d’être détourné pour faire chuter les sites concurrents, on parle alors de Negative SEO ou NSeo.

Lire à ce sujet le forum suivant qui détaille la procédure et les effets dévastateurs de blasts : http://trafficplanet.com/topic/2369-case-study-negative-seo-results/#entry33318

D’autres réflexions ici : http://searchenginewatch.com/article/2169138/Negative-SEO-Looking-for-Answers-from-Google

Et l’avenir ?

On peut penser que les principes expliqués ici (détection automatique via Panda + modération manuelle via Quality Raters) vont s’appliquer par la suite à tous les types de sites. A partir du moment où l’autorité d’un site est tombée à zéro, le signal qu’il transmet est insignifiant au mieux, au pire est pénalisant et permet de remonter la source vers d’autres sites de spam.

Ce mercredi 25.04.2012, l’application de cette mise à jour d’algorithme perturbe grandement le classement des sites indexés dans les datacenters. La communauté des référenceurs observe anxieusement les fluctuations heure après heure comme en attestent http://forum.webrankinfo.com/filtre-google-contre-spam-suroptimisation-seo-t153907.html et services de micro-blogging comme Twitter.

Si votre site se trouve pénalisé, vous avez des leviers pour demander un ré-examen après avoir corrigé le tir. Vous pouvez également, comme cela se voit déjà, abandonner purement et simplement les domaines vidés de leur PR/TrustRank/substance.

N’hésitez pas à me faire part de vos commentaires !

Commentaires

  • Bravo et merci pour cet article très complet et très intéressant.Pour la suite, qui vivra verra
  • Article intéressant. Je pense que google se tire une balle dans le pied. Les résultats sont moins pertinents qu’avant. Vivement le moteur de recherche de facebook
  • HelloBel article de fond. Mais là encore, on est toujours à chaud et c’est difficile de préconiser telles ou telles solutions pour bypasser les radars de Google. ma traduction de la lettre de Google : http://www.unpeudeseo.com/2012/04/2…Faut-il attendre 1 semaine comme certains le disent, histoire que GG régularise affine ses filtres ?
  • Si je comprends bien, l’histoire de ne plus prendre en compte les intitulés des liens signifie clairement la fin du Google Bombing ?
  • Je pense qu’il est bien trop tôt pour tirer des conclusions sur la mise à jour de GG, les sites dont les backlinks proviennent d’annuaires essentiellement ne semble pas trop impactés. Wait See comme disent les anglais
  • C’est triste de se faire défoncer par mr le tout puissant alors qu’on fait du ref propre
  • Le risque est de voir une augmentation accrue du spam de blog et forum… Chaque mise à jour de Google entraine un nouveau problème
  • Comment vérifier les classements et s’assurer que les positions ont baissé ou augmenté avec le moteur de recherche Google ? Cette mise à jour de l’algorithme impacte donc aussi bien les sites de spam que ceux qui font des liens vers les vitrines des entreprises sur le web ?

Tags: