Google sur le contenu en double: plus de 20 signaux décident quelle page est sélectionnée

Google peut détecter le contenu en double de manière assez fiable. Pour cela, l’information numérique autrement dit les textes, sont sont comparés les uns aux autres dans leur forme originale, mais aux hachages. Pour décider laquelle de plusieurs pages similaires apparaît dans les résultats de recherche, Google applique plus de 20 signaux. Cela inclut également le PageRank.

La détection de contenu dupliqué est particulièrement importante pour les moteurs de recherche comme Google. Cela peut empêcher le même contenu d’apparaître plusieurs fois dans les résultats de la recherche, ce qui améliore la qualité des résultats.

Cependant, si vous considérez l’index déjà énorme que Google exploite, et si vous considérez la grande quantité de nouveau contenu qui est ajouté chaque jour, vous pouvez imaginer que la détection de contenu dupliqué présente de grands défis à Google.

Gary Illyes de Google a maintenant révélé comment cette détection se déroule dans une nouvelle édition du podcast SEO « Search Off the Record ». Pour ce faire, le contenu est réduit à une valeur de hachage ou à une somme de contrôle, ce qui est beaucoup plus simple que, par exemple, de comparer 3000 mots:

« Nous essayons de détecter les dupes. Et la façon dont nous le faisons est peut-être la manière dont la plupart des utilisateurs d’autres moteurs de recherche le font, c’est-à-dire, en gros, réduire le contenu en un hachage ou une somme de contrôle et puis comparer les sommes de contrôle. Et c’est parce que c’est beaucoup plus facile de faire cela que de comparer peut-être 3 000 mots.  »

La numérisation du texte entier nécessiterait plus de ressources, mais le résultat est le même:

«Et, nous réduisons donc le contenu en une somme de contrôle. Et nous le faisons parce que nous ne voulons pas numériser tout le texte, parce que cela n’a pas de sens, essentiellement. Cela prend plus de ressources. Nous calculons donc plusieurs types de sommes de contrôle sur le contenu textuel de la page, puis nous comparons les sommes de contrôle.  »

La méthode convient également pour détecter un contenu quasi dupliqué. Google dispose de divers algorithmes, par exemple pour reconnaître et supprimer le contenu standard des pages (le contenu Boiplerplate est un contenu qui se produit sur plusieurs pages, comme les textes de pied de page). De cette façon, Google peut se concentrer sur le contenu essentiel:

Le contenu qui a été identifié comme du contenu dupliqué est ensuite combiné par Google dans un soi-disant cluster dupe:

« Lorsque nous avons calculé les sommes de contrôle et comparé les sommes de contrôle les unes aux autres, alors celles qui sont assez similaires, ou du moins un peu similaires, nous les rassemblerons dans un cluster de dupe. »

Si un document change, sa somme de contrôle est recalculée. Le document correspondant est ensuite déplacé vers un nouveau cluster de dupe approprié qui correspond à la nouvelle somme de contrôle:

« lorsque nous avons calculé les sommes de contrôle et comparé les sommes de contrôle les unes aux autres, alors celles qui sont assez similaires, ou du moins un peu similaires, nous les rassemblerons dans un cluster de dupe. »

Un document est ensuite sélectionné dans un cluster de dupe et apparaît dans les résultats de la recherche. Cela se produit parce que les utilisateurs ne souhaitent pas voir le même contenu à plusieurs reprises dans différents résultats de recherche et parce que l’espace disponible dans l’index est limité:

Pour sélectionner le résultat qui apparaîtra finalement dans les résultats de la recherche, plus de 20 signaux seraient utilisés. Cela inclut le contenu lui-même, le PageRank, si une page s’exécute sous HTTPS, quelle page est contenue dans un plan de site ou s’il existe des redirections.

« Mais le calcul de la page canonique, de la page sur laquelle diriger le cluster n’est pas si simple, car il existe des scénarios dans lesquels même pour les humains, il serait assez difficile de dire quelle page devrait être celle qui figure dans les résultats de recherche. Nous utilisons donc, je pense, plus de 20 signaux. Nous utilisons plus de 20 signaux pour décider quelle page choisir comme canonique dans un cluster de dupes. Et la plupart d’entre vous peuvent probablement deviner ce que seraient ces signaux. Comme l’un d’eux, évidemment, le contenu. »

Les liens canoniques font également partie de ces signaux:

« Donc, la balise link rel = canonical est à nouveau un signal assez fort parce que des gens ou quelqu’un ont spécifié que cette autre page devrait être la canonique. »

Les différents signaux auraient des poids différents. L’apprentissage automatique est également utilisé pour déterminer les poids. Par exemple, une redirection est un signal plus fort que l’utilisation de HTTPS:

«Et puis, une fois que nous avons comparé tous ces signaux pour toutes les paires de pages, nous nous retrouvons avec un véritable canonique. Et puis, chacun de ces signaux que nous utilisons a son propre poids. Et nous utilisons l’apprentissage automatique pour calculer le poids pour ces signaux. Mais par exemple, pour vous donner une idée, comme la redirection 301 ou tout autre type de redirection, en fait, le poids devrait être beaucoup plus élevé en ce qui concerne la canonisation que si la page est sur une URL HTTP ou HTTPS.  »

Comme on peut le déduire des explications, la reconnaissance et le traitement du contenu dupliqué est un processus très complexe. Les différents signaux que Google utilise rappellent les critères qui sont également utilisés pour calculer les classements.

Il est bon de connaître ces signaux: en tant qu’opérateur de site Web, ils peuvent au moins indirectement influencer la sélection des pages pour les résultats de recherche.