Le risque numérique oublié !

8 août 2011 | ACTUALITÉS, Entreprises et cultures numériques

Lorsque l’on évoque « le risque numérique », ce qui vient naturellement à l’esprit c’est le cybercrime, le hacking, le vol ou la perte de données affectant le capital immatériel de l’entreprise, les menaces contre l’e-réputation de la marque… Mais il existe un autre risque, non moins critique, et surtout beaucoup plus insidieux, car il n’a vraiment rien d’une star !… Les médias l’ignorent, et lorsqu’il s’invite dans les diners en ville, ce n’est qu’à la table de quelques professionnels ciblés : les experts SEO (Search Engine Optimization). Dit autrement, les experts en référencement ou « search marketing » !

Ce risque oublié s’appelle « duplicate content » !

Le « duplicate content », à traduire par « contenu dupliqué », est un contenu que l’on va pouvoir retrouver plusieurs fois sur le web, autrement dit accessible depuis des URL différentes.

Lorsqu’on l’évoque, on entend parfois : en quoi est-ce grave ? mis à part si l’auteur de ce contenu n’est pas informé de cette copie, ce qui relève alors d’un problème de propriété intellectuelle, donc du ressort éventuel de la justice et non, en tant que tel, d’un risque numérique ? En quoi est-ce grave a fortiori si l’auteur a donné son consentement pour une publication multiple de sa prose, par exemple pour mieux évangéliser ses idées ?

Le duplicate content est un vrai risque numérique

Si le duplicate content est un vrai risque numérique, c’est parce que les moteurs de recherche n’aiment pas du tout les contenus dupliqués ! Au point d’y faire une chasse active… Pourquoi ? « Un moteur de recherche comme Google indexe des milliards de documents. D’une part, cela coûte cher et, par ailleurs, Google n’a aucun intérêt à afficher 10 fois le même contenu dans ses réponses aux requêtes des internautes, sous prétexte qu’il provient de 10 sites différents » (Axe-Net).

Pour cette raison, le duplicate content fait l’objet de filtres* spécifiques dans les algorithmes des moteurs de recherche : « Google a notamment un filtre de détection de contenu dupliqué qui, dans certains cas, peut faire chuter de 95% le trafic généré vers un site » (Webrankinfo).

Les enjeux liés au duplicate content

Pour toute entreprise, être et rester visible sur le Web devient un véritable enjeu stratégique. Par exemple, l’engagement sur les réseaux sociaux, la course aux plébiscites de tous ordres par « boutons » interposés (like, tweet, followers, Google+1…) n’a guère d’autre objectif !

Or, à quoi tient la visibilité sur le web ? Ou plus exactement : à qui ? Si l’on observe les statistiques de visite des pages web en général, entre 20% et parfois jusqu’à 90%, selon les sites et leur positionnement, émanent des moteurs de recherche (autant dire à Google qui se taille la part du lion !).

Etre « blacklisté » par Google pour cause de duplicate content et risquer de perdre (pour certains) jusqu’à 95% de sa visibilité sur le web, n’est-ce pas un risque numérique à part entière si être visible sur le web est un enjeu stratégique ?

Les entreprises développent des stratégies numériques pour accroitre le rayonnement numérique de leur marque, recrutent des curateurs et autres community managers, planchent méthodiquement sur le positionnement de leurs espaces web, en optimisent la structure, le design, la dynamique, le rédactionnel… et plouf ! Moins 95% de trafic ! On n’a pas pris garde au duplicate content.

Cela peut être de son fait : ignorant ce risque, on a propagé un peu partout les mêmes contenus, que ce soit intégralement ou même partiellement ; ou alors dû à des reprises intempestives non surveillées et dont on n’aura pas rapidement demandé le retrait. La punition sera la même.

Comment faire pour prévenir le risque de duplicate content ?

Le premier ressort, c’est naturellement de prendre la mesure de ce risque numérique, qui ne peut que croître avec l’importance du web. Plus il y a de contenus, plus le besoin de « produire » devient stratégique. Plus on va travailler ses contenus et plus le risque de se voir « reproduire » va augmenter.

Ensuite, concernant sa propre stratégie de publication, il faut définitivement proscrire le « copier-coller » ! Depuis longtemps déjà les annuaires imposent des « contenus uniques » pour la description des sites qu’on leur soumet. Ce n’est pas pour rien… Si l’on veut diffuser ses propos, ses idées, sur des médias différents, l’effort rédactionnel s’impose.

En ce qui concerne la reprise intempestive due à des « emprunteurs » peu scrupuleux ou en mal de créativité, la veille que l’on mène pour son e-réputation doit s’étendre à la recherche de plagiats éventuels. En cherchant le bon côté des choses, on peut se sentir flatté de voir reprendre sa prose, mais à certaines conditions :

  • La reprise doit impérativement se limiter à de courts extraits, comme le signifie la Loi française qui précise, Art. L.122-5 alinéa 3, que lorsque « l’œuvre a été divulguée », « des analyses et courtes citations » pourront être faites « sous réserve que soient indiqués clairement le nom de l’auteur et la source ».
  • L’éthique web veut que, si l’on présente un extrait de contenu, un « lire la suite » pointe directement vers la source originale. Au-delà de la dimension éthique, en procédant ainsi, vis-à-vis des moteurs de recherche le message est clair : « ceci n’est pas un contenu dupliqué, j’indique la source originale ».

Il ne faut pas perdre de vue que ce « droit de citation » n’est qu’une tolérance qui n’autorise rien d’autre que la reprise d’extraits. Même en citant la source, la copie intégrale reste illégale et de toute façon une « menace numérique » sur le web, celle de se faire balcklister par Google.

Les impacts du duplicate content

Il semble que les punitions infligées par Google dans les cas de duplicate content soient variables. Ce qui est sûr, c’est qu’il n’envoie pas de mail pour prévenir le contrevenant présumé de la sanction donnée… Voilà qui rend le risque encore plus insidieux ! On peut ne s’en apercevoir qu’en consultant ses statistiques ou par une baisse conséquente de ses ventes en ligne dans le cas de site e-commerce.

D’autant plus insidieux, que la sanction peut frapper l’auteur même du contenu original ! En effet, si les « filtres chasseurs de contenus dupliqués » peuvent repérer des contenus identiques, ils ne retiennent pas toujours la date et l’heure de publication. Un autre critère peut desservir le site auteur du contenu original : l’auteur est un jeune site et le copieur un site ayant autorité sur le web (il ne faut pas croire, ceux-ci aussi sont en quêtes de « contenus frais » dans l’actuelle course effrénée aux publications pour fidéliser son auditoire) ! Dès lors, le jeune site risque d’être plus facilement pénalisé que le média réputé.

Concrètement, on peut découvrir que son site, par exemple jusque-là présent dans les dix premiers résultats de recherche, a disparu des réponses données pas Google. Sans doute parce qu’il est maintenant relégué dans les profondeurs abyssales de ses réponses… Or, chacun sait qu’il est rare que l’internaute s’aventure au-delà des 5, voire 10 premières pages de réponses pour les plus courageux !

Il va sans dire qu’en cas de copie avérée d’un de ses contenus, il faut demander au plagiaire de retirer ce qu’il a « emprunté » ! S’il n’obtempère pas, il n’est pas exclu d’engager des poursuites à son encontre.

Peut-on retrouver les bonnes grâces de Google ?

Si l’on est pénalisé par des reprises partielles ou totales de ses contenus, le plus efficace est certainement de réécrire, voire supprimer le contenu pénalisé. Même si cela ne semble pas « juste », cela restera toujours moins pénalisant que la sanction immédiate et durable de Google.

Lorsque le contenu visé est redevenu unique aux yeux de Google, le prochain passage de ses robots devrait permettre sa nouvelle indexation. Du moins si Google, devenu suspicieux, n’a pas repéré d’autres raisons de ne pas lever la punition !

Réduire le risque de duplicate content

Pour réduire ce risque ou du moins l’impact en cas de duplicate content, il peut être sage de travailler à diversifier ses sources de trafic. Les accès directs dus aux flux RSS et aux abonnements Newsletter (à ce propos, profitez-en pour vous inscrire en haut à droite de cette page pour rester informés de ce qui est régulièrement publié sur ce site… merci !) sont à encourager. Qualité et dynamisme permettent également de multiplier les liens externes. S’ils apportent souvent moins de trafic que Google, ils aident à être reconnu comme « site de confiance » et faire, un jour qui sait, la différence en cas de doute !

_____________________________

* Ce que l’on appelle « filtre » est un ensemble d’interactions, confidentielles ou explicites, agissant sur l’algorithme du moteur de recherche.

Nomenclature des profils métiers du SI – version 2024

Le Cigref maintient, depuis 1991, une Nomenclature des profils métiers existants dans les Directions du Numérique des entreprises membres du Cigref. Cet outil ne présente pas ce que « doivent » être ou ce que « seront » les métiers des SI mais ce qu’ils sont...

Première édition des cahiers des Rencontres Numériques de Strasbourg – Édition 2024

Lors de la première édition des Rencontres Numériques de Strasbourg, nous avons réussi le pari de rassembler dans l’enceinte du Parlement européen, en plein mois de mars, près de 150 dirigeants du secteur numérique français pour un événement inédit de deux jours et...

Cahier des charges technique à intégrer dans l’appel d’offre cloud de confiance

Un certain nombre de membres du Cigref envisagent de lancer un appel d'offres pour des solutions de cloud de confiance. C'est pourquoi les membres du groupe de travail « cloud de confiance » ont décidé d'œuvrer collectivement à la rédaction de la partie technique d'un...

Cigref memo – AI in business: feedback and best practices

In July 2023, Cigref published its first information and news note titled « Recommendations on generative AI ». Six months later, the particularly rapid development of solutions integrating this type of technology, the experiments and...