La sémantique, une arme de visibilité massive sur Internet…

15 juin 2015 | ACTUALITÉS, Entreprises et cultures numériques

Pour relever le défi de la visibilité sur le web, les mots sont nos amis !

Inutile de rappeler les enjeux, pour toute entreprise ou organisation, d’une bonne visibilité sur le web. Visibilité, c’était le maitre-mot du SMX Paris 2015, salon professionnel du « Search Marketing », destiné aux entreprises et aux professionnels du Search. Servir la visibilité de ses pages web, c’est déjà clairement « plaire à Google », mais aussi faire le bonheur des internautes, leur apporter l’information qu’ils cherchent, exhaustive et digeste. Dit comme ça, cela semble évident… Mais si l’on contextualise un peu, l’exercice est loin d’être simple !

La visibilité web vue sous l’angle du moteur de recherche

Contextualiser, côté moteur de recherche, c’est savoir que chaque jour Google reçoit près de 9 milliards de demandes d’internautes. Des requêtes que le moteur s’efforce de servir en quelques fractions de secondes1, de la façon la plus pertinente possible. Et objectivement, il relève le défi avec succès ! Alors, comment fait-il, quand on sait que les 3 milliards d’internautes que nous sommes dans le monde l’obligent à fouiller quelques 200 millions de sites, ce qui représente (très approximativement car il n’existe pas de chiffres précis) environ un billion (1000 milliards) de pages web ?

Des mots pour les humains… et les robots !

Sylvain Peyronnet, fondateur des ix-labs, et Sylvain Richard, fondateur de l’agence AxeNet, se sont penchés sur ce défi en l’abordant sous l’angle de la sémantique, en nous proposant de savoir trouver « des mots pour les humains ET pour les robots ». Comment les mots, autrement dit les « contenus textuels », peuvent-ils à la fois servir la visibilité des pages web et faire le bonheur des internautes !

En duo, les Sylvain rappellent déjà que le Larrousse définit la « sémantique » comme étant « l’étude du sens des unités linguistiques et de leurs combinaisons ». Reste à savoir en quoi la sémantique va jouer un rôle en termes de visibilité pour le web et servir les attentes de l’internaute.

Lorsque l’on est un professionnel en charge de la visibilité de ses pages web ou de celles de ses clients, la première question à se poser est « pour qui est-ce que j’écris ? ». Oui, certes pour les moteurs de recherche qui vont m’apporter cette visibilité, mais avant tout pour un public. Or, si l’on n’utilise pas ce qui va l’accrocher dès les premières lignes et lui permettre de penser qu’il va trouver ce qui l’intéresse, il cliquera sur le bouton précédent… Comment peut-on alors intéresser son public ? Que veulent mes internautes, ceux que je veux séduire ou convaincre : des clients, des partenaires, des investisseurs, mon public…

Des études montrent que très souvent l’internaute s’adresse aux moteurs sous forme de questions. La difficulté est donc de comprendre son intention pour que mes pages soient choisies par Google pour répondre à ses questions. Pour cela, il y a plusieurs manières de faire.

Deux méthodes pour apprivoiser la sémantique et faire les bons mots pour le web !

Première méthode, celle qu’explique Sylvain Richard, est d’apprendre à connaitre sa cible, ses visiteurs potentiels. C’est une méthode qu’il qualifie d’empirique (par opposition à scientifique). Elle consiste à mener des investigations sémantiques sur le web, entre autres à parcourir les forums sur sa thématique, pour voir quelles sont les questions que les gens se posent et identifier ainsi les mots ou expressions-clés qui reviennent le plus souvent ou qui élargissent le champ sémantique sur lequel il travaille. Il constitue aussi des listes via Adwords pour repérer des mots et des expressions complémentaires à la thématique pour laquelle il souhaite rédiger un ou des contenus. En complément, il va également observer les mots partagés par des pages concurrentes. Ces recherches sémantiques vont lui permettre de créer un plan hiérarchisé pour un contenu ainsi extrêmement documenté. Ce contenu riche sera non seulement de nature à intéresser ses lecteurs, mais aussi incitera Google à privilégier ses pages dans les SERP (search engine results page) en réponse aux requêtes des internautes.

Calculer le poids des mots à forte valeur ajoutée

La seconde méthode pour construire une sémantique de qualité et optimisée en termes de visibilité, c’est celle que présente Sylvain Peyronnet. Elle est plus méthodique, pour ne pas dire scientifique. Il s’intéresse aux données que le moteur de recherche fournit comme informations, telles qu’il les perçoit. Il va donc chercher quant à lui le « bon vocabulaire » susceptible d’intéresser l’internaute, à partir de la pertinence que lui fournit le moteur. Mais la pertinence est une notion sémantique quelque peu différente lorsqu’elle est appréciée par un humain, capable de faire des analogies, ou par un robot.

Le robot analyse les mots par des algorithmes. Cette analyse syntaxique va lui permettre d’identifier le « besoin informationnel » de la requête que lui adresse l’internaute.

Il y a quelques années, pour calculer le poids des mots à forte valeur ajoutée en termes de référencement, on regardait leur fréquence d’apparition dans un texte. Aujourd’hui, une fonction très proche de celle que le moteur utilise est la « TF-IDF ». C’est une mesure de la force des mots dans un texte. TF étant le rapport de fréquence des mots dans le texte. Et, pour éviter la manipulation, facile sur cette seule fréquence, on rajoute le facteur IDF. Ce facteur est une donnée liée au corpus documentaire du moteur dans son intégralité. Il ne lui reste plus qu’à « scorer » tous les mots qui émergent de ses calculs pour ne garder que les mots les plus forts. Ceci fait, on calcule, à l’aide de formules appropriées, les cooccurrences parce que dans un large corpus documentaire, de grands sous-ensembles de mots-clés se font sur la même thématique. Il est important de discerner alors les mots et expressions qui sont réellement compatibles avec la thématique visée. Vient ensuite un arbitrage humain, autrement dit faire le choix de quelques K-grams bénéficiant d’un haut score, sélectionner quelques listes de cooccurrences et… rédiger !2

Attention à la surperformance suggérée par l’algorithmique !

Sylvain Peyronnet précise que dès que l’on fait de l’algorithmique, on peut rapidement se laisser entraîner vers une sorte de surperformance en sur-optimisant certains mots-clés, en fonction des résultats obtenus. Et comme dans la vraie vie, « le mieux est souvent l’ennemi du bien »… parce que dans ce cas précis, le moteur s’en rendra compte et pénalisera des contenus sur-optimisés.

Méthode d’investigation sémantique ou méthode algorithmique… Qui gagne ?

Les deux Sylvain comparent leurs méthodes au travers d’un exemple thématique « vente de bijoux ». Chacun a rédigé à partir de sa méthode un contenu sur cette même thématique. Globalement, ils obtiennent des résultats assez similaires, leur rédactionnel utilisent les mêmes mots et expressions-clés. L’intérêt de l’algorithmique est de permettre un rédactionnel pertinent même avec un degré zéro de connaissance de la thématique. Celui de l’investigation sémantique humaine permet à Sylvain Richard d’aller au-delà et de construire une cartographie hiérarchisée de contenus thématiques.

Concrètement, le contenu publié effectivement par Sylvain Richard, ainsi raisonnablement optimisé mais sans linking en mode « SEO d’hier »… a pris quelques semaines pour dépasser la visibilité qu’il avait escomptée.

SERP-cigref_________________

1 Sur la requête « cigref », Google propose 84.700 résultats en 0,33 secondes

2 Synthèse extrêmement simplifiée de la démarche et des calculs liés à cette méthode !

Ligne

Saisir les opportunités de l’IA pour un numérique responsable : nouveau rapport disponible !

Numeum, l’Institut G9+, le Cigref, Planet Tech Care et le Hub France IA, ont dévoilé un rapport inédit intitulé « Green AI & AI for green ». Fruit d’une étude qualitative menée auprès de 72 professionnels – Directeurs des Systèmes d'Information (DSI), Chief Data...

Anticiper les cyberattaques : de la surveillance à la gestion de crise

Dans un monde de plus en plus connecté, les entreprises, grandes ou petites, se retrouvent désormais exposées à des cyberattaques de toutes sortes. La numérisation rapide des organisations a considérablement étendu leur surface d'attaque, créant ainsi un défi majeur...

Le Cigref et ses partenaires européens publient un Manifeste pour les élections européennes.

Nos quatre associations, Beltug en Belgique, Cigref en France, CIO Platform Nederland aux Pays-Bas et Voice en Allemagne, qui représentent collectivement plus de mille grandes entreprises européennes utilisatrices de technologies numériques, ont identifié quatre...

Metaverse: Demystification and the road ahead

This report on metavers, produced by the Cigref working group led by Malika Mir, Director of Information Systems at GROUPE BEL, and Olivier Le Garlantezec, Digital Tech Partnerships Director at LVMH Group, explores the various issues facing organisations and society...