Le duplicate content : que faire pour le résoudre ?

Publié le 14 juillet 2020 à 06:14Par jean pierre

Dans Rédiger du contenu, Référencement, Stratégie éditoriale, astuces seo, Blogging, Contenu web, Site multilingue, techniques SEO

Evaluer ce post

Avoir des contenus dupliqués influe négativement sur vos efforts de référencement. Il est ainsi important d’y remédier rapidement dès qu’on en prend connaissance. Comment peut-on résoudre ce problème de manière radicale et correcte ? Retrouvez quelques astuces à la suite …

Trouvez facilement un rédacteur professionnel sur Redigeons.com

[button text=”Contacter nous pour commander des textes” type=”btn-custom” size=”150″ url=”https://www.redigeons.com/nous-contacter/” target=”” bg_color=”” bg_hover_color=”” txt_color=”” txt_hover_color=””]

Sommaire

Détecter et analyser le duplicate content

Sur notre article Le duplicate content : comment le détecter, on vous propose déjà diverses techniques pour déterminer si l’un ou plusieurs de vos articles sont dupliqués ou non. La première chose à faire c’est donc de procéder à la vérification. Cela vous indiquera lesquels de vos contenus sont plagiés et aussi de savoir pourquoi.

Pour que le traitement du duplicate content soit efficace, il faut que vous sachiez exactement quelles sont les causes du plagiat. Comme nous l’avons déjà expliqué, les causes sont multiples et pas forcément intentionnelles. Il se peut aussi que le plagiat concerne deux urls de votre propre site (duplicate content interne) ou deux pages appartenant à deux sites différents (duplicate content externe). Les modes de traitement varieront en fonction de cela.

Après la détection des urls en cause, il faut donc prendre le temps d’analyser chacune d’elles afin d’établir facilement les solutions les plus appropriées.

Traiter le duplicate content interne

Pour résoudre le duplicate content interne, plusieurs solutions s’offrent à nous. En voici quelques-unes :

La redirection permanente 301

C’est la meilleure solution pour résoudre tout ce qui est duplication d’urls. Le principe est donc de rediriger les visiteurs d’une url A vers une url B. L’url B est ici l’url officielle qui sera indexée par les robots crawlers. Les autres urls, quant à elles, ne seront pas indexées pour éviter le contenu dupliqué.

La balise canonical

Considérée comme la solution universelle pour corriger quelques erreurs entraînant du duplicate content interne, la balise canonical permet aux webmasters d’indiquer quelle est l’url officielle de chaque page de son site. En mettant en place cette balise, Google considèrera l’url comme la page officielle tandis que toutes les autres urls, sources de duplicate content, seront assimilées à cette même url. Il n’y a donc plus de plagiat même si dans les faits, toutes ces urls seront quand même analysées par les robots crawlers.

Cette balise prend la forme rel=canonical.

Pour l’utiliser, vous avez deux options pour l’insérer dans l’url :

Soit vous la mettez dans le code HTML : vous utiliserez alors le code <link rel=”canonical” href=”URL” />
Soit vous l’insérez dans l’entête http : vous utiliserez alors la formule Link: <URL>; rel=”canonical”

Simple à mettre en place, l’url canonique est efficace pour traiter le duplicate content. Elle est la plus adaptée pour corriger le duplicate content généré par les pages de pagination, par les identifiants de sessions intégrés dans l’url, par les pages accessibles à différentes urls (produit rattaché à plusieurs catégories, existence d’une url normale et d’une url réécrite pour une page, …) et bien d’autres encore.

Le seul souci c’est qu’il ne fait que régler le problème en surface étant donné qu’on garde quand même les autres urls avec du contenu dupliqué ce qui fait plus de contenus à crawler inutilement. C’est pour cela que cette solution est moins appréciée que la redirection 301.

Le sitemap

Une bonne astuce consiste à faire figurer l’url officielle sur le sitemap. Ainsi, si les robots découvrent deux urls pour une même page du site, ils vont privilégier celle qui est sur le sitemap et ne feront pas grand cas de celle qui n’y apparaît pas.

Les erreurs courantes qui génèrent du duplicate content interne

Quoi que vous en disiez, le duplicate content interne part toujours d’une erreur du webmaster. Ici, il n’y a donc pas de vol de contenus, mais de simples fautes d’inattention sur lesquelles on souhaite attirer votre attention. En prenant connaissance de ces erreurs, il vous sera plus simple d’éviter ou de prévenir le duplicate content à l’avenir.

Voici une liste non-exhaustive des erreurs à ne plus commettre :

Vous n’avez pas précisé votre « domaine favori » :

Oui, à la création de votre site, vous auriez dû effectuer ce paramétrage à travers la Search Console de Google. Si vous ne l’avez pas fait, alors il est possible que votre site soit accessible à deux adresses, l’une avec le www et l’autre sans. Le problème c’est que leurs contenus sont exactement les mêmes d’où la source du duplicate content.

Pour tester la chose, essayez d’ouvrir votre site avec l’adresse sans www (exemple (http://monsite.com) puis avec l’autre avec www (exemple : http://www.monsite.fr). Si vous n’êtes pas automatiquement redirigé vers une seule version officielle, alors il y a bien plagiat puisque les robots crawlers de Google vont indexer ces deux pages en tant que deux sites différents.

Comment le résoudre ?

Allez dans la Search Console puis paramétrez votre site en indiquant le domaine favori. Cette astuce est efficace pour éviter le duplicate content, mais seulement sur le moteur de recherche Google. Sur les autres moteurs, le plagiat peut encore exister.
Faire une redirection du mauvais domaine vers le bon. Si vous souhaitez conserver l’url avec le www, alors faites une redirection 301 de l’url sans www vers l’url avec le www et vice-versa. Cette redirection permanente redirigera automatiquement ceux qui tapent la mauvaise url vers la bonne.
Vous pouvez aussi définir une url canonique en faisant toutefois très attention à bien inclure (ou non) le sous-domaine www selon les cas. Si vous souhaitez conserver l’url avec www, tâchez de bien l’inclure et si vous souhaitez ne pas le conserver, tâchez de l’effacer.

Vous avez fait indexer votre site en http et en https :

Depuis que Google a décidé de prioriser l’indexation mobile, tous les nouveaux sites créés passent automatiquement en https. Ces derniers ne risquent donc pas d’avoir le problème qu’on évoque ici.

Par contre, pour ceux qui ont créé leur site en http, se mettre à l’https est devenu essentiel. Certains webmasters ont donc décidé de faire migrer leur site de leur propre chef ce qui est une excellente initiative. Ce qui l’est moins c’est d’avoir oublié de rediriger tout le contenu du http vers le https, car cela génère forcément de la duplication.

La solution ? Vous la connaissez déjà : la redirection 301.

Attention, il arrive que site en http ait été migré vers le protocole https automatiquement sans que le propriétaire en soit au courant. La cause : une mauvaise configuration du serveur. Il faut donc veiller à effectuer une vérification. Cela pourrait indiquer que certaines de vos pages sont passées en https alors que votre site, lui, est resté en http. Pour une vérification approfondie, pensez à lancer un audit RM Tech.

Vous avez indexé en desktop l’url de votre site mobile :

Comme on vient de le souligner, avoir un site mobile est aujourd’hui devenu essentiel pour un webmaster. Alors que d’autres se contentent de migrer la version desktop de leur site vers la version mobile, d’autres préfèrent avoir les deux. Ils vont alors créer une version mobile de leur site en partant de la version desktop. Cela n’est pas interdit, mais puisque les deux versions ont les mêmes contenus, il faut faire attention à bien les dissocier.

A lire – Google : l’index Mobile First imposé dès septembre 2020

Normalement, avoir deux sites (desktop et mobile) ne devrait pas poser de problème de duplicate content puisque les robots censés les crawler sont différents. Les versions mobiles ont les siens et les versions desktop les leurs.

Toutefois, il arrive que par négligence, on indexe en desktop l’url de son site mobile. Evidemment, il y aura plagiat. Pour s’en protéger : l’url canonique.

Vos noms de domaine ont tous été redirigés vers le nom de domaine officiel, mais ils sont tous indexés :

Dans l’univers du web, il est très bien possible d’avoir plusieurs noms de domaine. C’est une pratique courante qui permet aux webmasters d’acheter les noms de domaine très proche à celui de son site officiel. En effet, il suffit aux internautes de se tromper sur le .fr ou le .com pour atterrir sur le mauvais site pouvant appartenir à la concurrence. Le plus simple est donc d’acheter les différentes versions existantes.

Après leur acquisition, il faudra faire une redirection des autres vers le nom de domaine officiel. Pour la redirection, il est impératif de choisir la 301, car dans le cas contraire, les autres noms de domaine continueront à être indexés ce qui risque de générer du duplicate content.

Vous avez indexé la version PDF et la version imprimable :

Si votre site propose une version PDF et/ou une version imprimable de certaines pages à part la version au format HTML, il y a de fortes chances que cela génère du contenu dupliqué. En effet, puisque leurs contenus seront les mêmes, vous ne pourrez échapper au regard scrutateur de Google sauf si … vous prenez soin de désindexer les versions PDF et de bloquer ensuite le crawl à Google. Quant aux versions imprimables, l’utilisation de CSS est plus efficace afin de définir une feuille destinée à l’impression.

Grâce à ces astuces, le moteur de recherche ne crawlera que la version HTML.

Pour que les pages ne soient pas référencées, vous pouvez insérer une balise meta robots Noindex dans l’url. Comme avec la balise canonical, elle se place entre le <head></head>. Avec cette balise, Google n’analysera pas ces pages, mais continuera quand même de suivre les liens. Si vous souhaitez aussi que ces liens ne soient pas suivis, alors le code prendra la forme <meta name=”robots” content=”noindex, nofollow”>.

Vous n’avez pas utilisé l’attribut hreflang pour vos sites internationaux :

Si vous possédez un site multilingue, pensez à toujours à préciser le paramètre lg dans l’url. Pour un site en anglais, on mettra lg=en, pour un site français, on mettra lg=fr et ainsi de suite.

Cette précision doit être faite même pour le site édité dans la langue par défaut. Si la langue pas défaut est le français, on mettra bien lg=fr. Ce point est important, car de nombreux webmasters omettent cette précision.

Dans le cas où vous avez des contenus dans la même langue, mais que le site est accessible dans différents pays (site web français accessible en Suisse ou en Belgique), c’est l’attribut hreflang qu’on doit utiliser. Grâce à lui, toutes les versions linguistiques sont renvoyées à l’url affectée. Tâchez seulement de bien maîtriser l’insertion de cet attribut.

Vous avez des contenus similaires pour des produits très proches :

Cela arrive plus souvent qu’on ne le pense surtout sur un site e-commerce. En effet, lorsque la boutique en ligne propose des produits semblables, mais avec plusieurs déclinaisons (couleur, taille, matière …), leurs fiches produits sont souvent les mêmes. Evidemment, cela va créer du duplicate content.

Lire aussi – Rédiger une fiche produit, les 6 étapes pour bien faire

Pour éviter, il faut tâcher de réécrire chaque fiche se référant au produit pour qu’elles ne soient pas pareilles. Et puisque vous pouvez difficilement changer les caractéristiques communes, le mieux c’est de créer une seule page Caractéristiques pour ces produits. Depuis chaque fiche, vous insèrerez ensuite un lien vers la page Caractéristiques.

Dans le cas où vous n’êtes pas sur un site e-commerce, mais que certains de vos contenus sont quand même très proches de vos urls sources, la réécriture reste la meilleure solution. Au lieu de prendre une seule source d’inspiration, prenez-en plusieurs. Faites une synthèse de leurs contenus afin d’obtenir un contenu unique.

Traiter le duplicate content externe

Si après détection avec des outils de duplicate content, vous avez découvert que d’autres sites ont tout simplement copié, voire voler, vos contenus, alors voici ce qu’il vous reste à faire …

Vérifiez le pourcentage de duplication

Lorsque vous utilisez les outils anti-plagiat, ces derniers mettent en évidence les parties dupliquées. Une fois les résultats affichés, ne vous affolez pas tout de suite, car une certaine marge de duplication est autorisée.

Lorsque le plagiat concerne quelques phrases courtes ou quelques expressions, cela n’est pas vraiment grave. Vous pouvez seulement modifier légèrement vos phrases si vous le souhaitez. Par contre, si les outils affichent des parties entières de votre texte, alors oui, on a bien un problème de copie-collé. Que faire alors ?

Proposez un règlement à l’amiable

Avant toute choses, faites des captures d’écran du résultat affiché par l’outil, notez l’url du site qui a copié votre contenu, … Il faut que vous amassiez le plus de preuves possibles pour prouver que l’autre vous a bien volé votre contenu.

Une fois les preuves incontestables en main, contactez le site qui vous a copié et exposez-lui le problème que vous venez de découvrir. Une fois cela fait, demandez-lui, soit de supprimer la partie copiée, soit de vous citer comme source dans son texte. Pour ce premier échange, il est important que vous gardiez votre sang-froid et discutiez en adulte.

Deux cas peuvent se présenter suite à cela :

L’autre site s’exécute en supprimant la parie copiée ou en vous citant comme source
Il refuse de s’exécuter et ne daigne même pas vous répondre

Evoquez le lancement d’une procédure judiciaire

Si le second cas venait à survenir, présentez les preuves du vol de contenu au webmaster et précisez que s’il ne s’exécute pas, vous allez entamer une procédure. Avant de saisir la justice, envoyez-lui une lettre recommandée avec accusé de réception dans laquelle vous lui notifiez votre requête de retrait du contenu concerné et la date buttoir.

Normalement, cela devrait le raisonner et il pourra alors supprimer le contenu dupliqué ou non.

Saisissez la justice

Si la technique de la lettre recommandée n’a pas fonctionné, votre dernière option est de saisir la justice. Vous pouvez alors porte plainte au nom de la protection des droits d’auteur.

Lire aussi – La rédaction web est-elle soumise au droit d’auteur ?

Même si cette dernière étape semble un peu exagérée, il ne faut pas hésiter d’y faire appel face à l’entêtement du voleur de contenu. Avant de vous lancer là-dedans, assurez-vous d’avoir des preuves irréfutables à l’appui.

Qu’il soit interne ou externe, le duplicate content est néfaste pour votre référencement. Il est important de mener une analyse régulière afin d’y remédier rapidement avant que les robots crawlers de Google ne tombent dessus.