(Mis à jour le: 17 juin 2020)

Le duplicate content : quelles en sont les causes ?

Le duplicate content ou contenu dupliqué se réfère avant tout au fait de copier le texte d’autrui. Mais savez-vous que cela n’a pas forcément trait au contenu textuel ? En effet, certains mauvais paramétrages du site peuvent pousser les moteurs de recherche à penser à du plagiat. Pour pouvoir les éviter, il vaut mieux comprendre dès le départ ce qu’il en est …

Trouvez facilement un rédacteur professionnel sur Redigeons.com

Contacter nous pour commander des textes

Le contenu textuel

La duplication du contenu textuel n’est pas forcément intentionnelle. Si elle l’est, c’est du vol, il n’y a rien à dire. Si elle ne l’est pas, il faudrait revoir la reformulation de certaines phrases, l’utilisation de certaines expressions … pour que le contenu ne soit plus pénalisable.

1) Veillez à avoir un contenu unique :

La duplication non-intentionnelle survient surtout pour des textes courts avec un minimum d’informations. Lorsque le rédacteur doit, par exemple, définir un fait précis, il est souvent obligé d’appliquer la règle des 5W et donc de citer le Qui, le Quoi, le Où, le Pourquoi, le Comment et le Quand. Si son texte doit se limiter à ces renseignements-là, il va être difficile d’éviter la duplication puisqu’il ne peut ni changer le nom des personnes concernées ni le lieu où le fait s’est passé. Néanmoins, il faudra bien reformuler l’ordre des choses pour réduire le plagiat au minimum. On peut également ajouter d’autres informations, toujours sur le même fait, pour se démarquer des autres.

Lire aussi – Quelle est la longueur idéale pour un article de blog ?

Dans le cas où vous avez veillé à avoir un contenu unique, mais que d’autres ont copié votre texte, vous avez divers recours. Soit vous demandez au copieur d’insérer une balise canonical qui redirige bien vers votre site, qui est la source, soit vous rapportez le problème à Google. Dans les pires des cas, certains en arrivent même à des mesures plus expéditives comme le recours à la justice.

2) Attention à la landing page :

En général, la landing page est établie sur un template prêt à remplir puisque les internautes atterrissent dessus suite à une annonce sur Google. Le propriétaire de la landing page n’aura plus qu’à modifier les mots-clés en fonction de sa cible.

Le problème c’est que beaucoup de webmasters ont recours à ces systèmes donc de nombreuses landing ont des structures trop similaires. Or, durant l’indexation, la similarité des structures peut également être source de duplicate content.

Pour éviter d’être pénalisé à cause de cela, insérez la balise <meta name=’robots’ content=’noindex’> sur la landing page. Ainsi, Google n’indexera pas cette page et la duplication ne sera pas détectée.

Mieux encore, vous pouvez rédiger votre landing page selon vos propres inspirations pour qu’elle n’ait rien de similaires à celles des autres. Il faudra seulement utiliser les bonnes astuces qui marchent pour la landing page pour qu’elle atteigne son objectif, celui de convertir vos visiteurs.

3) Pensez aux versions régionales :

Dans le cas d’un site e-commerce accessible à travers le monde, il est important d’avoir une version régionale du site pour chaque pays ou groupe de pays en fonction de leur langue officielle. Vous pouvez par exemple proposer une version pour les pays francophones, une autre pour les pays anglophones …

Le but n’est pas de créer plusieurs sites, mais d’en éditer plusieurs versions. Et puisque ces versions ont les mêmes contenus ce qui est source de plagiat, pensez à ajouter l’attribut hreflang à votre url.

Cet attribut permet aux visiteurs d’être redirigés automatiquement vers la version qui leur convient en fonction de leur localisation géographique.

Les problèmes de paramétrage

Lorsque le problème de duplication n’est pas lié au contenu textuel, c’est surtout le ranking du site qui va en accuser le coup. Pour éviter cela, vérifiez les points suivants :

1) Le nom du domaine :

Une mauvaise configuration du serveur web peut générer différentes urls pour votre site.

Si par exemple votre site est accessible à l’url http://www.nomdedomaine.com, qui est donc l’url correcte que vous avez choisie, le serveur peut le rendre accessible avec d’autres urls telles que https://www.nomdedomaine.com, http://nomdedomaine.com … Et attention, cela peut également influer sur la page Index et donner d’autres urls telles que http://www.nomdedomaine.com/index.html, http://www.nomdedomaine.com/index.aspx …

Pour l’internaute, le point essentiel c’est qu’il ait accès à votre site. Il ne se cassera pas la tête de savoir quelle url il est marqué en haut. Pour le propriétaire du site, l’accès des internautes est évidemment essentiel, mais il faut également lire l’url marquée en haut. Pourquoi ? Parce que si ce n’est pas l’url correcte, Google va croire qu’il s’agit d’une toute autre url. Et vu que les deux (ou plus) noms de domaine ont des contenus similaires, ce sera tout simplement du plagiat.

Que faire pour éviter cela ? Faire une redirection 301 des autres fausses urls vers la bonne. En suivant les redirections, Google va identifier la page à indexer.

Aussi, faites attention à la structure des urls. Une minuscule écrite par erreur en majuscule les change totalement donc maintenez-vous à une structure précise.

Pour mieux comprendre : « Pourquoi Google affiche plusieurs résultats à partir d’un même nom de domaine ? »

2) La taxonomie :

Ce terme se réfère à la méthode de classement des contenus. Lorsqu’on publie un contenu en ligne, on a l’habitude de l’affecter à plusieurs catégories. L’astuce n’est pas mauvaise, mais peut causer un petit quiproquo chez Google.

En effet, puisque votre contenu est présent dans de nombreuses catégories, cela signifie qu’il est accessible via diverses urls. Et qui dit urls multiples dit forcément plagiat.

Que faire pour éviter cela ? Affecter l’article à une catégorie principale puis faire appel à la balise canonical pour l’affecter à d’autres catégories tierces.

3) Attention au tracking :

Rassurez-vous, le fait de tracker ses utilisateurs n’est pas illégal. Toutefois, quand vous mettez ce système en place, les paramètres qui s’y réfèrent vont apparaître dans votre url. Google détectera alors deux urls identiques.

Que faire pour éviter cela ? Insérez des UTMs dans les paramétrages de tracking. Cela dissociera l’url source des urls trackées.

4) Les filtres des urls :

L’utilisation des filtres améliore l’expérience utilisateur des internautes lors de la navigation sur votre site puisque les paramètres de recherche vont s’afficher des les urls. Pour Google, l’expérience n’est toutefois pas aussi bonne puisque ces filtres vont générer différentes combinaisons au niveau de votre url source. Et même lorsque l’arrangement des combinaisons n’est pas le même, cela va quand même donner lieu à une même structure d’urls écrites différemment et bien sûr des contenus similaires pour ces différentes urls.

Que faire pour éviter cela ? Faites appel aux balises canocical pour indiquer à Google quelle est la page à référencer.

5)  Les IDs des utilisateurs :

Chaque utilisateur qui se connecte à votre site doit avoir son propre ID pour qu’il puisse facilement faire un suivi de leurs achats et commandes. Pour que cela reste possible sans que cela ne cause des problèmes de duplicate content, évitez d’insérer ces IDs dans les urls. Pourquoi ? Parce que cela va générer plusieurs urls au contenu similaire et donc du duplicate.

Que faire pour éviter cela ? La balise canonical encore une fois.

6) Attention à l’affichage des commentaires :

Après la publication d’un article, on s’attend tous à une chose : obtenir le maximum de commentaires possibles. Quand les commentaires commencent à affluer, on est tellement content qu’on attend à ce qu’il y en ait toujours plus. Le problème c’est que lorsque vous avez beaucoup de commentaires, ils ne vont pas tous tenir sur la page de l’article. D’autres pages vont alors se créer automatiquement ce qui fait que vous aurez d’autres urls rattachées à l’url de l’article.

Prenons un exemple : vous avez publié est bon article qui fait du buzz sur https://www.nomdedomaine.com/duplicate-content. Vous obtenez des plusieurs commentaires qui ne peuvent plus être affichés sur cette même page. D’autres pages vont alors être créées avec pour urls https://www.nomdedomaine.com/duplicate-content/page-2, https://www.nomdedomaine.com/duplicate-content/page-3 et ainsi de suite. Il va de soi que ces urls auront toutes le même contenu qui est votre article. La duplication est donc inévitable.

En savoir plus sur cet article : Spam commentaires comment éviter d’avoir son commentaire supprimé ?

Que faire pour éviter cela ? Limitez les commentaires sur la page source et fermez-les quand il commence à y en avoir trop.

Conclusion

Quelle que soit la cause du duplicate, Google n’aime pas le plagiat. Il l’a bien fait comprendre aux sites qui persistaient dans cette voie. Le problème c’est que face à des contenus similaires, ses robots ne peuvent pas toujours déterminer qui est le plus pertinent. Et même s’ils le peuvent, ils vont se prononcer en faveur du site qui a la meilleure e-réputation. Dans ce second cas, si le copieur bénéficie d’une meilleure notoriété que vous, vous serez quand même désigné comme coupable.

Résultat : vous allez dégringoler dans les résultats de recherche ce qui fait très mal au référencement. Et si la pertinence n’est pas établie, les deux sites vont dégringoler ensemble.

La seule solution c’est d’éviter les causes citées ci-dessus de prévenir le duplicate content, de faire un audit SEO régulier de son site pour détecter les éventuels vols de contenus et de les rapporter à Google.