Le duplicate content et le référencement

Le duplicate content (ou contenu dupliqué) peut se définir comme le fait qu’un même contenu soit accessible via plusieurs urls.

Les moteurs de recherche d’aujourd’hui basent leur notoriété sur la pertinence de leurs résultats. Si les moteurs proposaient à leurs visiteurs plusieurs résultats identiques, les résultats ne seraient pas pertinents.  Afin de conserver un maximum de pertinence, les principaux moteurs de recherche tels que Google ou Yahoo ont mis en place des filtres afin de pénaliser ou supprimer les contenus dupliqués de leur index.

Le duplicate content peut être externe, c’est à dire qu’un même contenu peut être dupliqué sur deux sites différents mais peut aussi être interne c’est à dire à l’intérieur même de votre site.

Maintenant que la notion de « duplicate content » a été éclaircie, passons aux solutions permettant d’éviter, voire d’éradiquer, ce problème. Je traiterais dans un premier temps comment éviter le duplicate content sur votre site, ensuite j’expliquerais que faire si vous êtes victime de plagiat.

Duplicate content à l’intérieur de votre site

L’url de base du site

Il n’est pas rare qu’un site soit accessible avec ET sans les « www ». Rien que ceci fait que toutes vos pages ont déjà deux urls différentes. Les principaux moteurs gèrent assez bien ce problème mais il reste important de corriger ce problème. La solution est très simple, il suffit d’ajouter ces deux lignes dans votre .htaccess :

RewriteCond %{HTTP_HOST} !^www\.fr\.hightech-area\.com [NC]
RewriteRule (.*) http://www\.fr\.hightech-area\.com/$1 [QSA,R=301,L]

Avez-vous déjà compté combien d’urls mènent à votre page d’accueil ? Une ? Peut-être plus. Certains webmasters pensent n’avoir qu’une seule url pour leur page d’accueil, et pourtant … Exemple :

  • http://fr.hightech-area.com/
  • http://www.fr.hightech-area.com/
  • http://fr.hightech-area.com/index.php
  • http://www.fr.hightech-area.com/index.php

Rien que dans l’exemple ci-dessus on peut se rendre compte qu’une page d’accueil peut être dupliquée 4 fois. Cette solution très simple à appliquer n’est donc pas négligeable.

Nous avons donc vu précédemment comment rendre les « www » obligatoires. Cependant, il reste ces deux urls :

  • http://www.fr.hightech-area.com/
  • http://www.fr.hightech-area.com/index.php

Encore une fois, la solution pour pallier à ce problème est très simple à l’aide d’une petite fonction et d’une redirection 301 :

function redirection_301($url_attendue) {
if ($_SERVER['REQUEST_URI'] != $url_attendue)
{
header("Status: 301 Moved Permanently", false, 301);
header("Location: http://www.fr.hightech-area.com".$url_attendue."");
exit;
}
}

Faite ensuite appel à cette fonction comme ceci :
redirection_301('/');

Désormais, la page d’accueil est accessible uniquement et seulement via une seule unique (j’insiste bien :P ) url :

http://www.fr.hightech-area.com/

Plusieurs noms de domaine pour un même site

Peut-être avez vous enregistré plusieurs noms de domaine pour le même site afin de vous protéger du cyber-squatting. Il est important dans ce cas de désigner un seul nom de domaine pour votre site et de rediriger les autres domaines vers le domaine principal.

Identifiants de sessions dans l’url

Les identifiants de sessions sont très pratiques pour un site avec un espace membre par exemple, mais si le référencement est très important pour votre site, le stockage des identifiants des sessions ne doit pas se faire dans l’url. En effet, le moteur de recherche aura un nouvel identifiant de session à chaque visite et accédera donc à un même contenu avec une url différente, votre site risquera donc d’être supprimé ou pénalisé de l’index. Exemple :

  • http://www.fr.hightech-area.com/index.php?SESSION_ID=1
  • http://www.fr.hightech-area.com/index.php?SESSION_ID=2
  • etc …

Ordre des variables PHP dans l’url

Les urls http://www.fr.hightech-area.com/forum.php?forum=1&topic=8 et http://www.fr.hightech-area.com/forum.php?topic=8&forum=1 renvoient le même contenu, pourtant ce sont deux urls différentes et les moteurs de recherche considèreront cela comme du duplicate content.

Url rewriting

L’url rewriting est excellent pour le référencement, il n’y a aucun doute. Mais parfois il peut y avoir du duplicate content. Prenons l’exemple d’un forum où un topic est accessible à cette adresse : forum-4-mon-projet.html

C’est généralement l’id (ici 4) qui détermine le forum à afficher et non le titre, donc ce topic est aussi accessible à cette adresse : forum-4-autre-projet.html . Il suffirait qu’un membre fasse un lien vers cette deuxième url pour que Google détecte du contenu dupliqué.

Autre chose, lorsque vous changez vos urls (lorsque vous installez l’url rewriting par exemple), mettez des redirections 301, afin d’éviter, toujours, le duplicate content.

On ne s’en rend pas toujours compte mais le duplicate content est parfois là où on ne l’attend pas. Il faut donc être rigoureux lors de la création de son site afin de bien avoir une url pour chaque contenu :) .

Duplicate content à l’extérieur de votre site

Victime de plagiat ? Cet article vous donnera les démarches à suivre ;) .

Partagez l'article :
  • Twitter
  • Facebook
  • Google Bookmarks
  • LinkedIn
  • email
  • Print
  • del.icio.us
  • Live
  • MySpace
  • Netvibes
  • Digg
  • Wikio
  • RSS
Mots-clefs : 

Un commentaire pour “Le duplicate content et le référencement”

titouille56, le 26 juin, 2009 à 13 h 23 min dit :

merci de l’info :)

Laissez un commentaire