mercredi, juillet 05, 2006

Referencement et validation W3C

Comme beaucoup de webmasters, j'entends souvent dire qu'un site sera mieux référencé s'il est validé par le Validator W3C. Un site validé serait d'après certains plus facilement crawlé par le robot Google et cela influencerait même sa position dans les moteurs de recherches. Qu'en est-il vraiment? Un site conforme aux normes W3C sera-t-il mieux positionné?

Pour tenter de répondre à cette question je vous propose de choisir une requête populaire et de vérifier par vous même si les sites les mieux classés sont validés par le W3C Validator. J'ai choisi la requête "moteur de recherche" et j'ai essayé de valider les 10 premiers résultats obtenus sur Google.fr. Les résultats du Validator :
  1. referencement-2000/... : 10 erreurs
  2. google.fr/ : 47 erreurs
  3. numika.fr/ : 57 erreurs
  4. voila.fr/ : 158 erreurs
  5. recherche-web.com/ : 143 erreurs
  6. fr.altavista.com/ : 34 erreurs
  7. ariane6.com/ : 42 erreurs
  8. nomade.aliceadsl.fr/ : 208 erreurs
  9. mozbot.fr/ : 12 erreurs
  10. fr.wikipedia.org/wiki/... : validé

J'ai ensuite répété cette passionnante expérience en essayant de valider les sites proposés sur Yahoo et Msn, les résultats etaient similaires, pratiquement aucun site parmi les 10 premiers résultats ne passe le test de validation W3C. Il est intérressant de noter qu'aucun des moteurs de recherche principaux ne passent la validation W3C, que ca soit Google Msn ou Yahoo.

Au vue des résultats obtenus par cette expérience, je crois qu'il est raisonnable de conclure qu'aucun moteur de recherche majeur ne vous pénalisera si votre code (x)html n'est pas validé par le W3C Validator. Même en supposant qu'il s'agit d'un critère utilisé par les moteurs de recherches ce critère n'a pratiquement aucun poids par rapport à d'autres critères, donc du point de vue du référencement on peut s'en passer sans aucun remords, toutefois il faut garder à l'esprit qu'un site validé W3C sera plus facilement accessible aux personnes souffrant d'un handicap.

10 commentaires:

howto linux a dit…

Voila qui est interessant et qui confirme bien ce que je pensais. J'ai un site qui était bien classé sur plusieurs combinaisons de mots clés sur google sans etre valide. (depuis peu j'ai quand meme modifié mes pages pour qu'il soit valide en espérant monter encore).

Anonyme a dit…

chuuuut, si les refereneurs fans de w3c realisent à quelle point ils perdent leur temps avec ca, ils risquent un jour de devenir des concurrents serieux ;)

Anonyme a dit…

c'est juste plus cool d'etre valide W3C -)

droit-au-coeur a dit…

Bonjour Locust.

Il y a aussi un autre problème, si le document mère d'un site comme Blogger.com contient des erreurs, automatiquement celui qui construit un blog en aura même si il le fait valider par le W3C. Et être validés par le W3C n'est pas une honte, ça montre qu'on est des professionnels; qu'on cherche à perfectionner.

Anonyme a dit…

tout dépend du type d'erreur quand même.

C'est là que la validation est importante car les sites mentionnés n'ont des erreurs souvent dues qu'a une animation ou à une vidéo. Par contre, certains ont des erreurs de code beaucoup plus graves et cette validation est quand même nécessaire pour mesurer la qualité du travail sur site.
Vérifier les sites les mieux référencés à chaque requête que vous taperez et vous verrez toujours des erreurs sans gravité.

Pierre-Henri a dit…

Je ne considère pas cette étude comme "valide".

Pourquoi un site non valide W3C serait-il mieux ou moins bien référencé qu'un site valide ? Une simple requête Google ne donnera pas la réponse !

Clairement, il vaut mieux un site valide car Google (pourquoi s'intéresser aux autres moteurs alors que Google détient un peu plus de 90% de parts de marché ?) n'accorde pas ou moins de temps aux sites présentant des erreurs de structure (x)HTML. Pire, le robot pourrait fuire votre site si l'erreur est de type "fatale".

Un doctype mal documenté, une balise non fermée ou pas fermée au bon endroit, des attributs HTML non valides pour le doctype courant, l'utilisation de balises obsolèthes sont autant de paramètres qui pourraient faire fuire Google.

Il faut se donner un maximum de chances lorsqu'on lance un site internet. Passer à côté d'une validation W3C peut conduire à un echec du lancement de votre site ou le retarder sérieusement si Google ne parvient pas à crawler votre site.

Développeur depuis des années, j'ai compris à quel point un site léger avec un doctype et une structure (x)HTML valides aident.

Enfin, à tous les utilisateurs de Firefox et autres navigateurs respectueux des standards du Web) qui liront ce message. Si vous n'accordez pas d'importance à la validation W3C et à tout le travail entrepris par ce consortium, retournez sous IE...

pH

Locust a dit…

Chacun est libre de faire des documents valides, mais connaissez vous un seul site faisant plus de 30'000 visites/jour qui valide ?

Je suis d'accord avec vous, l'idéal est de faire des documents qui passent, mais si l'on à testé sont xhtml/css sur les principaux navigateurs du marché et que tout fonctionne correctement... Pourquoi aller plus loin, en tout cas il est certain que ca n'améliorera rien au posiitonnement d'un site.

Stéphanie a dit…

Pour avoir passé mon site valide en XHTML 1.0 Strict je ne suis plus vraiment d'accord avec l'idée que c'est du luxe.

Sans certitude de la cause a effet, j'ai constaté une nette amélioration du passage des crawlers et une indextion beaucoup plus profonde des pages de mon site.

Mon constat est que sur les mots clés principaux, j'ai gagné quelques places alors que mon site stagner depuis des mois et je reçoit une multitude d'entrées sur des pages avec des mots clés de moindre importance.

Globalement c'est très positif.

Thierry JR Cavalié a dit…

Comme toute étude empirique portant sur une petite quantité de pages, celle-ci ne produit pas de résultats fiables.

Qu'un site soit valide ou pas n'a aucune influence directe sur le référencement, la qualité du codage n'étant pas un critère pertinent de classement pour les S.E (heureusement, LOL!)

Toutefois, un crawler est un user-agent comme un autre. Comme un browser, il travaillera d'après le doctype et passera en mode kirk dès qu'il rencontrera une erreur, ce qui le ralentira forcément. Cette perte de temps aura-t-elle une influence sur l'indexation de la page ? Non, en principe, mais le nombre total de pages visitées sera réduit en conséquence. 10, 20 % de pages en moins ? Peut-être même davantage si le site visité est codé avec les pieds.

Je déduis de tout ceci qu'un codage optimal pour obtenir un bon référencement sera non seulement valide W3C mais qu'il ne contiendra pas d'éléments inutiles comme un meta keywords ou revisit-after.

Personnellement, je développe en Php pour obtenir du code XHTML propre, sans commentaires ni sauts de ligne ni espaces ni tabulations. Mais mes efforts portent surtout sur le contenu, l'accessibilité et... le meta description dont je lis partout qu'il ne sert à rien pour le référencement (ce qui est vrai "techniquement") alors que c'est le plus important puisque c'est celui qui donnera à l'internaute l'envie de cliquer sur la page ou de passer son chemin !

Locust a dit…

Merci Thierry pour ce commentaire interressant.