vendredi 14 août 2009

Optimiser le crawling et l'indexation de votre site

Niveau Webmaster: intermédiaire -avancé

La plupart de nos éditeurs étant également Webmasters et suite aux commentaires positifs reçus à propos de la section "Qualité de recherche" sur ce Blog, nous sommes heureux de vous proposer un nouvel article qui vous aidera à mieux comprendre l'optimisation de l'indexation de votre site et qui, nous l'espérons, vous sera utile.

De nombreuses questions sur l'architecture d'un site, le crawling, la navigation, voire même les questions de classement, peuvent être réduites à une question centrale: les moteurs de recherche peuvent-ils parcourir facilement votre site ? Vous trouverez dans notre présentation les points importants à retenir (en anglais):
http://googlewebmastercentral.blogspot.com/2009/08/optimize-your-crawling-indexing.html

Le web est immense; du contenu est créé à tout moment. Face à un nombre infini de contenu disponible en ligne, les ressources de Google ne sont pas infinies. Googlebot peut donc trouver et parcourir une section limitée de ce contenu. De plus, à partir du contenu parcouru, seule une portion est indexée.

Les URLs sont des passerelles entre votre site et les robots des moteurs de recherche: les robots doivent être à même de trouver et de traverser ces passerelles (par exemple trouver et parcourir vos URLs) afin d'obtenir le contenu de votre site. Si vos URLs sont compliquées ou en double, les robots vont perdre du temps à les trouver et parcourir toutes vos URLs. Si vos URLs sont organisées, et mènent directement à un contenu précis, les robots peuvent passer du temps plus utilement sur votre contenu ; au lieu de parcourir des pages vides, ou le même contenu sur des URLs différentes.

Dans la présentation (en anglais), vous trouverez des exemples de ce qu'il ne faut pas faire - de vrais exemples (les noms ont été changés) - des URLs maison avec des hacks, des encodages, des paramètres dans l'adresse de l'URL, des espaces de crawl infinis, et plus. Vous trouverez aussi des recommandations pour aider les robots à trouver votre contenu plus rapidement, dont:

- enlever de l'URL les détails spécifiques à l'utilisateur.

les paramètres qui ne changent pas le contenu de la page - comme les identifiants de session - peuvent être enlevés de l'URL et mis dans un cookie. En mettant cette information dans un cookie et en faisant une redirection 301 de cette URL vers une URL "propre", vous gardez l'information tout en réduisant le nombre d'URLs qui pointent vers ce même contenu.

- contrôler les espaces infinis.

Avez-vous un calendrier avec des liens vers un nombre infini de dates dans le passé ou le futur (chacune avec une URL unique) ? Avez-vous des pages formatées qui retournent un code 200 quand vous ajoutez &page=3563 à l'URL, même s'il n'y a pas un grand nombre de pages avec du contenu ? Si vous avez répondu oui, c'est que vous avez un espace infini de crawl sur votre site. Les robots vont gaspiller leur bande passante et la vôtre à essayer de tout parcourir. Lisez ces conseils afin de contrôler ces espaces infinis.

- désactiver les actions que Googlebot ne peut accomplir.

En utilisant le fichier robots.txt, vous pouvez désactiver le crawling des pages d'identification, les formulaires de contact, les paniers d'achat, et toutes les pages qui ont une fonctionnalité qui ne peut pas être effectuée par Googlebot. Cela permet aux robots de passer plus de temps à parcourir du contenu qu'ils peuvent utiliser par la suite.

- une URL, un contenu.

Dans un monde parfait, il y a une URL pour un contenu. Chaque URL mène vers un contenu unique, et chaque contenu unique peut être accédé à partir d'une URL. Plus vous vous rapprochez de cet idéal, plus il sera facile pour Googlebot de le parcourir et de l'indexer. Si votre CMS ou l'organisation de votre site ne vous facilitent pas la tâche, utilisez l'attribut rel=canonical pour indiquer l'URL préférée d'un contenu spécifique.

Si vous avez des questions sur l'optimisation de votre site pour le crawling et l'indexation, consultez notre FAQ: Crawling, indexation et classement ou les articles écrits à ce sujet dans Aide au référencement, ou allez dans le Forum d'entraide pour les webmasters.

Share:

0 commentaires:

Enregistrer un commentaire