Les fichiers sitemap.xml et robots.txt
Avant le fichier robots.txt ne servait qu'à restreindre l'accés de certains répertoires aux bots (programmes d'indexation des moteurs de recherche). Maintenant, ce fichier (robots.txt) sert aussi à demander aux bots d'aller lire le (ou les) fichier(s) sitemap présents sur le site.
Exemple avec le site www.le-bourget.com :
Le fichier robots.txt se trouve ici : http://www.le-bourget.com/robots.txt
En lisant ce dernier fichier, les bots (Google, Yahoo, etc.) sauront qu'ils doivent lire le fichier sitemap suivant :
http://www.le-bourget.com/sitemap.xml
Dans le cas d'un site en Flash, ou qui utilise des frames comme www.lenet3000.com ou un menu en JavaScript comme http://cutegirls.free.fr, vous avez tout intérêt à installer un fichier sitemap.xml ainsi qu'un fichier robots.txt.
Vous pouvez consulter leurs fichiers robots.txt et sitemap.xml :
- http://cutegirls.free.fr/robots.txt
- http://cutegirls.free.fr/sitemap.xml
- http://www.lenet3000.com/robots.txt
- http://www.lenet3000.com/sitemap.xml
- http://www.lenet3000.com/sitemap-pays.xml
- http://www.lenet3000.com/sitemap-celebrites.xml
- http://www.google.fr/robots.txt
- http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
Note : si un fichier sitemap fait plus de 400 url, il doit être divisé en plusieurs fichiers.
Il est d'usage de penser qu'un site qui utilise un flus RSS ainsi qu'un plan généré automatiquement, n'a pas besoin de sitemap mais cela ne coûte rien de faire un sitemap de plus et cela peut quand même aider à améliorer le référencement.
Exemple un site créé à l'aide d'un CMS comme www.catch-info.com possède un flux RSS : http://www.catch-info.com/spip.php?page=backend ainsi qu'un plan de site : http://www.catch-info.com/spip.php?page=plan
Voici le contenu du fichier sitemap.xml de ce site :
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>
http://www.toutsurlereferencement.com/index.php
</loc>
</url>
<url>
<loc>
http://www.toutsurlereferencement.com/les-meta-name.php
</loc>
</url>
<url>
<loc>
http://www.toutsurlereferencement.com/robots.php
</loc>
</url>
<url>
<loc>
http://www.toutsurlereferencement.com/le-contenu.php
</loc>
</url>
<url>
<loc>
http://www.toutsurlereferencement.com/les-moteurs-de-recherche.php
</loc>
</url>
<url>
<loc>
http://www.toutsurlereferencement.com/les-annuaires.php
</loc>
</url>
<url>
<loc>
http://www.toutsurlereferencement.com/les-statistiques.php
</loc>
</url>
<url>
<loc>
http://www.toutsurlereferencement.com/bibliographie.php
</loc>
</url>
<url>
<loc>
http://www.toutsurlereferencement.com/creation-de-sites.php
</loc>
</url>
</urlset>