Fonctionnement d' un moteur de recherche
Un moteur de recherche est un ensemble de logiciels dont le principe est de parcourir le Web est d'indéxer automatiquement les pages visitées. Des robots (appelé spider ou crawler) explorent le Web de liens en liens et récupèrent les informations. Celles-ci sont ensuite indexées par des moteurs d’indexation. Enfin une interface de recherche permet de restituer les résultats par pertinence.
Lorsque le robot arrive sur une page il vérifie s’il la connaît déjà, si c’est le cas il vérifie si la page contient des modifications, si oui il remplace l’ancienne page. L’index est donc mis à jour quotidiennement. Pour reconnaître une page récente le robot repère la date de modification, la taille de la page et les zones modifiées.
Attention certains robots estiment que l’ajout de liens de navigation ne constitue pas une mise à jour. Les robots différencient aussi la charte graphique de navigation du contenu réel. Les robots indexent le texte intégral du site : tous les mots de la page et le code HTML.
L’index constitué comprend :
- un index principal contenant l’ensemble des données (url, document…)
- un index inversé contenant tous les termes d’accès c'est-à-dire les mots clés associés aux url des pages. Les requêtes sur les moteurs sont donc traitées en interrogeant l’index inversé pour dénombrer le nombre d’occurrence de ce mot dans l’ensemble des documents indexés
A noter les robots visitent les pages fréquemment renouvelées et se rendent moins souvent sur les pages statiques. Par exemple un site d’actualités sera visité plus souvent qu'une une page. D'où l'imporatnce d'animer votre site web. Comment vérifier le passage des robots sur le site :
- analyse des fichiers logs (niveau expert)
- analyse des statistiques du site
- voir le lien en cache du site sur la page de résultat du moteur de recherche, cela donnera la date du dernier passage du robot, ou encore en faisant un clic droit avec la souris et en sélectionnant l’option => info page => version de la page actuelle
Comment sont classées les requêtes sur un moteur de recherche :
Suite à une requête sur le moteur les pages sont classées par ordre de pertinence. Ce sont les algorithmes du moteur qui déterminent ce classement. Ces algorithmes utilisent différentes techniques.
1/ le tri par pertinence tient compte de :
- localisation du mot dans la page
- densité du mot, c'est-à-dire le nombre d’occurrence dans la page par rapport à l’ensemble des mots.
- la mise en relief du mot (gras, balise Hn, lien..)
- le poids du mot dans l’ensemble de la base de données du moteur, ce qui signifie qu’un mot rare est plus favorisé.
- correspondance basée sur la similarité (notamment pour les requêtes contenant plusieurs mots clés).
- relation de proximité entre les termes de la requête et les termes utilisés dans le document (par exemple les mots de la même famille).
2/ le tri par popularité tient compte du Page Rank :
C’est le nombre et la qualité des liens pointant vers le site qui sont analysés par le moteur. Ainsi les liens venant des pages de sites populaires (ayant un Page Rank de 6 voir 7) pèseront plus lourds. Le classement sera donc meilleur dans la page de résultat.
3/ le tri par mesure d’audience :
Les pages sont triées en fonction du nombre et de la qualité des visites. Le moteur analyse le comportement de l’internaute, notamment le fait qu’il revienne sur la page de résultat et au bout de combien de temps.
4/ le tri par catégorie :
Le moteur propose un classement thématique dans des dossiers, à l’intérieur des dossiers un tri par pertinence est effectué.
A noter : les algorithme de tri de résultat sont ajusté en permanence afin de contrer les techniques de spam visant à tromper les robots comme par exemple la multiplication des mots clés dans les balises méta…
En conclusion la façon dont le site est conçu aura une incidence concernant sa visibilité sur les moteurs. Pour cela il faut optimiser à la source les pages du site.