Les outils de la recherche d'informations sur le web

 

Les annuaires de recherche

Introduction

Historiquement, les annuaires sont les plus anciens des outils de recherche.

Un annuaire est un outil de recherche qui recense des sites web. L'annuaire est constitué de rubriques (appelées aussi catégories), elles mêmes subdivisées en sous-rubriques...

Chacune des dernières sous-rubriques comprend une liste de sites Web.

Exemple http://www.dmoz.org/

Exemple : la page d'accueil de l'annuaire Open Directory

 

Construction

La construction d'un annuaire est effectuée manuellement par la société qui gère l'annuaire : les sites web sont soumis par leurs éditeurs. L'annuaire est libre de prendre ou de refuser un site.

Une condition d'efficacité de l'annuaire est bien sûr sa taille, c'est-à-dire le nombre de sites référencés dans son index.

 

Utilisation

Un annuaire s'utilise de deux manières :

·         soit par la consultation des catégories (navigation de rubriques en sous-rubriques jusqu'aux sites),

·         soit par recherche à l'aide de mots-clés.

Avantages :

·         la navigation est simple et constitue un guidage très efficace,

·         les sites ont été sélectionnés ; ils sont donc de bonne qualité et bien centrés sur le thème cherché.

Inconvénients :

L'annuaire étant construit manuellement, cela entraîne que :

·         la taille de l'annuaire est réduite et ne suit pas la croissance du Web,

·         il est difficile de tenir à jour un annuaire (nouveaux sites, sites disparus, etc.),

·         les sujets très spécifiques et très pointus sont difficiles à localiser.

Ainsi un annuaire fournit des résultats pertinents mais peu nombreux.

Vous ne faites pas vos recherches dans le texte intégral du site web retenu par l'annuaire, mais dans des champs ayant permis de caractériser le site :

son titre, son adresse (url), sa description (faite par son éditeur), les catégories dans lesquelles il est rangé.

Perspectives

Le modèle de construction d'un annuaire repose sur un travail réalisé par des humains. Actuellement, ce modèle à tendance à disparaître. Les internautes utilisent peu les annuaires parce qu'ils ne les connaissent pas, or ceux-ci sont chers à maintenir. Seuls les annuaires spécialisés demeurent donc en activité et en évolution croissante.

Les annuaires spécialisés collectent des sites correspondant à une ou des thématiques particulières. Certains permettent d'accéder également à des ressources du web invisible.

Parmi les annuaires spécialisés :

·         Bonweb, guide des meilleurs sites

·         BrainTrack, guide d'universités dans le monde

·         CISMef, catalogue de ressources pour les professionnels de santé francophones

·         GeoGuide, sciences de la terre et géographie

·         Historyguide, histoire

·         Infomine, ressources pour chercheurs

·         Intute, ressources pour le monde scolaire et universitaire

·         Le Meilleur du Web, industrie

·         MathGuide, mathématiques

·         MedExplorer, pharmacie (US)

·         SciSeek, sciences

·         Signets de la BNF, sélection de ressources accessibles sur Internet, commentée par la Bibliothèque Nationale de France

·         The WWW Virtual Library, catalogue de liens scientifiques

 

Exercice :

Effectuer sur  http://www.dmoz.org/  les recherches suivantes :

1.       La recherche par navigation

2.        La recherche simple par mots-clés

3.        La recherche avancée par mots-clés


 

Les moteurs de recherche

Introduction

Les moteurs de recherche sont les outils d'accès au web les plus utilisés.

Le moteur de recherche fonctionne sur un système radicalement différent de celui de l'annuaire.

Des robots logiciels (appelés crawlers ou spiders ou bots) parcourent le Web de lien en lien et indexent automatiquement les documents trouvés, permettant ainsi une recherche par mots-clés.

Les index des moteurs de recherche mondiaux indexent plusieurs milliards de pages web.

Utilisation

Les recherches dans un moteur se font à l'aide de mots-clés. Ceux-ci peuvent être nombreux et combinés à l'aide des opérateurs booléens.

Les moteurs de recherche proposent la possibilité d'effectuer des recherches simples et avancées. Ces dernières offrent d'importantes possibilités pour paramétrer votre recherche.

Avantages

Inconvénients

Conseil : Aucun moteur de recherche ne donne accès à la totalité du Web. être familier avec deux ou trois moteurs vous permettra de faire des recherches pertinentes.

Les opérateurs booléens : « ET », « OU », « SAUF »

Le terme de « booléen » vient du mathématicien George Boole qui a travaillé sur la théorie des ensembles. La recherche dans les index des outils est fondée sur la théorie des ensembles. Un ensemble est le résultat d'une requête.

Il existe trois possibilités :

·         L'intersection marquée par le « ET » permet de trouver les termes communs aux ensembles visés.

Internet ET web. Les documents trouvés traiteront obligatoirement des deux sujets car ils comporteront les deux mots clés.

Le « ET » entre deux ou plusieurs mots clés permet de sélectionner une information spécifique par le croisement de deux ou plusieurs notions, en limitant le nombre de réponses.

·         La réunion marquée par le « OU » permet de trouver les mots clés cherchés appartenant aux deux ensembles visés, ou à l'un ou à l'autre.

Internet OU web. Cette requête permet de trouver tous les documents qui contiennent le mot « Internet », ainsi que tous ceux qui contiennent le mot « web », et tous ceux qui contiennent les deux.

Le « OU » permet d'obtenir des synonymes pour éviter le « silence », ou bien d'inclure plusieurs notions diverses dans la même recherche.

·         L'exclusion marquée par le « SAUF » qui permet d'interdire un mot clé et d'éliminer tous les documents que l'on ne souhaite pas obtenir.

Internet SAUF web Cette requête ramènera tous les documents qui contiennent le mot « Internet » mais pas les documents qui comportent le mot « web »

Si les mots-clés ne sont pas reliés par des opérateurs, la plupart des outils de recherche considèrent que, par défaut, les termes sont reliés par un « ET »

Chaque outil de recherche utilise sa propre syntaxe, il est conseillé de consulter l'aide proposée par l'outil de recherche.