La panoplie du petit NetSearcher.

alain@netline.be

Des millions de pages Web disséminées dans le monde entier, une avalanche de bases de données, d'incompressibles sites FTP, des collections d'index en tout genre, Internet donne au néophyte l'impression d'un bric-à-brac hétéroclite. Pourtant, si ces données entassées pêle-mêle semblent inutilisables sous leur format brut, il existe toute une gamme d'outils spécialisés, très simples à installer et à utiliser, qui vont permettre de faire des tris et d'aller rechercher la moindre bribe d'information enfouie aux quatre coins du net. Internet serait-il carré?

Prenez le temps d'apprendre à utiliser ces couteaux suisses d'Internet. Ce sont eux qui vont vous permettre d'extraire l'information le plus finement possible et qui feront de vous un parfait data miner, un piocheur du Net capable en quelques mots-clefs bien choisi de mettre la main sur la critique du dernier Kusturica, des photos de Syd Barrett, le théâtre complet de Shakespeare ou encore la liste des sites Web où jouer au backgammon.

Archie

Archie est un outil extrêmement précieux pour rechercher non pas des informations, mais des archives. Grâce à ce petit programme (il en existe des versions DOS, Windows, Unix, OS/2...), vous serez à même de retrouver des programmes librement distribués sur Internet.

Pour télécharger un client archie, vous pouvez vous connecter sur le site ftp de l'université de l'Indiana (ftp.cica.indiana.edu) pour le monde windows ou sur le site d'archive ftp de hobbes (hobbes.nmsu.edu) si vous utilisez OS/2.

Il existe un grand nombre de serveurs archie dans le monde entier. Une fois le programme recherché localisé sur un de ces serveurs, votre client archie (le programme que vous devrez installer sur votre ordinateur) va lancer la procédure pour télécharger le fichier via File transfer protocol.

La plupart des clients archie disposent d'une liste de serveurs archie déjà intégrée. Vous pourrez l'utiliser pour faire des recherches sur des serveurs multiples car les serveurs ne sont pas tous mis à jour de la même façon avec les même listes de programmes.

Il existe même une procédure pour effectuer des requêtes à archie via le courrier électronique, mais bien entendu cette façon de procéder est beaucoup plus lente. Votre demande va en effet être placée dans une file d'attente avant d'être traitée et cela peut parfois prendre un certain temps. Néanmoins, si vous ne disposez que de ce moyen pour rechercher votre archive, adressez votre e-mail à archie@archie.rutgers.edu ou n'importe quel autre serveur archie en indiquant simplement help comme sujet. Ce message va générer en réponse un message d'aide à l'utilisation d'archie via e-mail.

Archie permet des recherches en indiquant le nom exact ou simplement une partie du nom du fichier recherché.

Si vous souhaitez localiser les différents programmes de recherche dont nous parlerons dans cet article afin de les installer sur votre ordinateur, archie vous rendra très volontiers ce petit service.

Quelques sites archie:

archie.belnet.be (Belgique)

archie.uqam.ca (Canada)

archie.doc.ic.ac.uk (Angleterre)

archie.internic.net (USA)

archie.unl.edu (USA)

Veronica

Veronica est un outil de recherche extrêmement simple à utiliser. Nettement plus en tout cas que de mémoriser le nom complet recouvert par cet acronyme: very easy rodent-oriented net-wide index of computerized archives!

veronica est un outil de recherche destiné aux servers gopher, un système extrêmement répandu sur Internet et dont le type d'interface se situe à mi-chemin entre les sites FTP et le WEB. On peut d'ailleurs considérer Gopher comme un précurseur de ce dernier, notamment en ce qui concerne son système de menus et d'icônes, beaucoup plus intuitif que les données brutes des sites FTP.

Veronica est l'outil capable de scanner le gopherspace à la recherche de mots-clefs ou de chaînes de caractères bien spécifiques. Son rayon d'action couvre plus de 99% des sites gopher existants. La recherche se fait sur le titre du document.

Pour accéder aux services offerts par veronica, il faut se connecter à un serveur gopher soit grâce à un programme spécifique (il en existe des dizaines sur Internet) soit grâce à Netscape ou Mosaic.

Essayez par exemple gopher.funet.fi, le serveur gopher de l'université d'Helsinki ou encore veronica.scs.unr.edu:70/11/veronica. Avec Netscape, la commande à utiliser est gopher://gopher.funet.fi.

Comment composer une requête à Veronica: lorsque le serveur vous propose la boîte de dialogue, il suffit d'y taper le ou les mots-clefs sur lesquels vous désirez faire une recherche. Le résultat de la recherche reprendra uniquement les documents dans lesquels se trouvent tous les mots-clefs introduits.

WAIS

WAIS est un système de recherche relativement peu populaire sur Internet mais pourtant extrêmement intéressant. A la différence d'autre systèmes de recherches basés sur des contributions universitaires ou publiques, WAIS a été créé constitué d'un consortium d'entreprises privées dans lequel figuraient notamment Apple et Dow Jones. La destinée de WAIS est actuellement aux mains d'une entreprise portant le même nom que le système: Wais inc.

En utilisant votre client WAIS, vous accédez à un site central qui va à son tour décentraliser la recherche vers une série de serveurs WAIS disséminés sur Internet pour rechercher vos informations.

Une particularité de WAIS est sa capacité de présenter les résultats des recherches en établissant des priorités. Les documents approchant le plus vos critères de recherche sont affichés en tête de liste. Ce système de tri, "in relevance order" dans le jargon des bases de données, est à présent également utilisé par certains outils scannant le World Wide Web.

Il existe des clients WAIS accessibles sur Internet, et notamment utilisables sous Windows. Mais si vous n'avez pas encore un tel programme, vous pouvez interroger WAIS en lançant la commande telnet quake.think.com avec comme nom de login "wais". Ce site n'est cependant pas accessible en permanence.

Un ftp sur ce même site de think.com vous permettra également de trouver les principaux clients WAIS pour Dos, Unix...

Des recherches peuvent également être faites avec Netscape. Un gateway entre le World Wide Web et WAIS existe à l'adresse http://server.wais.com/waisgate-announce.html

Les moteurs de recherches sur le Web.

Si les outils abordés précédemment restent indispensables pour des recherches approfondies, ceux qui sont le plus largement utilisés aujourd'hui sont les "search engines", les moteurs de recherche sur le World Wide Web.

Le nombre de sites Web accessibles est en croissance exponentielle et l'abondance d'information disponible est absolument confondante. Pourtant, l'utilisation d'un des nombreux outils de recherche spécialisés permet en un temps très minime (moins de quelques minutes et le plus souvent quelques dizaines de secondes à peine) de mettre le doigt sur une information dissimulée dans un recoin du grand maillage planétaire que constitue le web.

Yahoo!

La particularité de ces outils est qu'ils sont en réalités eux-mêmes des sites web sur lesquels il faut directement se connecter pour lancer sa recherche. Une fois connecté sur un tel site à l'aide d'un browser ou navigateur tel que Netscape, Mosaic ou WebExplorer, un formulaire de requête est proposé, dans lequel on introduit les mots-clefs ou les chaînes de caractères.

Parmi les sites les plus fréquentés, il faut citer Yahoo (http://www.yahoo.com), Lycos (http://www.lycos.com) ou encore Infoseek.

Lycos est en fait le nom scientifique d'une petite araignée, qui se balade sur la grande toile du Web.

Ces moteurs de recherche scannent de gigantesques bases de données et recherchent les pages web dont les titres (et un bref abstract) contiennent l'un ou l'autre des mots-clefs recherchés. Pour donner une idée précise de la fantastique efficacité d'une telle recherche, il faut savoir que la base de donnée de Lycos contient plus de 16 000 000 d'URL (Universal Resource Locator) soit les adresses de pages Web!

Plus puissant encore, moins avec des bases de données plus réduites, des sites tel WebCrawler (http://webcrawler.com) scannent non seulement les titres mais également dans une certaine mesure le corps du document.

Les formulaires supportent les requêtes complexes. Par exemple, il suffit d'entrer Venus & Mars dans la fenêtre du formulaire pour que la recherche se fasse sur les documents contenant à la fois le mot Venus et le mot Mars.

Lorsque la recherche est terminée, le résultat est présenté sous forme d'hyper-liens. Il suffit donc de cliquer sur ce lien pour joindre le site où l'information est stockée. Difficile de faire plus simple...

Voici quelques adresses supplémentaires de moteurs de recherche à placer dans vos bookmarks:

W3 (http://cuiwww.unige.ch) permet également des recherches dans des bases de données Usenet et WAIS)

DejaNews: (http://www.dejanews.com) Offre une recherche dans la base Usenet permettant à l'aide de scripts de choisir le newsgroup, la date ou l'auteur du message.

Excite: (http://www.excite.com) recherches sur l Web, sur les messages de Usenet de moins de deux semaines mais également sur des petites annonces classées!

AltaVista (http://www.altavista.digital.com) Un des sites les plus récents mais parmi les plus utiles: une recherche sur 16 000 000 de pages Web et 13000 newsgroups (plus de 8 milliards de mots au total...).

InfoMarket (http://www.infomkt.ibm.com) gratuit actuellement, mais destiné à devenir un service payant. Propose des recherches dans des bases de données plus inhabituelles, tel le CIA World Factbook, le McKinley Internet Directory, l'excellent OpenText et le magazine électronique Newsbyte. Ce site nécessite un enregistrement online préalable , mais celui-ci reste gratuit pour quelque temps encore.

Certains de ces outils de recherche tel InfoMarket permettent de présenter les résultats de recherche suivant une relevancy-ranked list (classement par priorité) suivant les critères de recherche, tel que le fait déjà WAIS.