Select Page

La Recherche de Documents sur Internet.

 Ou l'art et la manière de rechercher et d'accéder aux bases
de données HTML, FTP et NEWSGROUPS avec des moteurs de recherche.

Introduction
Internet est sans aucun doute la plus fantastique base de donnée du monde voire n'ayons pas peur des mots, de notre univers. Naviguer ou surfer sur cet océan numérique de données passe par l'utilisation adéquate des moteurs de recherche.

Historique
Internet est un réseau à la base militaire (humour), dans les années 70, le gouvernement américain a senti le besoin de posséder un réseau informatique. Sa topologie (structure maillée) permet en cas de destruction d'un poste ou nœud de toujours permettre l'acheminement des données. Cette caractéristique est un avantage mais aussi un inconvénient pour nous : Les adresses Internet sont ésotériques à l'images des url (universal ressource locator = ad d'un service, d'un objet sur Internet) ex http://worldcom.ch/~jbricod/maintemp/whz087/index.htm et bien souvent dynamique.

Quelques précisions sur les adresses
En fait, une adresse, c'est aussi un numéro IP unique codé sur 32 bits et organisés en domaine (masqué par les serveurs DNS). Lors
1 adresse URL = [email protected]
  • com désigne les entreprises commerciales,
  • edu désigne l'éducation,
  • gov désigne les organismes gouvernementaux,
  • mil désigne les organisations militaires,
  • net désigne les organismes fournisseurs d'Internet,
  • org désigne les autres organismes non référencés.
Ils sont aussi regroupés en pays :
[email protected] sont des adresses dites FQDN (Fully Qualified Domain Name)
ex : [email protected] est un français (fr), il travaille à l'Elysée et son nom est Chirac.
Les accents sont interdits car interprété différemment suivant les systèmes d'exploitations.
Les adresses IP

РNum̩ro de 32 bits, 4 nombres s̩par̩s par trois points.
Рc'est un num̩ro unique ! ! !
Par ex, 292.203.245.63
РC'est un organisme le NIC (Network Information Center) qui fournit les premiers num̩ros appel̩s racine du num̩ro IP
РUne adresse FQDN passe dans un DNS locale au domaine qui la transforme en num̩ro IP.

Moteur de recherche
Un moteur de recherche n'est rien d'autre qu'un processus automatisé qui indexe des millions de pages HTML. Pour cela, il recopie l'adresse (url) et la description de la page contenu dans la section meta content, si elle existe, dans une base de donnée.
Exemple de fichier HTML avec une section complétée :
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
<META NAME="Author" CONTENT="Cedric WALTER">
<META NAME="GENERATOR" CONTENT="Mozilla/4.05 [en] (X11; I; #Linux 2.0.18 i686) [Netscape]">
<TITLE>The non Official Meta Kernel home page</TITLE>
<META NAME="keywords" CONTENT="metakernel,hp48,MDG,kernel">

Voilà les mots qu'indexe le moteur de recherche.

<META NAME="description" CONTENT="The non Official Meta Kernel HOMEPAGE provide every tools you can find on internet to deal with this incredible and convenient tool developped by the MDG team.">

Et la description qui correspond au contenu du site.

</HEAD>
<BODY TEXT="#000000" BGCOLOR="#FFFFFF" LINK="#0000EF" VLINK="#51188E" ALINK="#FF0000" BACKGROUND="images/background.gif" NOSAVE>

Vous pouvez alors, interroger cette base de donnée à distance. Petit à petit, on à chercher à affiner la requête avec des mots clefs ou des caractères de contrôle car rechercher un document ne contenant qu'un mot fournirai trop de réponses. Les plus courants sont les suivants et se sont peu à peu imposés comme un standard :

+ ou AND : rechercher un document contenant l'association de 2 ou plusieurs mots. Ex: essaim+mulhouse équivalent à essaim and mulhouse
OR : le ou logique. Ex: essaim or ensitm.
( ) Parenthèses : ex : (essaim or ensitm) and mulhouse.
NOT : Non logique, négation. Ex: essaim + not ensitm (désolé).
NEAR : Opérateur de proximité, recherche dans un document l'association de 2 mots séparés de n mots en avant ou en arrière. (n=10 ou 20 en générale).
Ex : essaim near mulhouse.

La combinaison plus ou moins heureuse de ces opérateurs logiques permet d'éliminer beaucoup de documents sans intérêts. Néanmoins, il existe une règle absolue : les moteurs font la différence entre majuscules et minuscules, ainsi essaim est différent de ESSAIM (vous suivez). La convention suivante à été fixé : si des majuscules sont contenues dans une requête, alors seuls les documents contenant ces mots seront retournés.
ESSAIM – uniquement les documents avec le mot ESSAIM en majuscules.
Essaim – tous les documents contenant ce mot.
Les guillemets permettent de spécifier une trame de caractères :
"essaim : école supérieure des". Les moteurs de recherche sont nombreux et varié : certains sont spécialisés dans un domaine, d'autres sont plus généralistes, indexe plus ou moins de documents, sont bilingues….etc. Essayer de les recenser ou tous les utiliser est utopique. Il suffit d'en maîtriser deux ou trois pour trouver ce que l'on cherche. Il ne faut pas non plus se leurrer, car sans l'emploi de mots clefs anglais indispensables, point de salut. Il faut absolument acquérir le domaine sémantique de l'objet de votre recherche.
Pour ma part, j'utilise HOTBOT (www.hotbot.com) pour la pertinence de ses réponses et son pourcentage de corrélation sur les réponses. Grâce à lui, je n'ai jamais eu à visualiser plus de la première page pour trouver le document qui m'intéresse. Cela doit s'expliquer en partie par les options de formatage des réponses par défaut.
ALTAVISTA (www.altavista.com) est rapide et paramétrable (peu être un peu trop pour le novice), les réponses fournit sont déroutantes et affichées dans le désordre ( eh oui faut paramètrer). En conséquence, il faut savoir investir un peu de temps avant d'en apprécier sa puissance.
EXCITE ou ECILA ou YAHOO (www.excite.com, www.ecila.com et www.yahoo.com) font référence en majorité à des pages francophones, et si l'anglais n'est pas votre tasse de thé (sic), remettez-vous à leur service dans un premier temps. La tendance actuelle sur Internet est de proposer des services qui interroge à votre place les principaux moteurs de recherche, citons www.metacrawler.com et www.dogpile.com. Les réponses de chaque moteur sont retournées sur la même page mais les réponses sont peu nombreuses et à mon avis incomplètes. Pour vous faciliter la vie, j'ai concentré sur une même page, une trentaine de ces moteurs. L'intérêt est double : une seule adresse à connaître et un gain de rapidité. Pour trouver des documents, je vous conseille deux approches :

* Soyez généralistes dans votre demande puis affiner successivement la requête avec les opérateurs logiques.
* Attaquez franchement : formuler votre demande entre guillemets, mais il vous faudra beaucoup de chance ou d'expérience (vont-il vraiment de paire.).

Pour finir cette partie, je vais jouer à un petit questions réponses :
Pourquoi ne suis pas référencé lorsque je recherche ma page Internet ?
Il y a 2 cas : Soit le robot ne vous a pas encore trouvé (Altavista met 4 semaines pour faire le tour d'Internet) et dans ce cas, chaque page d'accueil des moteurs vous proposent de forcer cette indexation (ADD URL), soit vous n'avez pas rempli le champ content des documents HTML, il vous faut alors éditer chaque fichier et le compléter avec votre description (concise).
Je recherche une sélection de documents dans un domaine particulier ?
Yahoo offre ce service.
Je recherche une adresse e-mail ?
Désolé, il n'existe pas de normalisation au niveau mondial pour ce type de requête (essayer néanmoins www.four11.com). Seule les personnes ayant accédé au newsgroups ou s'étant références ont une e-mail accessible sous yahoo. Voici une astuce : si vous cherchez quelqu'un dans une école ou une organisation, essayer de trouver une page HTML ou un e-mail du même domaine et substituer le nom de la personne en observant la grammaire :
ex : [email protected] (il est facile de compléter par un autre nom)
Les différences entre les moteurs:
+- généralistes ou spécialisés,
– Certains sont bilingues, (yahoo)
– Configurable
– Indexe plus ou moins de documents, (altavista, hotbot)
РLe temps de r̩ponse, (altavista)
РLa qualit̩ des r̩ponses, (hotbot)

      LA RECHERCHE DE FICHIERS

Cette fois ci, on recherche des fichiers, documents, jeux, sharewares…etc.
Le protocole de transfert de fichiers est le FTP (File Transfert Protocol) et sert donc à interconnecter deux machines distantes (généralement une distante et la votre, locale). L'outil change et se nomme FTP, CUTE-FTP, FTP VOYAGER… voire NETSCAPE ou IE (mais ce n'est pas leur fonction première). Sur Internet, on vous propose de télécharger un fichier, vous aller utiliser le FTP sans le savoir, vous le faites depuis longtemps et sans mon aide et pourtant essayer l'URL suivante : http://ftpsearch.ntnu.no/ftpsearch. C'est un moteur de recherche ftp néerlandais qui référence plus de 60 millions de fichiers. En FTP, aussi on cherche à minimiser la distance qui sépare les deux machines, alors si le débit n'est pas extraordinaire, pourquoi ne pas lancer un FTPSEARCH et charger le même fichier (même nom, même taille) sur un MIRROR allemand ou français ?

  • FTP (File Transfer Protocol) = échanger des fichiers sur Internet ou TCP/IP. Machine Locale <-> Machine Distante
  • En utilisant FTP, vous serez clients d'un modèle client/serveur et vous vous adresserez à un serveur de fichier par ftp.
  • Un compte + un mot de passe mais le compte anonymous+ un Email qq existe toujours.
  • Adresse du serveur du type:
    ftp.nom.domaine[chemin/[fichier]] si logiciels
    ftp://ftp.nom.domaine si browser
  • Logiciels: FTP, CUTE-FTP, FTP VOYAGER…voire NETSCAPE ou IE
  • En général sous la racine du site: README ou INDEX indiquent les fichiers disponibles, avec un commentaire sur chacun d'eux.
  • Si ça râme, allez sur un site miroir, c'est-à -dire un site contenant les mêmes informations, mais à une autre adresse.
    Essayer : http://ftpsearch.ntnu.no/ftpsearch ou www.filemirrors.com
  • Netiquette:
    Heures de transfert : (respecter les heures du pays ! !)
    Matin -> Usa
    Nuit -> France
    Le W-End tout est permis.
  • Les commandes en mode console:
    Ls : liste contenu disque distant.
    Lcd : local change directory
    Put , mput : envoyer 1/des fichier(s)
    Get , Mget : copier 1/des fichier(s)
    Prompt : mode interactif
    Binary.

       LES NEWSGROUPS ou forums de discussions.

C'est sans conteste l'outil le plus performant, imaginer 29000 thèmes de discussions dans le monde, ou se rencontre des chercheurs, passionnés et novices qui ne veulent que faire avancer le schmimblick dans un domaine. C'est l'endroit idéal pour récupérer une FAQ (Frequently Asked Questions), vous savez toutes ses questions quelque fois idiotes mais qui reviennent tout le temps. Encore une fois, nous devons subir la mauvaise réputation des forums ALT (comme alternatives) aux sujets extrêmes, c'est pour cette raison que l'université n'est pas abonnée. Cependant, si un domaine vous intéresse : synthèse, informatique, astronomie, le retour d'Elvis, la secte des bananes cuites au four… que sais-je. Vous pourrez rentrer en contact avec tous les acteurs d'un domaine particulier grâce au site MIRROR (ouf !) : News.emn.fr ou news.jussieu.ext.fr mais sans la possibilité d'apporter votre contribution, ce qui est dommage ( je cherche encore). Pour y accéder, sous NETSCAPE, ouvrer "collabra center" et "add news servers" avec le bouton droit puis "open discussion server". Abonnez-vous (subscribe) mais en pensant que s'abonner à un newsgroup, c'est recevoir à chaque connexion 200 mails ou plus par jour : attention à la saturation du disque.

Walter Cédric, Le Cobaye.
Â

About The Author

I worked with various Insurances companies across Switzerland on online applications handling billion premium volumes. I love to continuously spark my creativity in many different and challenging open-source projects fueled by my great passion for innovation and blockchain technology.In my technical role as a senior software engineer and Blockchain consultant, I help to define and implement innovative solutions in the scope of both blockchain and traditional products, solutions, and services. I can support the full spectrum of software development activities, starting from analyzing ideas and business cases and up to the production deployment of the solutions.I'm the Founder and CEO of Disruptr GmbH.

Categories