Joomla Extensions Demo

Support

Do not submit a bug report if you need technical support or have questions.

Forums

Post your suggestions ask for help in the community forums

Contact Me

Missing images/links, any comments, suggestions, need help? Contact me

Skype

Need desperately help?
Skype Me™! But dont abuse of it!

La Recherche de Documents sur Internet.

 Ou l'art et la manière de rechercher et d'accéder aux bases
de données HTML, FTP et NEWSGROUPS avec des moteurs de recherche.
Introduction
Internet est sans aucun doute la plus fantastique base de donnée du monde voire n'ayons pas peur des mots, de notre univers. Naviguer ou surfer sur cet océan numérique de données passe par l'utilisation adéquate des moteurs de recherche.

Historique
Internet est un réseau à la base militaire (humour), dans les années 70, le gouvernement américain a senti le besoin de posséder un réseau informatique. Sa topologie (structure maillée) permet en cas de destruction d'un poste ou nœud de toujours permettre l'acheminement des données. Cette caractéristique est un avantage mais aussi un inconvénient pour nous : Les adresses Internet sont ésotériques à l'images des url (universal ressource locator = ad d'un service, d'un objet sur Internet) ex http://worldcom.ch/~jbricod/maintemp/whz087/index.htm et bien souvent dynamique.

Quelques précisions sur les adresses
En fait, une adresse, c'est aussi un numéro IP unique codé sur 32 bits et organisés en domaine (masqué par les serveurs DNS). Lors
1 adresse URL = nom@organisation.domaine
  • com désigne les entreprises commerciales,
  • edu désigne l'éducation,
  • gov désigne les organismes gouvernementaux,
  • mil désigne les organisations militaires,
  • net désigne les organismes fournisseurs d'Internet,
  • org désigne les autres organismes non référencés.
Ils sont aussi regroupés en pays :
nom@organisation.domaine sont des adresses dites FQDN (Fully Qualified Domain Name)
ex : This email address is being protected from spambots. You need JavaScript enabled to view it. est un français (fr), il travaille à l'Elysée et son nom est Chirac.
Les accents sont interdits car interprété différemment suivant les systèmes d'exploitations.
Les adresses IP

- Numéro de 32 bits, 4 nombres séparés par trois points.
- c'est un numéro unique ! ! !
Par ex, 292.203.245.63
- C'est un organisme le NIC (Network Information Center) qui fournit les premiers numéros appelés racine du numéro IP
- Une adresse FQDN passe dans un DNS locale au domaine qui la transforme en numéro IP.
Moteur de recherche
Un moteur de recherche n'est rien d'autre qu'un processus automatisé qui indexe des millions de pages HTML. Pour cela, il recopie l'adresse (url) et la description de la page contenu dans la section meta content, si elle existe, dans une base de donnée.
Exemple de fichier HTML avec une section complétée :
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
<META NAME="Author" CONTENT="Cedric WALTER">
<META NAME="GENERATOR" CONTENT="Mozilla/4.05 [en] (X11; I; Linux 2.0.18 i686) [Netscape]">
<TITLE>The non Official Meta Kernel home page</TITLE>
<META NAME="keywords" CONTENT="metakernel,hp48,MDG,kernel">

Voilà les mots qu'indexe le moteur de recherche.

<META NAME="description" CONTENT="The non Official Meta Kernel HOMEPAGE provide every tools you can find on internet to deal with this incredible and convenient tool developped by the MDG team.">

Et la description qui correspond au contenu du site.

</HEAD>
<BODY TEXT="#000000" BGCOLOR="#FFFFFF" LINK="#0000EF" VLINK="#51188E" ALINK="#FF0000" BACKGROUND="images/background.gif" NOSAVE>

Vous pouvez alors, interroger cette base de donnée à distance. Petit à petit, on à chercher à affiner la requête avec des mots clefs ou des caractères de contrôle car rechercher un document ne contenant qu'un mot fournirai trop de réponses. Les plus courants sont les suivants et se sont peu à peu imposés comme un standard :

+ ou AND : rechercher un document contenant l'association de 2 ou plusieurs mots. Ex: essaim+mulhouse équivalent à essaim and mulhouse
OR : le ou logique. Ex: essaim or ensitm.
( ) Parenthèses : ex : (essaim or ensitm) and mulhouse.
NOT : Non logique, négation. Ex: essaim + not ensitm (désolé).
NEAR : Opérateur de proximité, recherche dans un document l'association de 2 mots séparés de n mots en avant ou en arrière. (n=10 ou 20 en générale).
Ex : essaim near mulhouse.

La combinaison plus ou moins heureuse de ces opérateurs logiques permet d'éliminer beaucoup de documents sans intérêts. Néanmoins, il existe une règle absolue : les moteurs font la différence entre majuscules et minuscules, ainsi essaim est différent de ESSAIM (vous suivez). La convention suivante à été fixé : si des majuscules sont contenues dans une requête, alors seuls les documents contenant ces mots seront retournés.
ESSAIM - uniquement les documents avec le mot ESSAIM en majuscules.
Essaim - tous les documents contenant ce mot.
Les guillemets permettent de spécifier une trame de caractères :
"essaim : école supérieure des". Les moteurs de recherche sont nombreux et varié : certains sont spécialisés dans un domaine, d'autres sont plus généralistes, indexe plus ou moins de documents, sont bilingues....etc. Essayer de les recenser ou tous les utiliser est utopique. Il suffit d'en maîtriser deux ou trois pour trouver ce que l'on cherche. Il ne faut pas non plus se leurrer, car sans l'emploi de mots clefs anglais indispensables, point de salut. Il faut absolument acquérir le domaine sémantique de l'objet de votre recherche.
Pour ma part, j'utilise HOTBOT (www.hotbot.com) pour la pertinence de ses réponses et son pourcentage de corrélation sur les réponses. Grâce à lui, je n'ai jamais eu à visualiser plus de la première page pour trouver le document qui m'intéresse. Cela doit s'expliquer en partie par les options de formatage des réponses par défaut.
ALTAVISTA (www.altavista.com) est rapide et paramétrable (peu être un peu trop pour le novice), les réponses fournit sont déroutantes et affichées dans le désordre ( eh oui faut paramètrer). En conséquence, il faut savoir investir un peu de temps avant d'en apprécier sa puissance.
EXCITE ou ECILA ou YAHOO (www.excite.com, www.ecila.com et www.yahoo.com) font référence en majorité à des pages francophones, et si l'anglais n'est pas votre tasse de thé (sic), remettez-vous à leur service dans un premier temps. La tendance actuelle sur Internet est de proposer des services qui interroge à votre place les principaux moteurs de recherche, citons www.metacrawler.com et www.dogpile.com. Les réponses de chaque moteur sont retournées sur la même page mais les réponses sont peu nombreuses et à mon avis incomplètes. Pour vous faciliter la vie, j'ai concentré sur une même page, une trentaine de ces moteurs. L'intérêt est double : une seule adresse à connaître et un gain de rapidité. Pour trouver des documents, je vous conseille deux approches :

* Soyez généralistes dans votre demande puis affiner successivement la requête avec les opérateurs logiques.
* Attaquez franchement : formuler votre demande entre guillemets, mais il vous faudra beaucoup de chance ou d'expérience (vont-il vraiment de paire.).

Pour finir cette partie, je vais jouer à un petit questions réponses :
Pourquoi ne suis pas référencé lorsque je recherche ma page Internet ?
Il y a 2 cas : Soit le robot ne vous a pas encore trouvé (Altavista met 4 semaines pour faire le tour d'Internet) et dans ce cas, chaque page d'accueil des moteurs vous proposent de forcer cette indexation (ADD URL), soit vous n'avez pas rempli le champ content des documents HTML, il vous faut alors éditer chaque fichier et le compléter avec votre description (concise).
Je recherche une sélection de documents dans un domaine particulier ?
Yahoo offre ce service.
Je recherche une adresse e-mail ?
Désolé, il n'existe pas de normalisation au niveau mondial pour ce type de requête (essayer néanmoins www.four11.com). Seule les personnes ayant accédé au newsgroups ou s'étant références ont une e-mail accessible sous yahoo. Voici une astuce : si vous cherchez quelqu'un dans une école ou une organisation, essayer de trouver une page HTML ou un e-mail du même domaine et substituer le nom de la personne en observant la grammaire :
ex : This email address is being protected from spambots. You need JavaScript enabled to view it. (il est facile de compléter par un autre nom)
Les différences entre les moteurs:
+- généralistes ou spécialisés,
- Certains sont bilingues, (yahoo)
- Configurable
- Indexe plus ou moins de documents, (altavista, hotbot)
- Le temps de réponse, (altavista)
- La qualité des réponses, (hotbot)

      LA RECHERCHE DE FICHIERS

Cette fois ci, on recherche des fichiers, documents, jeux, sharewares...etc.
Le protocole de transfert de fichiers est le FTP (File Transfert Protocol) et sert donc à interconnecter deux machines distantes (généralement une distante et la votre, locale). L'outil change et se nomme FTP, CUTE-FTP, FTP VOYAGER... voire NETSCAPE ou IE (mais ce n'est pas leur fonction première). Sur Internet, on vous propose de télécharger un fichier, vous aller utiliser le FTP sans le savoir, vous le faites depuis longtemps et sans mon aide et pourtant essayer l'URL suivante : http://ftpsearch.ntnu.no/ftpsearch. C'est un moteur de recherche ftp néerlandais qui référence plus de 60 millions de fichiers. En FTP, aussi on cherche à minimiser la distance qui sépare les deux machines, alors si le débit n'est pas extraordinaire, pourquoi ne pas lancer un FTPSEARCH et charger le même fichier (même nom, même taille) sur un MIRROR allemand ou français ?

  • FTP (File Transfer Protocol) = échanger des fichiers sur Internet ou TCP/IP. Machine Locale <-> Machine Distante
  • En utilisant FTP, vous serez clients d'un modèle client/serveur et vous vous adresserez à un serveur de fichier par ftp.
  • Un compte + un mot de passe mais le compte anonymous+ un Email qq existe toujours.
  • Adresse du serveur du type:
    ftp.nom.domaine[chemin/[fichier]] si logiciels
    ftp://ftp.nom.domaine si browser
  • Logiciels: FTP, CUTE-FTP, FTP VOYAGER...voire NETSCAPE ou IE
  • En général sous la racine du site: README ou INDEX indiquent les fichiers disponibles, avec un commentaire sur chacun d'eux.
  • Si ça râme, allez sur un site miroir, c'est-à -dire un site contenant les mêmes informations, mais à une autre adresse.
    Essayer : http://ftpsearch.ntnu.no/ftpsearch ou www.filemirrors.com
  • Netiquette:
    Heures de transfert : (respecter les heures du pays ! !)
    Matin -> Usa
    Nuit -> France
    Le W-End tout est permis.
  • Les commandes en mode console:
    Ls : liste contenu disque distant.
    Lcd : local change directory
    Put , mput : envoyer 1/des fichier(s)
    Get , Mget : copier 1/des fichier(s)
    Prompt : mode interactif
    Binary.

       LES NEWSGROUPS ou forums de discussions.


C'est sans conteste l'outil le plus performant, imaginer 29000 thèmes de discussions dans le monde, ou se rencontre des chercheurs, passionnés et novices qui ne veulent que faire avancer le schmimblick dans un domaine. C'est l'endroit idéal pour récupérer une FAQ (Frequently Asked Questions), vous savez toutes ses questions quelque fois idiotes mais qui reviennent tout le temps. Encore une fois, nous devons subir la mauvaise réputation des forums ALT (comme alternatives) aux sujets extrêmes, c'est pour cette raison que l'université n'est pas abonnée. Cependant, si un domaine vous intéresse : synthèse, informatique, astronomie, le retour d'Elvis, la secte des bananes cuites au four... que sais-je. Vous pourrez rentrer en contact avec tous les acteurs d'un domaine particulier grâce au site MIRROR (ouf !) : News.emn.fr ou news.jussieu.ext.fr mais sans la possibilité d'apporter votre contribution, ce qui est dommage ( je cherche encore). Pour y accéder, sous NETSCAPE, ouvrer "collabra center" et "add news servers" avec le bouton droit puis "open discussion server". Abonnez-vous (subscribe) mais en pensant que s'abonner à un newsgroup, c'est recevoir à chaque connexion 200 mails ou plus par jour : attention à la saturation du disque.

Walter Cédric, Le Cobaye.
Â

Category: Tutoriels: comment cela marche

Les WebRings ou anneaux

 Ce concept vous permet de trouver tous les sites parlant d'un même domaine, de retrouver tous les pages de passionnés qui se sont référencés dans une communauté webring. On compte quelques milliers d'anneaux virtuels (en augmentation) qui traite de tous les domaines. Vous avez (lorsque vous en trouvez un) la possibilité de vous balader aléatoirement ou en sautant de site en site. La qualité reste disparate et n'est pas toujours au rendez-vous mais vous n'aurez aucun risque de manquer un site potentiellement intéressant. La recherche reste néanmoins fastidieuse.

une seule adresse pour créer des anneaux ou y accéder via un moteur de recherche : www.webring.org

Category: Tutoriels: comment cela marche

Les Links ou liens

 Je me devais de parler aussi de ce mode de recherche, même si il tombe sous le sens pour certains, cela ne peut être un automatisme pour d'autres : Pensez à visiter les pages de liens des documents que le moteur de recherche vous fournit. En effet, puisque que quelqu'un a déjà navigué, filtré et trié les sites pour vous, autant en profiter et gagner ainsi du temps.
Category: Tutoriels: comment cela marche

Les Mailings-List ou bulletin d´informations

Il s'agit de bulletins d'informations à parution plus ou moins régulière émis par des organismes ou des individus et dont le but est de fournir un ensemble de messages traitant d'un sujet particulier. Il en existe plusieurs centaines Francophones et quelques milliers américains. Certaines Mailings-List sont ultra confidentielles et regroupe quelques personnes voire aucunes tandis que d'autres possèdent des millions d'abonnés. Pour consulter ce type de sources, il faut vous abonner : envoyer un mail contenant le mot "subscribe" à l'adresse que vous trouverez et qui est du type :nom_du_robot@nom_domaine. C'est automatique et totalement gratuit. Pour mettre fin à l'abonnement, il suffit de recommencer avec cette fois-ci le mot "unsubscribe". Tous les jours, vous recevrez un nombre indéterminé de mails de la part du robot automatique.Les problèmes que pose ce mode de recherche sont surtout la véracité des informations et donc le crédits que vous pouvez y apporter d'une part, et la quantité astronomique de mail qui risquent de faire saturer votre boite aux lettres d'autres part.Pour créer votre propre mailing-list, et donc ainsi pouvoir bénéficier d'un moyen facile de contacter vos collaborateurs, clients, fournisseurs, anciens élèves, je vous recommande :www.sorengo.com/sorengo/direct gratuit sauf pour l'archivage de vos anciens messages 10fr/mois/Mo.www.poplist.net ou www.listz.com pour la recherche des précieuses adresses.Cela reste encore un mode de recherche aléatoire, car vous ne pourrez jamais deviner ce qui va être écris si vous ne participer pas, il faut donc être actif.

On trouvera (florilège) :

http://www./lmb.cnrs.fr/webdo.html Lmb actu 5000 abonnés, maintenus par une agence de presse pour le CNRS, c'est le 1 er bulletin d'information français sur les technologies Internet et sur la technologie en général. Il offre une bonne synthèsehttp://www.cru.fr/listes/sciences.html (nom de la liste : This email address is being protected from spambots. You need JavaScript enabled to view it. )StPress pour pratiquer la veille technologique au USA mais attention au niveau requis pour pouvoir séparer l'utile de l'inutile.humour:http://www.domus.tm.fr/blague/http://www.sorengo.com/sorengo/direct/ (nom la liste This email address is being protected from spambots. You need JavaScript enabled to view it. )

Read more: Les Mailings-List ou bulletin d´informations

Category: Tutoriels: comment cela marche

Les Boards ou forums Web

 Ce type de technologie est très à la mode sur le Net (mais qu'est ce qui ne l'est pas, me direz-vous ?). Cela ressemble à un newsgroup mais cela n'est géré que par une seule personne et le forum est localisé à une seule adresse : Pas de protocole NNTP donc mais un script CGI ou Java qui archive les messages, autorise le post et la gestion des messages. On en compte environ 10000 et ce chiffre ne cesse d'augmenter. On peut expliquer ce succès par le fait que des logiciels de gestion de Bord gratuit existent et par la simplicité de mise en place du système.
Category: Tutoriels: comment cela marche

Donations

Thank You for supporting my work
Subscribe to me on YouTube

Latest Articles

  • In this series of post I will outline some common techniques to help Joomla extensions development. As you know Jooml... ...
  • CedTag  has been updated to version 2.5.3 and correct a lot of bugs and contains some nice features. CedTag is t... ...
  • CedThumbnails has been updated to version 2.5.5 and contains 1 new features for both Joomla 1.7 and Joomla 2.5. For ex... ...
  • CedSmugmug  has been updated to version 2.5.2 and correct some bugs and contains some nice features. CedSmugmug&... ...
  • If you want an extra gigabyte of storage on your Dropbox account, the online cloud service invites you to compete in i... ...

Subscribe

Latest Comments

Popular Posts

rockettheme advertisement

dropbox logo

Help Us & Leave Feedback!

  • Do you have an excellent article idea you would like to read about here? Share it!
  • Do you have some interesting tips how we could improve our site?
  • Something missing here? Help us make this blog a better place, leave feedback!
We would love to hear from you! Be active! Write us now!