12 juillet 1999 Informatique Quelle est la place de l'information scientifique sur Internet et comment y est-elle référencer ?… Etat des lieux d'un réseau au gigantisme et à la complexité croissante.
|
|||
Dans un premier temps, Steve Lawrence et C. Lee Giles ont choisi
d'évaluer la quantité d'information disponible sur la toile. Pour cela, ils ont
généré aléatoirement des adresses IP* (soit 2564 possibilités) et ont
testé leur validité. Sur les 3,6 millions d'IPs examinées, les scientifiques ont mis en
évidence en moyenne une réponse valide toutes les 269 requêtes. Ce qui conduit à une
approximation de 16 millions de serveurs web. "Cette démarche a été possible
parce qu'Internet fonctionne encore sous le protocole standard IP, remarque Bernard
Lang, Directeur de recherche à lInstitut national de recherche en informatique et
en automatique (Rocquencourt, France). Avec le protocole IPv6, en cours de
développement, ils se seraient heurtés à un nombre de combinaisons trop élevé pour un
travail humain". A ce stade, il a cependant fallu vérifier l'exactitude des
résultats ; beaucoup de sites ne disposent en effet que dune simple page en
construction ou sont protégés par un mot de passe. Un classement manuel a ainsi permis
de ramener à 2,8 millions le nombre de sites visibles en février 1999, contenant chacun
en moyenne 289 pages HTML ; l'équivalent d'environ 800 millions de documents. Une fois estimées la quantité et la qualité de linformation,
les chercheurs se sont attachés à analyser lindexation des documents dans les
grands moteurs de recherche comme AltaVista, Lycos, HotBot ou Yahoo... Et là, les
résultats laissent rêveurs : non seulement ces "géants" ne répertorient
quune fraction du web - jamais plus de 16% des ressources
d'Internet - mais ils ont également tendance à favoriser des
sites bien ciblés. Qui ne sont donc pas tous égaux devant l'internaute ! "Pour
le scientifique, cela n'a pas cependant pas de réels répercussions, remarque Bernard
Lang. Les chercheurs travaillent en effet avec quelques sites bien connus,
dautant mieux identifiés que leurs domaines détudes sont pointus".
Et il est vrai quon ne peut demander à un moteur de recherche de tout répertorier,
aussi bien pour des questions de bande passante que de gestion de la masse
dinformation. Par ailleurs, létude américaine a laissé de côté les pages
HTML dynamiques faisant appel à des bases de données que les sites scientifiques ont de
plus en plus tendance à intégrer pour des facilités d'archivage et de gestion. "Cette
étude amène surtout à penser que cest au niveau du travail de documentaliste que
le changement va être considérable, analyse Bernard Lang. Il est fini le temps
des rayonnages de livres
Ce sera désormais une ou plusieurs bases de données que
le documentaliste aura à manipuler pour trouver les informations recherchées". |
Les autres
articles :
Notes : Internet Protocol se présentant sous la forme d'une série de 3 chiffres (xxx.xxx.xxx.xxx) ; il constitue l'adresse exacte d'un serveur. |
||
|
Annabelle Mitron |
|||
| Nature, Vol. 400, pp.107-109 |