Les ArticlesLes BrèvesDossiersArchivesPage d'accueilHistoire des SciencesAide de coursScience en culture
Bord GaucheAnnoncesForumMailing ListContactVie PratiqueBoutiqueBord Bas GaucheBord Bas CentreBord Droit

 

 

12 juillet 1999

Informatique


La Science au coeur du Net

Quelle est la place de l'information scientifique sur Internet et comment y est-elle référencer ?… Etat des lieux d'un réseau au gigantisme et à la complexité croissante.

 

L’information scientifique sur le Web

Il est facile de nos jours de développer une page web. Mais quelle est la pertinence de son contenu et son accessibilité ? C’est à cette question que deux chercheurs américains de la NEC Research Institute (Etats-Unis) ont tenté de répondre. Leur travail a révélé que l'égalité de traitement sur Internet n'existe pas. Les moteurs de recherche ont tous leurs "favoris", y compris pour la diffusion de l'information scientifique, largement représentée.

Dans un premier temps, Steve Lawrence et C. Lee Giles ont choisi d'évaluer la quantité d'information disponible sur la toile. Pour cela, ils ont généré aléatoirement des adresses IP* (soit 2564 possibilités) et ont testé leur validité. Sur les 3,6 millions d'IPs examinées, les scientifiques ont mis en évidence en moyenne une réponse valide toutes les 269 requêtes. Ce qui conduit à une approximation de 16 millions de serveurs web. "Cette démarche a été possible parce qu'Internet fonctionne encore sous le protocole standard IP, remarque Bernard Lang, Directeur de recherche à l’Institut national de recherche en informatique et en automatique (Rocquencourt, France). Avec le protocole IPv6, en cours de développement, ils se seraient heurtés à un nombre de combinaisons trop élevé pour un travail humain".

A ce stade, il a cependant fallu vérifier l'exactitude des résultats ; beaucoup de sites ne disposent en effet que d’une simple page en construction ou sont protégés par un mot de passe. Un classement manuel a ainsi permis de ramener à 2,8 millions le nombre de sites visibles en février 1999, contenant chacun en moyenne 289 pages HTML ; l'équivalent d'environ 800 millions de documents.

IllustrationSteve Lawrence et C. Lee Giles ont alors classer ces sites en différentes catégories (voir figure). La science et l'éducation restent particulièrement bien représentées avec un total de 6% des documents, juste derrière les "indétrônables" 83 % de pages à caractère commercial, mais tout de même loin devant la pornographie ! " Il faut dire que cela fait partie intégrante du travail du scientifique que de diffuser et de promouvoir l’information, rappelle Bernard Lang. Il aurait été déconcertant de trouver un autre résultat".

Une fois estimées la quantité et la qualité de l’information, les chercheurs se sont attachés à analyser l’indexation des documents dans les grands moteurs de recherche comme AltaVista, Lycos, HotBot ou Yahoo... Et là, les résultats laissent rêveurs : non seulement ces "géants" ne répertorient qu’une fraction du web - jamais plus de 16% des ressources d'Internet - mais ils ont également tendance à favoriser des sites bien ciblés. Qui ne sont donc pas tous égaux devant l'internaute ! "Pour le scientifique, cela n'a pas cependant pas de réels répercussions, remarque Bernard Lang. Les chercheurs travaillent en effet avec quelques sites bien connus, d’autant mieux identifiés que leurs domaines d’études sont pointus". Et il est vrai qu’on ne peut demander à un moteur de recherche de tout répertorier, aussi bien pour des questions de bande passante que de gestion de la masse d’information. Par ailleurs, l’étude américaine a laissé de côté les pages HTML dynamiques faisant appel à des bases de données que les sites scientifiques ont de plus en plus tendance à intégrer pour des facilités d'archivage et de gestion. "Cette étude amène surtout à penser que c’est au niveau du travail de documentaliste que le changement va être considérable, analyse Bernard Lang. Il est fini le temps des rayonnages de livres… Ce sera désormais une ou plusieurs bases de données que le documentaliste aura à manipuler pour trouver les informations recherchées".

Les autres articles :

Nature
Chimpanzés : une autre culture ?

Espace
Perdues dans l'espace

Homme
Aztèques et Mayas, experts en latex

Maths
Les fullérènes 3D gardent la forme

Social
Quelle santé au XXIe siècle ?

Techno:
La Science au coeur du Net

Terre
La xénotime, une horloge minérale

Vie
La chouette se fait des illusions

 

 

Notes :

Internet Protocol se présentant sous la forme d'une série de 3 chiffres (xxx.xxx.xxx.xxx) ; il constitue l'adresse exacte d'un serveur.

 

Annabelle Mitron

Nature, Vol. 400, pp.107-109