Archives mensuelles : juin 2006

Les moteurs de recherche en Sciences humaines et sociales (2)

La situa­tion des moteurs de recherche en sciences humaines et sociales en France est simple, puisqu’elle se résume à deux initiatives.

Mis­ter est un moteur de recherche de l’Institut natio­nal de l’information scien­ti­fique et tech­nique (INIST). Il semble prendre la suite du moteur de l’UREC qui a fermé ses portes, lui aussi. La spé­ci­fi­cité de ce moteur était d’indexer sur­tout les sites ins­ti­tu­tion­nels, au détri­ment de cer­tains sites à fort conte­nus mais moins clai­re­ment rat­ta­chés à une ins­ti­tu­tion fran­çaise. Mis­ter est plus per­ti­nent, mais il ne semble pas avoir fait de choix dis­ci­pli­naire ni être très réac­tif [27]. Mes dif­fé­rentes démarches auprès de ce moteur sont res­tées lettre morte. Mais je ne jet­te­rai pas la pierre, car je sais trop le tra­vail que repré­sente la cor­res­pon­dance ali­men­tée par un tel pro­jet ! Sans doute cette situa­tion évoluera-​t-​elle prochainement.

L’autre ini­tia­tive fran­çaise s’appelle In​-extenso​.org. Depuis 2002, ce moteur de recherche était expé­ri­men­tal. Il a per­mis à Revues​.org d’accumuler une expé­rience impor­tante dans ce domaine, notam­ment en ce qui concerne la sélec­tion des sites, le réglage des cur­seurs du moteur, l’élimination du bruit, les per­for­mances du ser­veur, etc. Depuis le 30 juin 2006, le moteur est désor­mais en ver­sion beta. Il est confor­ta­ble­ment ins­tallé dans un splen­dide centre de cal­cul grâce à l’hospitalité du CCSD. Alors qu’en 2002 il avait fallu écrire des rou­tines de conver­sion des méta­don­nées, en rai­son de l’extraordinaire diver­sité des situa­tions, en 2006, il a été pos­sible de pro­cé­der autre­ment. En effet, plu­sieurs por­tails pro­posent désor­mais des dépôts OAI (pour Open archives ini­tia­tive), qui sont en géné­ral par­fai­te­ment struc­tu­rés et per­mettent de dis­tin­guer les méta­don­nées entre elles (titre, auteur, résumé, etc.). Cela donne, du coup, un « étage OAI » qui n’indexe pas le texte inté­gral, mais les méta­don­nées de 119 834 docu­ments scien­ti­fiques. Il est ainsi pos­sible de mener des recherches spé­cia­li­sées sur 19 dépôts repérés.

1– Archi­ve­SIC (679 records)

2– Biblio­thèque natio­nale de France (36401 records)

3– Cairn (4985 records)

4– Cana­dian Bul­le­tin of Medi­cal His­tory /​Bul­le­tin cana­dien d’histoire de la méde­cine (616 records)

5– Cog­ni­tive Sciences Eprints Archive (2623 records)

6– Ecole natio­nale des chartes (256 records)

7– ENS LSH (109 records)

8– Hal SHS (9237 records)

9– http://​dlc​.dlib​.indiana​.edu/ (1199 records)

10– http://​eprints​.vf​.ba​.dlr​.de/ (132 records)

11– Jean Nicod (434 records)

12– Lyon 2 (38 records)

13– Mém­SIC : Mémoires en Sciences de l’Information et de la Com­mu­ni­ca­tion (85 records)

14– Per­sée (46114 records)

15– Psy­co­lo­quy (ISSN 1055 – 0143) (720 records)

16– Revues​.org (15380 records)

17– Uni­ver­sité de Reims (49 records)

18– Uni­ver­sité Paris X (16 records)

19– Uni­ver­site Lyon 2 — Cyber­theses (761 records)

Si vous connais­sez d’autres dépôts, n’hésitez pas à les signaler.

Bien entendu, ces dépôts ne résument en aucun cas le web SHS. C’est la rai­son pour laquelle nous avons ajouté un « étage web » à ce moteur. Cet étage s’appuie sur les 2300 sites indexés dans l’Album des sciences sociales… et indexe du coup 1.500.000 pages web. Il s’agit de sites de labo­ra­toires, de publi­ca­tions, de musées, de sites de cher­cheurs, etc. On peut espé­rer que cette sélec­tion ser­rée per­mette à un étudiant de lan­cer une recherche sur l’avortement ou sur Jeanne d’Arc sans tom­ber sur les ligues anti-​avortement ou sur les cor­vettes por­tant le nom d’une pucelle d’Orléans… Bref, un peu moins de docu­ments, un peu plus de sélec­tion, un peu moins de bruit, un peu plus de qua­lité que les monstres géné­ra­listes, dont l’utilité est cer­taine, mais qui ne par­viennent pas à cou­vrir les besoins d’un scien­ti­fique ou d’un curieux exi­geant. Un moteur spé­cia­lisé, de ceux dont on peut espé­rer la mul­ti­pli­ca­tion à l’avenir. Un moteur en deve­nir, sur­tout, qui attend votre contri­bu­tion. En effet, nous avons ouvert la rédac­tion de l’Album à des coopé­ra­tions exté­rieures, et nous annon­ce­rons bien­tôt la consti­tu­tion d’une équipe élar­gie, concen­trée sur l’alimentation d’un réper­toire prin­ci­pal et de mul­tiples sous-​répertoires, qui, tous, ali­mentent In​-extenso​.org

Ce type de tra­vail est à la fois édito­rial et docu­men­taire, il impose de prendre en compte la qua­lité intrin­sèque du site, sa qua­lité tech­niques et les risques de bruit à l’indexation. N’hésitez pas à nous signa­ler des résul­tats du moteur de recherche qui com­portent des docu­ments inadap­tés à l’ambition scien­ti­fique qui l’anime. La période est pro­pice aux réglages, aux ajus­te­ments et, tout sim­ple­ment, à l’apprentissage d’un nou­veau métier. Lorsque nous pre­nons en compte votre pro­po­si­tion de modi­fi­ca­tion du cor­pus, il faut 7 à 10 jours de délai pour que le moteur les prenne en compte. Lorsqu’on mani­pule de tels index, il faut savoir prendre son temps, accep­ter un petit peu de bruit dans les résul­tats et, sans cesse, remettre son ouvrage sur l’établi.

Les moteurs de recherche en Sciences humaines et sociales (1)


Brazil
Les cher­cheurs du CNRS, grâce à BiblioSHS, ont accès à de gigan­tesques bases de don­nées scien­ti­fiques, essen­tiel­le­ment en langue anglaise. Les cher­cheurs d’établissements d’enseignement et de recherche peuvent pro­fi­ter d’accès ache­tés pour les étudiants et les cher­cheurs. Par exemple, Jstor, est pro­posé par l’Ecole des hautes études en sciences sociales. L’Université Paris 7 pro­pose de nom­breuses res­sources [26]. L’ENS-LSH pro­pose notam­ment l’accès à JSTOR et à PIO-​chadwyck. Par­fois, ces accès ne sont dis­po­nibles qu’à l’intérieur du cam­pus. Les cher­cheurs com­met­tant l’erreur de tra­vailler en biblio­thèque ou chez eux devront se débrouiller.

Si l’on n’appartient pas à une ins­ti­tu­tion de ce type, il faut faire avec les moyens du bord, ou se tour­ner vers le web. De fait, si l’on cherche sur Inter­net des infor­ma­tions au sujet de Jeanne d’Arc, on n’aura pas de mal à trou­ver des sites non scien­ti­fiques sur le sujet, qui dis­posent de la même per­ti­nence, du point de vue de Google, que des articles scien­ti­fiques. Sur la ques­tion de l’avortement, des reli­gions ou du ter­ro­risme, on devine que la réseau four­mille de docu­ments de sta­tut très divers et qu’aucun moteur géné­ra­liste ne va dis­tin­guer les docu­ments scien­ti­fiques des des docu­ments poli­tiques, acti­vistes ou tout sim­ple­ment mani­pu­la­teurs. On com­prend, dès lors, l’importance des moteurs de recherche dédiés à des cor­pus scien­ti­fiques. Or, dans ce domaine, le pay­sage est confus.

On a d’abord constaté la dis­pa­ri­tion pro­gres­sive de presque toutes les ini­tia­tives de consti­tu­tion de moteurs de recherche scien­ti­fiques. En Sciences humaines, c’est Argos qui, je crois, fait figure de pion­nier. Lancé en 1996, ce moteur indexait les sites concer­nant l’Antiquité et le Moyen-​Age. Mais il a dû fer­mer ses portes en 2003. C’est dom­mage, mais on com­prend pour­quoi : il faut des moyens humains pour main­te­nir une liste de sites à indexer. Et il faut des moyens finan­ciers pour main­te­nir une appli­ca­tion capable d’indexer des mil­lions de page et de répondre à des requêtes d’internautes tou­jours plus nom­breux. En France, c’est Aleph qui fait figure de pion­nier. Lancé par Fabula, rejoint par Marges-​Linguistiques et par Revues​.org, ce moteur était com­posé de trois sec­tions : une dédiée à la recherche en Lit­té­ra­ture, une à la Lin­guis­tique et l’autre à l’Histoire et aux sciences sociales. Les mêmes causes pro­dui­sant les mêmes effets, Aleph a dis­paru, qua­si­ment dans l’indifférence générale.

Dans le monde, trois titans ont pris posi­tion. A ma gauche, Else­vier, l’ogre des sciences dures, qui s’appuie sur son immense por­te­feuille de revues pour prendre pied dans le gotha des moteurs de recherche scien­ti­fiques. A ma droite, Google, le cham­pion du monde des moteurs de recherche grand public. Else­vier a lancé Sci­rus et Google a lancé Google scho­lar, qui est, à l’heure actuelle, tou­jours en ver­sion beta. Et dans mon dos, Live Aca­de­mic Search : de Micro­soft (actuel­le­ment acces­sible seule­ment aux anglo­phones) vient de prendre place.

Ces moteurs, sur­tout Google scho­lar, ont fait cou­ler beau­coup d’encre. Pour diverses rai­sons que j’analyserai sans doute dans un autre billet, ils ne pré­sentent en réa­lité que peu d’intérêt pour nous, cher­cheurs ou ensei­gnants en Sciences humaines. Ils indexent en effet avant tout des sciences dures anglo­phones et leurs résul­tats com­portent énor­mé­ment de bruit, en rai­son d’une poli­tique de sélec­tion très déli­cate à mener, qui abou­tit par­fois à des résul­tats proches de l’absurde, voire de la dés­in­for­ma­tion. Pour­tant, du point de vue des fonc­tion­na­li­tés offertes, de nom­breux efforts ont été consen­tis. Et pour­raient faire mouche, à l’avenir. Mais pour l’instant, le cor­pus indexé est très lar­ge­ment déce­vant ; trop anglo­phone ; trop tourné vers les sciences dures ; trop inégal en qua­lité et en nature, c’est-à-dire, fina­le­ment, en pertinence.

Pour­quoi une telle décep­tion ? Il faut pro­ba­ble­ment en cher­cher l’explication dans les moti­va­tions des acteurs : il s’agit avant tout de prendre posi­tion sur un mar­ché en deve­nir, sans se lais­ser débor­der par l’émergence des moteurs de recherche issus de la com­mu­nauté uni­ver­si­taire elle-​même, qui aura ten­dance à pré­co­ni­ser le libre accès. Peu importe, donc, que Sci­rus soit pol­lué de mil­liers de sites non scien­ti­fiques. Peu importe, égale­ment, que Google Scho­lar soit encore en ver­sion beta, et que Live Aca­de­mic Search soit actuel­le­ment non consul­table depuis un navi­ga­teur fran­co­phone. Ce qui compte, sur­tout, c’est de prendre date. Mar­quer son ter­ri­toire. Comme au bon vieux temps du vapor­ware serions-​nous entrés dans l’ère des web­ware (si on me per­met un tel néo­lo­gisme) ? Pas vrai­ment, si l’on songe que ces ser­vices existent bel et bien, sont tes­tables et uti­li­sables. On pourra même pen­ser que leur sor­tie pré­coce, donc pré­ma­tu­rée, per­met de déploier un peu plus la logique du Web 2.0, qui veut que les nou­veaux outils soient le fruit d’un inter­ac­tion intense avec une masse d’utilisateurs éclairés.

Quoi qu’il en soit, un énorme mar­ché s’annonce. Celui de la mise en ordre du savoir mon­dial. Celui de l’indexation des res­sources payantes et des res­sources en libre accès, dans un joyeux mélange qui pro­fi­tera au com­merce. Celui qui mène l’internaute au plus près des articles qui l’intéressent et finit par lui en refu­ser l’accès au der­nier moment, en lui deman­dant de régler une fac­ture. Un modèle, on le devine, dans lequel les mut­li­na­tio­nales ont inté­rêt à ne pas voir se déve­lop­per l’accès ouvert, déjà acti­ve­ment porté par des réper­toires, des moteurs de recherches et des décla­ra­tions publiques.

Et en France, où en sommes-​nous ?