Archives mensuelles : décembre 2010

EERQI

Aujourd’hui, j’ai assisté à une jour­née d’étude orga­ni­sée par l’URFIST Paris (ate­lier « évalua­tion et biblio­mé­trie »), au cours de laquelle ont été pré­sen­tés les résul­tats d’une recherche por­tant sur l’évaluation qua­li­ta­tive de la recherche en Europe. Son titre est EERQI : euro­pean edu­ca­tio­nal research qua­lity indi­ca­tors.

Cette approche a la par­ti­cu­la­rité de ten­ter d’utiliser les res­sources de l’analyse séman­tique pour mieux évaluer les publi­ca­tions en sciences humaines. Ils ont tra­vaillé sur un cor­pus de publi­ca­tions en sciences de l’éducation et c’est Emma­nuelle Picard qui m’a signalé l’existence de cette pré­sen­ta­tion, assu­rée par Ste­fan Grad­mann, pro­fes­seur de sciences de l’information et de la com­mu­ni­ca­tion à l’Université Hum­boldt de Ber­lin.

C’est un pro­gramme euro­péen financé dans le cadre du 7e PCRD qui a duré 3 ans et a ras­sem­blé 19 par­ti­ci­pants venant de 6 pays d’Europe du Nord : des socié­tés savantes (EERA, BERA, SSRE), des labo­ra­toires, des éditeurs, des centres de cal­cul, des biblio­thèques, etc. En France, c’est l’INRP qui était le par­te­naire. Pour le côté infor­ma­tique, ce sont plu­sieurs centres de recherche en biblio­mé­trie et en infor­ma­tique qui ont pris en charge cet aspect. A noter la par­ti­ci­pa­tion du labo­ra­toire de recherche Xerox à Gre­noble, pour le TAL.

Les objec­tifs : le déve­lop­pe­ment de nou­veaux modules pour l’identification et l’évaluation de la qua­lité de la recherche ; une pla­te­forme pro­to­type inté­grée, mul­ti­lingue et opé­ra­tion­nelle, un moteur de recherche, et un test de trans­mis­si­bi­lité à d’autres dis­ci­plines (sciences poli­tiques en particulier)

Ils sont par­tis du pro­blème de base de l’inadéquation des bases biblio­gra­phiques et des métriques STM pour l’évaluation des publi­ca­tions en SHS. Leur réflexion ne porte pas seule­ment sur les méthodes d’analyse, mais sur­tout sur les sources de données.

Ils sont par­tis d’une base locale de 5000 docu­ments venant des éditeurs par­te­naires : tous types de docu­ments, qu’ils ont élar­gis à 42000 docu­ments craw­lés sur le web. Grosse décep­tion pour eux : les éditeurs ne leur ont pas trans­mis de XML, mais des pdf et du HTML, donc, des docu­ments non structurés.

L’objectif du pro­gramme est de repé­rer les publi­ca­tions de qua­lité en sciences de l’éducation. Leur approche repose sur la dis­tinc­tion entre des indi­ca­teurs de qua­lité intrin­sèques et extrinsèques.

C’est Xerox qui a com­mencé à appli­quer des sys­tèmes d’analyse séman­tique sur les publi­ca­tions en infor­ma­tique : ce qui a très bien mar­ché car ce sont des publi­ca­tions très for­ma­li­sées. L’application aux cor­pus en SHS est beau­coup plus com­pli­quée car les struc­tures de cita­tion sont beau­coup plus diffuses.

Leur méthode : iden­ti­fi­ca­tion indi­recte des indi­ca­teurs par approxi­ma­tion de clas­se­ment d’articles sur la base de la com­pa­rai­son des indi­ca­teurs intrin­sèques et extrin­sèques. Si vous n’y com­pre­nez rien, c’est nor­mal ; il vous manque les infor­ma­tions détaillées.

L’équipe a com­mencé en dres­sant la liste de tous les indi­ca­teurs pos­sibles pour établir des clas­se­ments d’articles : grade de l’auteur, affi­lia­tion ins­ti­tu­tion­nelle de l’auteur (sont de très mau­vaise qua­lité dans les bases de l’ISI), la pré­sence de carac­té­ris­tiques struc­tu­relles (résumé, notes, biblio­gra­phie), les carac­té­ris­tiques de la pla­te­forme de publi­ca­tion (peer review, fac­teur d’impact, répu­ta­tion de la revue ou de l’éditeur, l’impact inter­na­tio­nal), parmi d’autres. Au bout d’un moment, ils ont com­mencé à dis­tin­guer des indi­ca­teurs intrin­sèques et des indi­ca­teurs extrinsèques :

Intrin­sèques : rigueur (intel­lec­tuelle), ori­gi­na­lité, impor­tance (signi­fi­cance), inté­grité (res­pect de la pro­priété intel­lec­tuelle, codes éthiques et déon­to­lo­giques), style (com­mu­ni­ca­tion en accord avec l’audience, struc­tu­ra­tion) Style et inté­grité ne seront pas fina­le­ment rete­nus car non fiables, c’est-à-dire trop dif­fi­ciles à établir de manière objective.

Extrin­sèques : toutes les mesures d’usages et d’impact telles qu’on peu les voir via Google Scho­lar (qui vient en pre­mier car le plus riche en sciences de l’éducation), Sco­pus, mais aussi les réseaux sociaux scien­ti­fiques (CiteU­Like, Conno­tea, Men­de­ley), ou encore le Web impact.

Pour consti­tuer la base docu­men­taire, ils ont conçu un craw­ler basé sur Nutch qui s’appelle aMe­sure. Cet outil est capable de détec­ter l’autocitation, mais aussi de clas­si­fier auto­ma­ti­que­ment les publi­ca­tions dans les domaines dis­ci­pli­naires (ici, sciences de l’éducation donc) par appren­tis­sage du robot par ana­lyse sémantique.

Ils ont ensuite regroupé les indi­ca­teurs en les pon­dé­rant et les ont uti­li­sés pour fabri­quer un modèle mathé­ma­tique per­met­tant de clas­ser les articles. L’objectif est d’aboutir à des clas­se­ments simi­laires à ceux pro­duits par les humains.

L’exploitation repose sur une méthode « approxi­ma­tive » en trois étapes :

1. Eva­lua­tion humaine sur indi­ca­teurs intrin­sèques sur 100 articles. On com­pare et on établit une cor­ré­la­tion avec le clas­se­ment issu de l’utilisation des indi­ca­teurs extrinsèques.

2. Ensuite, on établit une liste auto­ma­tique sur la base des indi­ca­teurs intrin­sèques au moyen d’algorithmes d’analyse séman­tique et on recom­pare avec les indi­ca­teurs extrin­sèques pour déter­mi­ner une corrélation.

3. On cherche à déter­mi­ner un indice de corrélation.

Le pro­jet est en train de finir de tra­vailler sur la cor­ré­la­tion décrite en 1, si j’ai bien com­pris. En fait, ils n’ont pu aller beau­coup plus loin car les outils d’analyse séman­tique se sont ensa­blés dans les pdf non struc­tu­rés : impos­sible de repé­rer les cita­tions, les réfé­rences et fina­le­ment de quel­conques régu­la­ri­tés. A plu­sieurs reprises, l’orateur s’est plaint du manque de coopé­ra­tion des éditeurs qui ont trans­mis des don­nées de mau­vaise qua­lité et n’ont pas non plus voulu trans­mettre leurs sta­tis­tiques de consul­ta­tion. Cela a mani­fes­te­ment consti­tué un obs­tacle au projet.

Pour ma part, j’ai trouvé le pro­jet inté­res­sant sur bien des aspects : si le labo­ra­toire Xerox de Gre­noble dis­po­sait d’articles plus et mieux struc­tu­rés, tout un ensemble d’analyses séman­tiques pour­raient effec­ti­ve­ment être faites sur la construc­tion intel­lec­tuelle du rai­son­ne­ment dans les articles, sur les usages des réfé­rences et des cita­tions, sur les moyens d’administrer la preuve, bref, sur l’écriture en sciences humaines et sociales, plu­tôt que pour sim­ple­ment clas­ser des articles, ce qui per­son­nel­le­ment me pas­sionne assez peu.