Imprimer cet article Imprimer cet article

Un manifeste européen pour l’évaluation de la recherche

C’est à la suite de la 19ème conférence internationale sur les indicateurs en science et technologie, qui s’est tenue à Leiden (Pays-Bas) en septembre 2014, qu’a été publié un « manifeste pour la mesure de la recherche »  C’est la première fois que des experts appartenant aux observatoires scientométriques européens publient un tel document qui se veut une plateforme pour l’évaluation de la recherche, au terme d’une réflexion engagée depuis plusieurs années, notamment en France par l’OST. Ce manifeste formalise des critiques sur la bibliométrie qui a pris une telle importance depuis quelques années dans la conduite et le financement de la recherche et propose d’en tenir compte dans le travail d’évaluation. Ces critiques ne sont pas nouvelles[1], mais elles s’accompagnent ici de propositions pour les méthodes d’évaluation et le travail des experts.

Le constat qui est fait est que « les évaluations ne sont plus fondées sur des réflexions mais sur des indicateurs » et les rédacteurs ne craignent pas d’affirmer : « Nous avons observé avec une inquiétude grandissante le mauvais usage des indicateurs dans l’évaluation de la performance scientifique ». Le manifeste propose « un condensé des bonnes pratiques » et formule dix principes qui paraissent à la fois raisonnables et ambitieux. L’application pratique de ces principes reste le plus souvent à préciser. Cet article est un commentaire critique des propositions de ce manifeste, qui souligne seulement quelques questions auxquelles il faudrait répondre pour rendre ces propositions moins théoriques.

On ne peut être que d’accord avec l’affirmation que « la description quantitative doit servir d’appui à une évaluation qualitative par des experts ». Mais au delà de l’exactitude des données utilisées pour l’évaluation, il y a le choix de ces données, et la nature objective des résultats de cette évaluation. On parle de « mesurer la performance au regard des missions de recherche de l’institution, du groupe ou du chercheur ». Encore faudrait-il que ces missions soient suffisamment formalisées pour se prêter à une expertise. Il reste aussi à savoir comment sont choisis ces experts si l’on veut que leurs jugements ne soient pas biaisés et que, par ailleurs, ils soient capables d’apprécier  « la pertinence des recherches pour les politiques publiques, l’industrie ou la société », ce qui dépasse de beaucoup l’expertise académique.

L’affirmation « qu’il n’existe aucun modèle d’évaluation qui puisse s’appliquer à tous les contextes » est difficilement contestable. On nous dit : « une bonne pratique consiste à utiliser plusieurs indicateurs afin d’aboutir à une description plus précise et transversale » et  « les indicateurs impactent le système par les pratiques qu’ils encouragent ». Une référence est faite à l’Australie et aux avatars de sa réforme des années 90[2]. Cette idée de pluralité des méthodes et des critères d’évaluation est aussi mise en œuvre dans le classement européen des universités U-Multirank. Mais, en conduisant au refus des appréciations globales et synthétiques, on risque d’aboutir à des résultats difficiles à utiliser par les décideurs.

Il faut cependant utiliser des indicateurs souples qui prennent en compte la diversité des situations : diversité disciplinaire (mathématiques, informatique, sciences sociales…), reconnaissance de « l’excellence dans des domaines d’intérêt local » (revues de qualité non anglophones),…

Le facteur d’impact d’un journal mesure, comme l’on sait, la moyenne du nombre de citations sur 2 ans des articles publiés par le journal. La conséquence la plus notable du calcul sur 2 ans est la différence considérable de facteurs d’impact qui apparaît entre les disciplines : de 1 à 10 entre les mathématiques et les sciences de la vie. Dans l’article en référence[3] on cite le rapport « Citation Statistics » qui montre que le facteur d’impact conduit à des conclusions tout à fait paradoxales, et qu’un autre indicateur, le « facteur h », est théoriquement moins fiable que le nombre moyen de citations. Ajoutons que les indicateurs internationaux ne prennent en compte qu’une partie des revues[4]. Qu’en sera-t-il avec le développement de l’open access ?[5]

On peut toujours introduire des indicateurs de plus en plus sophistiqués pour pallier les inconvénients statistiques constatés. Mais, ce faisant, on obscurcit encore davantage leur signification et on rend leur critique plus malaisée. Or l’un des points les plus convaincants du manifeste est son plaidoyer pour la clarté : « éviter les fausses précisions » (« cela n’a aucun sens de  distinguer deux revues sur la base de leur très faible différence de facteur d’impact ») ; « maintien d’une collecte de données et de processus d’analyse ouverts, transparents et simples ». Mais peut-on parler « d’indicateurs simples reflétant fidèlement la complexité du processus de recherche » ?

Quand on nous dit qu’il faut « tenir compte d’informations complémentaires relatives à l’expertise, à l’expérience, aux activités et à l’influence de chaque individu » : Très bien ! Mais concrètement ? On nous dit aussi  que « les indicateurs doivent être révisés et parfois modifiés ». Par qui et pourquoi ? Il faut quand même une certaine stabilité. Sinon on donne trop de pouvoir aux scientomètres. « On nous dit que « l’Australie a adopté, en 2010, un programme plus complexe qui met l’accent sur la qualité ». Objectivité des indicateurs ou qualité subjective ? On ne sait plus bien où on en est…

Un point qui n’est pas assez souligné : la bibliométrie n’est pas adaptée aux évaluations individuelles[6]. A un niveau élevé d’agrégation (par exemple au niveau d’une grande université), la qualité des indicateurs est moins importante. Cependant, au niveau international, le choix des indicateurs n’est pas sans conséquence, comme on le voit dans le classement de Shanghaï. Le recours aux indicateurs dans une logique budgétaire globale, ou pour la répartition des crédits structurels entre les universités, peut se concevoir. On peut parler de dérive lorsqu’on voit des indicateurs budgétaires macroscopiques devenir des indicateurs de qualité pour chaque établissement, pour chaque équipe, voire pour chaque individu, et s’établir comme des normes auxquelles les uns et les autres vont chercher à satisfaire, indépendamment de leurs motivations et de leurs démarches propres. Les indicateurs bibliométriques sont avant tout des indicateurs d’impact (ce qui n’est pas synonyme de qualité), et il ne faut s’attacher qu’aux ordres de grandeurs.

Il y a peu d’études sur la signification du nombre de citations. Si on voulait aller plus loin, on pourrait penser à un algorithme qui s’inspire de celui du pagerank de Google[7], où les citations provenant de papiers eux-mêmes très cités, compteraient davantage que celles émanant de publications plus ordinaires.[8]

En guise de conclusion

Les critiques de la bibliométrie sont considérables et anciennes. Pourquoi son usage se maintient-il et se généralise-t-il ? Sans doute parce que la gestion de grandes entités a besoin de simplicité et d’automatismes. Par ailleurs, il ne faut pas minimiser les critiques contre les comités d’experts. Leur légitimité est souvent mise en cause dans des disciplines comme les sciences sociales.

Ce qui est nouveau c’est que le débat arrive au premier plan et tend à se formaliser dans le milieu des experts scientomètres. Mais certaines propositions restent de l’ordre des vœux pieux. Comment fait-on pour associer quantitatif et qualitatif ? Et au delà d’indicateurs quantitatifs, c’est quoi « un processus rigoureux » ? Cependant on doit se féliciter de l’existence et des orientations de ce manifeste. Pour autant, on n’est pas arrivé à la fin de l’histoire !




[4] Dans une discipline comme les mathématiques, la base de données de Thomson Scientific ne prend en compte que la moitié des journaux référencés dans Maths Reviews ou Zentralblatt.

[6] Comme je le note dans « Ce que les mathématiciens ont à dire sur les statistiques bibliométriques » il est facile de trouver un honnête mathématicien ayant écrit un bon livre de synthèse, qui soit davantage cité que tel médaillé Fields.

[7] J-F Méla, La hiérarchie selon Google, La Recherche (décembre 2004, republié dans un numéro hors série en décembre 2007)