JFM’s blog » Print » La Grande-Bretagne réévalue sa réforme de l'évaluation

La Grande-Bretagne réévalue sa réforme de l’évaluation

Posted By JFM On 6 octobre 2009 @ 18:18 In Evaluation | Comments Disabled

Depuis plus de 20 ans, la Grande-Bretagne avait mis en oeuvre un système d’évaluation systématique et centralisé de la recherche universitaire, le Research Assessment Exercise (RAE). Il ne s’agissait pas d’une agence comme aujourd’hui l’AERES en France, mais de l’organisation tous les quatre à six ans d’une grande campagne d’évaluation de tous les départements de recherche des universités. Le RAE était mis en place, de façon très « professionnelle », par les financeurs publics (funding bodies)[1] [1] dont les crédits de recherche aux universités étaient ensuite calculés sur la base des résultats du RAE. Ces résultats servaient aussi aux universités à déterminer leur politique. L’évaluation était faite de façon classique et indépendante par des comités d’experts sur le mode de la peer review[2] [2]. Mais cet exercice s’avérait extrêmement lourd, aussi bien pour ceux qui le faisaient que pour les universités qui le subissaient, avec des conséquences limitées en matière de financement de la recherche. En décembre 2006, le Department of education and skills a annoncé le remplacement du RAE par le Research Excellence Framework (REF) dans lequel l’évaluation devait se faire essentiellement sur des indicateurs bibliométriques et des indicateurs de ressources contractuelles (volume des contrats publics et privés obtenus par un département). La motivation était d’alléger au maximum l’exercice d’évaluation et de le rendre plus ou moins automatique. Ce fut un véritable coup de tonnerre, comme on peut l’imaginer, ceci d’autant plus que ces nouvelles procédures introduisaient une nette coupure entre les sciences dures et les sciences humaines et sociales pour lesquelles un traitement particulier devait être envisagé.

De fait, le RAE 2008 aura été le dernier du genre, et d’ores et déjà la décision a été prise d’avoir le premier REF en 2013. Mais les britanniques se sont donnés le temps de la réflexion sur ce que seraient exactement le contenu et les procédures du REF. En 2007 une première consultation avait eu lieu sur les propositions initiales, et depuis lors on a eu de nombreuses prises de position critiques, des débats, des colloques, des études impliquant des universités pilotes[3] [3]. Tous les échanges entre le gouvernement et les acteurs n’ont pas été de pure forme (comme c’est bien souvent le cas chez nous…) car, le 23 septembre 2009, de nouvelles propositions ont été faites qui, sur certains points, représentent un virage à 180 degrés par rapport aux propositions initiales. Elles tirent les enseignements du RAE 2008 et surtout prennent en compte les réticences des universitaires à l’égard des indicateurs bibliométriques[4] [4]. Mais, par ailleurs, l’accent est mis, encore plus que par le passé, sur l’évaluation de l’impact économique et sociétal de la recherche, ce qui introduit d’autres controverses. Une seconde consultation aura lieu d’ici la fin de l’année sur ces [5] nouvelles propositions.

Dans les débats qui mobilisent les milieux de recherche britanniques, on reconnaîtra bien des sujets qui agitent nos universités et dont on a eu des témoignages lors du récent conflit. C’est une raison de s’y intéresser. Une raison supplémentaire d’observer la Grande-Bretagne, c’est que son contexte institutionnel, bien qu’historiquement éloigné du nôtre, présente un aspect très instructif pour nous. En effet, la Grande-Bretagne présente ce double aspect d’avoir des universités traditionnellement très autonomes, en même temps qu’un pilotage gouvernemental très marqué. Le fonctionnement de ce système repose sur la concertation et le débat, aux antipodes de la situation française marquée par la volonté du pouvoir politique d’imposer ses décisions et, symétriquement, l’opposition des universitaires crispés sur des positions défensives.

LE REF NOUVELLE VERSION

Le nouveau projet est susceptible d’être encore modifié d’ici 2013, après l’actuelle consultation, et à l’issue du pilot exercise prévu en 2010. Résumons ici cependant ses principales caractéristiques.

Il est fortement affirmé que le REF doit prendre en considération l’excellence de toutes les formes de recherche. L’évaluation portera sur trois aspects de la recherche intervenant avec des pondérations différentes - indiquées ci-dessous - dans l’évaluation globale[6] [5].

a) Output quality (60%)

Les comités évaluent la qualité scientifique d’une sélection des meilleures publications et autres productions de l’unité soumise à évaluation. Chaque institution sélectionne les « chercheurs actifs » dont le travail est soumis à évaluation. Chaque chercheur présente 3 ou 4 publications ou autres productions (des productions de toute nature peuvent être présentées).

L’objectif n’est pas d’évaluer l’ensemble du travail des membres d’un département, mais plutôt de distinguer la « recherche d’excellence ». La proportion de chercheurs présentés à l’évaluation n’est pas considérée a priori comme un élément important, pour autant que cette proportion ne soit pas trop faible[7] [6]. Mais elle intervient dans le financement. Il s’agit pour le REF de mettre en évidence les « noyaux d’excellence » dans un département et de pouvoir reconnaître les research islands. Dans le même ordre d’idées, on ne délivre pas une note globale, mais on indique la proportion de l’activité évaluée que l’on classe dans chacun des 4 niveaux de notation. C’est ce qu’on appelle un profil de qualité (quality profile). Le principe sera le même pour l’évaluation des autres aspects de la recherche. Pour chacun des aspects on parlera de sub-profile. En particulier, pour l’évaluation (a) :

Draft definitions of levels for the outputs sub-profile :

Four star Exceptional: Quality that is world leading and meets the highest standards of excellence in terms of originality, significance and rigour.
Three star Excellent: Quality that is internationally excellent in terms of originality, significance and rigour but which nonetheless falls short of the highest standards of excellence.
Two star Very good: Quality that is recognized internationally in terms of originality, significance and rigour.
One star Good: Quality that is recognized nationally in terms of originality, significance and rigour.
Unclassified: Quality that falls below the standard of nationally recognised work. Or work which does not meet the published definition of research for the purposes of the assessment.

Véritable palinodie : on ne mettra pas la bibliométrie au poste de commande. L’évaluation sera faite par des comités d’experts qui pourront s’appuyer, s’ils le souhaitent et selon les modalités qu’ils auront décidées, sur des indicateurs bibliométriques ou autres qui leur seront fournis. Ces indicateurs seront relatifs aux seuls travaux soumis pour évaluation et non pas à l’ensemble des publications d’un chercheur ou d’une unité. Les institutions peuvent d’ailleurs, le cas échéant, mentionner des indicateurs de citations dans leur dossier. Ce sont les comités d’experts qui décideront l’usage qu’ils feront des citations, au cas par cas[8] [7]. On peut lire dans le nouveau projet :

We have tested the potential for such indicators to replace expert review (at least in science based disciplines) but found that they are not sufficiently robust and would not be acceptable to the Higher Education sector if used in this way. (..) We do not expect that the arts, humanities or many social sciences would opt to use citation information, given the limitations of such data in these subjects.

b) Impact (25%)

On entend par là les retombées de la recherche sur l’économie, la société, les politiques publiques, la culture et la qualité de la vie. C’est une préoccupation ancienne de la Grande-Bretagne dont la production de brevets n’est pas à la hauteur de son rang en recherche fondamentale[9] [8] et c’est devenu un leitmotiv aujourd’hui[10] [9].

L’évaluation se situe au niveau de l’unité de recherche dans son ensemble (évaluer l’impact de travaux individuels n’est pas réaliste), sur une certaine période de temps. C’est un vaste programme où les difficultés à prévoir sont nombreuses. Le processus qui relie recherche et applications est complexe et tortueux. Ainsi, il peut s’écouler un grand laps de temps pour que l’impact d’une recherche devienne évident ; il faut donc considérer une période de temps assez longue. Il peut y avoir des contributeurs variés qui peuvent avoir changé d’institution pendant la période. L’impact peut être indirect et il peut résulter d’un grand nombre de facteurs[11] [10]. Il peut donc y avoir des difficultés à vérifier la réalité de l’impact d’une recherche donnée. Ceci d’autant plus qu’on peut difficilement quantifier l’impact par des indicateurs[12] [11].

Il faudra attendre les enseignements de l’exercice pilote de 2010 pour fixer des critères et des méthodes. D’ores et déjà quelques idées sont avancées. On suggère que le dossier d’évaluation pourrait contenir deux types d’éléments :

- Un certain nombre d’études de cas (case studies). Le projet indique que le nombre de cas présentés devrait être de l’ordre de un pour 10 à 15 chercheurs. La recherche proprement dite pourrait avoir eu lieu avant la période du REF, mais l’espace de temps entre recherche et impact ne devrait pas dépasser 10-15 ans.

- Une déclaration générale (impact statement) expliquant comment l’unité détecte les opportunités d’application, qui sont les utilisateurs, donnant une vue générale des applications de la recherche de l’unité et de la continuité de ce genre d’activités.

Tout ceci laisse un peu rêveur par son caractère technocratique et utopique à la fois. On peut prévoir sur l’évaluation de l’impact une controverse aussi vive que celle sur l’usage de la bibliométrie[13] [12]. Surtout s’agissant de délivrer une note à chacun des cas étudiés.

Draft definitions of levels for the impact sub-profile

Four star Exceptional: Ground-breaking or transformative impacts of major value or significance, relevant to a range of situations have been demonstrated
Three star Excellent: Highly innovative (but not quite ground-breaking) impacts such as new products or processes, relevant to several situations have been demonstrated
Two star Very good: Substantial impacts of more than incremental significance, or incremental improvements that are wide-ranging have been demonstrated.
One star Good: Impacts in the form of incremental improvements or process innovation, of modest range have been demonstrated
Unclassified : The impacts are of little or no significance or reach. Or the links between the impacts and excellent research, or a significant research driven contribution by the submitted unit, have not been demonstrated

c) Environnement (15%)

On entend par là principalement l’environnement de recherche : infrastructure, ressources, organisation, stratégie, gestion des ressources humaines… Cet aspect n’est pas nouveau et se retrouve dans toutes les évaluations de la recherche. Nous n’insisterons donc pas. L’idée centrale avancée dans le projet de REF est qu’une appréciation de la qualité de l’environnement de recherche pour des unités dont la production est bien évaluée, donne une indication sur ses capacités à maintenir ses performances à l’avenir. C’est dans cette perspective que la notation sera établie.

We propose to introduce definitions for the starred levels for research environment in terms of the extent to which resourcing, management and engagement are demonstrably in keeping with or conducive to the continuing production of outputs and achievement of impacts at each starred level.

RESULTATS DE L’EVALUATION

Pour chacune des trois évaluations (outputs, impact, environnement), on définit une échelle de notation sur quatre niveaux et on publie un profil de notation (proportion de l’activité que l’on classe dans chaque niveau de notation). Puis, en tenant compte de la pondération des trois évaluations, on décerne une note globale, ou plus exactement un profil de notation global.

We propose to present the assessment outcomes in the form of an overall excellence profile for each submission, by combining the three sub-profiles for outputs, impact and environment. We will also publish the sub-profiles.

The basis will be recognition of research excellence, with additional recognition for high impact built on that excellence.

Both the overall profile and the sub-profiles will be expressed in terms of the proportions of submitted activity found to reach each of four starred levels.

Le projet de REF qui vient d’être soumis à la consultation fourmille d’instructions données aux futurs évaluateurs, et aux départements de recherche pour constituer leur dossier. Cette prétention un peu théorique à la codification des procédures et des critères en fait un document d’apparence technocratique. C’est un peu paradoxal car, par ailleurs, de grandes libertés sont laissées aux comités d’évaluation. L’abondance de détails concrets présente l’intérêt de fournir matière à réflexion, préalablement au lancement du premier REF.

STRUCTURE ET FONCTIONNEMENT DES COMITES D’EVALUATION

Les comités d’évaluation (panels) auront en principe une grande liberté à l’intérieur du cadre général du REF. Leur désignation, leur composition, leur structure et leur fonctionnement, sont donc des aspects essentiels du système.

Les comités comprendront des universitaires et des experts extérieurs. Comme par le passé, les membres des comités seront désignés par les funding bodies sur propositions de nombreux groupes : sociétés savantes, associations scientifiques, représentants des financeurs et des utilisateurs de la recherche… Ce processus propre à la culture anglo-saxonne ne fait pas de place au mécanisme de l’élection par les pairs, considérée chez nous comme la seule véritable garantie d’avoir une peer review. Cependant l’expérience montre que cette pratique de la désignation sur propositions, qui se fait dans la plus grande transparence, fonctionne assez bien en Grande-Bretagne, et produit des comités représentatifs et indépendants.

Le mode de désignation des comités n’est pas une nouveauté par rapport au RAE. Par contre l’option nouvelle est prise de réduire drastiquement le nombre « d’unités d’évaluation » (units of assessment) - il n’y en aurait plus que 30 au lieu de 67 - et le nombre de « comités principaux » (main panels) - il n’y en aurait plus que 4 - afin d’avoir une plus grande cohérence[14] [13] et une meilleure prise en compte de l’interdisciplinarité[15] [14]. Ces comités principaux contrôleront, coordonneront et décideront de la notation. Mais le travail effectif sera fait par les sous-comités pour lesquels la plus grande souplesse est préconisée. Ils auront plus ou moins de membres en fonction du travail à accomplir. Ils auront des membres associés et même des specialist advisors pour des expertises particulières. Ceci est particulièrement important pour l’évaluation de l’impact qui requiert des experts qui connaissent à la fois la recherche dans la discipline et le champ des applications.

By way of illustration, a typical REF sub-panel could receive submissions for around 2,000 staff (a maximum of 6,000-8,000 outputs and 200-400 impact case studies), and could operate as follows:

a. Around 20 panel members would be involved in reviewing all aspects of submissions

b. These members could be assisted by around 15- 20 “associate members”: around half of these would be additional practising researchers ; the other half would be additional user members to focus on assessing impact.

c. Although there would be more academic members on panels overall, the impact submissions would be reviewed mainly by the user members.

d. The members could organise themselves into informal sub-groups.

L’intention initiale qui avait conduit en 2006 à vouloir réformer l’exercice national d’évaluation, était de réduire la charge de travail que représentait le RAE pour les experts et les universités. On renonce aujourd’hui à remplacer la peer review par des indicateurs. Finalement le REF sera une peer review informée par les indicateurs. On recherche un équilibre entre la simplification des procédures et le maintien du crédit de l’évaluation auprès de ceux qui en sont l’objet, ce qui est tout à fait essentiel. Il n’est pas sûr que l’on abaisse la charge et le coût de l’opération, surtout en lui rajoutant l’évaluation de l’impact de la recherche. L’administration britannique avance toute une série de mesures, comme la réduction des unités d’évaluation, la simplification des dossiers… qui relèvent d’une démarche de rationalisation, mais qui font l’économie d’une « révolution » traumatisante.

[16] [1] L’Angleterre, l’Ecosse, le Pays de Galles et l’Irlande du Nord, ont chacun leur funding body, mais le RAE était le même pour tout le Royaume Uni.

[17] [2] Voir J-F Méla [18] « Evaluation de la recherche universitaire en Grande –Bretagne » in JFM’s blog

[19] [3] Un certain nombre de documents récents sont consultables sur le site [20] http://www.hefce.ac.uk/ref

[21] [4] Ceci explique que l’accueil des nouvelles propositions par les milieux de la recherche a été, dans l’ensemble, assez favorable, même si des réserves se sont d’ores et déjà exprimées.

[22] [5] La pondération des trois évaluations serait a priori la même pour tous les champs disciplinaires. Les coefficients affichés ici sont provisoires ; une décision finale sera prise après l’exercice pilote de 2010.

[23] [6] Cependant la Higher Education Statistics Agency (HESA) pourra publier les proportions de chercheurs proposés à l’évaluation, ce qui constituera, qu’on le veuille ou non, un élément de comparaison des différents départements et universités.

[24] [7] Un grand nombre de conseils de prudence sont donnés, qui illustrent le caractère sensible de cette affaire.

[25] [8] Voir le rapport biennal de [26] l’OST[27] .

[28] [9] Dans une lettre du 22 janvier 2009, le secrétaire d’Etat du Department of education and skills insistait beaucoup sur le fait que le REF devrait tenir compte de l’impact économique et sociétal de la recherche.

[29] [10] Une unité ne pourra pas se prévaloir de retombées de sa propre recherche qui auraient été réalisées indépendamment par d’autres.

[30] [11] Cependant une liste d’indicateurs possibles est donnée en annexe du [31] document soumis à la consultation.

[32] [12] Le poids important (25%) attribué à l’évaluation de l’impact a déjà soulevé des réserves. Voir par exemple le [33] communiqué du HEPI.

[34] [13] Lorsqu’on a beaucoup « d’unités d’évaluation », un département de recherche peut avoir un trop grand nombre d’unités de rattachement potentielles.

[35] [14] La réduction notable du nombre d’unités d’évaluation et de sous-comités fait craindre à certains que l’évaluation ne soit pas faite par des pairs compétents dans leur discipline.

Article printed from JFM’s blog: http://jfmela.free.fr/jfmblog

URL to article: http://jfmela.free.fr/jfmblog/?p=135

URLs in this post:
[1] [1]: #_ftn1
[2] [2]: #_ftn2
[3] [3]: #_ftn3
[4] [4]: #_ftn4
[5] nouvelles propositions: http://www.hefce.ac.uk/pubs/hefce/2009/09_38/09_38.pdf
[6] [5]: #_ftn5
[7] [6]: #_ftn6
[8] [7]: #_ftn7
[9] [8]: #_ftn8
[10] [9]: #_ftn9
[11] [10]: #_ftn10
[12] [11]: #_ftn11
[13] [12]: #_ftn12
[14] [13]: #_ftn13
[15] [14]: #_ftn14
[16] [1]: #_ftnref1
[17] [2]: #_ftnref2
[18] « Evaluation de la recherche universitaire en Grande –Bretagne »: http://jfmela.free.fr/jfmblog/?p=14
[19] [3]: #_ftnref3
[20] http://www.hefce.ac.uk/ref: http://www.hefce.ac.uk/ref
[21] [4]: #_ftnref4
[22] [5]: #_ftnref5
[23] [6]: #_ftnref6
[24] [7]: #_ftnref7
[25] [8]: #_ftnref8
[26] l’OST: http://www.obs-ost.fr/
[27] : http://www.obs-ost.fr/
[28] [9]: #_ftnref9
[29] [10]: #_ftnref10
[30] [11]: #_ftnref11
[31] document soumis à la consultation.: http://www.hefce.ac.uk/pubs/hefce/2009/09_38/09_38.pdf
[32] [12]: #_ftnref12
[33] communiqué du HEPI.: http://www.hepi.ac.uk/478-1718/HEPI-response-to-HEFCE%27s-REF-proposals.html
[34] [13]: #_ftnref13
[35] [14]: #_ftnref14

Click here to print.