Imprimer cet article Imprimer cet article

Evaluer quoi et pourquoi ?

 

UNE REFORME CENTRALISATRICE

L’une des dispositions phares de la loi de programme pour la recherche du 18 avril 2006 est la création d’une « Agence d’évaluation de la recherche et de l’enseignement supérieur » (AERES) qui est une autorité administrative indépendante à laquelle on attribue une mission quasiment universelle d’évaluation. Elle est chargée d’évaluer les universités et organismes de recherche, les unités de recherche, les formations et les diplômes, et même de valider les procédures d’évaluation des personnels des établissements et organismes. Elle prend ainsi la place du Comité national d’évaluation (CNE), du Comité national d’évaluation de la recherche (CNER), de la Mission scientifique technique et pédagogique (MSTP) et, en partie, du Comité National de la recherche scientifique (CoCNRS).

Une pareille agence n’existe dans aucun autre pays, et l’on peut s’interroger sur les raisons d’une telle concentration. Il est vrai que c’est une caractéristique - assez paradoxale - de la réforme actuelle de prôner d’un côté la décentralisation universitaire et, de l’autre, de mettre en place des instances de pilotage plutôt « jacobines »…

Le thème de l’évaluation a mis du temps à émerger en France, comme le remarque Jean-Yves Mérindol dans un intéressant article historique[1], dans les années 80 sous l’influence de personnalités comme Laurent Schwartz qui fut l’inspirateur et le premier président du CNE. L’évaluation des unités de recherche est arrivée dans les universités via le CNRS et la politique d’association. Ceci explique l’amertume du CoCNRS de se voir aujourd’hui dépouillé de cette évaluation qu’il a contribué à vulgariser. La loi prévoit bien que l’AERES puisse la lui déléguer pour ce qui est du CNRS, mais ce serait un peu contradictoire avec la conception d’une agence unique. La réforme aurait certes pu confier au Comité National de la Recherche Scientifique la mission d’évaluer toutes les unités de recherche, en le détachant du CNRS et en lui donnant une mission enfin conforme à son titre « historique ». Cette solution - au demeurant difficile à mettre en œuvre - n’a pas été retenue[2]

On est passé d’une situation où l’évaluation était émiettée et parcellaire à une autre où elle se voudrait unifiée et totalisante. En confiant brutalement à une unique agence cette tâche immense, on la condamnait à improviser et on ne pouvait espérer qu’elle produise des évaluations fines en toutes circonstances. Mais surtout, par cette globalité qu’on prétendait donner à l’entreprise d’évaluation, on escamotait les questions de fond sur la nature, les objectifs et les conséquences de l’évaluation - ou plutôt des évaluations.

Disons tout de suite que les réflexions que nous livrons ici ne se veulent pas une critique de l’action des acteurs de l’AERES qui ont fait ce qu’ils ont pu. De plus, l’agence a utilisé au mieux l’indépendance que lui donne la loi pour impulser une réflexion sur sa propre activité[3]. Elle s’est attachée à promouvoir une transparence nouvelle des résultats de l’évaluation scientifique, et n’a pas cherché à cacher les appréciations critiques que ses activités ont pu susciter[4]. Cependant on a le sentiment d’un certain flottement des orientations derrière le détail des procédures. C’est que les questions de fond demeurent… C’est là-dessus que porte avant tout notre réflexion, et si l’AERES est souvent citée, c’est dans le souci de rester concret et actuel.

PLUSIEURS LOGIQUES D’EVALUATION

Comme le rappelait déjà en 2006 le Conseil supérieur de la recherche et de la technologie (CSRT)[5], « le caractère systématique de l’évaluation posé comme principe de base ne se justifie que si un autre principe – celui de la mise en œuvre effective des résultats de l’évaluation – est également respecté (…) Seul ce lien permet de juger du rapport coût/avantages de la mise  place d’une évaluation systématique

Cette approche conduit à distinguer plusieurs logiques d’évaluation :

  • UNE LOGIQUE BUDGETAIRE

L’Etat veut distribuer l’argent en fonction des résultats des opérations qui s’inscrivent dans les programmes de la LOLF. Cependant on entend distinguer le niveau de l’évaluation de celui de la décision budgétaire, et du pilotage. Dans le contexte d’autonomie des universités, il s’agit moins de faire des recommandations aux établissements que de les mettre en face des réalités de leurs accomplissements.

L’auteur de ces lignes a dirigé la Mission Scientifique Universitaire (MSU) dont le cahier des charges s’inscrivait dans une perspective différente, beaucoup plus « jacobine ». La MSU non seulement évaluait les unités de recherche (ou validait les évaluations du CNRS), mais répartissait aussi les crédits récurrents et faisait des recommandations (qui s’apparentaient à des « instructions ») pour le pilotage des laboratoires. Cette période est en principe révolue. Mais sur le dernier point, ce n’est pas toujours évident car l’AERES a tendance à se préoccuper des problèmes de gestion et de management des laboratoires, à la place de leurs tutelles[6].

La question centrale est celle des conséquences budgétaires des évaluations. Puisque ce n’est plus la même instance qui évalue et qui finance, il faut que les critères et les résultats de l’évaluation scientifique soient validés par l’instance qui distribue les crédits. On devrait dire par les instances, car les crédits récurrents ne constituent plus qu’une part – décroissante – des crédits des laboratoires, les financements contractuels prenant de plus en plus d’importance. En particulier une évaluation scientifique a aujourd’hui peu d’effets si l’Agence Nationale de la Recherche (ANR) ne la prend pas en compte.

On est dans une situation diamétralement opposée à celle des USA où c’est la NSF qui procède à l’évaluation des projets qui lui sont présentés (par des individus ou des équipes) et où les universités s’appuient là-dessus pour former leurs propres jugements - l’attribution de grants valant évaluation favorable pour ceux qui les reçoivent. On a affaire à une évaluation indirecte qui porte sur la capacité d’un chercheur ou d’une équipe à attirer des financements sur projets.

C’est un peu la même logique qui est adoptée par les britanniques dans leur réforme du Research Assessment Exercise (RAE). Le RAE qui fonctionnait sur le principe de la peer review, est appelé à être remplacé par un nouvel exercice d’évaluation, le Research Excellence Framework, qui serait très largement basé sur des indicateurs quantitatifs de performance[7]. Le principal indicateur serait un indicateur de ressources, c’est-à-dire un indicateur des financements qu’une unité de recherche (en l’occurrence un département) est capable d’attirer sur ses projets (de la part des agences de moyens nationales, de l’Europe, des entreprises…). Les autres indicateurs seraient, d’une part, des indicateurs bibliométriques (publications, citations), d’autres part des indicateurs de ressources humaines (chercheurs actifs, nombre de thèses). Cette mutation a été impulsée par le premier ministre Gordon Brown dans une optique budgétaire.

Une question sous-jacente est de savoir quel sera, à l’avenir, le mode de financement de la recherche : crédits récurrents accordés aux universités ou crédits accordés à des projets par les agences de programmes. Dans l’hypothèse d’un financement dual comme aujourd’hui en France, le système britannique a de bonnes chances de s’imposer. Quelle que soit la méthode utilisée, le résultat de l’évaluation peut être une note. Dans le cas de la Grande Bretagne, la note  attribuée à un département sert à calculer (par une formule connue de tous) le montant des crédits récurrents versés à l’université au titre de ce département, ces crédits étant ensuite globalisés au niveau de l’université. Cet algorithme a l’avantage de lier de façon claire le financement à l’évaluation, et son caractère relativement « grossier » est lissé à l’échelle d’une université.

  • UNE LOGIQUE DE NOTATION

Cependant les notes n’ont pas qu’un usage budgétaire ; elles servent aussi à classer les départements ou unités de recherche aux yeux de la communauté scientifique et du « public ». On est alors dans une logique de « palmarès », avec toutes les conséquences et les déviations qui s’attachent à un tel exercice[8]. Ceci exige a priori une finesse d’appréciation beaucoup plus grande que pour calculer une attribution budgétaire. De plus, si le caractère global de la note n’est pas très gênant pour calculer le montant d’une subvention, il est beaucoup plus discutable lorsqu’il s’agit de quantifier la valeur scientifique d’un laboratoire.

Une solution qui vient à l’esprit consiste à remplacer une note unique par une pluralité de notes[9]. C’est notamment ce que propose l’AERES, en distinguant 4 critères de notation : la qualité scientifique et la production ; le rayonnement et attractivité et l’intégration dans l’environnement ; la stratégie, la gouvernance et la vie de laboratoire ; l’appréciation du projet. Cependant une note générale serait finalement attribuée. Tout d’abord on peut craindre une telle complication lorsqu’on sait les difficultés que rencontre déjà  aujourd’hui l’agence dans sa tâche. De plus, il y a une vraie difficulté théorique à séparer les différents critères[10]. Enfin il y a fort à parier que c’est la note globale qui sera prise en considération à l’extérieur.

Une autre approche, peut-être plus réaliste, est celle des britanniques, qui consiste à délivrer non pas une seule note, mais un « profil de notation », c’est-à-dire à donner, pour chaque note, le pourcentage de chercheurs du département auxquels elle est attribuée. Evidemment, dans cette approche, il n’est guère question de stratégie et de gouvernance de l’unité de recherche. Mais on peut soutenir que cette question relève davantage de l’autoévaluation que de l’évaluation nationale.

Il est intéressant de noter une différence de points de vues entre les anglo-saxons et nous. La notion « d’unité de recherche » que nous mettons en avant, est très influencée par l’organisation du CNRS. Les universités anglaises ou américaines préfèrent considérer les « départements » et les équipes au sein de ces départements. Reste à savoir ce que l’on note : un département, ses chercheurs, ou des programmes ?

Si discutable que soit la logique de palmarès, les notes et/ou les classements font partie aujourd’hui du paysage de la recherche, notamment à cause de la simplicité de référence qu’ils représentent. Dans ce contexte, il faut privilégier la simplicité des méthodes de notation qui rend possible la critique et la remise en cause éventuelle des résultats. En dépit de ses intentions louables, la complexité contribue à rendre l’évaluation illisible.

Reste la controverse sur les méthodes de notation : indicateurs de performance ou peer review ? Le basculement pur et simple vers des méthodes d’indicateurs soulèverait chez nous tout autant d’objections qu’en Grande-Bretagne. Un fameux rapport britannique, le « Rapport Roberts »[11], prenait acte que tous les départements ne sont pas dans la même situation du point de vue de la recherche. Pour ceux dont l’activité de recherche est modeste (en termes de volume ou de notoriété internationale), il suggérait de se contenter d’une évaluation sur indicateurs ; les autres auraient droit à une peer review[12]. D’autres experts suggèrent de réserver la peer review aux unités dont la situation aurait notablement évolué depuis la dernière campagne d’évaluation ; le repérage de ces unités pouvant se faire, lui, sur la base des indicateurs quantitatifs. En tout état de cause, un compromis devra être trouvé, et quand on a recours à la peer review, elle se devra d’être simple et robuste.

  • EVALUATION OU ACCREDITATION 

L’évaluation des formations et des diplômes relève d’une toute autre logique. Et l’on peut se demander s’il est pertinent de parler d’évaluation, tant les critères d’un véritable jugement sont difficiles à expliciter. S’il faut en croire l’AERES, « cette évaluation prend en compte tout à la fois la pertinence scientifique et professionnelle de l’offre de formation, tant en termes d’acquisition de connaissances que de développement de compétences. Les modalités de suivi et de validation des acquis sur ces deux aspects : connaissances et compétences sont des éléments importants de l’évaluation. A chaque niveau le souci de l’insertion professionnelle et/ou de poursuite d’études est apprécié en termes de moyens mis en œuvre et de résultats »[13]. Ce cahier des charges est assez ambitieux et flou. Il n’est pas surprenant que les dossiers remis à l’AERES soient le plus souvent énormes et difficiles à traiter[14]. Les établissements restent dans l’ancienne logique de l’habilitation formelle par la Direction Générale des Enseignements Supérieurs (DGES) où il s’agissait de faire bonne impression.

L’évaluation des résultats d’une formation est extrêmement délicate, tant les déterminants sociaux et économiques sont forts et difficiles à appréhender. S’il s’agit seulement de juger des conditions de la formation, des moyens mis en œuvre…, on est plutôt dans une logique d’accréditation et « d’assurance de la qualité » que d’évaluation à proprement parler. L’Etat et les autres financeurs d’une part, les étudiants et les familles d’autre part, ont effectivement besoin de garanties sur les processus. Pour l’instant la France continue à se distinguer de ses partenaires européens dont la plupart des agences font de l’accréditation[15]. Il serait temps de s’européaniser.

  • EVALUATION INSTITUTIONNELLE

S’agissant des établissements, l’évaluation de l’AERES porte sur « la stratégie de l’établissement en matière de recherche, de formation, de valorisation, de relations avec l’environnement local, régional et international, de politique étudiante ainsi que sur le gouvernement et la gestion de l’établissement ». L’AERES a hérité de la mission du CNE en cherchant à lui donner plus de cohérence, compte tenu de son large périmètre. L’idée est par exemple « qu’on ne peut pas évaluer un établissement si l’on ne connaît pas la qualité de son offre de formation et de sa recherche ». Dans le passé, il est vrai, on pouvait relever des contradictions entre la présentation faite par le CNE de la recherche d’une université et les conclusions de l’évaluation de ses unités de recherche faite par la MSU ou le CNRS. Toute recherche de cohérence est sans doute souhaitable, mais on peut se demander s’il est raisonnable de vouloir faire un rapport institutionnel aussi global sur un établissement. Il faut bien distinguer l’évaluation institutionnelle d’un établissement (assessment of institutional competences) et l’évaluation de sa « valeur » qui relèverait plutôt d’une logique de classement (ranking). Cette distinction a d’autant plus de sens que l’on se place dans un contexte d’autonomie des universités, et que l’on se pose la question des conséquences de l’évaluation. Ce point de vue peut conduire à limiter le champ de l’évaluation à la stratégie et à la gouvernance de l’établissement : politique budgétaire et politique des ressources humaines, notamment, qui peuvent faire l’objet d’une négociation contractuelle. Cette approche se démarque nettement d’une conception d’évaluation « globale ».

En ce qui concerne l’évaluation des organismes de recherche nationaux, on peut être beaucoup plus sceptique. Ainsi, s’agissant de l’INSERM, un comité de 14 membres - si prestigieux soient-ils - peut paraître léger lorsqu’il s’agit d’évaluer « la place de l’Institut dans le dispositif français des sciences biomédicales et son impact sur le plan international, sa politique de développement et les moyens au service de sa politique ». Mais surtout, quelle est la portée et quelles seront les conséquences d’une telle évaluation ? La présentation qui vient d’être faite des recommandations des experts du rapport d’évaluation de l’INSERM[16] est éclairante à ce sujet. On réalise qu’il ne s’agit pas d’une évaluation institutionnelle à proprement parler, mais bien d’un rapport de politique générale, incluant d’ailleurs le CNRS… Le président du comité d’évaluation qui n’est autre que l’actuel directeur des NIH avance une série de propositions sur l’organisation générale de la recherche biomédicale en France, sur le regroupement des organismes et leur transformation en une pure agence de moyens, sur le recrutement et le statut des chercheurs… N’appelons pas ça une évaluation de l’établissement ! On remarquera d’ailleurs que le gouvernement a déjà annoncé une réforme de l’INSERM sans s’appuyer sur aucune évaluation préalable, et que ce rapport tombe à point nommé…

  • AUTOEVALUATION

Il faudrait maintenant parler d’un aspect tout à fait capital : l’autoévaluation des universités. Nous renvoyons au précédent article du présent blog, intitulé « Soyez l’arbitre de votre évaluation » qui aborde cette question.

 

EN CONCLUSION

Au terme de cette analyse, il apparaît clairement que la concentration de l’évaluation  dans une unique agence est contestable car elle établit implicitement une confusion entre des missions qu’il est indispensable de distinguer. Ce n’est pas la même chose de faire une évaluation de la production des laboratoires pour répartir des crédits de recherche ou pour conforter leur réputation scientifique, ou encore de faire de l’accréditation de formations et de diplômes, ou encore de faire une évaluation de la stratégie et de la gouvernance des établissements. En particulier il faut bien distinguer évaluation scientifique et audit des procédures internes de qualité. Plusieurs niveaux d’évaluation interne, externe des universités autonomes sont nécessaires et requièrent des approches différentes. On ne gagne rien à tout mélanger…

 

 


[1] Jean-Yves Mérindol : « Comment l’évaluation est arrivée dans les universités françaises ? ». Revue de la Société d’Histoire moderne et contemporaine (à paraître).

[2] La méfiance vis-à-vis du mode électif de désignation des membres du CoCNRS a sans doute contribué à écarter cette solution. Pourtant, même si la désignation d’experts chargés de l’évaluation scientifique par élection sur listes syndicales peut paraître une aberration, en pratique le CoCNRS ne fonctionnait pas si mal comme instance d’évaluation.

[4] Ces critiques ont porté notamment sur la connaissance insuffisante du dossier par le « comité de visite », sur l’importance parfois exagérée donnée à la visite par rapport à la production scientifique, ainsi que sur la cohérence approximative des notes finales et des analyses des rapports. Les responsables de l’AERES reconnaissent honnêtement les carences des analyses présentées par certains présidents de comités.

[5] Avis sur le projet de décret relatif au fonctionnement de l’AERES (5.09.06).

[6] Ceci ressort également de l’article de l’ORS cité plus haut.

[9] C’est aussi la solution proposée pour le futur classement des universités européennes.

[10] Peut-on imaginer une unité qui aurait une grande attractivité, une excellente stratégie, mais une production médiocre ?

[12] Le Rapport Roberts suggérait de laisser à chaque département la liberté de demander à être évalué sous une forme ou sous l’autre, sachant que la procédure est beaucoup plus lourde dans le second cas.

[14] Comme l’indique le directeur de la section des formations dans l’article  “L’AERES passée au crible”. Numéro spécial de l’ORS (oct. 2008).

[15] Chez nous on continue à délivrer des « notes » et/ou  à « faire des recommandations ». Ce qui n’influe en rien, d’ailleurs, sur les nombreux palmarès publiés dans la presse, qui expriment avant tout une « réputation » professionnelle ou sociale externe.