Évaluer les programmes d'innovation
mardi 09 juillet 2024
Les programmes d'innovation se multiplient, mais sans jamais être évalués
This article is available in English.
Le 6 juin se tenait au LIEPP un séminaire sur la validité externe, organisé par Anne Revillard et Douglas Besharov. L’originalité de la démarche, sur ce thème rebattu : la volonté de faire discuter tenant·es d’une évaluation essentiellement contrefactuelle d’un côté, et inscrit·es dans, disons, les méthodes mixtes de l’autre côté. Les papiers présentés par les premier·es étaient discutés par les second·es, amenant à des discussions fertiles (et pas mal d’incompréhensions mutuelles, bien sûr) – on attend évidemment la réciproque dans quelques mois.
Les stars du jour étaient donc les contrefactualistes, et ce séminaire était l’occasion d’écouter cette communauté échanger, et de mettre à jour (ou pas) ses croyances. Que retenir, donc, des échanges ?
Avant de poursuivre, les lecteurs et lectrices seront peut-être soulagé·es de rafraîchir leur mémoire sur la notion de validité externe, un concept proposé par Donald Campbell dans les années 1950.
Dans une évaluation, ou plus largement dans toute étude visant à établir des liens de causalité, une première préoccupation consiste à se demander si on mesure bien ce que l’on souhaite mesurer. Y-a-t-il des biais, imputables à la conception de l’étude, aux concepts, aux indicateurs, aux instruments de collecte ou de traitement des données... qui affecteraient les résultats ? C’est l’idée de validité interne. Mais on souhaite peut-être aussi savoir si les résultats obtenus sur un échantillon sont valables ailleurs que dans le cadre de l’évaluation menée. C’est cela, l’idée de validité externe.
Sans entrer dans les débats de définition, on peut dire que l’enjeu est de clarifier dans quelle mesure les résultats sont généralisables, et dans quelles conditions, à des populations au-delà de l’échantillon étudié ; et si les résultats obtenus (le fait qu’une intervention « marche », par exemple), peuvent être appliqués dans d’autres contextes.
Pour les évaluateurs et évaluatrices, cette question est importante chaque fois que l’on utilise un outil ou une méthode visant à généraliser des résultats. Qu’est-ce qui nous permet de dire, par exemple, que les résultats obtenus sur un échantillon de 200 répondants reflètent bien la situation de la population initiale de 400 personnes ? De même, lorsqu’on demande si l’intervention évaluée pourrait être élargie ou appliquée à d’autres personnes ou à d’autres contextes, on fait face à des questions de validité externe des résultats.
Cependant, la validité externe revêt une importance particulière pour les intervenant·es, qui sont toutes et tous investies dans la recherche de solutions « qui marchent » et qui pourraient être appliquées par les pouvoirs publics pour résoudre des problèmes sociaux. C’est l’idée d’une politique basée sur des données probantes (Evidence-based policy, EBP).
Pour découvrir ces solutions qui marchent, ils et elles privilégient une approche, les essais contrôlés randomisés (ECR, souvent connus par leur acronyme en anglais, RCT). Dans un ECR, l’intervention est appliquée à une population choisie aléatoirement, en vue d’éviter tout biais de sélection et renforcer la sélection interne. Mais cette procédure a notoirement une validité externe très faible pour la même raison (et pas mal d’autres). En effet, une intervention peut « marcher » sur une population aléatoire et dans un cadre expérimental, mais dans la vraie vie elle sera appliquée sur des populations particulières et dans un cadre moins contraint, en combinaison ou en compétition avec bien d’autres interventions. Pour pallier ce problème, on fait le pari qu’en multipliant les ECR sur une même intervention dans des contextes différents, et en menant une analyse croisée des résultats obtenus, il est possible de dire ce qui marche, et ainsi constituer, par une procédure de revue systématique, un répertoire d’interventions à appliquer pour améliorer l’action publique et résoudre les problèmes sociaux.
Cette solution n’est pas vraiment satisfaisante et elle ne l’a jamais été, ce que les critiques de l’EBP n’ont jamais cessé de clamer. Pourtant, au sein du champ lui-même, la question de la validité externe a longtemps été mise sous le tapis.
Avant de venir aux constats effectués par les intervenant·es, disons d’abord quelques mots sur le monde dans lequel ils et elles évoluent, c’est-à-dire le monde de l’éducation et de la santé aux États-Unis pour l’essentiel. Et le moins que l’on puisse dire est qu’on a l’impression à les entendre de vivre sur une autre planète.
D’abord l’EBP y a atteint un niveau d’institutionnalisation avancé, avec une myriade d’organisations requérant et finançant des ECR, réalisant des revues systématiques, et traduisant les résultats sous une forme simplifiée aux acteurs de l’action publique, les evidence clearing houses. Il y en a beaucoup et c'est sans compter celles dont se dotent les états. Charge aux scientifiques, dans cette industrie de la preuve, de fournir la matière première (avec de plus en plus d’outils normalisés pour mener ce travail, comme l’indique Rebecca Maynard) . Les policy-makers deviennent quant à eux des assembleurs – c’est en tout cas le récit qui est fait, par exemple, dans cet article sur le Mississippi paru récemment.
Curieusement, l’alternative agitée comme un épouvantail par les présent·es n’est pas tant une politique qui ne serait pas « basée sur la preuve », mais sa « juridicisation » : c’est-à-dire le fait que les tribunaux puissent, aux États-Unis, imposer non seulement des principes, mais également des actions très concrètes aux acteurs éducatifs. Dès lors, ce n’est pas uniquement à l’action publique, mais aussi aux juges que les chercheurs/ses doivent s’adresser, ce qui les entraîne sur un terrain glissant, celui non plus de fournir la matière première, mais de recommander une approche donnée.
Enfin, on apprend que des entreprises vendent, partout dans le monde, des interventions sociales clés en main, avec formation et accompagnement, et se servent de la caution apportée par les ECR comme argument de vente – ce alors que les preuves d’efficacité sont discutables, comme le rapporte Julia Littel. Ce qui renforce largement les enjeux éthiques auxquels sont confrontés les chercheurs/ses – au risque de servir de point d’appui à un « boniment basé sur la preuve ».
C’est donc dans un monde sensiblement différent du nôtre qu’évoluent les intervenant·es, et il est bon de l’avoir en tête pour la suite des échanges.
Commençons par (et évacuons!) le plus lunaire, telle cette définition de l’EBP par Larry Orr et ses coauteurs/rices :
« Adopt an intervention only if it has been shown to produce impacts that are significant at the .05 level in a rigorous, multi-site trial ».
On a tout dit sur les randomistas et ce n’est pas la peine d’en rajouter, mais on aurait pu croire que les arguments anciens sur le fait qu’une politique pouvait être basée sur des données probantes sans nécessairement que celles-ci soient issues des ECR avaient un tout peu été entendus. Visiblement non.
De fait, les intervenant·es se présentent eux-mêmes comme des quantitativistes et assènent entre autres évidences qu’« on ne sait pas répliquer à partir d’études qualitatives ». Les débats entre ces chercheurs et chercheuses, qui se connaissent parfois depuis plus de 30 ans, sont presque exclusivement techniques : quel est le bon outil, quelle est la bonne mesure pour éviter les biais, s’approcher de la « vérité » des interventions (terme non employé par les présent·es) et assurer un bon degré de validité externe. Un exemple de tropisme procédural – mais soyons honnêtes, la même obsession pour les méthodes plutôt que pour l’utilité se retrouve partout dans l’évaluation.
Pour leurs discutant·es (qualifiées par effet miroir de « qualitativistes », alors qu’elles ne se reconnaissent souvent pas dans ce terme), il y a un effet d’étrangeté majeure. Les arguments qu’ils et qu’elles apportent – sur le fait que les décisions sont rarement basées sur la connaissance, sur les usages politiques des données produites, sur la prise en compte de dimensions externes dans le succès ou l’échec des dispositifs évalués – sont rapidement balayés. Pas, attention, que les intervenant·es les jugent faux : plutôt, la validité externe est considérée comme une question technique, et ces arguments ne sont tout simplement pas le sujet du jour.
Et en même temps, certaines barrières semblent s’ouvrir au détour des conversations. Eric Hanusheck se décrit comme un « combattant », une partie prenante aux controverses sur les politiques éducatives à mener. R. Maynard appelle à prendre en compte les utilisateurs/rices des données produites (qu’elle appelle « développeurs » et « consommateurs » : un autre exemple de différences majeures de point de vue entre les deux côtés de l’Atlantique) et à travailler en équipes pluridisciplinaires pour utiliser les connaissances existantes hors RCT. J. Littell pousse à une réflexion critique sur les résultats des études menées pour mieux qualifier leur généralisabilité et propose de s’appuyer sur les cinq principes explorés par William Shadish dans « la logique de la généralisation » pour cela. Dimension politique de l’évaluation, prise en compte des usages, nécessaire réflexivité… Est-ce si différent des débats qui agitent par ailleurs le monde de l’évaluation ?
Ce qui est fascinant, lorsqu’on entend parler cet échantillon de la communauté épistémique quantitativiste, ce sont les références (parfois un peu confuses pour le non-initié) aux débats en cours autour de la validité externe, et leur proximité avec ceux du monde de l’évaluation,, quoique le vocabulaire – et les implications – diffèrent.
Premier changement majeur, par rapport au statu quo décrit plus haut : les intervenant·es reconnaissent et acceptent que l’effet d’une intervention puisse varier selon les cas, et que cette variation soit, au moins en partie, explicable – dans leurs termes, on parlera d’hétérogénéité dans l’effet du traitement. Ces facteurs qui sont identifiés comme ayant une influence sur les effets de l’intervention, et qui sont quantifiables, sont appelés modérateurs. Il peut s’agir, comme le rappelle Jeffrey Smith, de caractéristiques du public, de l’intervention, conditions de mise en œuvre, contexte socioéconomique, territorial, etc. Selon que ces modérateurs sont présents ou non, on pourra qualifier les effets estimés d’une intervention sur différents sous-groupes de la population, par exemple.
Évidemment, cela a des conséquences majeures en termes d’études à mener : peut-on se contenter d’ECR réalisés « au hasard » quand on veut mettre en évidence des configurations ou patterns spécifiques ? Comment assurer que des études nouvelles puissent contribuer à ce travail ? Il faudrait engager un travail de réplication des ECR, plaide E. Hanushek - tout en reconnaissant que les méthodologies employées ne s’y prêtent pas et les incitations à répliquer sont limitées.
Deuxième évolution, tout à fait liée à la précédente : le besoin exprimé d’expliquer les résultats obtenus avant de pouvoir juger de leur généralisabilité et de leur éventuelle application – une tendance datant déjà de quelques années, et qui est tout à fait visible ici. Cette capacité à expliquer, c’est un des cinq principes que met en avant Shadish. J. Littell montre bien, dans le cas qu’elle étudie, que malgré deux douzaines d’ECR et autres études, certaines variations restent énigmatiques. Burt Barnow explore les usages des méthodes mixtes pour renforcer les analyses engagées dans les approches de type ECR. Au-delà de la dimension méthodologique, R. Maynard revient sur la nécessité de travailler en équipe pour croiser les regards, et parle de la synthèse réaliste comme d’une façon de mieux comprendre les contextes et conditions dans lesquels les interventions se déploient.
Troisième aspect frappant, enfin, il est également reconnu que les effets d’une intervention diffèrent selon qu’elle soit réalisée dans un cadre expérimental ou qu’elle soit élargie au plus grand nombre. Traditionnellement, les partisan·es des ECR plaidaient qu’une intervention efficace en contexte expérimental l’était aussi une fois déployée – pourvu que la mise en œuvre respecte un certain nombre de standards. Pour mettre cela en évidence, D. Besharov utilise l’exemple du programme Head Start, qui fournit depuis les années 1960 une scolarisation précoce aux enfants pauvres aux États-Unis (Ah oui : sur cette autre planète, les enfants pauvres n’ont souvent pas accès à une éducation publique avant 5-6 ans. Il faut un programme fédéral pour cela.). En s’appuyant sur les différentes études menées sur ce programme qui a bon an mal an accompagné 50 ans de politique américaine et qui est passé de quelques milliers à plusieurs millions d’enfants impliqués, il montrer comment l’effet diminue avec la taille de la population concernée – mais varie aussi selon le lieu de mise en œuvre, les années, etc.
On aurait tort de sous-estimer ces trois grandes évolutions. En effet, cela signifie que l’on accepte de s’éloigner de l’idée d’UN effet, c’est-à-dire d’un effet moyen qui est à la base de l’esprit contrefactuel (on parle de pensée basée sur la variance) et de l’EBP. S’il n’y a plus un effet, il n’y a plus non plus une solution qui peut être appliquée n’importe où.
On se rapproche plutôt de la logique pattern-based, dans laquelle on s’attache à retrouver des configurations, des structures, des schémas à dimension explicative – et donc plus uniquement descriptives. C’est donc un pas significatif qui est fait, et cela d’autant plus que les participant·es ont apparemment mené cette évolution de leur côté, et semblaient à peu près ignorant·es du fait que ce type de raisonnement est consubstantiel à l’évaluation basée sur la théorie !
Les conséquences, enfin, sont évidentes en termes de généralisation. La première, c’est qu’il n’y a plus de « vérité révélée ». En fait, la réflexion menée par les intervenant·es les amène à une sorte d’aporie : si les effets sont désormais associés à des « configurations de facteurs », et si seuls les ECR sont susceptibles de dire ce qui constitue un modérateur ou pas, alors c’est un travail gigantesque qui attend les chercheurs/ses qui travaillent sur ces questions. Peut-être qu’en attendant, la prise en compte, notamment, des évaluations basées sur la théorie et des méthodes mixtes permettraient d’atteindre un certain degré de plausibilité dans les allégations faites sur les effets des interventions. Mais tou·tes les présent·es ne semblaient pas convaincu·es.
La deuxième, c’est la nécessité de prendre en compte le contexte d’implantation pour définir ce qui est généralisable ou pas. C’est bien là le problème repéré par L. Orr : il ne suffit pas de repérer des patterns dans les cas étudiés ; encore faut-il pouvoir les identifier dans le cas où une application est projetée. Là aussi, les conséquences sont vertigineuses, car les chercheurs/ses ne peuvent plus se contenter de produire de la connaissance, mais doivent travailler du côté de sa réception.
Le tout, enfin, invite peut-être à une certaine forme de modestie : soit accepter de dire que des interventions « marchent » dans certaines conditions plutôt que de façon universelle. Les intervenant·es ont beau jeu de se plaindre que les clearinghouses simplifient les résultats des études menées, et que les acteurs publics prennent les constats sur l’effet des interventions au pied de la lettre, alors que c’est l’argument de vente de l’EBP depuis 20 ans : dire « ce qui marche », point.
À la fin de cette journée stimulante, on pourra se dire qu’il y a matière à échange. On pensera en particulier aux façons de généraliser dans des contextes compliqués ou complexes : généralisation analytique de Yin, généralisation modeste de Ragin et Rihoux, synthèse réaliste de Pawson, et peut-être plus généralement réflexions autour de la question de savoir ce que l’on peut apprendre d’une intervention dans un cadre complexe.
Inversement, il y a à apprendre pour les évaluateurs/rices travaillant avec des approches basées sur la théorie. Ces dernières années, des progrès énormes ont été constatés dans la structuration de ces approches. Les théories construites dans le cadre de ces démarches sont plus complètes, plus riches, savent mieux prendre en compte les différentes couches de facteurs rentrant en ligne de compte. Pourtant, on se prend à envier la rigueur des processus employés pour définir les « modérateurs » et leur influence sur les effets obtenus, et sur les procédures pour tester lesdites théories.
Reste que cette journée était, peut-être avant tout, une prise de contact, et plusieurs « couches de distance » restent à dépasser, malgré la bienveillance généralisée des échanges : entre européen·nes et états-unien·nes, entre tenant·es de paradigmes et approches différentes, entre ce groupe qui se connaît très bien et celui des discutant·es – qui en était à se découvrir, et peut-être, ajoutera-t-on, en termes de différence d'âge. Comment collaborer suffisamment en profondeur pour changer les pratiques collectivement ? Est-ce possible de le faire sans un dispositif spécifique ? Il y a peut-être des passeurs à trouver pour aller plus loin. Le mot de la fin revient sans doute à E. Hanushek : nous n’en sommes qu’au début si on veut être sérieux en termes de validité externe.
mardi 09 juillet 2024
Les programmes d'innovation se multiplient, mais sans jamais être évalués
mardi 11 juin 2024
Et si on partait des usages de la connaissance plutôt que de la production d'évaluations ?
mercredi 05 juin 2024
Un nouveau livre sur les théories du changement en évaluation
mardi 23 avril 2024
Une présentation réalisée dans le cadre de Design des politiques publiques nouvelle génération 2024
lundi 08 avril 2024
Texte rédigé dans le cadre du MOOC de l'Université Paris 1
lundi 23 octobre 2023
Evaluating EU Cohesion policy — European Court of Auditors
lundi 03 juillet 2023
The challenges of external validity, towards an interdisciplinary discussion?
mardi 27 juin 2023
Les défis de la validité externe, un sujet d'échange interdisciplinaire ?
vendredi 16 juin 2023
Le name and shame est-il une politique publique efficace?
jeudi 19 janvier 2023
Quelles distinctions entre l'évaluation et les pratiques voisines ?
mardi 01 novembre 2022
Quelle démarche pour une cartographie des usages de l'évaluation d'impact ?
samedi 15 octobre 2022
Un numéro très très lutte – pour l'équité raciale, entre objectivistes et subjectivistes, et oldies but goodies pour faire entendre l'évaluation dans un contexte politisé.
dimanche 17 juillet 2022
Feedback on the European Evaluation Society Conference in Copenhagen
mardi 12 juillet 2022
Retour sur la conférence de la société européenne d'évaluation à Copenhague
mercredi 15 juin 2022
Dans ce numéro, cinéma à tous les étages : La Revanche des Sith, Octobre rouge et 120 battements par minute... ou presque
vendredi 25 mars 2022
Publication
mardi 15 mars 2022
Dans ce numéro, la cartographie des controverses rencontre la science comportementale, et la recherche l'action publique.
mercredi 15 décembre 2021
Numéro spécial Anthologie
lundi 20 septembre 2021
Des citations inspirantes pour qui évalue.
mercredi 15 septembre 2021
Dans ce numéro, évaluation et bureaucratie, l'ultime combat, enquêter avec d'autres êtres, et oldiesbutgoodies, on sauve le monde avec Bob Stake !
vendredi 09 juillet 2021
Oldies but goodies (Karine Sage)
samedi 15 mai 2021
Dans ce numéro, des échecs, des échecs, des échecs, l'évaluation pleinement décrite et pleinement jugée et la réception des politiques du handicap. Pas de oldiesbutgoodies, mais ça reviendra pour le numéro 4 !
jeudi 29 avril 2021
Nouvel article publié (Thomas Delahais)
mardi 27 avril 2021
À l'occasion de la sortie de Strateval, nous revenons sur 3 autres jeux de cartes autour de l'évaluation
jeudi 08 avril 2021
Nouvel article publié (Marc Tevini)
lundi 15 février 2021
Dans ce numéro, évaluation féministe quésaco, apprentissage et redevabilité même combat ? et oldiesbutgoodies, des éléments pour une sociologie de l'évaluation... C'est le sommaire de ce numéro 2.
vendredi 15 janvier 2021
Introduction au séminaire de l'IRTS HDF du 26/01.
mardi 15 décembre 2020
Introduction à la formation à l'analyse de contribution
dimanche 15 novembre 2020
Dans ce numéro, plongée en pleine guerre froide avec la Realpolitik de l'évaluation, des idées pour professionnaliser l'évaluation, et oldiesbutgoodies, de quoi se demander ce que les évaluateurs et les évaluatrices défendent dans leur métier... C'est le sommaire de ce numéro 1.
lundi 09 novembre 2020
Intervention de T Delahais au Congrès de la SEVAL organisé par le GREVAL à Fribourg, le 4 septembre 2020.
jeudi 29 octobre 2020
Contribution de T Delahais et M Tevini en réponse à l'appel de la SFE, "Ce que la crise sanitaire nous apprend sur l'utilité et les pratiques d'évaluation".
vendredi 23 octobre 2020
Nouvel article publié (Thomas Delahais, Karine Sage, Vincent Honoré)
mardi 06 octobre 2020
Nouvel article publié (Agathe Devaux-Spatarakis)
jeudi 30 juillet 2020
À l'honneur pour cette édition, la sagesse pratique des évaluateurs et des évaluatrices, soit « la capacité de faire les bons choix, au bon moment, pour les bonnes raisons » ; ce que les mots et concepts de l'évaluation perdent et gagnent à leur traduction d'une langue à l'autre et oldies but goodies, une piqûre de rappel quant à la vocation démocratique de l'évaluation en France... C'est le sommaire de ce numéro 0.