Humans after all?

This article is available in English.

Le 6 juin se tenait au LIEPP un séminaire sur la validité externe, organisé par Anne Revillard et Douglas Besharov. L’originalité de la démarche, sur ce thème rebattu : la volonté de faire discuter tenant·es d’une évaluation essentiellement contrefactuelle d’un côté, et inscrit·es dans, disons, les méthodes mixtes de l’autre côté. Les papiers présentés par les premier·es étaient discutés par les second·es, amenant à des discussions fertiles (et pas mal d’incompréhensions mutuelles, bien sûr) – on attend évidemment la réciproque dans quelques mois.

Les stars du jour étaient donc les contrefactualistes, et ce séminaire était l’occasion d’écouter cette communauté échanger, et de mettre à jour (ou pas) ses croyances. Que retenir, donc, des échanges ?

Qu’est-ce que la validité externe et pourquoi est-ce important ?

Avant de poursuivre, les lecteurs et lectrices seront peut-être soulagé·es de rafraîchir leur mémoire sur la notion de validité externe, un concept proposé par Donald Campbell dans les années 1950.

Dans une évaluation, ou plus largement dans toute étude visant à établir des liens de causalité, une première préoccupation consiste à se demander si on mesure bien ce que l’on souhaite mesurer. Y-a-t-il des biais, imputables à la conception de l’étude, aux concepts, aux indicateurs, aux instruments de collecte ou de traitement des données... qui affecteraient les résultats ? C’est l’idée de validité interne. Mais on souhaite peut-être aussi savoir si les résultats obtenus sur un échantillon sont valables ailleurs que dans le cadre de l’évaluation menée. C’est cela, l’idée de validité externe.

Sans entrer dans les débats de définition, on peut dire que l’enjeu est de clarifier dans quelle mesure les résultats sont généralisables, et dans quelles conditions, à des populations au-delà de l’échantillon étudié ; et si les résultats obtenus (le fait qu’une intervention « marche », par exemple), peuvent être appliqués dans d’autres contextes.

Pour les évaluateurs et évaluatrices, cette question est importante chaque fois que l’on utilise un outil ou une méthode visant à généraliser des résultats. Qu’est-ce qui nous permet de dire, par exemple, que les résultats obtenus sur un échantillon de 200 répondants reflètent bien la situation de la population initiale de 400 personnes ? De même, lorsqu’on demande si l’intervention évaluée pourrait être élargie ou appliquée à d’autres personnes ou à d’autres contextes, on fait face à des questions de validité externe des résultats.

Cependant, la validité externe revêt une importance particulière pour les intervenant·es, qui sont toutes et tous investies dans la recherche de solutions « qui marchent » et qui pourraient être appliquées par les pouvoirs publics pour résoudre des problèmes sociaux. C’est l’idée d’une politique basée sur des données probantes (Evidence-based policy, EBP).

Pour découvrir ces solutions qui marchent, ils et elles privilégient une approche, les essais contrôlés randomisés (ECR, souvent connus par leur acronyme en anglais, RCT). Dans un ECR, l’intervention est appliquée à une population choisie aléatoirement, en vue d’éviter tout biais de sélection et renforcer la sélection interne. Mais cette procédure a notoirement une validité externe très faible pour la même raison (et pas mal d’autres). En effet, une intervention peut « marcher » sur une population aléatoire et dans un cadre expérimental, mais dans la vraie vie elle sera appliquée sur des populations particulières et dans un cadre moins contraint, en combinaison ou en compétition avec bien d’autres interventions. Pour pallier ce problème, on fait le pari qu’en multipliant les ECR sur une même intervention dans des contextes différents, et en menant une analyse croisée des résultats obtenus, il est possible de dire ce qui marche, et ainsi constituer, par une procédure de revue systématique, un répertoire d’interventions à appliquer pour améliorer l’action publique et résoudre les problèmes sociaux.

Cette solution n’est pas vraiment satisfaisante et elle ne l’a jamais été, ce que les critiques de l’EBP n’ont jamais cessé de clamer. Pourtant, au sein du champ lui-même, la question de la validité externe a longtemps été mise sous le tapis.

Major Tom to Ground Control

Avant de venir aux constats effectués par les intervenant·es, disons d’abord quelques mots sur le monde dans lequel ils et elles évoluent, c’est-à-dire le monde de l’éducation et de la santé aux États-Unis pour l’essentiel. Et le moins que l’on puisse dire est qu’on a l’impression à les entendre de vivre sur une autre planète.

D’abord l’EBP y a atteint un niveau d’institutionnalisation avancé, avec une myriade d’organisations requérant et finançant des ECR, réalisant des revues systématiques, et traduisant les résultats sous une forme simplifiée aux acteurs de l’action publique, les evidence clearing houses. Il y en a beaucoup et c'est sans compter celles dont se dotent les états. Charge aux scientifiques, dans cette industrie de la preuve, de fournir la matière première (avec de plus en plus d’outils normalisés pour mener ce travail, comme l’indique Rebecca Maynard) . Les policy-makers deviennent quant à eux des assembleurs – c’est en tout cas le récit qui est fait, par exemple, dans cet article sur le Mississippi paru récemment.

Curieusement, l’alternative agitée comme un épouvantail par les présent·es n’est pas tant une politique qui ne serait pas « basée sur la preuve », mais sa « juridicisation » : c’est-à-dire le fait que les tribunaux puissent, aux États-Unis, imposer non seulement des principes, mais également des actions très concrètes aux acteurs éducatifs. Dès lors, ce n’est pas uniquement à l’action publique, mais aussi aux juges que les chercheurs/ses doivent s’adresser, ce qui les entraîne sur un terrain glissant, celui non plus de fournir la matière première, mais de recommander une approche donnée.

Enfin, on apprend que des entreprises vendent, partout dans le monde, des interventions sociales clés en main, avec formation et accompagnement, et se servent de la caution apportée par les ECR comme argument de vente – ce alors que les preuves d’efficacité sont discutables, comme le rapporte Julia Littel. Ce qui renforce largement les enjeux éthiques auxquels sont confrontés les chercheurs/ses – au risque de servir de point d’appui à un « boniment basé sur la preuve ».

C’est donc dans un monde sensiblement différent du nôtre qu’évoluent les intervenant·es, et il est bon de l’avoir en tête pour la suite des échanges.

Si différents, si proches

Commençons par (et évacuons!) le plus lunaire, telle cette définition de l’EBP par Larry Orr et ses coauteurs/rices :

« Adopt an intervention only if it has been shown to produce impacts that are significant at the .05 level in a rigorous, multi-site trial ».

On a tout dit sur les randomistas et ce n’est pas la peine d’en rajouter, mais on aurait pu croire que les arguments anciens sur le fait qu’une politique pouvait être basée sur des données probantes sans nécessairement que celles-ci soient issues des ECR avaient un tout peu été entendus. Visiblement non.

De fait, les intervenant·es se présentent eux-mêmes comme des quantitativistes et assènent entre autres évidences qu’« on ne sait pas répliquer à partir d’études qualitatives ». Les débats entre ces chercheurs et chercheuses, qui se connaissent parfois depuis plus de 30 ans, sont presque exclusivement techniques : quel est le bon outil, quelle est la bonne mesure pour éviter les biais, s’approcher de la « vérité » des interventions (terme non employé par les présent·es) et assurer un bon degré de validité externe. Un exemple de tropisme procédural – mais soyons honnêtes, la même obsession pour les méthodes plutôt que pour l’utilité se retrouve partout dans l’évaluation.

Pour leurs discutant·es (qualifiées par effet miroir de « qualitativistes », alors qu’elles ne se reconnaissent souvent pas dans ce terme), il y a un effet d’étrangeté majeure. Les arguments qu’ils et qu’elles apportent – sur le fait que les décisions sont rarement basées sur la connaissance, sur les usages politiques des données produites, sur la prise en compte de dimensions externes dans le succès ou l’échec des dispositifs évalués – sont rapidement balayés. Pas, attention, que les intervenant·es les jugent faux : plutôt, la validité externe est considérée comme une question technique, et ces arguments ne sont tout simplement pas le sujet du jour.

Et en même temps, certaines barrières semblent s’ouvrir au détour des conversations. Eric Hanusheck se décrit comme un « combattant », une partie prenante aux controverses sur les politiques éducatives à mener. R. Maynard appelle à prendre en compte les utilisateurs/rices des données produites (qu’elle appelle « développeurs » et « consommateurs » : un autre exemple de différences majeures de point de vue entre les deux côtés de l’Atlantique) et à travailler en équipes pluridisciplinaires pour utiliser les connaissances existantes hors RCT. J. Littell pousse à une réflexion critique sur les résultats des études menées pour mieux qualifier leur généralisabilité et propose de s’appuyer sur les cinq principes explorés par William Shadish dans « la logique de la généralisation » pour cela. Dimension politique de l’évaluation, prise en compte des usages, nécessaire réflexivité… Est-ce si différent des débats qui agitent par ailleurs le monde de l’évaluation ?

De vifs débats internes

Ce qui est fascinant, lorsqu’on entend parler cet échantillon de la communauté épistémique quantitativiste, ce sont les références (parfois un peu confuses pour le non-initié) aux débats en cours autour de la validité externe, et leur proximité avec ceux du monde de l’évaluation,, quoique le vocabulaire – et les implications – diffèrent.

Premier changement majeur, par rapport au statu quo décrit plus haut : les intervenant·es reconnaissent et acceptent que l’effet d’une intervention puisse varier selon les cas, et que cette variation soit, au moins en partie, explicable – dans leurs termes, on parlera d’hétérogénéité dans l’effet du traitement. Ces facteurs qui sont identifiés comme ayant une influence sur les effets de l’intervention, et qui sont quantifiables, sont appelés modérateurs. Il peut s’agir, comme le rappelle Jeffrey Smith, de caractéristiques du public, de l’intervention, conditions de mise en œuvre, contexte socioéconomique, territorial, etc. Selon que ces modérateurs sont présents ou non, on pourra qualifier les effets estimés d’une intervention sur différents sous-groupes de la population, par exemple.

Évidemment, cela a des conséquences majeures en termes d’études à mener : peut-on se contenter d’ECR réalisés « au hasard » quand on veut mettre en évidence des configurations ou patterns spécifiques ? Comment assurer que des études nouvelles puissent contribuer à ce travail ? Il faudrait engager un travail de réplication des ECR, plaide E. Hanushek - tout en reconnaissant que les méthodologies employées ne s’y prêtent pas et les incitations à répliquer sont limitées.

Deuxième évolution, tout à fait liée à la précédente : le besoin exprimé d’expliquer les résultats obtenus avant de pouvoir juger de leur généralisabilité et de leur éventuelle application – une tendance datant déjà de quelques années, et qui est tout à fait visible ici. Cette capacité à expliquer, c’est un des cinq principes que met en avant Shadish. J. Littell montre bien, dans le cas qu’elle étudie, que malgré deux douzaines d’ECR et autres études, certaines variations restent énigmatiques. Burt Barnow explore les usages des méthodes mixtes pour renforcer les analyses engagées dans les approches de type ECR. Au-delà de la dimension méthodologique, R. Maynard revient sur la nécessité de travailler en équipe pour croiser les regards, et parle de la synthèse réaliste comme d’une façon de mieux comprendre les contextes et conditions dans lesquels les interventions se déploient.

Troisième aspect frappant, enfin, il est également reconnu que les effets d’une intervention diffèrent selon qu’elle soit réalisée dans un cadre expérimental ou qu’elle soit élargie au plus grand nombre. Traditionnellement, les partisan·es des ECR plaidaient qu’une intervention efficace en contexte expérimental l’était aussi une fois déployée – pourvu que la mise en œuvre respecte un certain nombre de standards. Pour mettre cela en évidence, D. Besharov utilise l’exemple du programme Head Start, qui fournit depuis les années 1960 une scolarisation précoce aux enfants pauvres aux États-Unis (Ah oui : sur cette autre planète, les enfants pauvres n’ont souvent pas accès à une éducation publique avant 5-6 ans. Il faut un programme fédéral pour cela.). En s’appuyant sur les différentes études menées sur ce programme qui a bon an mal an accompagné 50 ans de politique américaine et qui est passé de quelques milliers à plusieurs millions d’enfants impliqués, il montrer comment l’effet diminue avec la taille de la population concernée – mais varie aussi selon le lieu de mise en œuvre, les années, etc.

Quelles conséquences pour la validité externe ?

On aurait tort de sous-estimer ces trois grandes évolutions. En effet, cela signifie que l’on accepte de s’éloigner de l’idée d’UN effet, c’est-à-dire d’un effet moyen qui est à la base de l’esprit contrefactuel (on parle de pensée basée sur la variance) et de l’EBP. S’il n’y a plus un effet, il n’y a plus non plus une solution qui peut être appliquée n’importe où.

On se rapproche plutôt de la logique pattern-based, dans laquelle on s’attache à retrouver des configurations, des structures, des schémas à dimension explicative – et donc plus uniquement descriptives. C’est donc un pas significatif qui est fait, et cela d’autant plus que les participant·es ont apparemment mené cette évolution de leur côté, et semblaient à peu près ignorant·es du fait que ce type de raisonnement est consubstantiel à l’évaluation basée sur la théorie !

Les conséquences, enfin, sont évidentes en termes de généralisation. La première, c’est qu’il n’y a plus de « vérité révélée ». En fait, la réflexion menée par les intervenant·es les amène à une sorte d’aporie : si les effets sont désormais associés à des « configurations de facteurs », et si seuls les ECR sont susceptibles de dire ce qui constitue un modérateur ou pas, alors c’est un travail gigantesque qui attend les chercheurs/ses qui travaillent sur ces questions. Peut-être qu’en attendant, la prise en compte, notamment, des évaluations basées sur la théorie et des méthodes mixtes permettraient d’atteindre un certain degré de plausibilité dans les allégations faites sur les effets des interventions. Mais tou·tes les présent·es ne semblaient pas convaincu·es.

La deuxième, c’est la nécessité de prendre en compte le contexte d’implantation pour définir ce qui est généralisable ou pas. C’est bien là le problème repéré par L. Orr : il ne suffit pas de repérer des patterns dans les cas étudiés ; encore faut-il pouvoir les identifier dans le cas où une application est projetée. Là aussi, les conséquences sont vertigineuses, car les chercheurs/ses ne peuvent plus se contenter de produire de la connaissance, mais doivent travailler du côté de sa réception.

Le tout, enfin, invite peut-être à une certaine forme de modestie : soit accepter de dire que des interventions « marchent » dans certaines conditions plutôt que de façon universelle. Les intervenant·es ont beau jeu de se plaindre que les clearinghouses simplifient les résultats des études menées, et que les acteurs publics prennent les constats sur l’effet des interventions au pied de la lettre, alors que c’est l’argument de vente de l’EBP depuis 20 ans : dire « ce qui marche », point.

Un dialogue oui, mais pour quoi faire ?

À la fin de cette journée stimulante, on pourra se dire qu’il y a matière à échange. On pensera en particulier aux façons de généraliser dans des contextes compliqués ou complexes : généralisation analytique de Yin, généralisation modeste de Ragin et Rihoux, synthèse réaliste de Pawson, et peut-être plus généralement réflexions autour de la question de savoir ce que l’on peut apprendre d’une intervention dans un cadre complexe.

Inversement, il y a à apprendre pour les évaluateurs/rices travaillant avec des approches basées sur la théorie. Ces dernières années, des progrès énormes ont été constatés dans la structuration de ces approches. Les théories construites dans le cadre de ces démarches sont plus complètes, plus riches, savent mieux prendre en compte les différentes couches de facteurs rentrant en ligne de compte. Pourtant, on se prend à envier la rigueur des processus employés pour définir les « modérateurs » et leur influence sur les effets obtenus, et sur les procédures pour tester lesdites théories.

Reste que cette journée était, peut-être avant tout, une prise de contact, et plusieurs « couches de distance » restent à dépasser, malgré la bienveillance généralisée des échanges : entre européen·nes et états-unien·nes, entre tenant·es de paradigmes et approches différentes, entre ce groupe qui se connaît très bien et celui des discutant·es – qui en était à se découvrir, et peut-être, ajoutera-t-on, en termes de différence d'âge. Comment collaborer suffisamment en profondeur pour changer les pratiques collectivement ? Est-ce possible de le faire sans un dispositif spécifique ? Il y a peut-être des passeurs à trouver pour aller plus loin. Le mot de la fin revient sans doute à E. Hanushek : nous n’en sommes qu’au début si on veut être sérieux en termes de validité externe.

Évaluer les programmes d'innovation

mardi 09 juillet 2024

Les programmes d'innovation se multiplient, mais sans jamais être évalués

Quels systèmes d'évaluation pour quels usages ?

mardi 11 juin 2024

Et si on partait des usages de la connaissance plutôt que de la production d'évaluations ?

Theories of change in reality

mercredi 05 juin 2024

Un nouveau livre sur les théories du changement en évaluation

Design et évaluation — je t'aime, moi non plus

mardi 23 avril 2024

Une présentation réalisée dans le cadre de Design des politiques publiques nouvelle génération 2024

Les défis de l'évaluation des méga-évènments - Le cas des Jeux Olympiques et Paralympiques

lundi 08 avril 2024

Texte rédigé dans le cadre du MOOC de l'Université Paris 1

Evaluating EU Cohesion policy

lundi 23 octobre 2023

Evaluating EU Cohesion policy — European Court of Auditors

Humans after all?

lundi 03 juillet 2023

The challenges of external validity, towards an interdisciplinary discussion?

Humans after all?

mardi 27 juin 2023

Les défis de la validité externe, un sujet d'échange interdisciplinaire ?

Index égalité professionnelle, index senior...

vendredi 16 juin 2023

Le name and shame est-il une politique publique efficace?

Évaluation RTBFoods

jeudi 02 mars 2023

Du outcome harvesting dans une évaluation de projet

Des fiches pour distinguer l'évaluation d'autres pratiques voisines

jeudi 19 janvier 2023

Quelles distinctions entre l'évaluation et les pratiques voisines ?

🃏 Cartographie des usages de l'évaluation d'impact

mardi 01 novembre 2022

Quelle démarche pour une cartographie des usages de l'évaluation d'impact ?

📚 Trois articles d'évaluation (nº8, 15 octobre 2022)

samedi 15 octobre 2022

Un numéro très très lutte – pour l'équité raciale, entre objectivistes et subjectivistes, et oldies but goodies pour faire entendre l'évaluation dans un contexte politisé.

📚 Évaluer les politiques locales d'égalité femmes-hommes

mardi 04 octobre 2022

Publication

🚂 EES 2022: It’s not (only) you, it’s me (too)

dimanche 17 juillet 2022

Feedback on the European Evaluation Society Conference in Copenhagen

🚂 EES 2022 - C’est pas (que) toi, c’est moi (aussi)

mardi 12 juillet 2022

Retour sur la conférence de la société européenne d'évaluation à Copenhague

📚 Trois articles d'évaluation (nº7, 15 juin 2022)

mercredi 15 juin 2022

Dans ce numéro, cinéma à tous les étages : La Revanche des Sith, Octobre rouge et 120 battements par minute... ou presque

🎙 L'évaluation des contrats de ville

mercredi 01 juin 2022

Publication

📚 L'évaluation en contexte de développement

mardi 31 mai 2022

Publication

🎥 Cinq choses à savoir sur les initiatives de transition

lundi 02 mai 2022

Vidéo

💡 Recherche et action publique : il faut être deux pour danser le tango

vendredi 25 mars 2022

Publication

📚 Trois articles d'évaluation (nº6, 15 mars 2022)

mardi 15 mars 2022

Dans ce numéro, la cartographie des controverses rencontre la science comportementale, et la recherche l'action publique.

💡 Qu'attendre de la recherche pour éclairer l'action publique

jeudi 20 janvier 2022

Publication

📚 Trois articles d'évaluation (nº5, 15 décembre 2021)

mercredi 15 décembre 2021

Numéro spécial Anthologie

Citations relatives à l'évaluation des politiques publiques

lundi 20 septembre 2021

Des citations inspirantes pour qui évalue.

📚 Trois articles d'évaluation (nº4, 15 septembre 2021)

mercredi 15 septembre 2021

Dans ce numéro, évaluation et bureaucratie, l'ultime combat, enquêter avec d'autres êtres, et oldiesbutgoodies, on sauve le monde avec Bob Stake !

💡 Glossaires de l'évaluation

dimanche 12 septembre 2021

Liste de glossaires

💡 7 bonnes raisons de prendre en compte l'égalité entre les femmes et les hommes dans ma pratique d'évaluation

vendredi 09 juillet 2021

Oldies but goodies (Karine Sage)

📚 Trois articles d'évaluation (nº3, 15 mai 2021)

samedi 15 mai 2021

Dans ce numéro, des échecs, des échecs, des échecs, l'évaluation pleinement décrite et pleinement jugée et la réception des politiques du handicap. Pas de oldiesbutgoodies, mais ça reviendra pour le numéro 4 !

💡 Les évaluations participatives, plus facile à dire qu'à faire

jeudi 29 avril 2021

Nouvel article publié (Thomas Delahais)

Quatre jeux de cartes d'évaluation francophones

mardi 27 avril 2021

À l'occasion de la sortie de Strateval, nous revenons sur 3 autres jeux de cartes autour de l'évaluation

💡 Qu'est-ce que l'analyse militante apporte à l'évaluation des politiques publiques ?

jeudi 08 avril 2021

Nouvel article publié (Marc Tevini)

📚 Trois articles d'évaluation (nº2, 15 février 2021)

lundi 15 février 2021

Dans ce numéro, évaluation féministe quésaco, apprentissage et redevabilité même combat ? et oldiesbutgoodies, des éléments pour une sociologie de l'évaluation... C'est le sommaire de ce numéro 2.

📽 L'évaluation des politiques sociales, de quoi parle-t-on ?

vendredi 15 janvier 2021

Introduction au séminaire de l'IRTS HDF du 26/01.

📽 L'analyse de contribution en pratique

mardi 15 décembre 2020

Introduction à la formation à l'analyse de contribution

📚 Trois articles d'évaluation (nº1, 15 novembre 2020)

dimanche 15 novembre 2020

Dans ce numéro, plongée en pleine guerre froide avec la Realpolitik de l'évaluation, des idées pour professionnaliser l'évaluation, et oldiesbutgoodies, de quoi se demander ce que les évaluateurs et les évaluatrices défendent dans leur métier... C'est le sommaire de ce numéro 1.

📽 L'évaluation participative, plus facile à dire qu'à faire

lundi 09 novembre 2020

Intervention de T Delahais au Congrès de la SEVAL organisé par le GREVAL à Fribourg, le 4 septembre 2020.

💡 En situation anormale, l'évaluation doit devenir la norme

jeudi 29 octobre 2020

Contribution de T Delahais et M Tevini en réponse à l'appel de la SFE, "Ce que la crise sanitaire nous apprend sur l'utilité et les pratiques d'évaluation".

💡 Comment évaluer la transition

vendredi 23 octobre 2020

Nouvel article publié (Thomas Delahais, Karine Sage, Vincent Honoré)

💡 Quels mécanismes à l'œuvre dans les innovations ?

mardi 06 octobre 2020

Nouvel article publié (Agathe Devaux-Spatarakis)

📚 Trois articles d'évaluation (v0, 30 juillet 2020)

jeudi 30 juillet 2020

À l'honneur pour cette édition, la sagesse pratique des évaluateurs et des évaluatrices, soit « la capacité de faire les bons choix, au bon moment, pour les bonnes raisons » ; ce que les mots et concepts de l'évaluation perdent et gagnent à leur traduction d'une langue à l'autre et oldies but goodies, une piqûre de rappel quant à la vocation démocratique de l'évaluation en France... C'est le sommaire de ce numéro 0.