Les ERC sont très répandus dans le domaine médical où l’environnement peut être totalement contrôlé.
Photo : WHO/Eduardo Soteras Jalil

Essais randomisés contrôlés – la référence absolue ?

L’utilisation des essais randomisés contrôlés est très répandue, mais ils ne sont pas pour autant à l’abri des critiques. L’auteure présente certains des problèmes que la méthode peut rencontrer et recommande de donner plus de place au contexte et à la pertinence lors de la conception des évaluations.

Les essais randomisés contrôlés (ERC) ont récemment gagné en popularité. L’idée de base est simple. Dans une étude randomisée, des individus sont aléatoirement affectés à des groupes appelés « groupes de traitement » et « groupes témoin », qui doivent être composés d’individus n’ayant pas encore bénéficié du programme, de manière à pouvoir évaluer l’impact de l’ensemble du programme.

Grâce à cette affectation aléatoire au groupe de traitement ou au groupe témoin, on est certain que les résultats potentiels ne sont pas faussés par une auto-sélection à bénéficier du traitement. L’auto-sélection, c’est ce que pratiquent des personnes se sélectionnant elles-mêmes pour participer à des programmes particuliers. Par exemple, elles peuvent s’auto-sélectionner pour des programmes de microfinance parce qu’elles ont particulièrement le sens de l’entreprise, ont une propension au risque et/ou ont certaines compétences en affaires. Dans une randomisation réussi, on part du principe que les individus appartenant au groupe de traitement et au groupe témoin sont équivalents en termes de caractéristiques observables et non observables, à l’exception du statut du traitement. Par conséquent, les différences observées au niveau des résultats de chacun de ces individus sont censées être l’effet du programme.

L’aspect crucial de la causalité

Le battage médiatique dont font l’objet les ERC a conduit les responsables des orientations politiques, les bailleurs et les chercheurs à croire que la randomisation est la seule méthode convaincante de détermination de la causalité. Toutefois, pour que les ERC déterminent la causalité de manière convaincante, il faut qu’ils soient correctement mis en œuvre. Autrement dit, nous devons être convaincus que les individus ont véritablement été affectés de manière aléatoire au groupe de traitement et au groupe témoin ; ce n’est qu’alors que nous aurons réussi à mettre en place un scénario contrefactuel précis (c’est-à-dire ce qui serait arrivé en l’absence d’un programme). Parallèlement, nous devons être capables de nous assurer qu’il n’y a aucun biais d’auto-sélection sans avoir à recourir à des techniques économétriques complexes exigeant une expertise technique particulière.

Les ERC peuvent être une solution méthodologique attrayante mais ils ne sont pas exempts de problèmes, qu’ils soient d’ordre technique, éthique ou pratique. Dans les cercles académiques, le chœur des critiques s’amplifie, faisant valoir que la validité interne et externe des ERC est menacée. Par exemple, jusqu’à quel point peut on avoir vraiment confiance dans les revendications de causalité des ERC, et comment leurs résultats peuvent-ils être généralisés à d’autres situations et/ou individus ? Examinons maintenant certaines de ces menaces avant de nous pencher sur de potentielles solutions de remplacement aux ERC.

Les difficultés à réaliser des ERC réussis

Réussir à mettre en œuvre un ERC n’est pas tâche facile, surtout en raison de difficultés techniques telles que garantir le double insu, éviter les méthodes pseudo-aléatoires, gérer l’attrition et tenir compte des changements de comportement causés par l’expérience elle-même, tels que les effets de Hawthorne et de John Henry, qui peuvent avoir une incidence négative ou positive sur les résultats (comme nous le verrons plus loin). Par ailleurs, on ne peut pas complètement exclure les effets de débordement et il faut tenir compte des difficultés éthiques et pratiques. Nous allons maintenant examiner ces difficultés plus en profondeur en commençant par la caractéristique clé des ERC, qui est le double insu.

L’expert en évaluations Michael Scriven, entre autres, insiste sur le fait que le double insu est une des conditions de réussite d’un ERC. Le double insu part du principe que les individus qui participent à l’ERC et les chercheurs qui le réalisent ne savent pas qui reçoit ou non un traitement particulier. La logique du double insu est d’éviter  les résultats de recherche biaisés dus à l’effet placébo. Dans le milieu médical, où les ERC sont courants, le double insu peut être assuré par la réalisation d’ERC en laboratoires, où l’environnement peut être entièrement contrôlé, mais la situation n’est pas la même pour les études menées dans le domaine des sciences sociales et notamment du développement international. Par exemple, les ERC servant à évaluer l’impact de l’éducation, des services sociaux ou des programmes de microfinance sont généralement à simple insu, mais le plus souvent à « zéro insu ». Autrement dit, les individus découvrent généralement s’ils appartiennent au groupe de traitement ou au groupe témoin, ce qui annule la notion de double insu.

Une autre difficulté est liée à la prévalence des méthodes pseudo-aléatoires souvent utilisées lors du processus d’affectation des individus à un groupe de traitement ou un groupe témoin. Il est intéressant de chercher à savoir comment, exactement, les individus ont été affectés à leur groupe respectif ; le processus était-il vraiment aléatoire ? Par exemple, l’évaluation du programme Girl’s Education Challenge, au Mozambique, financé par le Département du développement international (DfID) du Royaume-Uni, a revendiqué être un ERC, mais après un examen approfondi et des discussions plus poussées avec les évaluateurs, il est apparu que des éléments non aléatoires s’étaient glissés dans l’affectation des individus au groupe de traitement et au groupe témoin à la suite de difficultés rencontrées sur le terrain. Cela peut bien entendu avoir de graves conséquences pour la fiabilité des estimations fournies par l’ERC, et il n’est pas rare que des études ne décrivent pas avec précision leur processus de randomisation ou qu’elles le décrivent de façon superficielle.

Par ailleurs, de nombreux ERC n’abordent pas la question d’attrition de manière appropriée. L’attrition fait référence aux individus qui ont été affectés à un groupe de traitement ou un groupe témoin mais qui ont décidé de ne pas poursuivre l’expérience. On ne sait jamais très bien pourquoi ces individus renoncent mais leur comportement peut avoir des effets négatifs sur les résultats de l’expérience. On entend souvent dire que ceux qui décrochent auraient été dans une situation pire que ceux qui restent et qu’il existe par conséquent un risque de surestimation des évaluations d’impact ; mais le contraire peut également être vrai. Ceux qui décrochent modifient la composition du groupe de traitement et du groupe témoin et influencent de ce fait les résultats de l’expérience puisqu’on ne peut pas observer leurs résultats à eux. Il est possible de retrouver les individus qui décrochent et ainsi de gérer les éventuels effets secondaires de l’attrition, mais cela serait une opération coûteuse. Le plus important serait que toutes les études randomisées déclarent leur niveau d’attrition et comparent les décrocheurs avec ceux qui continuent de participer à l’étude de manière à déceler s’il y a des différences systématiques entre ces deux groupes, du moins en termes de caractéristiques observables.

Une autre difficulté affectant la généralisabilité des ERC est liée aux changements de comportement qui peuvent avoir une influence sur le groupe de traitement et le groupe témoin. Ces changements de comportement sont ce qu’on appelle les effets Hawthorne et les effets John Henry, les effets Hawthorne faisant référence aux changements de comportement dans le groupe de traitement alors que les effets John Henry concernent les changements de comportement dans le groupe témoin. Par exemple, les individus du groupe de traitement peuvent changer leur comportement de manière positive pendant la durée de l’étude, en reconnaissance du traitement qu’ils reçoivent et en réaction au fait de se savoir observés. Les mêmes changements de comportement peuvent s’appliquer aux membres du groupe témoin dont le comportement peut également varier de façon positive ou négative.

Une dernière difficulté technique que nous devons comprendre est liée aux effets de débordement susceptibles d’avoir une incidence néfaste sur les évaluations d’impact obtenues à partir d’un ERC. Les effets de débordement concernent les individus des groupes témoins, qui sont physiquement affectés par le traitement ou qui le sont sous la forme de changements des prix, d’effets d’apprentissage ou d’imitation. Mais les individus du groupe de traitement peuvent également être affectés par les débordements, par ex. les changements des tendances migratoires dus à l’attraction que peut susciter le traitement peuvent avoir un effet sur l’impact du programme. Dans le cas du programme de transfert conditionnel d’argent liquide (PROGRESA), au Mexique, des effets de débordement dus à la migration ont été détectés, mais la bonne nouvelle est que ces débordements, lorsqu’ils sont significatifs, peuvent être mesurés et contrôlés. Par exemple, le niveau d’exposition au traitement dans les groupes peut être ajusté pour évaluer l’importance de potentiels effets de débordement.

En plus de ces difficultés techniques, il existe de potentiels problèmes éthiques. La mise en œuvre d’ERC n’est pas toujours possible pour des considérations éthiques, par exemple comment peut-on justifier que certains individus soient affectés à un groupe de traitement alors que d’autres sont exclus d’un traitement potentiellement bénéfique. Toutefois, beaucoup considèrent que ces problèmes éthiques ne sont pas valides et partent du principe que s’il est prouvé qu’un traitement est bénéfique, tous les individus du groupe témoin finiront par en bénéficier également.

Nous avons besoin d’un pluralisme méthodologique et d’une ouverture d’esprit chez les chercheurs et les responsables de la recherche évaluative.

Enfin, il reste des problèmes pratiques à résoudre pour réussir la mise en œuvre d’un ERC ; une large coopération de la part des programmes évalués est nécessaire. Cela peut prendre du temps et coûter de l’argent. Laura E. Bothwell et les coauteurs considèrent que les ERC sont des outils de marketing à coût et valeur élevés et que par conséquent leur rentabilité doit être soigneusement examinée avant de se lancer dans leur réalisation, par ex. en ce qui concerne le pourcentage du budget global consacré au programme devant être alloué à la réalisation d’évaluations. Dispose-t-on de suffisamment de fonds pour réaliser un ERC de qualité ? L’ERC est-il l’option méthodologique appropriée pour répondre aux questions importantes compte tenu de ses coûts ? De plus, pour qu’un ERC soit efficace, l’environnement doit être rigoureusement contrôlé, de manière à pouvoir correctement attribuer toute différence de résultat entre les deux groupes à l’impact du programme. Par conséquent, dans bien des cas, la réalisation d’un ERC n’est ni souhaitable ni faisable, d’où l’importance d’envisager d’autres solutions fiables.

Réfléchissons à d’autres solutions

Les méthodes qualitatives ont un rôle croissant à jouer dans les évaluations d’impact, par exemple le process-tracing (méthode d’identification des mécanismes causaux) et les life stories (récits de vie), mais également dans les jeux expérimentaux et comportementaux ainsi que dans l’analyse des réseaux sociaux, les études longitudinales et d’autres approches de modélisation. Il n’entre pas dans le cadre de cet article d’examiner ces autres solutions en profondeur, mais il est à noter que des approches strictement quantitatives telles que les ERC peuvent être facilement remplacées et/ou complétées par d’autres solutions rentables qui mettent souvent l’accent sur la nécessité de mieux comprendre les mécanismes de causalité qui sous-tendent un programme particulier avec l’objectif de déballer sa « boîte noire ».

Compte tenu des difficultés soulignées plus haut, l’enthousiasme récent en faveur des ERC est-il durable ? En principe, les ERC ont les meilleures chances de répondre à divers problèmes d’évaluation tels que le contrôle des biais de sélection, l’élaboration de scénarios contrefactuels fiables, etc. Toutefois, Elliot Stern et ses coauteurs estiment que dans 95 pour cent des cas, les ERC ne sont ni faisables ni appropriés. Nous maintenons par conséquent qu’il importe de réfléchir plus sérieusement à des solutions de remplacement, ainsi qu’à des méthodes complémentaires aux ERC.

Les ERC promettent rigueur et certitude, ce qui peut expliquer pourquoi ils sont devenus si populaires, mais la rigueur ne se limite pas aux ERC. D’autres disciplines telles que le droit, l’écologie, etc., s’appuient sur d’autres techniques telles que les règles de la preuve, la photographie aérienne et les images satellite pour établir des liens de causalité. Il peut également être intéressant d’explorer des méthodes relativement peu coûteuses, par exemple les jeux expérimentaux et comportementaux, l’analyse des réseaux sociaux, la modélisation à base d’agents et d’autres approches de simulation, qui ont été peu utilisées, à ce jour, dans le domaine des évaluations d’impact. Ces approches peuvent souvent être plus puissantes que les seuls ERC pour comprendre les mécanismes de causalité sous-jacents des programmes, et elles sont particulièrement utiles lorsqu’elles sont confrontées à de petites évaluations (celles qui nécessitent des échantillons de petite taille) et/ou des évaluations d’interventions complexes, notamment dans les zones touchées par des conflits et dans lesquelles l’utilité des ERC est très limitée.

Le choix d’un mode d’étude d’évaluation – savoir s’il faut utiliser un ERC, un modèle quasi-expérimental, des outils qualitatifs ou une combinaison de toutes ces solutions – doit dépendre des objectifs de l’évaluation, de l’accès à des ressources financières et des délais. La rigidité méthodologique ne nous aidera pas à mieux comprendre l’efficacité des programmes de développement ; ce dont nous avons besoin, c’est d’un pluralisme méthodologique et d’une ouverture d’esprit chez les chercheurs et les responsables de recherche évaluative, pour permettre de disposer du meilleur modèle d’évaluation possible, compte tenu du contexte spécifique dans lequel nous nous trouvons. Le contexte et la pertinence des méthodes comptent !

Maren Duvendack est titulaire d’un doctorat en économie du développement de l’université d’East Anglia (UEA), Royaume-Uni. Ses principaux domaines de recherche sont la micro-économétrie appliquée, les méthodes d’évaluation d’impact, les examens systématiques et les méta-analyses, la microfinance, la réplication et la reproduction d’analyses quantitatives, ainsi que l’éthique de la recherche. Maren Duvendack a consacré une bonne partie de ses travaux aux évaluations d’impact de la microfinance en Inde et au Bangladesh.

Contact: m.duvendack@uea.ac.uk
 

Références

Barrett, C.B. & Carter, M.R., 2010. The Power and Pitfalls of Experiments in Development Economics: Some Non-random Reflections. Applied Economic Perspectives and Policy, 32(4), pp.515-548.

Bothwell, L.E., Greene, J.A., Podolsky, S.H. & Jones, D.S., 2016. Assessing the Gold Standard--Lessons from the History of RCTs. The New England journal of medicine, 374(22), pp.2175.

Deaton, A., 2010. Instruments, Randomization, and Learning about Development. Journal of Economic Literature, 48(2), pp.424-455.

Harrison, G.W., 2011. Randomisation and Its Discontents. Journal of African Economies, 20(4), pp.626-652.

Scriven, M., 2008. A Summative Evaluation of RCT Methodology: An Alternative Approach to Causal Research. Journal of MultiDisciplinary Evaluation, 5 (9), p.11-24.

Stern, E. et al., 2012. Broadening the Range of Designs and Methods for Impact Evaluations. Available at: http://www.dfid.gov.uk/Documents/publications1/design-method-impact-eval.pdf.