« Fuzzy Differences-in-Differences », pour une évaluation plus précise des politiques publiques

Lauréat du Prix Edmond Malivaud 2019 de l’AFSE, Xavier D’Haultfœuille présente les résultats de ses recherches visant à perfectionner une méthode bien connue d’évaluation des politiques publiques, les « différences de différences », utilisées par exemple dans nombre des travaux d’A. Banerjee et E. Duflo, lauréats du Prix Nobel d’économie avec M. Kremer. L’étude de Xavier D’Haultfœuille et de Clément de Chaisemartin souligne notamment que les outils statistiques habituellement utilisés dans certaines situations, dites "fuzzy", s’appuient sur des hypothèses dont la validité est parfois douteuse en pratique. Les auteurs proposent ainsi de nouveaux estimateurs ne reposant pas sur ces dernières.

Par Xavier D’Haultfœuille, Professeur d'économie et économétrie, ENSAE-CREST, Pôle économie

Le titre de l'article [1] est sans doute un peu obscur pour les non-initiés, et pourtant, il traite d’un sujet essentiel pour l’évaluation rigoureuse des politiques publiques. De quoi parle-t-on exactement ? Pour le comprendre, rappelons les principes de la méthode dite des « différences de différences ». L'idée est d'identifier l'effet d'une politique publique à l'aide de deux groupes. Le premier, dit de contrôle, n'est jamais bénéficiaire de la politique tandis que l'autre, dit de traitement, la reçoit à partir d'une certaine date. La méthode dite des « différences de différences » consiste alors à comparer l'évolution de la variable d'intérêt entre les deux groupes et entre deux dates encadrant la mise en place de la politique. L'hypothèse clé, dite des tendances communes, stipule qu'en l'absence de la politique, l'évolution de la variable d'intérêt aurait été identique dans les deux groupes.

Un exemple célèbre ayant contribué à populariser cette méthode d’évaluation des politiques publiques se trouve dans l'article de Card et Krueger paru en 1994 dans l'American Economic Review, qui traite de l'effet du salaire minimum sur l'emploi. Cette étude s'intéressait à l'évolution de l'emploi dans la restauration rapide entre les deux Etats voisins du New Jersey et de la Pennsylvanie, en utilisant la hausse de salaire minimum mise en place dans le New Jersey en 1992. L'étude concluait que cette hausse avait en fait conduit... à une hausse de l'emploi dans le New Jersey ! Ce résultat était très surprenant car il allait à l'encontre de la théorie économique standard. Il a cependant été confirmé depuis par d'autres études, même si la controverse demeure vive sur le sujet aux Etats-Unis et en Europe.

Dans le cadre standard des différences de différences, personne n'est jamais "traité" dans le groupe de contrôle, tandis que tous les membres du groupe de traitement le deviennent à la seconde date. Bien souvent, cependant, la situation est plus floue : certains membres du groupe de contrôle sont traités aux deux dates, ainsi que certains membres du groupe de traitement en première période. L'analyse par Esther Duflo des rendements de l'éducation en Indonésie ("Schooling and Labor Market Consequences of School Construction in Indonesia: Evidence from an Unusual Policy Experiment", parue dans l'American Economic Review en 2001) en est un autre exemple célèbre. Cette analyse s'appuyait sur une importante politique de construction d'écoles dans le pays durant les années 1970. L'intensité de la construction des écoles variant d'une zone à l'autre, Duflo a divisé le pays en deux groupes, l'un particulièrement concerné par la politique, l'autre moins. Les deux périodes correspondaient ici à deux cohortes, la première trop âgée pour être concernée par la politique de construction d'écoles, la seconde ayant au contraire pu en bénéficier. Dans son analyse, les individus des deux groupes recevaient cependant tous un certaine quantité d'éducation. On observe simplement une augmentation plus importante du niveau d'éducation dans le groupe traité (+ 0,47 année d'éducation) que dans le groupe contrôle (+ 0,36 année d'éducation).

Dans une telle situation, l'estimateur courant est le ratio de la différence de différences de la variable d'intérêt (le logarithme du salaire dans l'exemple précédent) sur la différence de différences de la variable de traitement (le niveau d'éducation dans l'exemple). La première contribution de notre article est de clarifier l’effet identifié par ce ratio, que nous appelons le "Wald-DID". Nous montrons que l'hypothèse de tendance commune n'est pas suffisante pour que ce ratio corresponde à l'effet d'une politique publique. Il est également nécessaire de supposer soit que le taux de traitement du groupe de contrôle demeure stable au cours du temps, soit que l'effet du traitement est le même dans les deux groupes. Il est également nécessaire de faire l’hypothèse d’un effet du traitement stable entre les deux périodes. Dans l'exemple indonésien, où les périodes correspondent en fait à des cohortes d'individus, cette hypothèse est contestable : nous montrons qu’elle est violée si l’expérience professionnelle a des rendements décroissants, ce qui semble très plausible au vu de la littérature sur la question.

Notre deuxième contribution, dès lors, est de proposer deux autres estimateurs ne reposant pas sur cette dernière hypothèse de stabilité de l'effet du traitement. Ces deux estimateurs, dénommés respectivement le "Wald-TC" et le "Wald-CIC", reposent cependant sur l'hypothèse qu'il existe un groupe de contrôle dont le taux de traitement est stable au cours du temps. Le Wald-TC et le Wald-CIC sont proches dans l'esprit mais prennent en compte différemment les variations temporelles de la variable d'intérêt. Le premier opère d'une manière linéaire, proche des différences de différences classiques tandis que le second s'appuie sur une méthode non-linéaire inspirée par l'article d'Athey et Imbens intitulé "Identification and Inference in Nonlinear Difference-in-Differences Models", publié en 2006 dans Econometrica

Nous appliquons enfin nos résultats théoriques aux données exploitées par Duflo dans son article de 2001. Nous reconstruisons en premier lieu deux groupes de districts indonésiens de sorte que l'hypothèse de taux de traitement constant dans le groupe de contrôle soit bien vérifiée. Nous calculons ensuite les trois estimateurs mentionnés précédemment. Le Wald-DID vaut environ 14%, chiffre peu plausible au vu du reste de la littérature sur les rendements de l'éducation qui mentionne généralement des effets autour de 10%. Nous montrons d'ailleurs que si les rendements de l'expérience sont décroissants, le Wald-DID surestime les rendements réels de l'éducation. Le Wald-TC et le Wald-CIC valent en revanche 10,1% et 9,9%, et sont donc bien plus proches des effets estimés par ailleurs.

Au final, nous insistons donc sur deux points. Tout d’abord, l'estimateur habituel ne repose pas seulement sur l'hypothèse de tendances communes, mais sur des hypothèses d'homogénéité des effets qui peuvent ne pas être respectées en pratique. Ensuite, il est possible de construire deux autres estimateurs ne reposant pas sur de telles hypothèses. Il est cependant nécessaire, pour ce faire, de disposer d'un groupe de contrôle dont le niveau de traitement reste stable au cours du temps. Notons enfin que tous ces estimateurs sont calculés par la commande Stata fuzzydid, développée avec Yannick Guyonvarch, doctorant au CREST, et librement disponible sur le dépôt SSC. La syntaxe de cette commande est détaillée dans l'article "Fuzzy difference-in-differences in Stata" publié dans Stata Journal. N'hésitez surtout pas à l'utiliser !

[1]C de Chaisemartin, X D’Haultfoeuille, “Fuzzy Differences-in-Differences”, The Review of Economic Studies, Volume 85, Issue 2, April 2018, Pages 999–1028. https://academic.oup.com/restud/article-abstract/85/2/999/4096388?redirectedFrom=fulltext. Le texte complet est également disponible en libre accès ici : http://www.restud.com/wp-content/uploads/2017/08/MS19615manuscript.pdf