De la fiabilité des résultats quantitatifs dans les sciences sociales

Nous vous proposons ci-après la lecture d’un article publié sur notre site anglais et traduit librement, mais fidèlement dans l’expression, par nos soins. L’auteur de cet article, le chercheur italien Léonardo Baggiani, montre avec quelle prudence il faut prendre les résultats des études et expériences en sciences sociales. L’économie apparaît ainsi plus que jamais comme une science qui a besoin d’avancer par essais et erreurs dans la réalité de l’action humaine plus qu’en laboratoire. Ce qui relativise aussi toutes les études d’impact qui précèdent désormais tous les projets de lois.

Dans un article récent titré « Evaluation de la reproductibilité des expériences en sciences sociales publiées dans Nature et dans Science entre 2010 et 2015 », un groupe de chercheurs a essayé de reproduire une série d’expériences publiées dans de prestigieux journaux académiques, en utilisant des échantillons plus vastes et des techniques statistiques sophistiquées afin de tester leur fiabilité. En particulier, ce Social Science Replication Project (SSRP) établissait un protocole pour sélectionner les conclusions qui serait testées une nouvelle fois. Il préconisait aussi que lorsqu’une première batterie de tests (Stade 1) échouait à reproduire les résultats originaux, les chercheurs lancent un second essai (Stade 2) avec un échantillon plus large pour tenter d’établir au moins une confirmation partielle. Les expériences choisies couvrent différents domaines, parmi lesquels les comportements sociaux, les attitudes mnémoniques et les choix économiques.

Le projet de réplication confirme environ 50% des résultats globaux attendus. Le « marqueur » du résultat (c’est-à-dire la direction positive/négative de l’effet attribué à une cause spécifique) est confirmé dans 62% des cas (entre 52% et 67%, selon la technique statistique utilisée). Et quand elle est confirmée, « l’intensité » de l’effet atteint 71 à 75% du résultat originel. Et dans le cas contraire, l’effet est proche de zéro (aucune causalité). Il est intéressant de noter que l’un des cas a été traité par erreur en Stade 2 après avoir été validé conforme en stade 1 et il s’est avéré que le stade 2 a rejeté les conclusions du stade 1.

On avait en outre interrogé l’équipe de chercheurs sur ce qu’ils attendaient de ces expériences. Il s’est avéré que la communauté scientifique avait déjà une idée plutôt précise de ce qu’il en résulterait (une confirmation se situant dans une fourchette de 61-63%).

Ces résultats permettent beaucoup de commentaires. Il est vrai que 21 expériences seulement ont été testées. Même si c’’est courant dans ce genre de recherche, c’est peu. Les auteurs en sont conscients, ils considèrent que le hasard peut avoir joué un rôle et que des erreurs ont pu être commises dans la reproduction du protocole original (même si les auteurs des études sur lesquelles a porté l’analyse avaient validé la procédure). Ceci dit, la question est posée de la fiabilité des études en sciences sociales et notamment de la qualité de la recherche empirique académique.

Déjà dans le passé, d’autres études s’étaient penchées sur la fiabilité des recherches empiriques en sciences sociales. Leurs résultats étaient les suivants :
• Le Reproductibility Project : Psychology (RPP) a re-testé 100 expériences, avec un taux de réplication de la direction causale de 36% ;
• L’Experimental Economics Replication Project (EERP) a re-testé 18 recherches expérimentales avec un taux de réplication causale de 61% ;
• Many Labs 1 a re-testé 13 études avec un taux de conformité de 77% ;
• Many Labs 2 a re-testé 28 études avec un taux de conformité de 50% ;
• Many Labs 3 a re-testé 10 études avec un taux de conformité de 30%

Pour résumer, ces chiffres montrent que dans les sciences sociales, au moins la moitié des conclusions concernant la « direction » et « l’intensité » des causalités sont erronées. Les chercheurs du SSRP concluent que « ces résultats mettent en évidence que la littérature existante présente des résultats excessifs et biaisés retenus parce qu’ils sont suffisamment significatifs pour intéresser les publications scientifiques. Ils estiment que globalement les résultats des expériences publiées dans les revues scientifiques ne peuvent être répliques de manière conforme que dans 35 et 75% des cas !!

Conclusion : les « analyses d’impact » basées sur des connaissances empiriques largement partagées (y compris dans le domaine économique) sont douteuses, c’est le moins qu’on puisse dire. Certains résultats sont plus crédibles que d’autres. Mais si la confirmation attendue de « vérités scientifiques » se situe entre 0% et 75%, les politiques basées sur la littérature scientifique sont en réalité un acte de foi.

En outre, l’analyse a fait ressortir un problème de « cohérence temporelle ». Durant l’exercice SSRP, l’un des chercheurs d’une des études soumise aux nouveau tests a essayé lui-même de répliquer cinq différentes expériences et n’y est pas parvenu. Un autre auteur d’une étude originale soumise à au travail de l’équipe SSRP a expliqué l’échec de la réplication en considérant que « la familiarité croissante avec les paradigmes du jeu de ceux qui pratiquent ces expériences peuvent expliquer le défaut de conformité », comme si l’exercice du jeu modifiait les comportements des joueurs. Ce qui signifie que des résultats « historiques » (les statistiques sont une science « historique » selon la définition de Carl Menger) peuvent signifier quelque chose dans une période et un contexte spécifiques, mais ne seront pas valables dans une autre période et un autre contexte. Dans le long terme, il n’y a « pas de constantes, seulement des variables » comme prévenait Ludwig von Mises, ce qui peut permettre de comprendre pourquoi il y a toujours autant de théories économiques opposées et pourquoi les « experts en sciences économiques » sont si divisés et se trompent si souvent.

Pour finir, une remarque positive. Il y a clairement, et les équipes d’expérimentateurs en étaient conscients, une sorte de « bon sens » qui permet à tout un chacun, et aux chercheurs, de séparer le bon grain de l’ivraie. Sans pour autant toujours savoir si ce bon sens prend sa source dans l’analyse scientifique ou dans l’expérience. Nous pouvons conclure qu’il est nécessaire que les chercheurs coopèrent librement pour indiquer les bonnes directions, mais qu’un guide coordinateur et organisateur qui se substituerait à eux pour les chapeauter n’est pas la meilleure solution.