Les statistiques : ce qu’elles disent, ce qu’on leur fait dire

//Les statistiques : ce qu’elles disent, ce qu’on leur fait dire

Outre le fait que pour obtenir tel ou tel résultat (tester telle ou telle hypothèse), l’utilisation de certains tests statistiques ne soit pas toujours adéquate, l’interprétation des résultats par les auteurs des tests eux-mêmes mais aussi par ceux qui les lisent n’est pas non plus toujours très juste. Cet article vise à décrire les erreurs les plus fréquemment commises tant en terme d’utilisation des tests que d’interprétation des résultats. Pour cela, il faut préciser que les statistiques sont une science… et, comme toutes sciences, elles évoluent perpétuellement, de sorte que les « ouvrages » qu’il est possible de trouver en librairie portent nécessairement une date de péremption… En outre, il existe plusieurs catégories de statistiques, des plus simples (descriptives) aux plus complexes (bayésiennes), et si on ne comprend pas leur différence, les erreurs d’interprétation deviennent alors très fréquentes.

Les statistiques descriptives

La première catégorie est formée de l’ensemble des indices et tests servant à décrire un échantillon. Il s’agit bien d’un échantillon et non d’une population, l’étude d’une population entière existe mais elle est très rare (les moyens déployés sont colossaux). Bien que, dans cette catégorie, on puisse donc trouver quelques tests (dont le Khi carré d’indépendance, les corrélations etc.), les statistiques descriptives ne sont souvent qu’une succession de pourcentages, moyennes, médianes… soit des indices dont l’intérêt n’est donc, dans la majorité des cas, que de décrire l’échantillon concerné. Par exemple, savoir que, dans tel service de n’importe quelle société, 20% des personnes se disent fatiguées, 30% se disent très fatiguées, ne nous donne aucun renseignement quant à l’étiologie de cette fatigue, ni quant à ce qu’elle peut expliquer en termes d’absentéisme par exemple. C’est un constat, c’est tout, et vouloir l’interpréter revient à lire dans le marc de café (mais nous ne doutons pas que certains sont très forts en matière de lecture de marc !). Mais, et notamment en recherche, ce constat est important, il permet de rendre la recherche reproductible, ce qui est un des fondements de la science.

Avec ces indices, outre l’interprétation « sauvage », il existe une erreur très fréquente qui concerne la moyenne, on peut même évoquer un biais cognitif. Voici un exemple : Mme Martin est professeur de mathématiques en classe de 6ème, elle utilise la pédagogie A. Mme Durand est également professeur de mathématiques en classe de 6ème mais elle utilise la pédagogie B. Toutes les deux sont persuadées que leur pédagogie est la meilleure et que leurs élèves comprennent bien mieux avec leur méthode. Elles décident d’en avoir le cœur net et préparent ensemble le prochain contrôle d’évaluation, les élèves des deux classes devront donc tous répondre aux mêmes problèmes. Elles mélangent les copies et les rendent anonymes, de manière à rester impartiales, puis elles les corrigent. Chacune ensuite récupère les copies de ses élèves et calculent la moyenne des notes de sa propre classe. La classe de Mme Martin a obtenu la moyenne de 14 et la classe de Mme Durand a obtenu celle de 12. Alléluia, c’est donc la pédagogie A qui est la meilleure ! Mais, un statisticien passant par-là (oui, les statisticiens ont pour habitude de passer un peu partout !) leur dit « Mais, Mesdames, où sont vos écarts-types ? ». Elles repartent donc, penaudes, calculer leurs écarts-types. Et là, elles s’aperçoivent que dans la classe de Mme Durand les notes s’échelonnent entre 10 et 14, les élèves ont donc tous obtenu la moyenne, mais dans la classe de Mme Martin, les notes s’échelonnent entre 2 et 20. Elles en déduisent la pédagogie de Mme Durand s’adapte donc au plus grand nombre alors que celle de Mme Martin ne concerne qu’un petit groupe d’élèves et laisse les autres sur le carreau ! C’est une déduction relativement rapide, mais qui nous apprend qu’une moyenne sans écart-type n’a pas la moindre signification.

Les statistiques inférentielles et Bayésiennes

Pourquoi une déduction rapide ? Parce que sans test de différence de moyennes (en l’occurrence ici, un t de Student), on ne peut être aussi affirmatif. Ces tests de différences de moyennes font partie de la seconde catégorie de statistiques, qu’on nomme les statistiques inférentielles. Ce nom sous-tend l’idée qu’on peut (enfin) en déduire vraiment quelque chose, mais on ne déduit pas juste comme ça, pour le plaisir. Non, on infirme ou on confirme une hypothèse, enfin 2 hypothèses. La première est dite « hypothèse nulle ». Dans l’exemple précédent, l’hypothèse nulle (ou H0) aurait été « Il n’y a pas de différence significative entre la moyenne obtenue par la classe de Mme Martin et celle obtenue par la classe de Mme Durand ». Cette hypothèse nulle est toujours suivie de sa copine « l’hypothèse alternative » ou H1, qui dans notre exemple, aurait été « La moyenne de la classe de Mme Martin (M1) est significativement supérieure à celle de Mme Durand (M2) ». H1 donne le sens, ce n’est pas juste « il y a une différence significative » mais « M1 et supérieur (on inférieure) à M2 », bref on se « mouille ». Et sous quel prétexte saugrenu donnons-nous tel ou tel sens ? C’est la littérature qui nous l’indique (euuh scientifique hein la littérature, pas Psychologies Magazine ni notre sens inné de l’observation d’ailleurs !).

Autre test, très (trop) souvent classé dans les statistiques inférentielles, uniquement parce qu’il s’agit bien d’un test d’hypothèse : les corrélations. Certes, le test est un test d’hypothèse mais son résultat n’est ni plus ni moins qu’une observation, un constat, car non, non et encore non, on ne peut rien déduire et encore moins expliquer à partir de corrélations, ou alors, tout et son contraire. À ce sujet, l’article de Messerli (2012) vulgarisé dans Le Point démontre qu’on peut trouver à peu près tout et n’importe quoi dès lors qu’on utilise ces tests, par exemple dans cet article que plus on mange de chocolat, plus on a de chance d’obtenir un prix Nobel. Pour les statisticiens, ils ne sont pas destinés à une déduction quelconque mais à savoir si oui ou non on peut poursuivre sur d’autres tests, ce qui n’est pas tout à fait la même chose, vous en conviendrez. En outre, il existe pléthore de tests de corrélations qui ont tous leur spécificité et surtout leurs conditions d’exécution. Or, beaucoup de personnes ne le savent pas et utilisent uniquement les corrélations de Pearson qui, dans les trois quarts des cas ne sont pas du tout appropriées à la situation et donnent ainsi des résultats très souvent totalement faux. Par ailleurs, une erreur très fréquente est d’affirmer qu’il n’y a pas de lien, si le test se révèle négatif. En fait, il n’y a pas de lien direct, ce qui ne veut pas dire qu’il n’existe pas de lien indirect. Pour le savoir, il faut poursuivre sur d’autres tests qui permettent d’étudier les effets médiateurs. Pour expliquer brièvement et très prosaïquement un effet médiateur, prenons l’exemple d’un téléphone. A priori, il n’existe pas de lien direct de pensées entre vous, qui êtes à Paris, et un de vos amis qui est à Bruxelles, à moins que vous ne soyez télépathe. Mais, si vous rajoutez un téléphone, ce lien devient bien réel. Donc affirmer qu’il n’y a pas de lien sans avoir vérifié, a minima (il existe d’autres effets), le ou les effet(s) médiateur(s) c’est comme sauter par-dessus un précipice, ça passe ou ça casse ! Quoiqu’il en soit, cette famille de tests a ses limites, notamment la puissance statistique et surtout le fait que ces tests sont basés sur des fréquences et ne tiennent pas compte de l’aspect aléatoire ou probabiliste de la survenue d’un phénomène, tel que le décrit le théorème de Bayes. Ce dernier groupe, appelé Statistiques Bayésiennes, permet d’obtenir des résultats bien plus proches de la réalité car ici les tests tiennent compte des différents paramètres qui peuvent intervenir et formulent des hypothèses probabilistes concernant ces paramètres. En clair, au lieu de fixer arbitrairement un paramètre pourtant inconnu, il sera déduit à partir de lois de probabilité, à savoir, si on connaît A, comment (sous quelle loi ?) peut-on en déduire B ?

Cet article n’est pas exhaustif, les modèles statistiques sont particulièrement nombreux et chacun a ses spécificités comme ses critères d’applications, on ne peut pas appliquer un test juste par envie. Certains multiplient les pré-requis et autres hypothèses stochastiques (nom barbare qui fera peut-être l’objet d’un autre article). Pour finir, si les statistiques restent un outil puissant, elles ne sont justement qu’un outil, soumis à l’interprétation et surtout aux erreurs d’interprétation humaine (ce qui fait dire à certains « les statistiques, on peut leur faire dire tout et son contraire »). Comme un marteau, on peut l’utiliser pour planter un clou, ou se taper sur les doigts, mais le marteau, en lui-même n’est pas responsable : c’est l’utilisation qu’on en fait qu’il l’est. Pire certains utiliseront le marteau pour enfoncer… une visse !

En conclusion, les statistiques sont une aide à la décision, certes, mais elles ne sont qu’une aide, leur conférer un pouvoir de décision absolu est une aberration fondamentale mais se passer de cette aide est tout aussi aberrant (planter un clou avec les doigts, ou une fourchette est assez difficile !).

By | 2017-04-13T14:30:13+00:00 29/03/2015|Psychologie & Neurosciences|2 Comments

About the Author:

Stephanie DE CHALVRON
Docteur en psychologie cognitive. Ses thèmes de recherche portent sur le stress développemental, la dépression postpartum et les comportements de consommation durable.

2 Comments

  1. Avignon Agnès 15 avril 2015 at 10 h 54 min - Reply

    article très éclairant et abordable sur les statistiques
    merci Stéphanie

  2. MAURY Richard 7 septembre 2015 at 9 h 23 min - Reply

    Merci pour cet article synthétique et très pédagogique !!! étudiant en L3 en psychologie, je me suis un peu perdu dans les stats de L2 et L3…ceci me permet d’y voir plus clair.

Leave A Comment