📉 Une tendance qui se retourne
Voici une affirmation qui semble absurde : un médicament guérit mieux les hommes que le placebo, guérit mieux les femmes que le placebo… et pourtant, si on mélange tout le monde, il guérit moins bien que le placebo.
Ce n'est pas une erreur de calcul. C'est une réalité mathématique qui porte le nom d'Edward H. Simpson, le statisticien britannique qui l'a décrite en 1951. On l'appelle le paradoxe de Simpson (ou parfois l'effet de Yule-Simpson). Et il piège tout le monde : médecins, juges, ministres, journalistes.
🔬 Vois-le de tes propres yeux
Chaque point est une observation. Il y a deux groupes (rouge et bleu). Regarde la tendance globale, puis la tendance par groupe : les pentes s'inversent.
📈 Nuage de points & droites de régression
Régression par moindres carrés, calculée en direct sur les points affichés.
Tendance globale
pente ≈ +0,00
…
💊 L'exemple des calculs rénaux
C'est l'étude la plus célèbre du genre (Charig et coll., 1986). On compare deux traitements des calculs rénaux : la chirurgie ouverte (traitement A) et une technique moins invasive (traitement B). Voici les taux de réussite :
Petits calculs (cas faciles) :
- Traitement A : 81 réussites sur 87 → 93 %
- Traitement B : 234 réussites sur 270 → 87 %
Gros calculs (cas difficiles) :
- Traitement A : 192 réussites sur 263 → 73 %
- Traitement B : 55 réussites sur 80 → 69 %
Le traitement A gagne sur les petits calculs (93 > 87) et sur les gros calculs (73 > 69). Il gagne dans les deux cas !
Maintenant, regroupons tous les patients :
- Traitement A : 81 + 192 = 273 réussites sur 87 + 263 = 350 → 78 %
- Traitement B : 234 + 55 = 289 réussites sur 270 + 80 = 350 → 83 %
Globalement, c'est le traitement B qui gagne (83 % contre 78 %). La conclusion s'est retournée par rapport à chaque sous-groupe. Voilà le paradoxe, en chair et en os.
🕵️ D'où vient le retournement ?
Le coupable est une variable cachée (ou facteur de confusion) liée à la fois au traitement et au résultat. Ici, c'est la gravité du cas.
Les médecins réservaient la chirurgie lourde (A) aux cas difficiles (gros calculs), et la technique douce (B) aux cas faciles (petits calculs). Résultat : le traitement A traîne une énorme part de cas difficiles, ce qui plombe sa moyenne globale, alors qu'il est en fait meilleur à gravité égale.
Le mécanisme tient en deux ingrédients :
- Une variable cachée qui influence le résultat (ici la gravité du cas).
- Des tailles de groupes déséquilibrées : les deux traitements ne sont pas répartis de la même façon entre cas faciles et cas difficiles.
Quand on fait la moyenne globale, ces déséquilibres pondèrent les chiffres et peuvent inverser la conclusion. La moyenne d'un mélange n'est pas la moyenne des tendances.
🎓 L'affaire Berkeley (1973)
L'exemple le plus connu en sciences sociales. En 1973, l'université de Berkeley est soupçonnée de discriminer les femmes à l'admission : environ 44 % des hommes candidats sont admis, contre seulement 35 % des femmes. Un écart énorme.
Mais quand des statisticiens (Bickel, Hammel et O'Connell) examinent les admissions département par département, la plupart des départements admettent les femmes à un taux égal ou supérieur à celui des hommes. Comment ?
La variable cachée est le choix du département. Les femmes postulaient davantage dans des filières très sélectives (peu de places, faible taux d'admission), tandis que les hommes postulaient dans des départements plus faciles d'accès. À département égal, aucune discrimination contre les femmes — l'effet global venait de où chacun postulait.
⚠️ Pourquoi c'est dangereux
🧮 La mécanique des fractions
Mathématiquement, le paradoxe vient de ceci : si ab > cd et ef > gh, il n'est pas garanti que a+eb+f > c+gd+h.
Additionner numérateurs et dénominateurs n'est pas additionner des fractions : c'est une moyenne pondérée dont les poids (les dénominateurs b, d, f, h) peuvent renverser le sens de l'inégalité. C'est exactement ce qui se passe avec des tailles de groupes déséquilibrées.
🧠 La leçon
La règle d'or face à toute statistique agrégée : cherche toujours la variable cachée.
- Avant de croire une moyenne globale, demande-toi quels sous-groupes elle mélange.
- Méfie-toi quand les groupes ont des tailles très différentes.
- Désagrège : regarde si la tendance tient encore dans chaque sous-groupe.
- Cherche le facteur de confusion : gravité du cas, type de département, âge, niveau social… Il y en a presque toujours un.
Le paradoxe de Simpson est la preuve qu'un chiffre vrai peut raconter un mensonge. La seule défense, c'est de ne jamais s'arrêter à la moyenne : il faut savoir découper la réalité pour voir ce qu'elle cache.