📊 L'erreur n°1 de la pensée statistique
Tu lis dans le journal : « Les gens qui boivent du café vivent 5 ans de plus en moyenne. Conclusion : boire du café fait vivre plus longtemps. »
STOP. Cette conclusion est probablement fausse, et l'erreur s'appelle : confondre corrélation et causalité. Deux phénomènes peuvent évoluer ensemble (corrélation) sans que l'un cause l'autre (causalité).
🎛️ Trois variables, des corrélations bizarres
Bouge le curseur pour afficher différentes corrélations (réelles, documentées). Aucune n'est causale.
🎛️ Corrélations absurdes (mais réelles)
Source : tylervigen.com/spurious-correlations
Coefficient de corrélation r
+0.66
Forte corrélation positive… mais évidemment pas de causalité.
📐 Le coefficient de corrélation
Le coefficient de corrélation linéaire r (Pearson) mesure la force et le sens d'une relation linéaire entre deux variables :
- r = +1 : corrélation parfaite positive (y augmente avec x)
- r = 0 : aucune corrélation linéaire
- r = −1 : corrélation parfaite négative (y diminue quand x augmente)
- |r| > 0,7 : corrélation forte (mais toujours pas forcément causale)
🔄 Les 4 explications possibles d'une corrélation
Si A et B sont corrélés, il y a au moins 4 explications possibles :
- A cause B (causalité directe)
- B cause A (causalité inverse — souvent oubliée !)
- Une troisième variable C cause les deux (variable de confusion)
- Pur hasard (coïncidence statistique sans lien)
Tirer la conclusion « A cause B » sans avoir éliminé les 3 autres explications, c'est l'erreur statistique majeure.
☕ Le cas du café et de la longévité
Reprenons l'exemple. Les gens qui boivent du café vivent plus longtemps. Pourquoi ? Pas forcément à cause du café :
- Causalité inverse : peut-être que les gens en meilleure santé peuvent se permettre de boire du café (les malades ont des contre-indications)
- Variable de confusion : la consommation de café est plus élevée chez les classes sociales aisées, qui ont aussi accès à de meilleurs soins → la santé est due aux soins, pas au café
- Coïncidence : peut-être que l'étude a trouvé un lien fortuit qui ne se reproduirait pas sur un autre échantillon
🧪 Comment prouver une causalité ?
Pour prouver A → B, il faut un essai randomisé contrôlé :
- Recruter une grosse population
- Tirer au sort qui boit du café et qui n'en boit pas (groupes équivalents)
- Suivre pendant 20 ans
- Comparer les espérances de vie
Le tirage au sort élimine la causalité inverse et les variables de confusion. C'est le gold standard de la médecine, mais c'est cher et long. La plupart des études publiées sont des études observationnelles — beaucoup plus faciles, mais sujettes au piège « corrélation ≠ causalité ».
🚨 Conséquences réelles de cette erreur
🎓 Au programme BAC SM
- Coefficient de corrélation linéaire r (formule de Pearson)
- Droite de régression linéaire par moindres carrés
- Coefficient de détermination R² : % de variance expliquée
- Intervalle de confiance et significativité statistique
- Test d'hypothèse : rejet ou non d'une hypothèse nulle
🧠 Réflexion finale
Ce concept est probablement le plus utile de l'Atlas dans la vie quotidienne. Tu vas voir des dizaines de prétendues études chaque mois : « les gens qui font X vivent plus longtemps », « ceux qui boivent Y sont plus heureux », etc. Apprends à demander systématiquement :
- Est-ce une étude randomisée ou observationnelle ?
- Quelle pourrait être la variable de confusion ?
- La causalité ne pourrait-elle pas être inverse ?
Cette discipline mentale, c'est ce qui distingue un esprit scientifique d'un consommateur passif d'informations. Au BAC SM, ça fait gagner des points en stats. Dans la vie, ça fait gagner des années.