# 🔗 Jour 8 : Corrélation et Causalité

Dans cette séance, nous allons étudier la notion de dépendance entre variables :
- Corrélation de Pearson et Spearman
- Visualisation des corrélations
- Discussion sur la causalité et les limites des corrélations

⚠️ Corrélation ≠ Causalité !

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import pearsonr, spearmanr

## 📥 Chargement du dataset

In [None]:
df = sns.load_dataset('tips')
df.head()

## 📊 Corrélation de Pearson
Mesure la force de la relation linéaire.

In [None]:
pearson_corr, p_value = pearsonr(df['total_bill'], df['tip'])
print(f'Corrélation de Pearson: {pearson_corr:.3f}, p-value: {p_value:.4f}')

## 🔁 Corrélation de Spearman
Corrélation non linéaire, basée sur les rangs.

In [None]:
spearman_corr, p_value_s = spearmanr(df['total_bill'], df['tip'])
print(f'Corrélation de Spearman: {spearman_corr:.3f}, p-value: {p_value_s:.4f}')

## 🔥 Heatmap des corrélations

In [None]:
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm')
plt.title('Corrélations entre variables numériques')
plt.show()

## 🤔 Corrélation ≠ Causalité
- Une forte corrélation ne prouve **pas** qu’une variable cause l’autre.
- Exemple : Le nombre de glaces vendues et les noyades sont corrélés — mais c’est dû à la température !
- Pour étudier la causalité : expériences contrôlées, randomisation, modèles économétriques.

## 📝 Exercices
- Calculez la corrélation entre `size` et `tip`, puis entre `total_bill` et `size`.
- Testez la corrélation entre `age` et `fare` dans le dataset `titanic`.
- Créez une heatmap pour le dataset `iris` avec `sns.load_dataset('iris')`.