# 🧪 Jour 7 : Tests Statistiques en Python

Dans cette séance, nous allons apprendre à réaliser les tests statistiques classiques :
- Test de Student (t-test)
- ANOVA
- Test du chi²
- Test de normalité
Nous utiliserons `scipy.stats` et `statsmodels`.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats
import statsmodels.api as sm

## 📥 Chargement des données

In [None]:
df = sns.load_dataset('tips')
df.head()

## ✅ T-test (Student)
Comparer les moyennes de deux groupes.

In [None]:
male = df[df['sex'] == 'Male']['tip']
female = df[df['sex'] == 'Female']['tip']
t_stat, p_val = stats.ttest_ind(male, female)
print(f'T-statistic: {t_stat:.3f}, p-value: {p_val:.3f}')

## 📊 ANOVA : comparaison de moyennes pour plusieurs groupes

In [None]:
anova_result = stats.f_oneway(
    df[df['day'] == 'Thur']['tip'],
    df[df['day'] == 'Fri']['tip'],
    df[df['day'] == 'Sat']['tip'],
    df[df['day'] == 'Sun']['tip']
)
print(f'F-statistic: {anova_result.statistic:.3f}, p-value: {anova_result.pvalue:.3f}')

## 🔢 Test du chi² : indépendance entre deux variables catégorielles

In [None]:
contingency_table = pd.crosstab(df['sex'], df['smoker'])
chi2, p, dof, expected = stats.chi2_contingency(contingency_table)
print(f'Chi² = {chi2:.2f}, p-value = {p:.4f}')

## 📏 Test de normalité (Shapiro-Wilk)

In [None]:
shapiro_stat, shapiro_p = stats.shapiro(df['tip'])
print(f'Shapiro-Wilk statistic: {shapiro_stat:.3f}, p-value: {shapiro_p:.4f}')

## 📝 Exercices
- Testez si les pourboires varient selon le fait de fumer (`smoker`).
- Testez si `total_bill` suit une loi normale.
- Faites une ANOVA pour la variable `total_bill` par jour.
- Testez si le genre (`sex`) et le jour (`day`) sont indépendants.