## Consigne

In [None]:
# Importation des librairies classiques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Importation du fichier CSV
# Assure-toi que le chemin est correct. Si ton notebook est dans 'notebooks'
# et tes donn√©es dans 'data/raw', il faut remonter d'un cran avec '..'
try:
    df = pd.read_csv('../data/raw/insurance.csv')
    print("‚úÖ Fichier charg√© avec succ√®s !")
except FileNotFoundError:
    print("‚ùå Erreur : Fichier introuvable. V√©rifie le chemin ou le nom du fichier.")

# 2. V√©rification de la structure et des valeurs manquantes
print("\n--- Infos sur le DataFrame ---")
df.info()

print("\n--- V√©rification des valeurs manquantes (NaN) ---")
print(df.isna().sum())

# 3. Statistiques descriptives de base
print("\n--- Statistiques Descriptives   ---")
display(df.describe()) # 'display()' rend le tableau plus joli dans Jupyter

## √âtude de Cas A : Le BMI d√©pend-il de la r√©gion ? (ANOVA)

##### Question 1 : Analyse Visuelle (Validation intuitive)

In [None]:
# √âtude de Cas A - Question 1 : Analyse Visuelle
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))

# On trace le Boxplot
# x = Variable Qualitative (R√©gion)
# y = Variable Quantitative (BMI)
sns.boxplot(x='region', y='bmi', data=df, palette='Set2')

plt.title('Distribution du BMI par R√©gion', fontsize=16)
plt.xlabel('R√©gion', fontsize=12)
plt.ylabel('BMI (Indice de Masse Corporelle)', fontsize=12)

plt.show()


- Diff√©rence de moyenne : On remarque que la r√©gion Southeast semble avoir un BMI m√©dian plus √©lev√© que les trois autres r√©gions.

- Stabilit√© de la variance : Les bo√Ætes (hauteur interquartile) ont des tailles tr√®s comparables. Cela sugg√®re que la variabilit√© (variance) est la m√™me dans chaque groupe.

- La condition d'homog√©n√©it√© des variances semble respect√©e visuellement. On peut donc proc√©der au test ANOVA.

##### Question 2 : Statistiques Descriptives

In [None]:
# Question 2 : Statistiques Descriptives
# On groupe par 'region', on prend la colonne 'bmi', et on calcule mean & std
stats_bmi = df.groupby('region')['bmi'].agg(['mean', 'std'])

# On arrondit √† 2 chiffres apr√®s la virgule pour que ce soit propre
print(stats_bmi.round(2))

Les √©carts-types sont tr√®s proches. Ils varient l√©g√®rement entre 5.14 (Northwest) et 6.48 (Southeast), gravitant tous autour de la valeur 6.0. Cela confirme que la dispersion des donn√©es est similaire entre les groupes, ce qui valide l'hypoth√®se d'homog√©n√©it√© des variances n√©cessaire pour effectuer l'ANOVA.

##### Question 3 : Test ANOVA

In [None]:
# Question 3 : Test ANOVA (One-Way)
from scipy.stats import f_oneway

# 1. On pr√©pare les 4 √©quipes (les 4 groupes de BMI)
bmi_sw = df[df['region'] == 'southwest']['bmi']
bmi_se = df[df['region'] == 'southeast']['bmi']
bmi_nw = df[df['region'] == 'northwest']['bmi']
bmi_ne = df[df['region'] == 'northeast']['bmi']

# 2. On lance le test ANOVA
# f_stat = La puissance du test
# p_value = Le juge (Verdict)
f_stat, p_value = f_oneway(bmi_sw, bmi_se, bmi_nw, bmi_ne)

print("--- R√©sultat du Test ANOVA ---")
print(f"F-Statistic : {f_stat:.2f}")
print(f"P-value     : {p_value:.5e}")  # .5e affiche en notation scientifique (ex: 1.2e-05)

# 3. Interpr√©tation automatique
if p_value < 0.05:
    print("\n‚úÖ P-value < 0.05 : On REJETTE H0.")
    print("üëâ Conclusion : Il y a une diff√©rence SIGNIFICATIVE de BMI entre les r√©gions.")
    print("   (Ce n'est pas du hasard, la r√©gion impacte vraiment le poids).")
else:
    print("\n‚ùå P-value > 0.05 : On garde H0.")
    print("üëâ Conclusion : Pas de diff√©rence significative. Les √©carts sont dus au hasard.")

- Nous avons obtenu une F-statistic de 39.50 et une P-value de $1.88 \times 10^{-24}$.
- La P-value √©tant extr√™mement inf√©rieure au seuil de risque de 5% ($0.05$), nous rejetons l'hypoth√®se nulle ($H_0$).
- Il existe une diff√©rence significative de l'IMC moyen entre les r√©gions. 
Les observations visuelles de la Question 1 sont donc confirm√©es statistiquement : la r√©gion Southeast pr√©sente bien un IMC moyen significativement diff√©rent (plus √©lev√©) des autres r√©gions.

##### Question 4 : Qui est different ? (Post-hoc)

L'analyse des moyennes montre clairement que la r√©gion Southeast a l'IMC le plus √©lev√© (33.36) par rapport aux autres r√©gions.
La r√©gion Southeast est identifi√©e comme la zone la plus "√† risque" en termes de surpoids. Pour la compagnie d'assurance, cette information est cruciale : cette population pr√©sente une probabilit√© plus √©lev√©e de d√©velopper des pathologies li√©es √† l'ob√©sit√© (diab√®te, maladies cardiovasculaires). Cela pourrait justifier un ajustement des primes ou le lancement de campagnes de pr√©vention cibl√©es dans cette zone g√©ographique.