## Consigne

In [None]:
# Importation des librairies classiques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Importation du fichier CSV
# Assure-toi que le chemin est correct. Si ton notebook est dans 'notebooks'
# et tes données dans 'data/raw', il faut remonter d'un cran avec '..'
try:
    df = pd.read_csv('../data/raw/insurance.csv')
    print("✅ Fichier chargé avec succès !")
except FileNotFoundError:
    print("❌ Erreur : Fichier introuvable. Vérifie le chemin ou le nom du fichier.")

# 2. Vérification de la structure et des valeurs manquantes
print("\n--- Infos sur le DataFrame ---")
df.info()

print("\n--- Vérification des valeurs manquantes (NaN) ---")
print(df.isna().sum())

# 3. Statistiques descriptives de base
print("\n--- Statistiques Descriptives   ---")
display(df.describe()) # 'display()' rend le tableau plus joli dans Jupyter

## Étude de Cas A : Le BMI dépend-il de la région ? (ANOVA)

##### Question 1 : Analyse Visuelle (Validation intuitive)

In [None]:
# Étude de Cas A - Question 1 : Analyse Visuelle
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))

# On trace le Boxplot
# x = Variable Qualitative (Région)
# y = Variable Quantitative (BMI)
sns.boxplot(x='region', y='bmi', data=df, palette='Set2')

plt.title('Distribution du BMI par Région', fontsize=16)
plt.xlabel('Région', fontsize=12)
plt.ylabel('BMI (Indice de Masse Corporelle)', fontsize=12)

plt.show()


- Différence de moyenne : On remarque que la région Southeast semble avoir un BMI médian plus élevé que les trois autres régions.

- Stabilité de la variance : Les boîtes (hauteur interquartile) ont des tailles très comparables. Cela suggère que la variabilité (variance) est la même dans chaque groupe.

- La condition d'homogénéité des variances semble respectée visuellement. On peut donc procéder au test ANOVA.

##### Question 2 : Statistiques Descriptives

In [5]:
# Question 2 : Statistiques Descriptives
# On groupe par 'region', on prend la colonne 'bmi', et on calcule mean & std
stats_bmi = df.groupby('region')['bmi'].agg(['mean', 'std'])

# On arrondit à 2 chiffres après la virgule pour que ce soit propre
print(stats_bmi.round(2))

            mean   std
region                
northeast  29.17  5.94
northwest  29.20  5.14
southeast  33.36  6.48
southwest  30.60  5.69
