# Structure du notebook

# Table des mati√®res


1. Configuration et Import

Import des biblioth√®ques
Configuration des param√®tres de visualisation
Chargement des donn√©es

2. Vue d'Ensemble des Donn√©es

Dimensions du dataset
Aper√ßu des premi√®res lignes
Types de variables
S√©paration variables cat√©gorielles / num√©riques

3. Qualit√© des Donn√©es

Analyse des valeurs manquantes (visualisation)
D√©tection des doublons
Statistiques descriptives

4. Analyse Univari√©e

Variables Num√©riques : Histogrammes avec KDE
Variables Cat√©gorielles : Diagrammes circulaires et barres
Variable Cible : Distribution et statistiques

5. Analyse Bivari√©e

Boxplots de la variable cible par variables cat√©gorielles
Nuages de points pour relations num√©riques
Tests statistiques (ANOVA/Kruskal-Wallis)

6. Analyse des Corr√©lations

Matrice de corr√©lation (Pearson)
Heatmap interactive
Tests de significativit√©

7. Analyse Multivari√©e

Pairplot pour variables num√©riques
Analyse par r√©gion et autres groupes

8. Synth√®se et Conclusions

Insights cl√©s
Recommandations pour le preprocessing

# Configuration et Import

## Import des biblioth√®ques

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from scipy import stats
from scipy.stats import pearsonr, f_oneway, kruskal, chi2_contingency, spearmanr

## Configuration des param√®tres de visualisation

## Chargement des donn√©es

In [None]:
url = "https://raw.githubusercontent.com/stedy/Machine-Learning-with-R-datasets/master/insurance.csv"
df = pd.read_csv(url)  # adapter au chemin

# Data Overview

In [None]:
# Dimensions du dataset
print(f"Dimensions du dataset: {df.shape[0]} lignes √ó {df.shape[1]} colonnes\n")

Dimensions du dataset: 1338 lignes √ó 7 colonnes



In [None]:
# Aper√ßu des premi√®res lignes
print("Aper√ßu des 10 premi√®res lignes:")
df.head(10)

Aper√ßu des 10 premi√®res lignes:


Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552
5,31,female,25.74,0,no,southeast,3756.6216
6,46,female,33.44,1,no,southeast,8240.5896
7,37,female,27.74,3,no,northwest,7281.5056
8,37,male,29.83,2,no,northeast,6406.4107
9,60,female,25.84,0,no,northwest,28923.13692


In [None]:
# Informations sur les colonnes
print("Informations sur les colonnes:")
df.info()

Informations sur les colonnes:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


In [None]:
# S√©paration des variables selon le type
numerical_vars = df.select_dtypes(include=[np.number]).columns.tolist()
categorical_vars = df.select_dtypes(include=['object', 'category']).columns.tolist()

# Qualit√© des donn√©es

Dans notre cas, il n'y a pas de donn√©es manquantes.

## Pr√©sence de doublons

In [11]:
duplicates = df.duplicated().sum()
duplicate_percentage = (duplicates / len(df) * 100)

print(f"üìä R√©sum√©:")
print(f"   ‚Ä¢ Nombre de lignes dupliqu√©es: {duplicates}")
print(f"   ‚Ä¢ Pourcentage: {duplicate_percentage:.2f}%")

if duplicates == 0:
    print("   ‚úì Aucun doublon d√©tect√©!")
else:
    print(f"   ‚ö†Ô∏è  {duplicates} doublons d√©tect√©s")
    print("\n   Aper√ßu des lignes dupliqu√©es:")
    print(df[df.duplicated(keep=False)].sort_values(by=df.columns.tolist()).head(10))

print()

üìä R√©sum√©:
   ‚Ä¢ Nombre de lignes dupliqu√©es: 1
   ‚Ä¢ Pourcentage: 0.07%
   ‚ö†Ô∏è  1 doublons d√©tect√©s

   Aper√ßu des lignes dupliqu√©es:
     age   sex    bmi  children smoker     region    charges
195   19  male  30.59         0     no  northwest  1639.5631
581   19  male  30.59         0     no  northwest  1639.5631



## Statistiques descriptives

## Pr√©sence d'outliers

#  Analyse Univari√©e

- Variables Num√©riques : Histogrammes avec KDE
- Variables Cat√©gorielles : Diagrammes circulaires et barres
- Variable Cible : Distribution et statistiques

# Analyse Bivari√©e

- Boxplots de la variable cible par variables cat√©gorielles
- Nuages de points pour relations num√©riques
- Tests statistiques (ANOVA/Kruskal-Wallis)

# Analyse des Corr√©lations

- Matrice de corr√©lation (Pearson)
- Heatmap interactive
- Tests de significativit√©

# Analyse Multivari√©e

- Pairplot pour variables num√©riques
- Analyse par r√©gion et autres groupes

# Synth√®se et Conclusions

Insights cl√©s
Recommandations pour le preprocessing

Le but est structurer le notebook. Tout ce qu'on aura √† faire.

In [None]:
df.shape

(1338, 7)

In [None]:
df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


# üìä Medical Cost Personal Dataset


## üåç Probl√©matique globale

Dans un contexte o√π les d√©penses de sant√© ne cessent d‚Äôaugmenter, les compagnies d‚Äôassurance et les syst√®mes de sant√© cherchent √† mieux comprendre les facteurs qui influencent les co√ªts m√©dicaux. La question centrale est la suivante : **peut‚Äëon pr√©dire de mani√®re fiable les charges m√©dicales individuelles √† partir de caract√©ristiques socio‚Äëd√©mographiques et comportementales ?**  
Ce probl√®me est crucial car il permet non seulement d‚Äôanticiper les d√©penses et d‚Äôajuster les politiques tarifaires, mais aussi de mettre en √©vidence l‚Äôimpact de variables comme l‚Äô√¢ge, l‚Äôindice de masse corporelle, le tabagisme ou la r√©gion de r√©sidence. L‚Äôobjectif est donc de d√©velopper des mod√®les capables de traduire ces informations en estimations pr√©cises des co√ªts, afin d‚Äôam√©liorer la gestion des risques et la prise de d√©cision dans le domaine de l‚Äôassurance sant√©.

## üìù Description
Ce dataset contient des informations sur des b√©n√©ficiaires d‚Äôassurance sant√© aux √âtats‚ÄëUnis, avec pour objectif de pr√©dire les **co√ªts m√©dicaux individuels** factur√©s par l‚Äôassurance.

## üìÇ Structure du dataset
- **Nombre d‚Äôobservations** : 1 338 lignes  
- **Nombre de variables** : 7 colonnes

### üîë Variables
- `age` : √Çge du b√©n√©ficiaire principal  
- `sex` : Sexe du contractant (male / female)  
- `bmi` : Indice de masse corporelle (kg/m¬≤)  
- `children` : Nombre d‚Äôenfants √† charge couverts par l‚Äôassurance  
- `smoker` : Indique si le b√©n√©ficiaire est fumeur (yes / no)  
- `region` : R√©gion de r√©sidence aux √âtats‚ÄëUnis (northeast, southeast, southwest, northwest)  
- `charges` : Co√ªts m√©dicaux individuels factur√©s par l‚Äôassurance (variable cible)

## üéØ Objectif
Construire des mod√®les de **r√©gression** pour pr√©dire les charges m√©dicales.  

## üìå Notes
- Les donn√©es sont **nettoy√©es et format√©es** pour correspondre aux exemples du livre *Machine Learning with R* de Brett Lantz.  
- Licence : Open Database License (ODbL).  


_________________

Nous d√©finissons ci-dessous une structure de notre EDA. (les grandes lignes) et des pistes de r√©flexion.
- Penser √† mettre les varaibles cat√©gorielles d'une part et les num√©riques de l'autre
- Tests de normalit√© ?
- Tests de corr√©lartion ?
- Histogrammes, boxplots, etc.
- Diagramme circulaire pour les variables cat√©gorielles : r√©gion, fumer ou non
- Test de "variance" entre cat√©gorielle et notre variable cible
- Faire de commentaire sur les tendances qui se dessinnent dans notre cas.
- Voir ce que dit la litt√©rature sur les insurance costs, les stats globales et sur les variables possibles qui peuvent nous aider.