In [18]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

df = pd.read_csv("insurance_dataset.csv")

display(df)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1332,50,male,30.970,3,no,northwest,10600.54830
1333,18,female,31.920,0,no,northeast,2205.98080
1334,18,female,36.850,0,no,southeast,1629.83350
1335,21,female,25.800,0,no,southwest,2007.94500


___
## Comprendre les données
___

In [3]:
df.shape #taille de dataframe
display(df.dtypes) #verifier types de chaque variable
df.columns.values

age           int64
sex          object
bmi         float64
children      int64
smoker       object
region       object
charges     float64
dtype: object

array(['age', 'sex', 'bmi', 'children', 'smoker', 'region', 'charges'],
      dtype=object)

___
## Données manquantes
___

In [4]:
df.isnull().values.any()

False

In [5]:
df.isnull().sum()

age         0
sex         0
bmi         0
children    0
smoker      0
region      0
charges     0
dtype: int64

Le fichier est propre et sans irrégularité particulière. Aucune valeur manquante n'est à relever dans le dataframe.

___
## Supprimer les doublons
___

In [20]:
df.drop_duplicates(inplace=True)
df

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1332,50,male,30.970,3,no,northwest,10600.54830
1333,18,female,31.920,0,no,northeast,2205.98080
1334,18,female,36.850,0,no,southeast,1629.83350
1335,21,female,25.800,0,no,southwest,2007.94500


___
## Corriger les dtypes
___

Cela permet deux choses: gagner de l'espace en mémoire et faciliter l'analyse des données que l'on verra plus tard.

In [7]:
df['smoker'] = df['smoker'].map({"yes":1, "no":0})

df['sex'] = df['sex'].map({"female":1, "male":0})

df.dtypes

age           int64
sex           int64
bmi         float64
children      int64
smoker        int64
region       object
charges     float64
dtype: object

___
## Créer intervalles de valeurs pour le BMI
___

Le BMI (Body Mass Index), ou IMC (Indice de Masse Corporelle), est calculé de la même manière aux États-Unis et en France. L'IMC est une mesure qui évalue la corpulence d'une personne en utilisant sa taille et son poids. La formule du BMI est la suivante :

####                                    BMI= Poids en kilogrammes / (Taille en mètres)2        

C'est une mesure simple qui donne une indication générale sur la catégorie de poids d'une personne.

Afin de faciliter notre analyse, nous allons établir des plages de valeurs basées sur les recommandations médicales de classement du BMI: 

        * BMI<18.5: Insuffisance pondérale
        * 18.5≤BMI<25: Poids normal
        * 25≤BMI<30: Surpoids
        * 30≤BMI<35: Obésité de classe 1 (modérée)
        * 35≤BMI<40: Obésité de classe 2 (sévère)
        * BMI≥40 : Obésité de classe 3 (très sévère ou morbide)

In [15]:
classes = ['<18.5', '[18.5,25[', '[25,30[', '[30,35[', '[35,40[', '40.0<']
classes_str = ['Insuffisance pondérale', 'Poids normal', 'Surpoids', 'Obésité modérée', 'Obésité sévère', 'Obésité morbide']

bins = [0,18.5, 25, 30, 35, 40, np.inf] # np.inf désigne 40,+infini

df['bmi_class'] = pd.cut(df['bmi'], bins=bins, labels=classes_str, include_lowest=True)
df

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,bmi_class
0,19,female,27.900,0,yes,southwest,16884.92400,Surpoids
1,18,male,33.770,1,no,southeast,1725.55230,Obésité modérée
2,28,male,33.000,3,no,southeast,4449.46200,Obésité modérée
3,33,male,22.705,0,no,northwest,21984.47061,Poids normal
4,32,male,28.880,0,no,northwest,3866.85520,Surpoids
...,...,...,...,...,...,...,...,...
1332,50,male,30.970,3,no,northwest,10600.54830,Obésité modérée
1333,18,female,31.920,0,no,northeast,2205.98080,Obésité modérée
1334,18,female,36.850,0,no,southeast,1629.83350,Obésité sévère
1335,21,female,25.800,0,no,southwest,2007.94500,Surpoids
