In [1]:
import pandas as pd
import numpy as np
df = pd.read_csv('dataset3.csv')

print(df.head(), df.shape)

   age  sex     bmi  children  smoker     region      charges  \
0   19    1  27.900         0       1  southwest  16884.92400   
1   18    0  33.770         1       0  southeast   1725.55230   
2   28    0  33.000         3       0  southeast   4449.46200   
3   33    0  22.705         0       0  northwest  21984.47061   
4   32    0  28.880         0       0  northwest   3866.85520   

   bmi_smoker_interaction  
0                    27.9  
1                     0.0  
2                     0.0  
3                     0.0  
4                     0.0   (1337, 8)


In [2]:
from sklearn.model_selection import train_test_split
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
from sklearn.linear_model import Lasso, Ridge, ElasticNet, LinearRegression
from sklearn.model_selection import GridSearchCV
import math

# separation des features et de la variable cible
X = df.drop('charges', axis=1)
y = df[['charges']]
print(f'''verif des dimensions X et Y
      X (dataset sans la variable cible): {X.shape}
      Y (la variable cible) : {y.shape}''')


# division du dataset en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=True, train_size=0.85, random_state=42, stratify=X['smoker'])
print(f''' verif du split 80 20 
80% du dataset : X train -> {X_train.shape}, Y train -> {y_train.shape}
20% du dataset : X test -> {X_test.shape}, Y test -> {y_test.shape}''')

# preprocessing avec standardisation et transformation des categories
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), ['age', 'bmi', 'children']),
        ('cat', OneHotEncoder(), ['region', 'sex', 'smoker'])
    ]
)

verif des dimensions X et Y
      X (dataset sans la variable cible): (1337, 7)
      Y (la variable cible) : (1337, 1)
 verif du split 80 20 
80% du dataset : X train -> (1136, 7), Y train -> (1136, 1)
20% du dataset : X test -> (201, 7), Y test -> (201, 1)


In [3]:
from sklearn.dummy import DummyRegressor

# création du pipeline dummy
pipeline_dummy = Pipeline(steps=[('preprocessor', preprocessor),
                           ('regressor', DummyRegressor(strategy='mean'))])


# eviter data leakage -> entraîner le pipeline sur les données d'entraînement puis predire
# sur l'ensemble de test avec le meme pipeline
pipeline_dummy.fit(X_train, y_train)
#puis predire y sur l'ensemble de test avec le meme pipeline
y_pred = pipeline_dummy.predict(X_test)
#print(y_pred_dummy)

#test avec les differentes métriques pour le modele dummy : 
#comparaison du y prédit avec le y de test
mse = mean_squared_error(y_test, y_pred)

print(f'Mean Squared Error du modèle dummy: {mse}')

r2 = r2_score(y_test, y_pred)

print(f'Coefficient de determination R² du modèle dummy: {r2}')

rmse = math.sqrt(mse)
print(f'Root Mean Squared Error (RMSE) du modèle dummy: {rmse}')

Mean Squared Error du modèle dummy: 145320521.96584958
Coefficient de determination R² du modèle dummy: -0.0027928862543942223
Root Mean Squared Error (RMSE) du modèle dummy: 12054.89618229247


In [4]:
# Modele de regression lineaire

# création du pipeline de prétraitement et du modèle linear regression
pipeline_lr = Pipeline(steps=[('preprocessor', preprocessor),
                           ('regression', LinearRegression())])


# entraîner le pipeline sur les données d'entraînement 
pipeline_lr.fit(X_train, y_train)
#puis predire y sur l'ensemble de test avec le meme pipeline
y_pred = pipeline_lr.predict(X_test)
print(y_pred)

#test des les differents metriques sur modele linear regression
#comparaison du y prédit avec le y de test
mse = mean_squared_error(y_test, y_pred)

print(f'Mean Squared Error du modèle linear regression: {mse}')

r2 = r2_score(y_test, y_pred)

print(f'Coefficient de determination R² du modèle linear regression: {r2}')

rmse = math.sqrt(mse)
print(f'Root Mean Squared Error (RMSE) du modèle linear regression: {rmse}')

[[ 3.00358847e+03]
 [ 3.22941049e+04]
 [ 7.71897135e+03]
 [ 3.54721454e+04]
 [ 2.69960861e+04]
 [ 7.55207298e+03]
 [ 1.96995795e+03]
 [ 4.17646602e+03]
 [ 9.58931378e+02]
 [ 3.32056593e+04]
 [ 1.13760146e+04]
 [ 1.34312613e+04]
 [-1.26217259e+02]
 [ 1.88731649e+04]
 [ 3.91507818e+01]
 [-1.11911436e+03]
 [ 1.97009979e+03]
 [ 6.05000691e+03]
 [ 1.50093688e+03]
 [ 3.11950973e+04]
 [ 1.29889330e+04]
 [ 9.09885174e+03]
 [ 1.10094393e+04]
 [ 1.40815681e+04]
 [ 7.32780772e+03]
 [ 1.86129570e+03]
 [ 1.17686815e+04]
 [ 1.06633380e+04]
 [ 4.15096975e+02]
 [ 4.82271858e+03]
 [ 3.33788710e+03]
 [ 1.24923449e+04]
 [ 9.93680616e+03]
 [ 2.89408348e+04]
 [ 2.98275561e+04]
 [ 3.85561052e+04]
 [ 2.33010667e+03]
 [ 1.19641286e+04]
 [ 1.94257224e+04]
 [ 9.33603026e+03]
 [ 7.13595553e+03]
 [ 5.76834904e+03]
 [ 3.38940335e+04]
 [ 2.69507633e+04]
 [ 3.54498543e+04]
 [ 3.18167465e+03]
 [ 1.31879443e+04]
 [ 1.07139916e+04]
 [ 2.96560850e+04]
 [ 1.14124392e+04]
 [ 5.58349476e+03]
 [ 3.72585636e+04]
 [ 1.5584002

In [5]:
# Calculez le RMSE (la racine carrée du MSE) pour obtenir une idée de l'erreur en termes des unités d'origine de vos données. 
# Comparez le RMSE à la moyenne des 'charges' (df['charges'].mean()) pour évaluer l'erreur relative.

# RMSE plus élevé que la moyenne : le modèle a du mal à capturer la variation et les tendances dans les données. 
# Il prédit généralement des valeurs qui sont relativement éloignées des valeurs réelles.

# Erreur systématique :  le modèle a tendance à sous-estimer ou surestimer systématiquement les valeurs cibles.

# Modèle insuffisamment performant : Un RMSE élevé peut également indiquer que le modèle que vous utilisez n'est pas suffisamment complexe 
# pour capturer les relations présentes dans les données. Cela peut signifier que le modèle ne tient pas compte de toutes les caractéristiques
# pertinentes ou que la stratégie de prédiction choisie (comme la moyenne) n'est pas adaptée aux données.

# En général, un bon modèle de régression devrait avoir un RMSE inférieur à la moyenne de la variable cible, 
# car cela indiquerait que le modèle est capable de faire des prédictions qui se rapprochent des valeurs réelles en moyenne. 
# L'objectif est de minimiser le RMSE pour obtenir des prédictions précises.

print(df['charges'].mean())
print(rmse)

#donc on en résume que le modele dummy est tres mauvais, et c'est normal car le modele dummy 
#en général, le modèle dummy est un modèle très simple et naïf qui est utilisé comme baseline 
#pour évaluer la performance d'autres modèles plus sophistiqués.

13279.121486655948
5013.630703944783


donc on en résume que le modele dummy est tres mauvais, et c'est normal car le modele dummy <br>
est un modèle très simple et naïf qui est utilisé comme baseline pour évaluer la performance d'autres modèles plus sophistiqués

In [6]:
# AVEC LE Modele de regression LASSO

# création du pipeline de prétraitement et du modèle LASSO
pipeline_lasso = Pipeline(steps=[('preprocessor', preprocessor),
                           ('regression', Lasso())])

#test de différents hyperparam d'alpha pour le lasso
param_grid_lasso = {
    'regression__alpha': [0.1, 1, 10, 100]  
}

### grid search
grid_lasso = GridSearchCV(pipeline_lasso, param_grid_lasso, cv=5)


# eviter data leakage -> entraîner le pipeline sur les données d'entraînement 
grid_lasso.fit(X_train, y_train)
#puis predire y sur l'ensemble de test avec le meme pipeline
y_pred = grid_lasso.predict(X_test)
# print(y_pred)
#test des les differents metriques sur modele lasso
#comparaison du y prédit avec le y de test
mse = mean_squared_error(y_test, y_pred)

print(f'Mean Squared Error du modèle lasso: {mse}')

r2 = r2_score(y_test, y_pred)

print(f'Coefficient de determination R² du modèle lasso: {r2}')

rmse = math.sqrt(mse)
print(f'Root Mean Squared Error (RMSE) du modèle lasso: {rmse} \n rappel moyenne charge : 13279')



Mean Squared Error du modèle lasso: 25130875.18607471
Coefficient de determination R² du modèle lasso: 0.8265829043205263
Root Mean Squared Error (RMSE) du modèle lasso: 5013.070434980414 
 rappel moyenne charge : 13279


In [7]:
# Modele de regression RIDGE

# création du pipeline de prétraitement et du modèle RIDGE
pipeline_ridge = Pipeline(steps=[('preprocessor', preprocessor),
                           ('regression', Ridge())])


#test de différents hyperparam d'alpha pour le lasso
param_grid_ridge = {
    'regression__alpha': [0.01, 0.1, 1, 10, 100]  
}

### grid search
grid_ridge = GridSearchCV(pipeline_ridge, param_grid_ridge, cv=5)


# eviter data leakage -> entraîner le pipeline sur les données d'entraînement 
grid_ridge.fit(X_train, y_train)
#puis predire y sur l'ensemble de test avec le meme pipeline
y_pred = grid_ridge.predict(X_test)
# print(y_pred)
#test des les differents metriques sur modele lasso
#comparaison du y prédit avec le y de test
mse = mean_squared_error(y_test, y_pred)

print(f'Mean Squared Error du modèle ridge: {mse}')

r2 = r2_score(y_test, y_pred)

print(f'Coefficient de determination R² du modèle ridge: {r2}')

rmse = math.sqrt(mse)
print(f'Root Mean Squared Error (RMSE) du modèle ridge: {rmse} \n rappel moyenne charge : 13279')



Mean Squared Error du modèle ridge: 25136736.641929675
Coefficient de determination R² du modèle ridge: 0.8265424569965356
Root Mean Squared Error (RMSE) du modèle ridge: 5013.655018240653 
 rappel moyenne charge : 13279


C'est plutot bien car on a un rmse plus bas que la moyenne pour le lasso et le ridge <br>
l'objectif est de minimiser le RMSE pour obtenir des prédictions précises <br>
r2 a 0,8 donc il predit la bonne réponse à 80% pour les deux modeles de regression <br>

Les resultats des deux modeles de regression lasso et ridge sont presques les memes et ils sont netement mieux que le dummy modele

In [8]:
from sklearn.preprocessing import PolynomialFeatures
# Modele de regression Elasticnet
# préprocesseur pour les variables numériques

preprocessor_num = Pipeline(steps=[
    ('poly', PolynomialFeatures(degree=2, include_bias=False)),
    ('scaler', StandardScaler())
])
preprocessor_cat = Pipeline(steps=[
    ('encoder', OneHotEncoder()),
    ('poly', PolynomialFeatures(degree=2, include_bias=False)),
])

# preprocessing avec transformation des categories et des nums
preprocessor = ColumnTransformer(
    transformers=[
        ('num', preprocessor_num , ['age', 'bmi', 'children', 'bmi_smoker_interaction']),
        ('cat', preprocessor_cat , ['region','sex', 'smoker']),
    ]
)
# création du pipeline de prétraitement et du modèle elasticnet
pipeline_elasticnet = Pipeline(steps=[('preprocessor', preprocessor),
                           ('regression', ElasticNet())])


#test de différents hyperparam d'alpha pour le lasso
param_grid_elasticnet = {
    'regression__alpha': [0.001, 0.01, 0.1, 1, 10, 100],
    'regression__l1_ratio' : [0.1, 0.3, 0.5, 0.7, 0.9]
}

### grid search
grid_elasticnet = GridSearchCV(pipeline_elasticnet, param_grid_elasticnet, cv=10)


# eviter data leakage -> entraîner le pipeline sur les données d'entraînement 
grid_elasticnet.fit(X_train, y_train)
#puis predire y sur l'ensemble de test avec le meme pipeline
y_pred = grid_elasticnet.predict(X_test)
# print(y_pred)


#test des les differents metriques sur modele lasso
#comparaison du y prédit avec le y de test
mse = mean_squared_error(y_test, y_pred)

print(f'Mean Squared Error du modèle elasticnet: {mse}')

r2 = r2_score(y_test, y_pred)

print(f'Coefficient de determination R² du modèle elasticnet: {r2}')

rmse = math.sqrt(mse)
print(f'Root Mean Squared Error (RMSE) du modèle elasticnet: {rmse} \n rappel moyenne charge : 13279')

  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = c

Mean Squared Error du modèle elasticnet: 14463007.288121333
Coefficient de determination R² du modèle elasticnet: 0.9001971598630657
Root Mean Squared Error (RMSE) du modèle elasticnet: 3803.0260698713773 
 rappel moyenne charge : 13279


  model = cd_fast.enet_coordinate_descent(


In [9]:

best_model = grid_elasticnet.best_estimator_
best_model

In [10]:
new_data = pd.DataFrame({
    'age': [35, 40, 30, 60,60],  
    'sex': [1, 0, 0, 1,1],  
    'bmi': [22.5, 30.0, 25.0, 47,50],
    'children': [1, 2, 0, 5,5],
    'smoker': [1, 0, 0, 1,1],  
    'region': ['southwest', 'northeast', 'southeast', 'southeast', 'southeast'],
    'bmi_smoker_interaction': [22.5,0,0,47,50]
})

# faire des prédictions avec le modèle optimisé, possible de faire best_model.predict aussi 
new_y_ped = grid_elasticnet.predict(new_data)

# ajouter les prédictions à new_data
new_data['predicted_charges'] = new_y_ped

print(new_data)

   age  sex   bmi  children  smoker     region  bmi_smoker_interaction  \
0   35    1  22.5         1       1  southwest                    22.5   
1   40    0  30.0         2       0  northeast                     0.0   
2   30    0  25.0         0       0  southeast                     0.0   
3   60    1  47.0         5       1  southeast                    47.0   
4   60    1  50.0         5       1  southeast                    50.0   

   predicted_charges  
0       18585.070581  
1        9507.420379  
2        4348.075543  
3       60160.369705  
4       63526.018630  


In [11]:
ElasticNet?

[0;31mInit signature:[0m
[0mElasticNet[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0malpha[0m[0;34m=[0m[0;36m1.0[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0;34m*[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0ml1_ratio[0m[0;34m=[0m[0;36m0.5[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mfit_intercept[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mprecompute[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mmax_iter[0m[0;34m=[0m[0;36m1000[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mcopy_X[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mtol[0m[0;34m=[0m[0;36m0.0001[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mwarm_start[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mpositive[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mrandom_state[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mselection[0m[0;34m=[0m[0;34m'cy