In [1]:
# Nous chargeons les packages nécessaires

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import RobustScaler
from sklearn.svm import LinearSVC
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression


In [2]:
# Nous lisons le fichier all_expenses_clean créé précédemment avec python
all_expenses_clean = pd.read_csv("all_expenses_clean.csv", sep=",")

# Nous vérifions quelles colonnes contiennent des valeurs manquantes
pd.set_option('display.max_rows', None)#  option pour voir toutes les entrées de la Series
all_expenses_clean.count()
#pd.reset_option('display.max_rows') #nous supprimons l'option

# Nous remarquons que les variables socio-démographiques et économiques ne contiennent pas de NA.
# Le seules variables contenant des NA sont les dépenses par poste et seront donc remplacées par 0.

DUPERSID                    7598
EDUCYR                      7598
TTLP22X                     7598
FAMINC22                    7598
AGE22X                      7598
TOTEXP22                    7598
TOTEXP23                    7570
exp_dental_1                 598
exp_dental_3                 740
exp_dental_5                 562
exp_dental_7                 609
exp_dental_9                 572
exp_dental_10                529
exp_dental_11                530
exp_dental_12                570
exp_dental_8                 730
exp_dental_6                 619
exp_dental_2                 621
exp_dental_4                 540
exp_dental_total            3560
exp_hospitals_1              490
exp_hospitals_2              490
exp_hospitals_3              490
exp_hospitals_4              490
exp_hospitals_5              490
exp_hospitals_6              490
exp_hospitals_7              490
exp_hospitals_8              490
exp_hospitals_9              490
exp_hospitals_10             490
exp_hospit

In [3]:
# Nous créons une variable Profil donnant le profil de chaque individu au regard
# de ses dépenses de santé en 2023
# Cette variable constitura notre variable cible

#On copie le dataframe pour éviter d'écraser ou mélanger les index (identifiants des lignes)
df = all_expenses_clean.copy()

#Nous trions les individus par coûts (dépenses de santé) en 2023
df_ordonne = df.sort_values(by="TOTEXP23").reset_index(drop=True)

# Calcul de la part cumulée des dépenses
df_ordonne["cum_cost_share"] = df_ordonne["TOTEXP23"].cumsum() / df_ordonne["TOTEXP23"].sum()

# Seuils
seuils = [0.2, 0.4, 0.6, 0.8, 1.0]

# Fonction pour définir le profil
def assign_bucket(cum_cost):
    if cum_cost <= seuils[0]: # individu à coût faible
        return 0
    elif cum_cost <= seuils[2]: # individu à coût modéré
        return 1
    else:                     #individu à coût élevé
        return 2

#On applique la fonction assign_bucket à la colonne cum_cost_share de df_ordonne
#pour créer la variable profil
df_ordonne["profil"] = df_ordonne["cum_cost_share"].apply(assign_bucket)

# Grâce à la commande .sort_index(), on revient à l'ordre donné par les index
# pour que l'assignation de la nouvelle se fasse correctement
all_expenses_clean["profil"] = df_ordonne.sort_index()["profil"]



In [4]:
#Préparation des données pour les algorithmes de machine learning

##############################################################################
####  Définition de la variable cible et des attributs              #########
############################################################################

df = all_expenses_clean.copy()

# Variable cible : profil
y = df["profil"]

# Variables explicatives
X = df.drop([
    "TOTEXP23",
    "profil"
], axis=1, errors="ignore")



###############################################################################
#####    Création des échantillons test et train                        #######
###############################################################################

#On sépare les données en deux échantillons train et test

X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.25,
    stratify=y,    # en cas de classification, cette option sert à conserver les mêmes prportions de chaque classe dans les échantillons d'entrainement et de test
    random_state=42 #utile pour la reproductibilité
)

n_samples, n_features = X_train.shape
print("L'échnatillon d'entrainement contient: {} individus et {} variables explicatives".format(n_samples, n_features))
print("L'échantillon test contient : {} individus".format(X_test.shape[0]))

L'échnatillon d'entrainement contient: 5698 individus et 129 variables explicatives
L'échantillon test contient : 1900 individus


In [5]:
#Nous créons un transformeur preprocess pour prétraiter les données

###############################################################################
############              Preprocessing                               #########
###############################################################################

# Séparation des variables numériques et catégorielles pour le pipeline
num_vars = X.select_dtypes(include=["int64", "float64"]).columns
cat_vars = X.select_dtypes(include=["object", "category"]).columns

# Les variables numériques correspondent à des variables de santé:
# nous choisissons donc d'attribuer la valeur 0 à leur valeurs manquantes
numeric_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="constant", fill_value=0)),
    #on utilise la transformation  (x-median)/ intervalle interquartile pour
    #tenir compte de la distribution très asymétrique des données de sante
    ("scaler", RobustScaler())
])

# Il n'y a aucune valeur manquante parmi les variables catégorielles choisies
# ce qui rend l'imputation facultative
categorical_transformer = Pipeline(steps=[
    #("imputer", SimpleImputer(strategy="constant", fill_value="Not defined")),
#encodage des variables catégorielles sous forme d'indicatrices
    ("onehot", OneHotEncoder(handle_unknown="ignore"))
])

#On assemble le prétatraitement des variables numériques et cétegorielles
#dans un preprocesseur unique
preproc = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, num_vars),
        ("cat", categorical_transformer, cat_vars)
    ]
)


In [6]:
import warnings
warnings.filterwarnings("ignore")

from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import LabelEncoder
from xgboost import XGBClassifier
import numpy as np

# Encodage des labels
le = LabelEncoder()
y_train_enc = le.fit_transform(y_train)
y_test_enc = le.transform(y_test)

# Pipeline
pipe_xgb = Pipeline([
    ('preprocess', preproc),
    ('xgb', XGBClassifier(
        objective='binary:logistic',
        eval_metric='logloss',
        random_state=42,
        tree_method="hist",
        n_jobs=-1
    ))
])

# Grille
parameters_xgb = {
    'xgb__n_estimators': [200, 500],
    'xgb__max_depth': [3, 5, 7],
    'xgb__learning_rate': [0.01, 0.1, 0.3],
    'xgb__subsample': [0.6, 0.8, 1.0],
    'xgb__colsample_bytree': [0.6, 0.8, 1.0]
}

# Grid Search
clf_xgb = GridSearchCV(
    estimator=pipe_xgb,
    param_grid=parameters_xgb,
    cv=5,
    scoring="balanced_accuracy",
    n_jobs=-1,
    error_score='raise'     # <-- très important pour voir l'erreur réelle
)

# Entraînement
clf_xgb.fit(X_train, y_train_enc)

# Résultats
print("=== Résultats XGBoost ===")
print("Meilleurs paramètres :", clf_xgb.best_params_)
print("Balanced Accuracy CV :", clf_xgb.best_score_)
print("Accuracy test :", clf_xgb.score(X_test, y_test_enc))


=== Résultats XGBoost ===
Meilleurs paramètres : {'xgb__colsample_bytree': 0.8, 'xgb__learning_rate': 0.3, 'xgb__max_depth': 7, 'xgb__n_estimators': 500, 'xgb__subsample': 1.0}
Balanced Accuracy CV : 0.9929318710988358
Accuracy test : 0.9967105263157895


In [14]:
print("Classes dans y_train :", sorted(set(y_train)))
print("Classes dans y_test  :", sorted(set(y_test)))



Classes dans y_train : [0, 1, 2]
Classes dans y_test  : [0, 1, 2]


In [7]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder

import warnings
warnings.filterwarnings("ignore")


# Pipeline : prétraitement + Random Forest
pipe_rf = Pipeline([
    ('preprocess', preproc),
    ('rf', RandomForestClassifier(
        random_state=42,
        n_jobs=-1
    ))
])

# Grille d'hyperparamètres pour Random Forest
parameters_rf = {
    'rf__n_estimators': [200, 500],          # nombre d'arbres
    'rf__max_depth': [None, 10, 20],         # profondeur maximale
    'rf__min_samples_split': [2, 5, 10],     # min d'échantillons pour un split
    'rf__min_samples_leaf': [1, 2, 4],       # min d'échantillons par feuille
    'rf__max_features': ['sqrt', 'log2', 0.5]  # nombre de features testés par split
}

# Grid Search : recherche des hyperparamètres par validation croisée
clf_rf = GridSearchCV(
    estimator=pipe_rf,
    param_grid=parameters_rf,
    cv=5,
    scoring="balanced_accuracy",
    n_jobs=-1,
    error_score='raise'
)

# Entraînement
clf_rf.fit(X_train, y_train)

# Résultats
print("=== Résultats Random Forest ===")
print("Meilleurs paramètres :", clf_rf.best_params_)
print("Balanced Accuracy CV :", clf_rf.best_score_)
print("Accuracy test :", clf_rf.score(X_test, y_test))


=== Résultats Random Forest ===
Meilleurs paramètres : {'rf__max_depth': None, 'rf__max_features': 0.5, 'rf__min_samples_leaf': 1, 'rf__min_samples_split': 2, 'rf__n_estimators': 200}
Balanced Accuracy CV : 0.9985507246376812
Accuracy test : 0.9978070175438596
