In [50]:
                                        # ML in Insurance

# -*- coding: utf-8 -*-
"""
Created on Wed Feb  5 14:10:14 2025

@author: cheikh
"""
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, classification_report
from xgboost import XGBClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier




In [56]:
# Chargement des données
data = pd.read_csv('/kaggle/input/kaggle-database-2/TravelInsurancePrediction.csv')


In [57]:
# Identification des colonnes catégorielles et numériques
categorical_features = ['Employment Type', 'GraduateOrNot', 'FrequentFlyer', 'EverTravelledAbroad']
numeric_features = ['Age', 'AnnualIncome', 'FamilyMembers', 'ChronicDiseases']


In [59]:
# Prétraitement des données
X = data.drop('TravelInsurance', axis=1)
y = data['TravelInsurance']

# Création du ColumnTransformer pour gérer à la fois les variables catégorielles et numériques
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(drop='first'), categorical_features)
    ])

In [60]:
# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Définition des pipelines pour différents modèles 
models = {
    'Logistic Regression': Pipeline([
        ('preprocessor', preprocessor),
        ('classifier', LogisticRegression(random_state=42))
    ]),
    'Random Forest': Pipeline([
        ('preprocessor', preprocessor),
        ('classifier', RandomForestClassifier(n_estimators=100, random_state=42))
    ]),
    'Support Vector Machine': Pipeline([
        ('preprocessor', preprocessor),
        ('classifier', SVC(random_state=42))
    ]),
    'Neural Network': Pipeline([
        ('preprocessor', preprocessor),
        ('classifier', MLPClassifier(hidden_layer_sizes=(100, 50), max_iter=500, random_state=42))
    ]),
    'XGBoost': Pipeline([
        ('preprocessor', preprocessor),
        ('classifier', XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42))
    ])
}


In [61]:
# Entraînement et évaluation de chaque modèle
for name, model in models.items():
    # Entraînement du modèle
    model.fit(X_train, y_train)
    
    # Prédiction sur l'ensemble de test
    y_pred = model.predict(X_test)
    
    # Évaluation du modèle
    print(f"--- {name} ---")
    print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
    print(classification_report(y_test, y_pred))
    print("\n")

--- Logistic Regression ---
Accuracy: 0.7688442211055276
              precision    recall  f1-score   support

           0       0.77      0.92      0.84       257
           1       0.77      0.50      0.60       141

    accuracy                           0.77       398
   macro avg       0.77      0.71      0.72       398
weighted avg       0.77      0.77      0.75       398



--- Random Forest ---
Accuracy: 0.8140703517587939
              precision    recall  f1-score   support

           0       0.82      0.91      0.86       257
           1       0.80      0.64      0.71       141

    accuracy                           0.81       398
   macro avg       0.81      0.77      0.79       398
weighted avg       0.81      0.81      0.81       398



--- Support Vector Machine ---
Accuracy: 0.8065326633165829
              precision    recall  f1-score   support

           0       0.79      0.95      0.86       257
           1       0.86      0.54      0.66       141

    accura

Nous avons testé cinq modèles pour la prédiction de la souscription à une assurance voyage. Le modèle de régression logistique a une accuracy de 0.7688 avec une meilleure performance pour la classe 0 (0.92 de rappel) par rapport à la classe 1 (0.50). Le Random Forest a une accuracy de 0.8141 avec un bon équilibre entre précision et rappel (0.82 et 0.91 pour la classe 0, 0.80 et 0.64 pour la classe 1). La machine à vecteurs de support (SVM) atteint une accuracy de 0.8065, avec un rappel élevé pour la classe 0 (0.95) mais faible pour la classe 1 (0.54). Le réseau neuronal a une accuracy de 0.7889, avec un rappel de 0.89 pour la classe 0 et 0.60 pour la classe 1. Enfin, XGBoost a la meilleure accuracy de 0.8166, avec des scores de précision et rappel équilibrés (0.82, 0.92 pour la classe 0 et 0.81, 0.62 pour la classe 1). Tous ces modèles montrent une tendance à mieux prédire la classe 0, indiquant un problème d'imbalance de classe où nous devons peut-être réajuster les hyperparamètres ou utiliser des techniques de gestion de l'imbalance pour améliorer les performances sur la classe 1.
