# 📘 Notebook 01 : Contexte et prise en main des données

# 1. 🧠 Contexte du projet

Ce projet de Data Science est réalisé dans le cadre d'une mission pour une entreprise d’assurance. L’entreprise souhaite savoir quels clients sont susceptibles de souscrire un contrat d’assurance véhicule cette année, à partir de données clients issues de l’année précédente.

Le rôle du Data Scientist est de construire un modèle prédictif fiable et interprétable pour :

- Aider à la prise de décision stratégique (marketing, communication ciblée),

- Optimiser l’allocation des ressources commerciales,

- Prendre en compte les contraintes opérationnelles (compréhension métier, explicabilité, performance, etc.).

# 2. 🎯 Objectif et problématique
Il s’agit d’un problème de classification binaire supervisée, où l’on cherche à prédire :

📌 Est-ce qu’un client va souscrire (Response = 1) ou non (Response = 0) à un contrat d’assurance véhicule ?

- Variable cible : Response

- Variables explicatives : toutes les autres colonnes (Age, Gender, Driving_Licence, etc.)

Le modèle devra :

- être capable de généraliser à de nouveaux clients,

- gérer un éventuel déséquilibre de classes,

- fournir des indicateurs clairs pour les équipes métiers.

# 3. 📂Chargement des données

In [14]:
# Importation de la librairie pandas
import pandas as pd

# Lecture du fichier CSV
df = pd.read_csv('base.csv')

# Dimensions du dataset
print('📐 Dimension de la base :', df.shape, '\n')

# Liste des colonnes
print('🧾 Liste des variables :')
print(df.columns)

# Aperçu des 10 premières lignes
df.head(10)


📐 Dimension de la base : (381109, 13) 

🧾 Liste des variables :
Index(['id', 'Gender', 'Age', 'Driving_License', 'Region_Code',
       'Previously_Insured', 'Vehicle_Damage', 'Annual_Premium',
       'Policy_Sales_Channel', 'Vintage', 'Response', 'Vehicle_Date',
       'Signature_Date'],
      dtype='object')


Unnamed: 0,id,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage,Response,Vehicle_Date,Signature_Date
0,1,,44,1,28,0,1,40454,26.0,217,1,1411164000,1550099000000.0
1,2,0.0,76,1,3,0,0,33536,26.0,183,0,1488841200,
2,3,0.0,47,1,28,0,1,38294,26.0,27,1,1459202400,1570486000000.0
3,4,0.0,21,1,11,1,0,28619,152.0,203,0,1515884400,
4,5,1.0,29,1,41,1,0,27496,152.0,39,0,1528754400,
5,6,1.0,24,1,33,0,1,2630,160.0,176,0,1526594400,
6,7,0.0,23,1,11,0,1,23367,152.0,249,0,1537999200,
7,8,1.0,56,1,28,0,1,32031,26.0,72,1,1504562400,1558735000000.0
8,9,1.0,24,1,3,1,0,27619,152.0,28,0,1517958000,
9,10,1.0,32,1,6,1,0,28771,152.0,80,0,1515970800,


# 4. 🔍 Description des variables

Voici les variables fournies dans la base `base.csv` :

- `id` : identifiant client
- `Gender` : 0 = homme, 1 = femme
- `Age` : âge du client
- `Driving_Licence` : 1 = a le permis, 0 sinon
- `Region_Code` : code de la région
- `Previously_Insured` : 0 = pas encore assuré, 1 = déjà assuré
- `Vehicle_Date` : date d'acquisition du véhicule
- `Vehicle_Damage` : 1 = véhicule déjà endommagé, 0 sinon
- `Annual_Premium` : prime annuelle en euros
- `Policy_Sales_Channel` : canal de vente anonymisé
- `Vintage` : ancienneté client en jours
- `Signature_Date` : date de signature du contrat
- `Response` : variable cible (0 = pas intéressé, 1 = intéressé)


# 5. ✂️ Séparation des variables X (features) et y (target)

In [16]:
# Séparation des variables explicatives et de la cible
X = df.drop("Response", axis=1)
y = df["Response"]

# 6. 🧪 Séparation des jeux d'entraînement et de test

In [17]:
from sklearn.model_selection import train_test_split

# Séparation en train/test avec stratification
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.25,
                                                    stratify=y,
                                                    random_state=42)

# Affichage des dimensions
print("🧪 Dimensions des ensembles :")
print("Train :", X_train.shape, y_train.shape)
print("Test  :", X_test.shape, y_test.shape)



🧪 Dimensions des ensembles :
Train : (285831, 12) (285831,)
Test  : (95278, 12) (95278,)


# 7. 📊 Répartition des classes (variable cible)

In [18]:
# Répartition des classes dans la variable cible
print("📊 Répartition des classes dans y (variable cible) :")
print(y.value_counts(normalize=True))


📊 Répartition des classes dans y (variable cible) :
Response
0    0.877437
1    0.122563
Name: proportion, dtype: float64


⚠️ Commentaire :
On observe un déséquilibre des classes : la majorité des clients ne souscrivent pas (classe 0).

Cela implique que la simple accuracy n’est pas suffisante comme métrique.
On utilisera aussi :

- le F1-score,

- le rappel (recall),

- ou la matrice de confusion.