In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# 📌 **Projet Machine Learning : Churn Prediction**

## 🚀 **1. Définir un Objectif Mesurable**
Avant de commencer, il est essentiel de définir un objectif clair et mesurable. Par exemple :

👉 **Prédire si une personne est susceptible de résilier son abonnement téléphonique avec une exactitude de 90%.**

### 📊 **Métrique principale : Accuracy > 90%**  
_Cela signifie que sur 100 prédictions, nous avons raison 90% du temps._


### ⚠️ **Problème des Classes Déséquilibrées**
Dans ce type de projet, les classes sont souvent déséquilibrées. Exemple :  
- **90%** des clients **ne résilient pas** leur abonnement (**classe 0**).  
- **10%** des clients **résilient** leur abonnement (**classe 1**).  

👉 Si l'on utilise uniquement **l’accuracy**, on risque de biaiser l’évaluation. Il est donc préférable d’utiliser d’autres métriques adaptées :

- **📌 Précision (Precision) :** Réduit le nombre de **faux positifs**.  
  $$ \text{Precision} = \frac{TP}{TP + FP} $$
  _Cela permet d'éviter de prédire qu'un client va résilier alors qu'il ne le fera pas._

- **📌 Rappel (Recall / Sensibilité) :** Réduit le nombre de **faux négatifs**.  
  $$ \text{Recall} = \frac{TP}{TP + FN} $$
  _Cela permet d’éviter de rater des clients susceptibles de résilier leur abonnement._

- **📌 Score F1 :** Compromis entre précision et rappel.  
  $$ \text{F1-score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$

### 🎯 **Objectif fixé :**  
✅ **F1-score > 50%**  
✅ **Recall > 70%** _(Si atteint, c'est déjà une bonne performance !)_  

---

## 📊 **2. EDA (Exploratory Data Analysis)**  
📌 **Objectif :** Se familiariser avec les données pour établir une stratégie de modélisation.

### 🔎 **Analyse de la Forme**  
✅ Identification de la **variable cible** (*target*).  
✅ Nombre de **lignes** et **colonnes**.  
✅ Types de variables (**discrètes, continues**).  
✅ Identification des **valeurs manquantes**.  

### 🔎 **Analyse du Fond**  
✅ **Visualisation de la cible** (histogrammes, boxplots).  
✅ Compréhension des **relations entre features et target** :  
   - Variables **continue vs discrète**  
   - Variables **continue vs continue**  
   - Variables **discrète vs discrète**  
✅ Identification des **outliers** pour traitement lors du pré-processing.

---

## 🛠 **3. Pre-processing : Pré-traitement des Données**  
📌 **Objectif :** Transformer le dataset pour le rendre exploitable par un modèle de **Machine Learning**.

### 🔹 **Étapes principales :**  
✅ **Création du Train Set / Test Set**  

✅ **Gestion des valeurs manquantes**  
   - Suppression avec `dropna()`  
   - Imputation des valeurs manquantes (`SimpleImputer`)  

✅ **Encodage des variables catégorielles**  
   - **One-Hot Encoding**, **Ordinal Encoding**  
   - `replace()` ou `map()` de **pandas**  

✅ **Suppression des outliers**  
   - Identification des valeurs extrêmes  
   - Vérification de leur impact sur le modèle  

✅ **Feature Selection (Sélection de variables)**  
   - Suppression des variables avec **variance nulle**  
   - Élimination des variables **redondantes**  

✅ **Feature Engineering**  
   - Création de **nouvelles variables pertinentes**  
   - Transformation **polynomiale** (`PolynomialFeatures`)  
   - Réduction de **dimensionnalité** (`PCA`)  

✅ **Feature Scaling** (Mise à l’échelle des données)  
   - **Normalisation** (`MinMaxScaler`)  
   - **Standardisation** (`StandardScaler`)  

---

## 🤖 **4. Modelling**  
📌 **Objectif :** Obtenir un modèle **fiable et reproductible**.

### 🔹 **Étapes principales :**  
✅ **Création d'un modèle ML conforme à l'objectif.**  
✅ **Définition d'une fonction d'évaluation** (`accuracy`, `f1-score`, `recall`).  
✅ **Entraînement de plusieurs modèles** (_Régression Logistique, Random Forest, XGBoost, etc._).  
✅ **Optimisation avec `GridSearchCV` ou `RandomizedSearchCV`**.  
✅ **Analyse des erreurs et retour au pré-processing / EDA si nécessaire**.  
✅ **Comparaison des modèles et prise de décision via une **learning curve**.

---

## 📌 **📈 Conclusion**  
En suivant cette démarche, nous assurons :  
✅ Une **analyse rigoureuse des données**  
✅ Une **modélisation optimisée**  
✅ Une **meilleure compréhension du churn client**  

### 🎯 **Objectif final :**  
👉 **Prédire les clients susceptibles de résilier leur abonnement** et mettre en place des actions **préventives**. 🚀