# Mod√©lisation 

Cette phase de mod√©lisation pour le projet de pr√©diction du d√©sabonnement client (Customer Churn) est l'√©tape o√π des algorithmes de Machine Learning sont utilis√©s pour construire un mod√®le capable de pr√©dire quels clients sont susceptibles de se d√©sabonner des services d'une entreprise, sp√©cifiquement une entreprise de t√©l√©communication dans ce projet.

L'objectif est de cr√©er un mod√®le de classification qui peut automatiquement pr√©dire si un client va se d√©sabonner ou non. Cette pr√©diction est fondamentale pour les entreprises, car **le co√ªt de r√©tention d'un client existant est bien inf√©rieur √† celui de l'acquisition d'un nouveau client**. En identifiant les clients √† risque, l'entreprise peut lancer des campagnes marketing cibl√©es pour les fid√©liser.
## 1. Choix de la M√©trique d'√âvaluation
**Quelle m√©trique choisir pour √©valuer la performance des mod√®les?**

Faudrait comprendre au pr√©alable ce qu'on appelle matrice de confusion.

![image_matrice_confusion.png](attachment:image_matrice_confusion.png)


la matrice de confusion est un outil indispensable pour √©valuer la performance des mod√®les de classification. C'est une matrice carr√©e qui rapporte le nombre de vrais positifs (*True Positives* ou TP), vrais n√©gatifs (*True N√©gatives* ou TN), faux positifs (*False Positive* ou FP) et faux n√©gatifs (*False Negatives* ou FN).

Dans notre cas, **le positif c'est 1 : le client s'est d√©sabonn√©** et **le n√©gatif c'est 0 : le client ne s'est pas d√©sabonn√©** .

- **TP** : Le client s'est d√©sabonn√© et le mod√®le pr√©dit qu'il s'est d√©sabonn√©;
- **TN** : Le client ne s'est pas d√©sabonn√© et le mod√®le pr√©dit qu'il ne s'est pas d√©sabonn√©.

Les deux cas ci-dessus (TP et TN) sont les bons cas. Mais FP et FN sont les mauvais cas :
- **FP** : Le client ne s'est pas d√©sabonn√© et le mod√®le pr√©dit qu'il s'est d√©sabonn√©;
- **FN** : Le client s'est d√©sabonn√© et le mod√®le pr√©dit qu'il ne s'est pas d√©sabonn√©.


‚Ä¢ Interpr√©tation Visuelle :

    ‚ó¶ La diagonale (TP et TN) repr√©sente les pr√©dictions correctes : plus les chiffres sur cette diagonale sont √©lev√©s, meilleur est le mod√®le.

    ‚ó¶ Les valeurs hors diagonale (FP et FN) repr√©sentent les erreurs de pr√©diction : plus ces chiffres sont √©lev√©s, pire est le mod√®le.

![image_matrice_confusion2.png](attachment:image_matrice_confusion2.png)
Les choix de m√©triques : [üëâ](https://scikit-learn.org/stable/api/sklearn.metrics.html)

**M√©triques de classification** : ``accuracy_score``, ``f1_score``, ``precision_score``, ``recall_score``, etc.


- **accuracy**: L'exactitude, c'est la pr√©cision globale du mod√®le (***Accuracy*** en anglais) est la proportion de pr√©visions correctes, c'est-√†-dire la somme du nombre de vrais n√©gatifs et vrais positifs divis√© par le nombre total des obserations. Elle se calcule donc par la formule ci-dessous:

$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$

Il faudrait faire attention √† la pr√©cision globale. Une forte pr√©cision globale ne signifie pas forc√©ment que le mod√®le est performant. Le choix de la m√©trique pour quantifier la performance du mod√®le doit se faire en fonction du contexte de l'√©tude, c'est-√†-dire de la probl√©matique qu'on veut r√©soudre.

Lorsqu'il y a un probl√®me de d√©s√©quilibre de classe, la pr√©cision globale n'est pas une bonne m√©trique d'√©valuation de la performance du mod√®le.

*precision* et *recall* sont des m√©triques tr√®s utilis√©es surtout lorsque les classes de la variable cible sont tr√®s d√©s√©quilibr√©es.

- **precision**: La pr√©cision est l'indicateur qui nous indique, sur tous les points positifs pr√©dits, combien √©taient de vrais positifs.
Proportion de pr√©dictions positives correctes :

$Precision = \frac{TP}{TP + FP}$

- **recall**: cette m√©trique montre la capacit√© du mod√®le √† identifier tous le vrais positifs.
Recall (Rappel ou Sensibilit√©) -> Proportion de vrais positifs d√©tect√©s :

$Recall = \frac{TP}{TP + FN}$

L'am√©lioration de *precision* diminue *recall* et vice-versa. Alors que faire?

Fort heureusement, il y a une m√©trique qui contient √† la fois la sensibilit√© et la sp√©cificit√©. C'est le F1 score.

- **F1 score** : Moyenne harmonique de ***precision*** et de ***recall***. Elle se calcule donc par la formule:

$F1 Score = 2 * \frac{{Precision} * {Recall}}{{Precision} + {Recall}} = \frac{2TP}{2TP + FP + FN}$

Il est indispensable et incontournable de d√©terminer la m√©trique d'√©valuation avant de commencer √† entra√Æner les algorithmes.

Le choix de la m√©trique d√©pend du contexte sp√©cifique de la probl√©matique √† r√©soudre (ex: d√©tection de cancer, fraude bancaire). 

Pour ce probl√®me de d√©sabonnement client, le F1-score est consid√©r√© comme le plus pertinent.

Pour un mod√®le parfait, f1 score est √©gal √† 1 et la plus mauvaise performance est un mod√®le avec un f1 score √©gal √† 0.



**On choisit donc le F1 score pour √©valuer la performance de chaque mod√®le qui sera construit.**
## 2. S√©lection des Variables Pr√©dictives (Feature Selection)

La Feature Selection est une √©tape cruciale avant l'entra√Ænement des algorithmes, visant √† optimiser le mod√®le.

L'objectif est de d√©terminer les meilleures variables pr√©dictrices pour le mod√®le.

Toutes les variables ne sont pas importantes pour expliquer la variable cible (le d√©sabonnement du client).

La s√©lection des variables permet de r√©duire le bruit dans les donn√©es et d'√©viter le sur-ajustement (overfitting) du mod√®le.

De plus, cela am√©liore l'interpr√©tabilit√© du mod√®le en r√©duisant la complexit√© due √† un grand nombre de variables.
**M√©thode 1 : Importance des Caract√©ristiques (Feature Importance) via For√™t Al√©atoire (Random Forest)**

- Principe : 
Les mod√®les bas√©s sur les arbres de d√©cision, comme la For√™t Al√©atoire, poss√®dent un attribut qui attribue une note d'importance √† chaque variable pr√©dictive.
- Impl√©mentation :
  - Un mod√®le simple de For√™t Al√©atoire (``RandomForestClassifier``) est entra√Æn√© sur les donn√©es d'entra√Ænement (``train_features`` et ``train_labels``) sans chercher les meilleurs hyperparam√®tres pour l'instant.
  - Les scores d'importance des caract√©ristiques (``feature_importances_``) sont extraits et un tableau est cr√©√© pour visualiser l'importance de chaque variable.
  - Les variables sont class√©es par ordre d√©croissant d'importance.
# Selection des meilleures variables pr√©dictives
rf = RandomForestClassifier()
rf.fit(train_features, train_labels)
print(classification_report(y_val, rf.predict(X_val)))
# Importance des variables ind√©pendantes
vars_imp = pd.DataFrame({'Variable': train_features.columns, 'Importance': rf.feature_importances_})
vars_imp = vars_imp.sort_values(by='Importance', ascending=False)

plt.figure(figsize=(14, 6))
sns.set_theme(style="whitegrid")
sns.barplot(data=vars_imp, x='Variable', y='Importance')
plt.xticks(rotation=70)
plt.title('Importance des variables pr√©dictrices')
plt.xlabel('Variables')
plt.ylabel('Score Importance de la variable')
plt.show()
On observe que : 

- Les variables **TotalCharges** (montant total factur√©), **tenure** (anciennet√© du client en mois) et **MonthlyCharges** (facture mensuelle) sont identifi√©es comme les plus importantes.

- Les variables **SeniorCitizen** et **gender** (sexe du client) ont une importance tr√®s faible, voire nulle, on sugg√®re qu'elles n'ont pas un r√¥le significatif dans la pr√©diction du d√©sabonnement, ie aucune relation avec la variable cible.
# Affichage des vars_imp
vars_imp.reset_index(drop=True, inplace=True)
vars_imp
La s√©lection des meilleurs variables pr√©dictives est bas√©e sur un Seuil :
- Pour √©liminer les variables moins pertinentes qui n'ajouteraient que du bruit, un seuil est choisi.
- Seules les variables dont l'importance est sup√©rieure √† ce seuil sont conserv√©es pour la mod√©lisation.
- Ce processus conduit √† la s√©lection d'un ensemble r√©duit de variables. Ce choix de seuil est flexible et peut √™tre ajust√© pour voir l'impact sur les r√©sultats
# Variables s√©lectionn√©es pour les algorithmes
seuil = 0.004  # Seuil pour la s√©lection des variables
vars_selected = vars_imp[vars_imp['Importance'] > seuil]['Variable'].tolist()
print("Variables s√©lectionn√©es pour les algorithmes :", vars_selected)
len(vars_selected)
On a donc 28 variables finales, apr√®s √©limination de certaines.
# Mise √† jour des donn√©es d'entra√Ænement, de validation et de test pour contenir ces variables s√©lectionn√©es
train_features = train_features[vars_selected]
X_val = X_val[vars_selected]
X_test = X_test[vars_selected]
X_test = X_test[vars_selected]
**M√©thode2 : √âlimination R√©cursive de Caract√©ristiques (Recursive Feature Elimination - RFE)**

L'algorithme Recursive Feature Elimination (RFE) est aussi une m√©thode de selection de variables pr√©dictives (Feature Selection). Elle vise √† trouver le sous-ensemble de variables qui maintient ou am√©liore la performance d'un mod√®le tout en r√©duisant sa complexit√©.

On l'appliquera dans la suite √† chaque mod√®le entrain√©.
## 3. Entra√Ænement, √âvaluation  des mod√®les et Ajustement des Hyperparam√®tre
L'objectif principal de la mod√©lisation est de construire un mod√®le de classification capable de pr√©dire automatiquement si un client va se d√©sabonner ou non.

Ce mod√®le permettra √† l'entreprise de t√©l√©communications de cibler les clients √† risque avec des campagnes marketing sp√©cifiques afin de les fid√©liser, √©tant donn√© que le co√ªt de r√©tention d'un client est bien inf√©rieur au co√ªt d'acquisition d'un nouveau client.
Plusieurs algorithmes de Machine Learning et un r√©seau de neurones artificiel (Deep Learning simple) seront entra√Æn√©s afin de comparer leurs performances et de choisir le meilleur mod√®le.

Les algorithmes test√©s incluent :

- [R√©gression Logistique](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)  
- [For√™t Al√©atoire (Random Forest)](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)  
- [Gradient Boosting](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html)  
- [Classificateur Perceptron Multicouche (MLP Classifier)](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html) ‚Äî un r√©seau de neurones artificiel simple  
- [Support Vector Machine (SVM)](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)
### 3.1 Entra√Ænement et √âvaluation de la R√©gression Logistique
# Dictionnaire des hyperparam√®tres 
param_grid = {'C': [0.001, 0.01, 0.1, 1, 10, 50, 100, 500],}

# Objet GridSearchCV
grid_logistic_class = GridSearchCV(estimator=LogisticRegression(random_state=seed, max_iter=500), 
                             param_grid=param_grid, 
                             scoring='f1', 
                             cv=5)

# Entrainement de l'algorithme
logistic_model = grid_logistic_class.fit(train_features, train_labels)

# Meilleur score et meilleur hyperparam√®tre
print("Meilleur score (f1) :", grid_logistic_class.best_score_)
print("Meilleur hyperparam√®tre (C) :", grid_logistic_class.best_params_)
print("Meilleur mod√®le :", logistic_model.best_estimator_)
Le mod√®le a un bon score d'entra√Ænement. Evaluons sa performance sur les donn√©es de validation afin d'appr√©cier sa capacit√© √† g√©n√©raliser sur de nouvelles donn√©es.
# Fonction d'√©valuation de la performance d'un mod√®le

def evaluate_model(model, features, labels):
    pred = model.predict(features)
    print(classification_report(labels, pred))
    
    # Matrice de confusion
    plt.figure(figsize=(8, 6))
    sns.heatmap(pd.crosstab(labels, pred, rownames=['R√©el'], colnames=['Pr√©dit']), annot=True, fmt='d', cmap='Blues')
    plt.title('Matrice de confusion')
    plt.show()
# Evaluation du mod√®le de r√©gression logistique
evaluate_model(logistic_model.best_estimator_, X_val, y_val)
Pour la r√©gression logistique, l'F1-score de la classe positive est de 0.62 et la pr√©cision globale (accuracy) est de 0.75.
Appliquons l'algorithme [Recursive Feature Elimination](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html) (**RFE**) √† la r√©gression logistique pour r√©duire le nombre de variables pr√©dictrices. En effet, plus le mod√®le est complexe, plus il est difficile de l'interpr√©ter. 
# Cr√©ation d'une fonction de construction d'un mod√®le avec utilisation de l'algorithme RFE
def build_model_with_rfe(model):
    rfe_model = RFE(estimator=model, verbose=0)
    rfe_model.fit(train_features, train_labels)
    mask = rfe_model.support_
    reduced_X = train_features.loc[:, mask]
    print(f"Les Variables s√©lectionn√©es par RFE : {reduced_X.columns.tolist()}")
    return rfe_model
# Logistic Regression avec RFE
rfe_logistic_model = build_model_with_rfe(logistic_model.best_estimator_)
rfe_logistic_model
# Nombre de variables s√©lectionn√©es apr√®s avoir appliqu√© la RFE
print("Nombre de variables s√©lectionn√©es apr√®s RFE :", rfe_logistic_model.n_features_)
# Evaluation du mod√®le de r√©gression logistique avec RFE
evaluate_model(rfe_logistic_model, X_val, y_val)
L'algorithme Recursive Feature Elimination (RFE) appliqu√© √† la r√©gression logistique, a r√©duit le nombre de variables pr√©dictrices de 28 √† 14. Bien que les valeurs du F1-score de la classe positive et la pr√©cision globale soient inchang√©s, le mod√®le avec 14 variables est **pr√©f√©rable pour son interpr√©tabilit√© accrue** en raison de performances similaires.
### 3.2 Entra√Ænement et √âvaluation de la For√™t Al√©atoire (Random Forest)
# Dictionnaire des hyperparam√®tres pour Random Forest
param_grid_rf = {
    'n_estimators': [10, 50, 100, 500, 1000],
    'max_depth': [3, 5, 10, 20, None]
}

# Objet GridSearchCV
grid_rf_class = GridSearchCV(estimator=RandomForestClassifier(random_state=seed), 
                             param_grid=param_grid_rf, 
                             scoring='f1', 
                             cv=5)

# Entrainement du mod√®le de Random Forest
rf_model = grid_rf_class.fit(train_features, train_labels)

# Meilleur score et meilleur hyperparam√®tre
print("Meilleur score (f1) :", round(rf_model.best_score_, 3))
print("Meilleur hyperparam√®tre (n_estimators, max_depth) :", rf_model.best_params_)
# Meilleur mod√®le
print("Meilleur mod√®le :", rf_model.best_estimator_)

# Evaluation du mod√®le de f√¥r√™t al√©atoire
evaluate_model(rf_model.best_estimator_, X_val, y_val)
Compar√© aux valeurs du mod√®le de r√©gression logistique, le mod√®le de for√™t al√©atoire semble moins √©fficace.

Appliquons la RFE
# Random Forest avec RFE
rfe_rf_model = build_model_with_rfe(rf_model.best_estimator_)
rfe_rf_model
# Evaluation du mod√®le de forest al√©atoire
evaluate_model(rfe_rf_model, X_val, y_val)
Au vue de ces valeurs, nous retiendrons le mod√®le de for√™t al√©atoire obtenu sans RFE.

Passons √† la construction d'un mod√®le de r√©seau de neuronnes artificiel.
### 3.3 Entra√Ænement et √âvaluation du Classificateur Perceptron Multicouche (MLP Classifier)
# MLPClassifier
mlp = MLPClassifier(random_state=seed, max_iter=1000)
# Dictionnaire des hyperparam√®tres pour MLPClassifier
param_grid_mlp = {'hidden_layer_sizes': [(50,), (100,), (200,)],
                    #'activation': ['identity', 'logistic', 'tanh', 'relu'],
                    #'alpha': [0.0001, 0.001, 0.01, 0.1, 1],
                    'learning_rate': ['constant', 'invscaling', 'adaptive']}

# Objet GridSearchCV
grid_mlp_class = GridSearchCV(estimator=mlp, param_grid=param_grid_mlp, 
                             scoring='f1', cv=5, n_jobs=-1)

# Entrainement du mod√®le de MLPClassifier
mlp_model = grid_mlp_class.fit(train_features, train_labels)
# Meilleur score et meilleur hyperparam√®tre
print("Meilleur score (f1) :", round(mlp_model.best_score_, 3))
print("Meilleur hyperparam√®tre (hidden_layer_sizes, activation, alpha, learning_rate) :", mlp_model.best_params_)
# Evaluation du mod√®le Perceptron
evaluate_model(mlp_model.best_estimator_, X_val, y_val)
Passons maintenant √† un mod√®le SVM
### 3.4 Entra√Ænement et √âvaluation du Support Vector Machine (SVM)
# SVM : Classifieur qui trouve l'hyperplan optimal qui maximise la fronti√®re entre 2 classes
svm = SVC(random_state=seed, probability=True)

# Dictionnaire des hyperparam√®tres pour SVM
param_grid_svm = {'C': [0.01, 0.1, 1, 10, 50, 100],
                  'kernel': ['linear', 'poly', 'rbf', 'sigmoid'],
                   # 'gamma': ['scale', 'auto'],
                   # 'degree': [2, 3, 4, 5]
                   }
# Objet GridSearchCV
grid_svm_class = GridSearchCV(estimator=svm, param_grid=param_grid_svm, 
                             scoring='f1', cv=5, n_jobs=-1)
# Entrainement du mod√®le SVM
svm_model = grid_svm_class.fit(train_features, train_labels)
# Meilleur score et meilleur hyperparam√®tre
print("Meilleur score (f1) :", round(svm_model.best_score_, 3))
print("Meilleur hyperparam√®tre (C, kernel) :", svm_model.best_params_)
# meilleur mod√®le
print("Meilleur mod√®le :", svm_model.best_estimator_)
# Evaluation du mod√®le SVM
evaluate_model(svm_model.best_estimator_, X_val, y_val)


## 4. S√©lection du Meilleur Mod√®le