# Détection du churn - opérateur Télécom

## Objectif
Ce premier cas d'étude vous propose de découvrir la **classification binaire** et aborde des notions fondamentales du machine learning.

Au cours de cette étude de cas, les principaux concepts abordés seront : 
* la classification binaire
* la matrice de features
* la cible d'un modèle
* un modèle de machine learning
* les arbres de décisions
* la mesures de qualité du modèle : precision, rappel, accuracy, matrice de confusion
* la courbe RoC
* un algorithme plus complet : le ramdom-forest 


Prérequis
* dataset TelcoChurnDetection

## Contexte
Vous êtes datascientist pour un opérateur télécom. Le département Marketing vous demande votre aide afin de cibler les clients qui sont insatisfaits et risque de résilier prochainement leur abonnement. Le ciblage de ces clients a pour objectif de leur proposer des offres promotionnels pour les conserver plus longtemps.
Vous décidez alors de mettre en place un modèle de prédiction du churn à partir des données de la base client.

*Churn* = attrition, départ des clients.



## Dataset

Le dataset que vous avez à disposition contient les informations suivantes : 
* customerID - customer id
* gender - client gender (male / female)
* SeniorCitizen - is the client retired (1, 0)
* Partner - is the client married (Yes, No)
* tenure - how many months a person has been a client of the company
* PhoneService - is the telephone service connected (Yes, No)
* MultipleLines - are multiple phone lines connected (Yes, No, No phone service)
* InternetService - client's Internet service provider (DSL, Fiber optic, No)
* OnlineSecurity - is the online security service connected (Yes, No, No internet service)
* OnlineBackup - is the online backup service activated (Yes, No, No internet service)
* DeviceProtection - does the client have equipment insurance (Yes, No, No internet service)
* TechSupport - is the technical support service connected (Yes, No, No internet service)
* StreamingTV - is the streaming TV service connected (Yes, No, No internet service)
* StreamingMovies - is the streaming cinema service activated (Yes, No, No internet service)
* Contract - type of customer contract (Month-to-month, One year, Two year)
* PaperlessBilling - whether the client uses paperless billing (Yes, No)
* PaymentMethod - payment method (Electronic check, Mailed check, Bank transfer (automatic), Credit card (automatic))
* MonthlyCharges - current monthly payment
* TotalCharges - the total amount that the client paid for the services for the entire time
* Churn - whether there was a churn (Yes or No)

## Lecture du jeux de données et exploration 

Le jeu de données est constitué d'un fichier CSV qui peut être lu directement dans un Dataframe pandas.

Les quelques lignes suivantes permettent la lecture du dataset et une première exploration

In [None]:
import pandas as pd 


# Set here the path to the dataset on your machine
dataset_path = "./datasets/TelcoChurnDetection/telecom_users.csv"
dataset = pd.read_csv(dataset_path, index_col=0)
dataset

In [None]:
# Needed conversion
dataset.TotalCharges = pd.to_numeric(dataset.TotalCharges, errors='coerce').fillna(0)

Pour entraîner un modèle, il faut des données.

Les données sont généralement représentées sous forme de matrice (en mathématiques) / dataframe (en python).

Chaque **ligne** de la matrice est une "observation".

ici : **une ligne = un client**

Nb : dans la "vraie vie", il faut souvent beaucoup de travail avant de parvenir à cette matrice...

In [None]:
# Print one row ; uncomment one of the folowing line
# dataset.iloc[0]
# dataset.iloc[0, :]
# dataset.loc[0,:]

In [None]:
# Here check that there is one row per customer
# Hint: checkout documentation for 'value_counts'
raise NotImplementedError()

Chaque **colonne** de la matrice est une "caractéristique", ou "variable explicative", ou encore "feature".

Combien de features avons-nous ici ? Pouvez-vous les lister ?

In [None]:
# Here list the avaiable customer features and show which are numerical features
raise NotImplementedError()

Une colonne est particulière, il s'agit de la **cible** (**target**).

Dans notre contexte il s'agit du *churn*.

**L'objectif du machine learning est de faire des prédictions, donc de prédire le churn avant qu'il ne se produise, sachant certaines variables explicatives**.

Il faut donc distinguer :
* les variables explicatives qui sont *connues* au moment de l'inférence
* la variable à prédire qui est *inconnue*

Dans la cellule suivante, on sépare l'ensemble des features (données connues) 'X' et la cible 'y'

In [None]:
# Features
X = NotImplementedError()

# target
y = NotImplementedError()

X, y

## Visualisation des données

Dans les cellules suivantes, on cherche à bien comprendre ce que contient le dataset

In [None]:
# Afficher ici la répartition de la cible (bar)
dataset.groupby("???")\
    .size()\
    .plot(kind="???")

Naturellement, on souhaite comprendre le contenu des variables explicatives et le lien entre les variables et la cible.

On commence par regarder les 2 variables numériques :
* *tenure* : l'ancienneté du client
* *MonthlyCharges* : charge mensuelles.

Pour chacune d'elle, on dessine : 
- la distribution (histogramme ou courbe de densité)
- la corrélation avec la cible

Avant cela, on suggère de transformer la cible en variable numérique.

In [None]:
# To show correlation with target, you need a numerical column. 
# Apply the following function to the entire columns

def transform_to_binary(val):
    """
    val is equal to "Yes" or "No"
    This function should return 0 or 1
    """
    raise NotImplementedError()

dataset.Churn = ????

In [None]:
# Print here distribution and correlation with target
# hint: Have a look on notebook 0 : how to print pairwise correlations

raise NotImplementedError()

## Variables catégorielles

Maintenant que nous avons vu l'influence de la durée de rétention et des charges mensuelles, nous allons nous penchez sur les 3 variables suivantes :
* *SeniorCitizen* 
* *Partner*
* *Dependents*

Aide pour afficher : https://seaborn.pydata.org/tutorial/categorical.html

In [None]:
# Here plot relations between categorical feature and target
raise NotImplementedError()

# Permier modèle de Machine Learning : un arbre de décision

Il s'agit d'un modèle qu'on peut facilement se représenter : l'algorithme construit un arbre de décision, qui correspondent à l'enchaînement de plusieurs décisions de type : "SI .... ALORS....".
Par exemple : 

#### Arbre de décision avec un seul niveau (une règle)
"SI montlyCharges > 30 ALORS CHURN"

#### Arbre de décision avec 2 niveaux
* SI montlyCharges > 30 ALORS
    * ET SI tenure < 10 ALORS CHURN
    * SINON : NON CHURN
* SINON : NON CHURN


On distingue 2 phases : 
* l'**apprentissage** (*fit*) : l'algorithme de machine learning va *construire un modèle* à partir des données. Pour les arbres de décision, cela signifie créer les règles : choisir à la fois les *variables* de décision et les *seuils*. A la fin de l'apprentissage, on obtient un modèle, c'est à dire un ensemble de règles et de seuils permettant de *prédire* la cible.

* la **prédiction** : c'est lorsqu'on utilise le modèle pour effectuer des prédictions. Il s'agit d'appliquer les règles apprises par l'algorithme.


Si la phase d'apprentissage peut être (très) longue, la prédiction est généralement instantanée.


Dans les lignes suivantes, on charge, entraîne un modèle de machine learning et on l'utilise.

La première chose à faire est de mettre le dataset dans le bon format. Ce qui signifie :
* Sélection de variables
* Avoir valeurs uniquement numériques (nécessaire en général même si certains algorithmes comme les arbres de décisions ne le nécessitent pas)

## Sélection de variables & formatting
On utilise les variables observées au dessus : 
* MonthlyCharges
* tenure
* TotalCharges
* seniorCitizen
* Partner
* Dependants

In [None]:
features = ???
X = X[features].copy() # copy here to not have a slice and suppress warning
X

In [None]:
# Apply function to transform categorical value
categorical_features = ???
for feature in categorical_features:
    raise NotImplementedError()

y = ???

## Chargement du modèle et entraînement

In [None]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(max_depth=3)
model

In [None]:
%time model.fit(X, y)

In [None]:
y_pred = model.predict(X)
y_pred

#### Et voilà !!


Pour bien illustrer le modèle, nous allons voir ce qu'il y a à l'intérieur

In [None]:
from sklearn.tree import plot_tree

# WARNING: Do not plot deep tree (5 is deep... but only for plotting)

# plot_tree(model)

# Validation du modèle


**Comment savoir quelle est la qualité de la prédiction ?**

Est-ce que le modèle se trompe ?

Pour cela nous allons calculer les mesures suivantes :
* la précision (*precision*) : parmis les personnes prédictes CHURN, combien le sont réellement ? 
* le rappel (*recall*) : parmis les personnes qui sont CHURN, combien ont été correctement prédites ?
* l'exactitude (*accuracy*) : combien de personnes sont correctement prédites.



In [None]:
y_true = y.values

In [None]:
# Here compute true positif, false positif, false negative
TP = ((y_pred == 1) & (y_pred == y_true)).sum()
FP = ???
FN = ???


In [None]:
# Then compute precision, recall and accuracy
precision = TP / (TP + FN)
recall = ???
accuracy = ???

print(f"Precision: {precision * 100:.2f}%")
print(f"Recall: {recall * 100:.2f}%")
print(f"Accuracy: {accuracy * 100:.2f}%")

# Compromis Precision - Recall


Est-ce qu'il faut mieux plus de précision et moins de recall, ou moins de précision et plus de recall ?

A performance de modèle égal, une augmentation de la précision se fait au détriment du recall, et inversement.

Les prochaines cellules illustrent ce compromis entre performance et recall


In [None]:
y_pred_proba = ???

In [None]:
from sklearn.metrics import precision_recall_curve

precision, recall, thr = precision_recall_curve(???)

In [None]:
import matplotlib.pyplot as plt 

plt.plot(thr, precision[:-1], label="precision")
plt.plot(thr, recall[:-1], label="recall")
plt.legend()

In [None]:
from sklearn.metrics import roc_curve, roc_auc_score

fpr, tpr, thr = roc_curve(y_true, y_pred_proba)
auc = roc_auc_score(y_true, y_pred_proba)

plt.plot(fpr, tpr, label=f"ROC (auc={auc:.3f})")
plt.plot([0,1], [0,1], label="Random model")
plt.legend()

#### Remarques : 
* Les courbes de précision et de recall ont un sens "métier", utiles pour une analyse qualitative du modèle.
* la courbe ROC est difficile à interprêter. Il s'agit avant tout d'un moyen de **comparaison des modèles** (savoir si un modèle est meilleur qu'un autre)

## Un algorithme puissant : les forêts aléatoires (RandomForest)

Cet algorithme relativement simple offre de très belles performances dans de nombreux problèmes. C'est en quelques sorte un algorithme "couteau-suisse".

Cet algorithme est en fait basé sur les arbres de décisions. Mais plutôt que d'utiliser un seul arbre, il va en utiliser de nombreux, et essayant d'avoir de légère différences entre chaque arbre.
La prédiction finale est faite en aggrégeant les prédictions de chaque arbre, par exemple par un vote de chaque arbre.

Dans les cellules suivantes on charge le nouveau modèle et on se propose de comparer les performances du nouveau modèle.

In [None]:
# Import model

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(max_depth=5)

In [None]:
# Fit the model
raise NotImplementedError()

In [None]:
# Get new predictions
raise NotImplementedError()

In [None]:
# Compare with RandomForest

fpr2, tpr2, thr2 = roc_curve(y_true, y_pred_proba)
auc2 = roc_auc_score(y_true, y_pred_proba)

plt.plot(fpr, tpr, label=f"1Tree (auc={auc:.3f})")
plt.plot(fpr2, tpr2, label=f"RF (auc={auc2:.3f})")
plt.plot([0,1], [0,1], label="Random model")
plt.legend()

## Conclusion

Nous avons maintenant un second algorithme dans notre boîte à outil, afin d'adresser les problèmes de **classification binaire**.
Avec ces 2 algorithmes, nous avons mis au point 2 modèles pour répondre à notre problèmatique de churn.

Beaucoup de choses peuvent cependant être améliorées ! N'hésitez pas à revenir sur ce notebook plus tard pour tenter d'améliorer le modèle.

Nous allons voir en particulier dans la suite comment rendre les modèles plus robustes et plus performants.
