# Brief Métier : Prédiction de Churn Clients avec le Deep Learning

## 1. Contexte professionnel
Vous êtes Data Scientists dans une ESN (Entreprise de Services Numériques) qui accompagne les opérateurs télécoms dans la réduction de la perte d’abonnés.
Votre nouveau client, TelcoNova, souhaite anticiper les départs de ses clients (churn) afin d’orienter ses campagnes de rétention.
Il met à votre disposition un extrait anonymisé de sa base CRM (le jeu Telco Customer Churn, déjà pré-nettoyé en grande partie) et vous laisse 3 jours pour livrer un premier prototype de modèle de prédiction exploitable en production.
TelcoNova exige un livrable reproductible et facilement intégrable par ses équipes MLOps ; vous travaillerez en binôme, en suivant les bonnes pratiques Git / GitHub.



## 2. Votre mission

### 1. Explorer & préparer les données :

audit qualité, gestion des valeurs manquantes, etc.

In [1]:
import pandas as pd
import numpy as np

dataframe = pd.read_csv('../data/WA_Fn-UseC_-Telco-Customer-Churn.csv')
for index, column in enumerate ( dataframe.columns) :
    print(f"{index}: {column}, ", end='')
    num_values = dataframe[column].nunique()
    is_numeric = pd.api.types.is_numeric_dtype(dataframe[column])
    numeric_type = str(dataframe[column].dtype)
    print(f"{num_values}{(' '+numeric_type) if is_numeric else ''} values", end='')
    if num_values < 10 :
        print(f": " + ', '.join(str(x) for x in dataframe[column].unique())) 
    else :
        print(f".") 



0: customerID, 7043 values.
1: gender, 2 values: Female, Male
2: SeniorCitizen, 2 int64 values: 0, 1
3: Partner, 2 values: Yes, No
4: Dependents, 2 values: No, Yes
5: tenure, 73 int64 values.
6: PhoneService, 2 values: No, Yes
7: MultipleLines, 3 values: No phone service, No, Yes
8: InternetService, 3 values: DSL, Fiber optic, No
9: OnlineSecurity, 3 values: No, Yes, No internet service
10: OnlineBackup, 3 values: Yes, No, No internet service
11: DeviceProtection, 3 values: No, Yes, No internet service
12: TechSupport, 3 values: No, Yes, No internet service
13: StreamingTV, 3 values: No, Yes, No internet service
14: StreamingMovies, 3 values: No, Yes, No internet service
15: Contract, 3 values: Month-to-month, One year, Two year
16: PaperlessBilling, 2 values: Yes, No
17: PaymentMethod, 4 values: Electronic check, Mailed check, Bank transfer (automatic), Credit card (automatic)
18: MonthlyCharges, 1585 float64 values.
19: TotalCharges, 6531 values.
20: Churn, 2 values: No, Yes


In [2]:
# exploration des colonnes à plus de 10 valeurs

def check_float(dataframe : pd.DataFrame, columnname : str) :
    print(f"{columnname}:")
    numericount =0
    for value in dataframe[columnname].unique() :
        try :
            numeric_value = float(value)
            numericount+=1
        except :
            print(f"  [{value}]")

    print(f"{numericount} values")
    print()

# 0: customerID, 7043 values => drop column
# 5: tenure, 73 int64 values => int64
# 18: MonthlyCharges, 1585 float64 values => float64
check_float(dataframe, 'MonthlyCharges')

# 19: TotalCharges, 6531 values : Exploration
check_float(dataframe, 'TotalCharges')


MonthlyCharges:
1585 values

TotalCharges:
  [ ]
6530 values



In [3]:
import sys
import os

# Ajouter le chemin absolu du dossier src au sys.path
sys.path.append(os.path.abspath('../src'))
from pipeline_functions import exclude_spaces

print(f"before : {dataframe['TotalCharges'].dtype}")

dataframe2 = exclude_spaces('TotalCharges')(dataframe)

print(f"after : {dataframe2['TotalCharges'].dtype}")



2025-05-20 13:57:00.929962: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.
2025-05-20 13:57:00.932995: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.
2025-05-20 13:57:00.941882: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1747742220.956650   18745 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1747742220.960873   18745 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
W0000 00:00:1747742220.972278   18745 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linkin

before : object
after : float64


encodage des variables / normalisation / standardisation des variables


In [4]:
from pipeline_functions import create_preprocessor

preprocessor = create_preprocessor()
preprocessor


In [5]:
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

complete_pipeline = Pipeline(
    steps=[("preprocessor", preprocessor), ("classifier", LogisticRegression())]
)

y = [1 if x == 'Yes' else 0 for x in dataframe['Churn']]
X = dataframe.drop(columns=['customerID','Churn'])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

complete_pipeline.fit(X_train, y_train)
print("model score: %.3f" % complete_pipeline.score(X_test, y_test))

model score: 0.822




### 2. Élaborer un pipeline d’entraînement sous TensorFlow Keras ou PyTorch (au choix) :

#### 2.1. architecture MLP pensée pour la tabulaire : 

  + ≥ 2 couches cachées,

  + fonction de perte adaptée à une classification binaire,

  + gestion éventuelle du déséquilibre de classes.


In [6]:
from pipeline_functions import build_nn_model
import tensorflow as tf

y = [1 if x == 'Yes' else 0 for x in dataframe['Churn']]
X = dataframe.drop(columns=['customerID','Churn'])

X = preprocessor.fit_transform(X)

X_train_0, X_test, y_train_0, y_test = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y )
X_train, X_val, y_train, y_val = train_test_split( X_train_0, y_train_0, test_size=0.2, random_state=42, stratify=y_train_0 )

deepl_classifier = build_nn_model(X_train)
deepl_classifier

E0000 00:00:1747742222.855301   18745 cuda_executor.cc:1228] INTERNAL: CUDA Runtime error: Failed call to cudaGetRuntimeVersion: Error loading CUDA libraries. GPU will not be used.: Error loading CUDA libraries. GPU will not be used.
W0000 00:00:1747742222.855925   18745 gpu_device.cc:2341] Cannot dlopen some GPU libraries. Please make sure the missing libraries mentioned above are installed properly if you would like to use GPU. Follow the guide at https://www.tensorflow.org/install/gpu for how to download and setup the required libraries for your platform.
Skipping registering GPU devices...


<Sequential name=sequential, built=True>

#### 2.2. callbacks (EarlyStopping, ModelCheckpoint, TensorBoard ou équivalent) pour suivre l’entraînement,


In [7]:
X_train = X_train.toarray() if hasattr(X_train, "toarray") else X_train
X_val = X_val.toarray() if hasattr(X_val, "toarray") else X_val

y_train = np.array(y_train)
y_val = np.array(y_val)

history = deepl_classifier.fit(
    X_train, y_train,
    validation_data=(X_val, y_val),
    epochs=30,
    batch_size=16,
    verbose=1
)

early_stop = tf.keras.callbacks.EarlyStopping(
    monitor='val_loss',    # surveille la perte de validation
    patience=3,            # tolère 3 époques sans amélioration
    restore_best_weights=True
)

Epoch 1/30
[1m282/282[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2ms/step - AUC: 0.6902 - accuracy: 0.7391 - loss: 0.5525 - recall: 5.9090e-06 - val_AUC: 0.8416 - val_accuracy: 0.7391 - val_loss: 0.4546 - val_recall: 0.0201
Epoch 2/30
[1m282/282[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - AUC: 0.8293 - accuracy: 0.7823 - loss: 0.4547 - recall: 0.3755 - val_AUC: 0.8432 - val_accuracy: 0.8092 - val_loss: 0.4308 - val_recall: 0.6154
Epoch 3/30
[1m282/282[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - AUC: 0.8330 - accuracy: 0.7987 - loss: 0.4271 - recall: 0.5750 - val_AUC: 0.8431 - val_accuracy: 0.8030 - val_loss: 0.4288 - val_recall: 0.6221
Epoch 4/30
[1m282/282[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - AUC: 0.8409 - accuracy: 0.7990 - loss: 0.4258 - recall: 0.6106 - val_AUC: 0.8432 - val_accuracy: 0.8012 - val_loss: 0.4298 - val_recall: 0.6488
Epoch 5/30
[1m282/282[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [

#### 2.3. suivi des métriques : ROC-AUC, F1-score, Recall sur la classe Churn = Yes.


In [8]:
# TODO



### 3. Évaluer, comparer, justifier :


fixer un baseline simple (régression logistique ou arbre de décision) pour mesurer le gain du réseau,


analyser les courbes d’apprentissage, la matrice de confusion, le ROC, les distributions des scores,


expliquer (au moins qualitativement) les variables les plus influentes.




### 4. Exporter le modèle + artefacts :


binaire du modèle (SavedModel ↔ TensorFlow / fichier .pt ↔ PyTorch),


scaler / encoder,


script ou notebook d’inférence qui charge les artefacts et prédit le churn sur de nouvelles données.


## 3. Fonctionnalités obligatoires (MVP)


<table style="width:75%">
  <tr>
    <th>Bloc</th>
    <th>Exigences clés</th>
  </tr>
  <tr>
    <td>Data Prep</td>
    <td>
        <ul>
            <li>Nettoyage & typage correct de toutes les colonnes</li>
            <li>Encodage systématique des catégorielle</li>
            <li>Split train / val / test (stratifié)</li>
        </ul>
    </td>
  </tr>
  <tr>
    <td>Modélisation</td>
    <td>
        <ul>
            <li>MLP implémenté from scratch sous TF /Keras ou PyTorch (pas d’API AutoML)</li>
            <li>Backprop + optimiseur (Adam ou SGD)</li>
            <li>Gestion du déséquilibre (pondération ou autre)</li>
        </ul>
    </td>
  </tr>
  <tr>
    <td>Suivi & répétabilité</td>
    <td>
      <ul>
        <li>TensorBoard ou PyTorch Lightning logger </li>
        <li>Seeds fixés + README détaillant la reproduction</li>
        <li>ModelCheckpoint pour restaurer le meilleur modèle</li>
      </ul>
    </td>
  </tr>
  <tr>
    <td>Évaluation</td>
    <td>
      <ul>
        <li>ROC-AUC ≥ 0 .80 OU F1 ≥ 0 .60</li>
        <li>Rapport comparant le réseau au baseline</li>
      </ul>
    </td>
  </tr>
  <tr>
    <td>Collaboration Git</td>
    <td>
      <ul>
        <li>1 branch = 1 feature</li>
        <li> Pull request systématique avec description</li>
      </ul> 
    </td>
  </tr>
</table>





## 4. Détails techniques & considérations
Imbalance : la classe Churn = Yes ≈ 26 %.


Pré-processing dans le même pipeline que l’inférence (pas de données “fuites” entre train et test).


Hyperparamètres : batch_size, learning_rate, nb_neurones par couche ; explorez‐les rapidement (Random Search / KerasTuner / Ray Tune) mais documentez votre stratégie.


Éthique & RGPD : aucune donnée personnellement identifiable ne doit sortir du cadre du projet.


## 5. Ressources utiles

Docs officielles :
 

TensorFlow /Keras : https://www.tensorflow.org/api_docs


PyTorch : https://pytorch.org/docs/


scikit-learn preprocessing : https://scikit-learn.org/stable/modules/preprocessing.html


Outils :


KerasTuner, Optuna (hyper-tuning)


Imbalanced-learn (rééchantillonnage)


Cours/vidéos :


DeepLearning.AI TensorFlow Developer (Coursera) – chapitres 2 & 3


PyTorch Lightning Crash Course (YouTube)


## 6. Livrables
Code source python propre et documenté


ROC-AUC ≥ 0 .80 ou F1 ≥ 0 .60


README clair, pas de données personnelles commitées


Présentation prête (10 min max et tous les membres du groupes doivent parler)



Groupe pour le brief

