1) Importation des données


In [None]:
import pandas as pd

# on fait l'importation de notre base de données
df = pd.read_csv('/content/sample_data/Bank Customer Churn Prediction.csv')

# on affiche les 10 premières lignes de notre base pour vérifier que la base a été bien importée.
print(df.head(10))


   customer_id  credit_score  country  gender  age  tenure    balance  \
0     15634602           619   France  Female   42       2       0.00   
1     15647311           608    Spain  Female   41       1   83807.86   
2     15619304           502   France  Female   42       8  159660.80   
3     15701354           699   France  Female   39       1       0.00   
4     15737888           850    Spain  Female   43       2  125510.82   
5     15574012           645    Spain    Male   44       8  113755.78   
6     15592531           822   France    Male   50       7       0.00   
7     15656148           376  Germany  Female   29       4  115046.74   
8     15792365           501   France    Male   44       4  142051.07   
9     15592389           684   France    Male   27       2  134603.88   

   products_number  credit_card  active_member  estimated_salary  churn  
0                1            1              1         101348.88      1  
1                1            0              1  

2) Traitement des données

In [None]:
df.info()

# on a verifié que : 
# 1) les types des variables de notre base de données sont correctes
# 2) que toutes les colonnes de notre base de données sont remplies et il ya aucune colonne vide ( Non-null = 10000)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customer_id       10000 non-null  int64  
 1   credit_score      10000 non-null  int64  
 2   country           10000 non-null  object 
 3   gender            10000 non-null  object 
 4   age               10000 non-null  int64  
 5   tenure            10000 non-null  int64  
 6   balance           10000 non-null  float64
 7   products_number   10000 non-null  int64  
 8   credit_card       10000 non-null  int64  
 9   active_member     10000 non-null  int64  
 10  estimated_salary  10000 non-null  float64
 11  churn             10000 non-null  int64  
dtypes: float64(2), int64(8), object(2)
memory usage: 937.6+ KB


In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report

In [None]:
df = df.drop("customer_id", axis=1)
# on supprime la colonne customer_id qui me semble inutile.

In [None]:
print(df.head(10))

   credit_score  country  gender  age  tenure    balance  products_number  \
0           619   France  Female   42       2       0.00                1   
1           608    Spain  Female   41       1   83807.86                1   
2           502   France  Female   42       8  159660.80                3   
3           699   France  Female   39       1       0.00                2   
4           850    Spain  Female   43       2  125510.82                1   
5           645    Spain    Male   44       8  113755.78                2   
6           822   France    Male   50       7       0.00                2   
7           376  Germany  Female   29       4  115046.74                4   
8           501   France    Male   44       4  142051.07                2   
9           684   France    Male   27       2  134603.88                1   

   credit_card  active_member  estimated_salary  churn  
0            1              1         101348.88      1  
1            0              1         

In [None]:
df = df.drop(['gender', 'country'], axis=1)

In [None]:
print(df.head(10))

   credit_score  age  tenure    balance  products_number  credit_card  \
0           619   42       2       0.00                1            1   
1           608   41       1   83807.86                1            0   
2           502   42       8  159660.80                3            1   
3           699   39       1       0.00                2            0   
4           850   43       2  125510.82                1            1   
5           645   44       8  113755.78                2            1   
6           822   50       7       0.00                2            1   
7           376   29       4  115046.74                4            1   
8           501   44       4  142051.07                2            0   
9           684   27       2  134603.88                1            1   

   active_member  estimated_salary  churn  
0              1         101348.88      1  
1              1         112542.58      0  
2              0         113931.57      1  
3              0    

3) Analyse déscriminante


In [None]:
# on fait la divison de nos variables explicatives et variable cible
X = df.drop("churn", axis=1)
y = df["churn"]
#X represente les variables explicatives (toutes les variables sauf customer_id qui a été supprimée)
#Y represente notre variable cible (churn)

# on vérifie si la division est faite
print("X shape:", X.shape)
print("y shape:", y.shape)


X shape: (10000, 8)
y shape: (10000,)


In [None]:
#on fait la divison pour avoir un ensemble de données d'entrainement et un ensemble de données pour test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#test_size c'est l'ensemble de données qui va être testé ( 20% )


In [None]:
#créer un modèle de classification linéaire basé sur l'analyse discriminante linéaire.
lda = LinearDiscriminantAnalysis()

In [None]:
# appliquer le model sur la data de l'entrainement
lda.fit(X_train, y_train)

In [None]:
# faire les prediction sur la data du test
y_pred = lda.predict(X_test)

In [None]:
# evaluer la performance du modèle
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.83      0.96      0.89      1607
           1       0.53      0.17      0.25       393

    accuracy                           0.81      2000
   macro avg       0.68      0.57      0.57      2000
weighted avg       0.77      0.81      0.76      2000



4) Intérpretation : ces résultats montrent que le modèle a une précision raisonnable pour la classe 0, mais une précision faible pour la classe 1. Cela signifie que le modèle est bon pour prédire les clients qui ne vont pas churner, mais pas très performant pour prédire ceux qui vont churner. 