In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
import pickle

In [2]:
# Chargement des données
data = pd.read_csv('customer_churn.csv')

In [3]:
# Exploration des données
data.head()

Unnamed: 0,Names,Age,Total_Purchase,Account_Manager,Years,Num_Sites,Onboard_date,Location,Company,Churn
0,Cameron Williams,42.0,11066.8,0,7.22,8.0,2013-08-30 07:00:40,"10265 Elizabeth Mission Barkerburgh, AK 89518",Harvey LLC,1
1,Kevin Mueller,41.0,11916.22,0,6.5,11.0,2013-08-13 00:38:46,"6157 Frank Gardens Suite 019 Carloshaven, RI 1...",Wilson PLC,1
2,Eric Lozano,38.0,12884.75,0,6.67,12.0,2016-06-29 06:20:07,"1331 Keith Court Alyssahaven, DE 90114","Miller, Johnson and Wallace",1
3,Phillip White,42.0,8010.76,0,6.71,10.0,2014-04-22 12:43:12,"13120 Daniel Mount Angelabury, WY 30645-4695",Smith Inc,1
4,Cynthia Norton,37.0,9191.58,0,5.56,9.0,2016-01-19 15:31:15,"765 Tricia Row Karenshire, MH 71730",Love-Jones,1


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 900 entries, 0 to 899
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Names            900 non-null    object 
 1   Age              900 non-null    float64
 2   Total_Purchase   900 non-null    float64
 3   Account_Manager  900 non-null    int64  
 4   Years            900 non-null    float64
 5   Num_Sites        900 non-null    float64
 6   Onboard_date     900 non-null    object 
 7   Location         900 non-null    object 
 8   Company          900 non-null    object 
 9   Churn            900 non-null    int64  
dtypes: float64(4), int64(2), object(4)
memory usage: 70.4+ KB


In [5]:
# Prétraitement des données
# Supprimer les colonnes non pertinentes pour l'entraînement
data = data.drop(['Names', 'Onboard_date', 'Location', 'Company'], axis=1)

In [6]:
# Séparation des features et de la cible
X = data.drop('Churn', axis=1)
y = data['Churn']

# Division des données en ensemble d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [7]:
# Entraînement du modèle de régression logistique
model = LogisticRegression()
model.fit(X_train, y_train)

# Évaluation du modèle
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

# Rapport de classification
print(classification_report(y_test, y_pred))

# Enregistrement du meilleur modèle
with open('best_model.pkl', 'wb') as file:
    pickle.dump(model, file)

Accuracy: 0.8222222222222222
              precision    recall  f1-score   support

           0       0.84      0.97      0.90       148
           1       0.50      0.16      0.24        32

    accuracy                           0.82       180
   macro avg       0.67      0.56      0.57       180
weighted avg       0.78      0.82      0.78       180



In [8]:
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris



# Créer une instance du modèle SVM
svm_model = SVC(kernel='linear', random_state=42)  # Vous pouvez ajuster le noyau et d'autres paramètres selon vos besoins

# Entraîner le modèle sur les données d'entraînement
svm_model.fit(X_train, y_train)

# Faire des prédictions sur les données de test
y_pred = svm_model.predict(X_test)

# Évaluer les performances du modèle
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

# Rapport de classification
print(classification_report(y_test, y_pred))

# dataPredict = {'y_test': y_test, 'y_pred': y_pred}
# df = pd.DataFrame(data)

# df.head(25)



Accuracy: 0.8888888888888888
              precision    recall  f1-score   support

           0       0.90      0.97      0.94       148
           1       0.80      0.50      0.62        32

    accuracy                           0.89       180
   macro avg       0.85      0.74      0.78       180
weighted avg       0.88      0.89      0.88       180



In [9]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# Créer une instance du modèle RandomForestClassifier
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)  # Vous pouvez ajuster le nombre d'estimateurs (n_estimators) selon votre choix

# Entraîner le modèle sur les données d'entraînement
rf_model.fit(X_train, y_train)

# Faire des prédictions sur les données de test
y_pred = rf_model.predict(X_test)

# Évaluer les performances du modèle
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

# Rapport de classification
print(classification_report(y_test, y_pred))
# with open('rf_model.pkl', 'wb') as file:
#     pickle.dump(rf_model, file)
# dataPredict = {'y_test': y_test, 'y_pred': y_pred}
# df = pd.DataFrame(dataPredict)

# df.head(25)

Accuracy: 0.8722222222222222
              precision    recall  f1-score   support

           0       0.89      0.97      0.93       148
           1       0.74      0.44      0.55        32

    accuracy                           0.87       180
   macro avg       0.81      0.70      0.74       180
weighted avg       0.86      0.87      0.86       180



In [10]:
# Assurez-vous que la petite dataset a le même format que celui sur lequel le modèle a été formé
# Par exemple, assurez-vous que les colonnes et leur ordre sont les mêmes

with open('rf_model.pkl', 'rb') as file:
    model = pickle.load(file)

In [11]:
new_data1 = {
    'Age': 42.0,
    'Total_Purchase': 11066.80,
    'Account_Manager': 0,
    'Years': 7.22,
    'Num_Sites': 8.0
}

new_data2 = {
    'Age': 39.0,
    'Total_Purchase': 9315.60,
    'Account_Manager': 1,
    'Years': 5.02,
    'Num_Sites': 10.0
}

new_data_df = pd.DataFrame([new_data1])

predictions = model.predict(new_data_df)

# Afficher les prédictions
print(predictions)

[1]
