In [31]:
import pandas as pd 
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, f1_score, classification_report



In [32]:
data = pd.read_csv('globaldata_.csv')  
data.head()

Unnamed: 0,col_3,col_10,col_14,col_23,col_34,col_35,col_37,col_39,col_40,col_41,col_43,col_44,col_49,GoodCustomer
0,2.203197,-0.740479,2.087583,2.523667,-1.497972,1.706032,-1.533774,0.590063,0.515355,-1.102233,0.793082,-3.123545,-1.13813,1
1,1.521785,0.716828,1.866058,-0.586905,-1.162075,0.232352,-1.487904,1.313987,-0.407439,2.158395,-0.00368,0.234569,0.163475,0
2,-1.443184,-1.971204,1.580057,-0.042849,1.504893,0.470849,-1.458726,0.488531,-0.223588,-0.652124,0.480149,-1.068155,1.004818,0
3,0.18776,0.923105,1.70714,-1.466182,-0.204355,-2.159234,0.900358,-3.479476,-0.602378,-2.235828,-0.638585,-0.189545,-0.42103,0
4,-1.410303,2.005181,0.330991,-1.492493,1.847506,0.362453,0.183824,-0.709925,1.258906,-0.025172,-1.475451,-2.673422,-0.978382,0


In [33]:

X = data.drop(['GoodCustomer'] , axis=1)  
y = data['GoodCustomer']  

In [36]:
X_train, X_t, y_train, y_t = train_test_split(X, y, test_size=0.3)
X_test, X_val, y_test, y_val = train_test_split(X_t, y_t, test_size=0.33) 

In [40]:



# Liste des modèles
models = {
    "LogisticRegression": LogisticRegression(max_iter=200, random_state=42),
    "RandomForest": RandomForestClassifier(n_estimators=150, random_state=42),
    "GradientBoosting": GradientBoostingClassifier(random_state=42 , n_estimators=200 , n_iter_no_change=5),
    "SVM": SVC(probability=True, random_state=42),
    "KNN": KNeighborsClassifier(n_neighbors=3)
}

# Dictionnaire pour stocker les résultats
results = {}

# Boucle pour entraîner et évaluer chaque modèle
for name, model in models.items():
    print(f"\n--- Entraînement du modèle : {name} ---")
    
    # Entraînement sur l'ensemble d'entraînement
    model.fit(X_train, y_train)
    
    # Évaluation sur l'ensemble de validation
    y_pred_val = model.predict(X_val)
    acc_val = accuracy_score(y_val, y_pred_val)
    f1_val = f1_score(y_val, y_pred_val, average='weighted')
    print(f"Précision sur validation pour {name} : {acc_val:.4f}")
    print(f"Score F1 sur validation pour {name} : {f1_val:.4f}")
    print(classification_report(y_val, y_pred_val))
    
    # Évaluation finale sur l'ensemble de test
    y_pred_test = model.predict(X_test)
    acc_test = accuracy_score(y_test, y_pred_test)
    f1_test = f1_score(y_test, y_pred_test, average='weighted')
    print(f"Précision sur test pour {name} : {acc_test:.4f}")
    print(f"Score F1 sur test pour {name} : {f1_test:.4f}")
    
    # Stocker les résultats
    results[name] = {
        "Modèle": model,
        "Validation Précision": acc_val,
        "Validation F1-score": f1_val,
        "Test Précision": acc_test,
        "Test F1-score": f1_test
    }

# Résumé des performances
print("\n--- Résumé des performances ---")
for name, info in results.items():
    print(f"{name}: Validation Précision = {info['Validation Précision']:.4f}, Test Précision = {info['Test Précision']:.4f}")



--- Entraînement du modèle : LogisticRegression ---
Précision sur validation pour LogisticRegression : 0.7369
Score F1 sur validation pour LogisticRegression : 0.7367
              precision    recall  f1-score   support

           0       0.73      0.76      0.74      1003
           1       0.74      0.72      0.73       977

    accuracy                           0.74      1980
   macro avg       0.74      0.74      0.74      1980
weighted avg       0.74      0.74      0.74      1980

Précision sur test pour LogisticRegression : 0.7400
Score F1 sur test pour LogisticRegression : 0.7399

--- Entraînement du modèle : RandomForest ---
Précision sur validation pour RandomForest : 0.9207
Score F1 sur validation pour RandomForest : 0.9207
              precision    recall  f1-score   support

           0       0.92      0.93      0.92      1003
           1       0.93      0.91      0.92       977

    accuracy                           0.92      1980
   macro avg       0.92      0.92 