**Cours :** INF 6243 Techniques d’apprentissage

**TP2 – Hiver 2024 :** Classification

**Date limite pour remettre votre travail :** 22 mars 2024`

**Modalités de travail:**

1.  Les TPs se feront individuellement sur Python.
2.  La remise des TP doit se faire sur Moodle.
3.  Un retard de remise de TP de $n$ journées va causer la perte de $20 n$ points.  


**Description des données:**

La description originale des données est sur le site : https://archive.ics.uci.edu/dataset/350/default+of+credit+card+clients

L’ensemble contient 3000 instances de données de clients et vise à étudier la prédiction du défaut de paiement. Chaque client est décrit sur 23 attributs numétique.  

**Implantation demandée**

On vous demande de tester la classification supervisée avec les algorithmes suivants :

*   KPPV (à 7 voisins)
*   Arbre de décision (profondeur maximale 10)
*   Classificateur de Bayes
*   SVM (version linéaire)
*   Réseau de neurones à deux couches cachées
* 	Foret aléatoire (T=100)


**Instructions:**


*   Utiliser 80 % des données pour l’entrainement et 20% pour la validation).

* Remettre votre devoir dans ce fichier Jupyter, avec une cellule pour chaque algorithme.

*   Afficher les métriques suivantes pour la validation de la classification : exactitute, précision, rappel, matrice de confusion.
Utiliser les fonctions : **accuracy_score, recall_score, precision_score, confusion_matrix** de  sklearn.metrics

*   Il est préférable d’équilibrer les classes Y=0 et Y=1 pour un meilleur entrainement.  Utiliser la fonction **imblearn.over_sampling.RandomOverSampler**

* Il est préférable de centrer et standardiser les données.
Utiliser la fonction **sklearn.preprocessing.StandardScaler**




In [11]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, recall_score, precision_score, confusion_matrix
from imblearn.over_sampling import RandomOverSampler as ROS # training data oversampling
from sklearn.preprocessing import StandardScaler

In [12]:
import pandas as pd
path = '/content/default_of_credit_card.xls'
data = pd.read_excel(path)
X, y = data.iloc[:,1:24].to_numpy(), data.iloc[:,24].to_numpy()
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype
---  ------                      --------------  -----
 0   ID                          30000 non-null  int64
 1   LIMIT_BAL                   30000 non-null  int64
 2   SEX                         30000 non-null  int64
 3   EDUCATION                   30000 non-null  int64
 4   MARRIAGE                    30000 non-null  int64
 5   AGE                         30000 non-null  int64
 6   PAY_0                       30000 non-null  int64
 7   PAY_2                       30000 non-null  int64
 8   PAY_3                       30000 non-null  int64
 9   PAY_4                       30000 non-null  int64
 10  PAY_5                       30000 non-null  int64
 11  PAY_6                       30000 non-null  int64
 12  BILL_AMT1                   30000 non-null  int64
 13  BILL_AMT2                   30000 non-null  int64
 14  BILL_A

In [13]:
# diviser les donnees
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# équilibrer les classes Y=0 et Y=1
oversampler = ROS(random_state=42)
X_train_resampled, y_train_resampled = oversampler.fit_resample(X_train, y_train)

#standardiser les donnees
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_resampled)
X_test_scaled = scaler.transform(X_test)


In [14]:

# algorithme 1 : KPPV (à 7 voisins)
kppv_classifier = KNeighborsClassifier(n_neighbors=7)
kppv_classifier.fit(X_train_scaled, y_train_resampled)

predictions_kppv = kppv_classifier.predict(X_test_scaled)

# calcul des métriques
accuracy_kppv = accuracy_score(y_test, predictions_kppv)
precision_kppv = precision_score(y_test, predictions_kppv)
recall_kppv = recall_score(y_test, predictions_kppv)
conf_matrix_kppv = confusion_matrix(y_test, predictions_kppv)

conf_matrix_kppv_df = pd.DataFrame(conf_matrix_kppv,index=['Actual True', 'Actual False'],columns=['Predicted True', 'Predicted False'])
print("\nMétriques pour KPPV (à 7 voisins):")
print(f"Exactitude : {accuracy_kppv}")
print(f"Précision : {precision_kppv}")
print(f"Rappel : {recall_kppv}")
print("Matrice de Confusion:")
print(conf_matrix_kppv_df)



Métriques pour KPPV (à 7 voisins):
Exactitude : 0.6663333333333333
Précision : 0.3524625267665953
Rappel : 0.6268088347296268
Matrice de Confusion:
              Predicted True  Predicted False
Actual True             3175             1512
Actual False             490              823


In [15]:

# algorithme 2 : Arbre de décision (profondeur 6)
dt_classifier = DecisionTreeClassifier(max_depth=6, random_state=42)
dt_classifier.fit(X_train_scaled, y_train_resampled)

predictions_dt = dt_classifier.predict(X_test_scaled)

# calcul des métriques
accuracy_dt = accuracy_score(y_test, predictions_dt)
precision_dt = precision_score(y_test, predictions_dt)
recall_dt = recall_score(y_test, predictions_dt)
conf_matrix_dt = confusion_matrix(y_test, predictions_dt)


conf_matrix_dt_df = pd.DataFrame(conf_matrix_dt,index=['Actual True', 'Actual False'],columns=['Predicted True', 'Predicted False'])
print("\nMétriques pour l'Arbre de décision (profondeur 6):")
print(f"Exactitude : {accuracy_dt}")
print(f"Précision : {precision_dt}")
print(f"Rappel : {recall_dt}")
print("Matrice de Confusion:")
print(conf_matrix_dt_df)




Métriques pour l'Arbre de décision (profondeur maximale 10):
Exactitude : 0.7441666666666666
Précision : 0.43874172185430466
Rappel : 0.6054836252856055
Matrice de Confusion:
              Predicted True  Predicted False
Actual True             3670             1017
Actual False             518              795


In [16]:
# algorithme 3 : Random Forest
rf_classifier = RandomForestClassifier(n_estimators=100, max_depth=6, random_state=42)
rf_classifier.fit(X_train_scaled, y_train_resampled)

predictions_rf = rf_classifier.predict(X_test_scaled)

# calcul des métriques
accuracy_rf = accuracy_score(y_test, predictions_rf)
precision_rf = precision_score(y_test, predictions_rf)
recall_rf = recall_score(y_test, predictions_rf)
conf_matrix_rf = confusion_matrix(y_test, predictions_rf)


conf_matrix_rf_df = pd.DataFrame(conf_matrix_rf, index=['Actual True', 'Actual False'], columns=['Predicted True', 'Predicted False'])
print("\nMétriques pour Random Forest:")
print(f"Exactitude : {accuracy_rf}")
print(f"Précision : {precision_rf}")
print(f"Rappel : {recall_rf}")
print("Matrice de Confusion:")
print(conf_matrix_rf_df)



Métriques pour Random Forest:
Exactitude : 0.7656666666666667
Précision : 0.47237076648841353
Rappel : 0.6054836252856055
Matrice de Confusion:
              Predicted True  Predicted False
Actual True             3799              888
Actual False             518              795


In [17]:
from sklearn.ensemble import AdaBoostClassifier

# algorithme 4 : AdaBoost
adaboost_classifier = AdaBoostClassifier(n_estimators=50, random_state=42)
adaboost_classifier.fit(X_train_scaled, y_train_resampled)

predictions_adaboost = adaboost_classifier.predict(X_test_scaled)

# calcul des métriques
accuracy_adaboost = accuracy_score(y_test, predictions_adaboost)
precision_adaboost = precision_score(y_test, predictions_adaboost)
recall_adaboost = recall_score(y_test, predictions_adaboost)
conf_matrix_adaboost = confusion_matrix(y_test, predictions_adaboost)

conf_matrix_adaboost_df = pd.DataFrame(
    conf_matrix_adaboost,
    index=['Actual True', 'Actual False'],
    columns=['Predicted True', 'Predicted False']
)

print("\nMétriques pour AdaBoost:")
print(f"Exactitude : {accuracy_adaboost}")
print(f"Précision : {precision_adaboost}")
print(f"Rappel : {recall_adaboost}")
print("Matrice de Confusion:")
print(conf_matrix_adaboost_df)



Métriques pour AdaBoost:
Exactitude : 0.755
Précision : 0.45577464788732397
Rappel : 0.6161462300076161
Matrice de Confusion:
              Predicted True  Predicted False
Actual True             3721              966
Actual False             504              809


In [18]:

# algorithme 5 : Naive Bayes (Gaussian)
nb_classifier = GaussianNB()
nb_classifier.fit(X_train_scaled, y_train_resampled)

predictions_nb = nb_classifier.predict(X_test_scaled)

# calcul des métriques
accuracy_nb = accuracy_score(y_test, predictions_nb)
precision_nb = precision_score(y_test, predictions_nb)
recall_nb = recall_score(y_test, predictions_nb)
conf_matrix_nb = confusion_matrix(y_test, predictions_nb)


conf_matrix_naive_bayes_df = pd.DataFrame(
    conf_matrix_nb,
    index=['Actual True', 'Actual False'],
    columns=['Predicted True', 'Predicted False']
)

print("\nMétriques pour Naive Bayes (Gaussian):")
print(f"Exactitude : {accuracy_nb}")
print(f"Précision : {precision_nb}")
print(f"Rappel : {recall_nb}")
print("Matrice de Confusion:")
print(conf_matrix_naive_bayes_df)



Métriques pour Naive Bayes (Gaussian):
Exactitude : 0.46016666666666667
Précision : 0.26917545541706617
Rappel : 0.8552932216298553
Matrice de Confusion:
[[1638 3049]
 [ 190 1123]]


In [None]:
# algorithme 6 : SVM linéaire
svm_classifier = SVC(kernel='linear', random_state=42)
svm_classifier.fit(X_train_scaled, y_train_resampled)

predictions_svm = svm_classifier.predict(X_test_scaled)

# calcul des métriques
accuracy_svm = accuracy_score(y_test, predictions_svm)
precision_svm = precision_score(y_test, predictions_svm)
recall_svm = recall_score(y_test, predictions_svm)
conf_matrix_svm = confusion_matrix(y_test, predictions_svm)
conf_matrix_svm_df = pd.DataFrame(
    conf_matrix_svm,
    index=['Actual True', 'Actual False'],
    columns=['Predicted True', 'Predicted False']
)

print("\nMétriques pour SVM (noyau linéaire):")
print(f"Exactitude : {accuracy_svm}")
print(f"Précision : {precision_svm}")
print(f"Rappel : {recall_svm}")
print("Matrice de Confusion:")
print(conf_matrix_svm_df)


In [None]:
# algorithme 7 : Réseau de neurones à deux couches cachées
#mlp_classifier = MLPClassifier(hidden_layer_sizes=(32, 1),learning_rate_init=0.001, max_iter=1000, random_state=42)

mlp_classifier = MLPClassifier(
    hidden_layer_sizes=(32, 2),  #
    activation='relu',  # fonction d'activation pour la premiere couche cachée
    learning_rate_init=0.001,
    max_iter=1000,
    random_state=42
)

# fonction d'activation pour la derniere couche
mlp_classifier.out_activation_ = 'logistic'

mlp_classifier.fit(X_train_scaled, y_train_resampled)

predictions_mlp = mlp_classifier.predict(X_test_scaled)

accuracy_mlp = accuracy_score(y_test, predictions_mlp)
precision_mlp = precision_score(y_test, predictions_mlp)
recall_mlp = recall_score(y_test, predictions_mlp)
conf_matrix_mlp = confusion_matrix(y_test, predictions_mlp)

conf_matrix_mlp_df = pd.DataFrame(
    conf_matrix_mlp,
    index=['Actual True', 'Actual False'],
    columns=['Predicted True', 'Predicted False']
)

print("\nMétriques pour le Réseau de neurones à deux couches cachées:")
print(f"Exactitude : {accuracy_mlp}")
print(f"Précision : {precision_mlp}")
print(f"Rappel : {recall_mlp}")
print("Matrice de Confusion:")
print(conf_matrix_mlp_df)
