Dans cet atelier 2 pratique, vous allez expérimenter des algorithmes de traitement de données pour répondre à
différents problèmes liés à l’apprentissage supervisé avec le langage Python

In [11]:
import numpy as np
np.set_printoptions(threshold=10000,suppress=True)
import pandas as pd
import warnings
import matplotlib.pyplot as plt
warnings.filterwarnings('ignore')
from sklearn.model_selection import train_test_split

In [8]:

# Étape 1 : Charger les données
data = pd.read_csv("credit_scoring.csv", sep=';')

print(data.columns)



Index(['Seniority', 'Home', 'Time', 'Age', 'Marital', 'Records', 'Job',
       'Expenses', 'Income', 'Assets', 'Debt', 'Amount', 'Price', 'Status'],
      dtype='object')


In [9]:
# Étape 2 : Transformation en numpy array et séparation des variables
X = data.drop(columns=['Status']).values  # Variables caractéristiques
y = data['Status'].values  # Variable cible

In [12]:


# Étape 3 : Analyse des données
n_samples, n_features = X.shape  # Taille des données
positive_percentage = (y.sum() / len(y)) * 100  # Pourcentage positifs
negative_percentage = 100 - positive_percentage  # Pourcentage négatifs

print(f"Taille de l'échantillon: {n_samples} exemples, {n_features} caractéristiques")
print(f"Pourcentage d'exemples positifs: {positive_percentage:.2f}%")
print(f"Pourcentage d'exemples négatifs: {negative_percentage:.2f}%")

# Étape 4 : Division des données en apprentissage et test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=1)

print(f"Taille de l'échantillon d'apprentissage: {X_train.shape[0]} exemples")
print(f"Taille de l'échantillon de test: {X_test.shape[0]} exemples")


Taille de l'échantillon: 4375 exemples, 13 caractéristiques
Pourcentage d'exemples positifs: 72.21%
Pourcentage d'exemples négatifs: 27.79%
Taille de l'échantillon d'apprentissage: 2187 exemples
Taille de l'échantillon de test: 2188 exemples


**Apprentissage et évaluation de modèles :** Utiliser ensuite sur le jeu de données les algorithmes
d’apprentissage supervisé suivants :
• Un arbre **CART** (`random_state=1`)
• **k-plus-proches-voisins** avec `k=5`
• **MultilayerPerceptron** à deux couches de tailles respectives 40 et 20 et `random_state=1`


In [13]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

In [14]:

# Modèle 1 : Arbre CART
cart_model = DecisionTreeClassifier(random_state=1)
cart_model.fit(X_train, y_train)  # Entraînement
cart_predictions = cart_model.predict(X_test)  # Prédiction
cart_accuracy = accuracy_score(y_test, cart_predictions)  # Évaluation

print(f"Précision de l'arbre CART: {cart_accuracy:.2f}")

Précision de l'arbre CART: 0.73


In [15]:
# Modèle 2 : k-plus-proches-voisins (k=5)
knn_model = KNeighborsClassifier(n_neighbors=5)
knn_model.fit(X_train, y_train)  # Entraînement
knn_predictions = knn_model.predict(X_test)  # Prédiction
knn_accuracy = accuracy_score(y_test, knn_predictions)  # Évaluation

print(f"Précision du k-plus-proches-voisins: {knn_accuracy:.2f}")


Précision du k-plus-proches-voisins: 0.72


In [17]:


# Modèle 3 : Multilayer Perceptron
mlp_model = MLPClassifier(hidden_layer_sizes=(40, 20), random_state=1, max_iter=1000)
mlp_model.fit(X_train, y_train)  # Entraînement
mlp_predictions = mlp_model.predict(X_test)  # Prédiction
mlp_accuracy = accuracy_score(y_test, mlp_predictions)  # Évaluation

print(f"Précision du Multilayer Perceptron: {mlp_accuracy:.2f}")


Précision du Multilayer Perceptron: 0.70


In [19]:
# Comparer les modèles

from sklearn.metrics import precision_score, recall_score

# Initialisation des listes pour stocker les résultats
models = ["CART", "KNN", "MLP"]
accuracies = []
precisions = []
recalls = []

# Modèle 1 : Arbre CART
cart_accuracy = accuracy_score(y_test, cart_predictions)
cart_precision = precision_score(y_test, cart_predictions)
cart_recall = recall_score(y_test, cart_predictions)

accuracies.append(cart_accuracy)
precisions.append(cart_precision)
recalls.append(cart_recall)

# Modèle 2 : k-plus-proches-voisins
knn_accuracy = accuracy_score(y_test, knn_predictions)
knn_precision = precision_score(y_test, knn_predictions)
knn_recall = recall_score(y_test, knn_predictions)

accuracies.append(knn_accuracy)
precisions.append(knn_precision)
recalls.append(knn_recall)

# Modèle 3 : Multilayer Perceptron
mlp_accuracy = accuracy_score(y_test, mlp_predictions)
mlp_precision = precision_score(y_test, mlp_predictions)
mlp_recall = recall_score(y_test, mlp_predictions)

accuracies.append(mlp_accuracy)
precisions.append(mlp_precision)
recalls.append(mlp_recall)

# Affichage des résultats
print(f"{'Modèle':<10} {'Accuracy':<10} {'Précision':<10} {'Rappel':<10}")
for model, acc, prec, rec in zip(models, accuracies, precisions, recalls):
    print(f"{model:<10} {acc:<10.2f} {prec:<10.2f} {rec:<10.2f}")


Modèle     Accuracy   Précision  Rappel    
CART       0.73       0.82       0.80      
KNN        0.72       0.77       0.88      
MLP        0.70       0.80       0.78      


Utilisation le module **StandardScaler** de `Scikit-learn` pour normaliser les données 

In [20]:
from sklearn.preprocessing import StandardScaler

# Normalisation des données
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)  # Ajuste sur l'ensemble d'apprentissage et transforme
X_test_scaled = scaler.transform(X_test)        # Transforme uniquement l'ensemble de test


In [21]:
# Modèle 1 : Arbre CART (pas affecté par la normalisation)
cart_model.fit(X_train_scaled, y_train)
cart_predictions_scaled = cart_model.predict(X_test_scaled)
cart_accuracy_scaled = accuracy_score(y_test, cart_predictions_scaled)

In [22]:

# Modèle 2 : k-plus-proches-voisins (sensible à la normalisation)
knn_model.fit(X_train_scaled, y_train)
knn_predictions_scaled = knn_model.predict(X_test_scaled)
knn_accuracy_scaled = accuracy_score(y_test, knn_predictions_scaled)

In [23]:

# Modèle 3 : Multilayer Perceptron (sensible à la normalisation)
mlp_model.fit(X_train_scaled, y_train)
mlp_predictions_scaled = mlp_model.predict(X_test_scaled)
mlp_accuracy_scaled = accuracy_score(y_test, mlp_predictions_scaled)


In [24]:

# Résultats des métriques
cart_precision_scaled = precision_score(y_test, cart_predictions_scaled)
cart_recall_scaled = recall_score(y_test, cart_predictions_scaled)

knn_precision_scaled = precision_score(y_test, knn_predictions_scaled)
knn_recall_scaled = recall_score(y_test, knn_predictions_scaled)

mlp_precision_scaled = precision_score(y_test, mlp_predictions_scaled)
mlp_recall_scaled = recall_score(y_test, mlp_predictions_scaled)

print(f"{'Modèle':<10} {'Accuracy':<10} {'Précision':<10} {'Rappel':<10}")
print(f"CART      {cart_accuracy_scaled:.2f}      {cart_precision_scaled:.2f}      {cart_recall_scaled:.2f}")
print(f"KNN       {knn_accuracy_scaled:.2f}      {knn_precision_scaled:.2f}      {knn_recall_scaled:.2f}")
print(f"MLP       {mlp_accuracy_scaled:.2f}      {mlp_precision_scaled:.2f}      {mlp_recall_scaled:.2f}")


Modèle     Accuracy   Précision  Rappel    
CART      0.73      0.82      0.80
KNN       0.75      0.81      0.86
MLP       0.74      0.83      0.82



# Interprétation des résultats

**Arbre CART :**

Peu affecté par la normalisation, car il ne dépend pas des distances entre les points mais des seuils des variables.

**k-plus-proches-voisins (KNN) :**

Amélioration significative attendue, car cet algorithme utilise une mesure de distance (souvent Euclidienne), qui est très sensible à l'échelle des variables. Les variables normalisées assurent un poids équitable à chaque caractéristique.

**Multilayer Perceptron (MLP) :**

Amélioration également probable, car les réseaux de neurones convergent plus rapidement et efficacement avec des données normalisées, réduisant les biais dus aux échelles.

## 4 Création de nouvelles variables caractéristiques par combinaisons linéaires des variables initiales

In [25]:
from sklearn.decomposition import PCA

# Appliquer une ACP sur les données normalisées
pca = PCA(n_components=3)
X_train_pca = pca.fit_transform(X_train_scaled)  # Ajuste et transforme les données d'apprentissage
X_test_pca = pca.transform(X_test_scaled)       # Transforme les données de test

# Concaténation des composantes principales avec les données normalisées
X_train_augmented = np.hstack((X_train_scaled, X_train_pca))
X_test_augmented = np.hstack((X_test_scaled, X_test_pca))

# Afficher les dimensions avant et après concaténation
print(f"Taille des données normalisées : {X_train_scaled.shape}")
print(f"Taille des données augmentées : {X_train_augmented.shape}")


Taille des données normalisées : (2187, 13)
Taille des données augmentées : (2187, 16)


In [26]:
# Modèle 1 : Arbre CART
cart_model.fit(X_train_augmented, y_train)
cart_predictions_augmented = cart_model.predict(X_test_augmented)
cart_accuracy_augmented = accuracy_score(y_test, cart_predictions_augmented)

# Modèle 2 : k-plus-proches-voisins
knn_model.fit(X_train_augmented, y_train)
knn_predictions_augmented = knn_model.predict(X_test_augmented)
knn_accuracy_augmented = accuracy_score(y_test, knn_predictions_augmented)

# Modèle 3 : Multilayer Perceptron
mlp_model.fit(X_train_augmented, y_train)
mlp_predictions_augmented = mlp_model.predict(X_test_augmented)
mlp_accuracy_augmented = accuracy_score(y_test, mlp_predictions_augmented)

# Calcul des métriques supplémentaires
from sklearn.metrics import precision_score, recall_score

cart_precision_augmented = precision_score(y_test, cart_predictions_augmented)
cart_recall_augmented = recall_score(y_test, cart_predictions_augmented)

knn_precision_augmented = precision_score(y_test, knn_predictions_augmented)
knn_recall_augmented = recall_score(y_test, knn_predictions_augmented)

mlp_precision_augmented = precision_score(y_test, mlp_predictions_augmented)
mlp_recall_augmented = recall_score(y_test, mlp_predictions_augmented)

# Affichage des résultats
print(f"{'Modèle':<10} {'Accuracy':<10} {'Précision':<10} {'Rappel':<10}")
print(f"CART      {cart_accuracy_augmented:.2f}      {cart_precision_augmented:.2f}      {cart_recall_augmented:.2f}")
print(f"KNN       {knn_accuracy_augmented:.2f}      {knn_precision_augmented:.2f}      {knn_recall_augmented:.2f}")
print(f"MLP       {mlp_accuracy_augmented:.2f}      {mlp_precision_augmented:.2f}      {mlp_recall_augmented:.2f}")


Modèle     Accuracy   Précision  Rappel    
CART      0.73      0.82      0.79
KNN       0.76      0.81      0.87
MLP       0.75      0.82      0.84
