# TP: Machine Learning

## TP2: Classification (4h) 

En apprentissage automatique, la classification est liée aux approches d’apprentissage supervisé
dans lesquelles l’algorithme s’adapte à partir d’un ensemble de données annotées. Cette phase d’ap-
prentissage est suivie d’une validation phase pour évaluer le modèle de classification à travers plu-
sieurs métriques. Une fois le modèle correctement validée, une phase de généralisation permet de
classer les nouvelles données. L’ensemble de données fourni a été produit par l’Organisation Mon-
diale de la Santé (OMS). Il a mutualisé l’évolution de 20 longs métrages depuis 15 ans et dans de
nombreux pays. L’un des objectifs de ce TP est de comprendre l’espace des caractéristiques et es-
sayer de prédire le développement des pays. 

**Objectifs :**

- Visualiser l’espace des caractéristiques.
- Discuter de la séparabilité des données dans l’espace des caractéristiques.
- Normaliser les ensembles de données.
- Former un K-NN, un arbre de décision, une forêt aléatoire et un SVM.
- Visualisez la frontiere de décision pour chaque méthode.
- Créer un ensemble de données de test.
- Calculer les scores AUC sur un ensemble de données d’évaluation.
- Ajuster les hyperparamètres.
- Visualiser la modification de la frontiere de décision pour chaque réglage.
- Discutez des limites des quatre implémentations des modèles.

Le notebook correspondant à ce TP est disponible sur Moodle. Répondez aux questions directement
sur ce notebook. Le notebook doit être remis avant la prochaine session. Le travail peut être fait en
binôme.

## 1 : Visualisation de l’espace des caractéristiques
Vous travaillerez sur le jeu de données de l’OMS en l’an 2000. Cette première étape consiste à choisir
deux caractéristiques pour effectuer une classification.

**À faire 1.1**

Exécutez les cellules suivantes :

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.colors
import numpy as np

df = pd.read_csv("Life_Expectancy_Data.csv")
df = df.dropna()
df.info()

df1 = df[(df.Year == 2000)]

ModuleNotFoundError: No module named 'pandas'

In [None]:
df.Status.unique()

In [None]:
df[(df.Status == "Developed")]

In [None]:
df_X = df1[['Total_expenditure', 'BMI']]
df_Status = df1[['Status']]

df_Y = df_Status.replace(['Developing', 'Developed'], [0, 1])

np1 = df_X.to_numpy()
plt.scatter(np1[:,0], np1[:,1], c=np.squeeze(df_Y.to_numpy()), cmap=matplotlib.colors.ListedColormap(['red', 'green']))
plt

**QUESTION 1**

Pourquoi le statut du label a-t-il été binarisé ?

Cet espace de caractéristiques est-il facilement séparable ? Justifiez votre réponse.

**À coder 1.2**

Tracer les dépenses totales (Expenditure) par rapport à la scolarité (Schooling).

In [None]:
plt.scatter(df1['Schooling'], df1['Total_expenditure'],  c=np.squeeze(df_Y.to_numpy()), cmap=matplotlib.colors.ListedColormap(['red', 'green']))

**À coder 1.3**

Tracez l’espérance de vie (Life Expectancy) à la scolarité (Schooling).

In [None]:
plt.scatter(df1['Schooling'], df1['Life_expectancy'],  c=np.squeeze(df_Y.to_numpy()), cmap=matplotlib.colors.ListedColormap(['red', 'green']))

**QUESTION 2**

Quelles seraient les meilleures caractéristiques à utiliser ? Justifiez votre réponse.

La meuilleur caracteristique a utiliser est l'espérance de vie car les points sont plus separable que l'expension.

Utilisez ces caractéristiques en tant que df_X.

##  2: Normalisation des ensembles de données

Pour classer, les valeurs de l’ensemble de données d’apprentissage doivent être normalisées (c’est-
à-dire entre 0 et 1). Cette normalisation peut être effectuée de différentes manières.

**À coder 2.1**

Normalisez df_X. Cette normalisation doit parfaitement encadrer les données (c’est-à-dire que les
valeurs minimales et maximales de chaque caractéristique doivent être respectivement 0 et 1).

In [None]:
from sklearn.preprocessing import MinMaxScaler

df_X = df1[['Schooling', 'Life_expectancy']]

np_Y = df_Y.to_numpy().squeeze()

print(np_Y.shape)

scaler = MinMaxScaler()

np_X_norm = scaler.fit_transform(df_X.to_numpy())

# df_X_norm = pd.DataFrame(np_X_norm, columns=['Schooling', 'Life_expectancy'])

print(np_X_norm)

plt.scatter(np_X_norm[:,0], np_X_norm[:,1], c=np.squeeze(np_Y), cmap=matplotlib.colors.ListedColormap(['red', 'green']))

**À faire 2.2**

Chacune des cellules suivantes effectue une étape d’apprentissage et un calcul des scores AUC.
Pour chaque classificateur, plusieurs paramètres ont été choisis.

In [None]:
from sklearn import metrics
from sklearn.neighbors import KNeighborsClassifier

clf1 = KNeighborsClassifier(n_neighbors=5)
clf1.fit(np_X_norm, np_Y)

np_Y_pred = clf1.predict_proba(np_X_norm)
print(np_Y_pred.shape)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()

In [None]:
from sklearn.svm import SVC

clf2 = SVC(C=2.0, kernel='linear', probability=True)
clf2.fit(np_X_norm, np_Y)

np_Y_pred = clf2.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()

In [None]:
from sklearn.tree import DecisionTreeClassifier

clf3 = DecisionTreeClassifier(max_depth=3)
clf3.fit(np_X_norm, np_Y)

np_Y_pred = clf3.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()

In [None]:
from sklearn.ensemble import RandomForestClassifier

clf4 = RandomForestClassifier(n_estimators=100, max_depth=3)
clf4.fit(np_X_norm, np_Y)

np_Y_pred = clf4.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()

**QUESTION 3**

Identifiez chaque classificateur et spécifiez les paramètres utilisés.

Classifier 1 : KNN, se basant sur 5 voisins
Classifier 2 : SVM, se basant sur un noyau linéaire
Classifier 3: Decision Tree, se basant sur une profondeur de 3 neouds
Classifier 4 : Random Forest, se basant sur 100 arbres d'une profondeur de 3 noeuds



Décrire et expliquer les résultats obtenus pour chaque courbe ROC. Quelle est la relation entre l’AUC
et la courbe ROC ? D’après la courbe ROC, quel modèle est le meilleur si l’on veut maximiser la sen-
sibilité ? Et si on veut maximiser la spécificité ? Comparez ces résultats avec l’AUC.

L'AUC est est l'aire sous la courbe du ROC, plus il est proche de 1, plus le classifieur est performant.

Pour le problème de classification binaire, la limite de décision est une hypersurface qui divise l’es-
pace des fonctionnalités entre deux ensembles (pour chaque classe). Ensuite, cette surface est
composée de tous les points d’équiprobabilité dans l’espace des caractéristiques. 

**À faire 2.3**

Tracez la limite de décision avec df_X pour chaque classificateur.

In [None]:
from itertools import product

x_min, x_max = np_X_norm[:, 0].min() - 0.1, np_X_norm[:, 0].max() + 0.1
y_min, y_max = np_X_norm[:, 1].min() - 0.1, np_X_norm[:, 1].max() + 0.1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01),
                     np.arange(y_min, y_max, 0.01))



f, axarr = plt.subplots(2, 2, sharex='col', sharey='row', figsize=(10, 8))

for idx, clf, tt in zip(product([0, 1], [0, 1]),
                        [clf1, clf2, clf3, clf4],
                        ['KNN', 'Linear SVM', 'Decision Tree', 'Random Forest']):

    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)


    axarr[idx[0], idx[1]].contourf(xx, yy, Z, alpha=0.4)
    axarr[idx[0], idx[1]].scatter(np_X_norm[:, 0], np_X_norm[:, 1], c=np_Y,
                                  s=20, edgecolor='k')
    axarr[idx[0], idx[1]].set_title(tt)

plt

**QUESTION 4**

Quel est le principal problème de l’étape de classification avec cet ensemble de données ?
À votre avis, quel classificateur est le mieux adapté à cette tâche de classification ? Justifiez votre
réponse.

Les donnees sont melangées et il n'y a pas de frontiere de decision claire.

L'arbre de decision et la foret aleatoire semble etre les plus adaptés car ils ont un meuilleur score AUC et .

## 3: Correction des biais et réglages des modèles

Dans cette partie, vous vous concentrerez sur l’amélioration des scores AUC des quatre méthodes.

Tout d’abord, vous peserez les classes pour équilibrer la prédiction du classificateur. Ensuite, vous
ajusterez divers hyperparamètres.

**À coder 3.1**

Calculez le pourcentage de classe ”Developed” dans df_Y.

In [None]:
print("Le pourcentage de 'Developed' dans df_Y est de : {} %".format(np_Y.sum()/np_Y.shape[0]*100))

Les algorithmes SVM, Decision Tree et Random Forest ont un paramètre nommé : class_weight.
Voici un extrait de la documentation sklearn :

class_weight dict, list of dict or “balanced”, default=None

Poids associés aux classes sous la forme class_label:weight. Si aucun, toutes les classes sont cen-
sées avoir un poids de un. Pour les problèmes multi-sorties, une liste de dicts peut être fournie dans
le même ordre que les colonnes de y.

Le mode « équilibré » (“balanced”) utilise les valeurs de y pour ajuster automatiquement les poids
inversement proportionnels aux fréquences de classe dans les données d’entrée.


**QUESTION 5**

Quel serait le poids pour chaque classe ?

Idealement, le poids pour Developed serait de 0.21 et le poids pour Developing serait de 0.79.

**À coder 3.2**

Équilibrez le classificateur SVM, Decision Tree et Random Forest et tracez les limites de décision.

In [None]:
clf2 = SVC(C=2.0, kernel='linear', probability=True, class_weight='balanced')
clf2.fit(np_X_norm, np_Y)

print(clf2.class_weight_)

np_Y_pred = clf2.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()



clf3 = DecisionTreeClassifier(max_depth=3, class_weight='balanced')
clf3.fit(np_X_norm, np_Y)


np_Y_pred = clf3.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()



clf4 = RandomForestClassifier(n_estimators=100, max_depth=3)
clf4.fit(np_X_norm, np_Y)


np_Y_pred = clf4.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()

**À coder 3.3**

Calculez le nouveau score AUC

In [None]:
x_min, x_max = np_X_norm[:, 0].min() - 0.1, np_X_norm[:, 0].max() + 0.1
y_min, y_max = np_X_norm[:, 1].min() - 0.1, np_X_norm[:, 1].max() + 0.1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01),
                     np.arange(y_min, y_max, 0.01))

f, axarr = plt.subplots(1, 3, sharex='col', sharey='row', figsize=(14, 6))

for idx, clf, tt in zip(product([0, 1, 2]),
                        [clf2, clf3, clf4],
                        [ 'Linear SVM', 'Decision Tree', 'Random Forest']):

    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    axarr[idx[0]].contourf(xx, yy, Z, alpha=0.4)
    axarr[idx[0]].scatter(np_X_norm[:, 0], np_X_norm[:, 1], c=np_Y,
                                  s=20, edgecolor='k')
    axarr[idx[0]].set_title(tt)

plt

**QUESTION 6**

Les scores de l’AUC ont-ils augmenté ? Comment l’interprètez-vous ?

Selon vous, l’équilibre des classes a-t-il amélioré le classement ?


Concentrons-nous sur le classificateur SVM.

Sklearn autorise plusieurs noyaux.

Voici un extrait de la documentation :

**kernel** ‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’, default=’rbf’

Spécifie le type de noyau à utiliser dans l’algorithme. Il doit s’agir de «linear», «poly», «rbf», «sigmoïd»,
« precomputed » ou appelable. Si aucun n’est donné, «rbf» sera utilisé. Si un appelable est donné, il
est utilisé pour précalculer la matrice du noyau à partir des matrices de données ; cette matrice doit
être un tableau de formes (n_samples, n_samples).

**À coder 3.4**

Testez les noyaux gaussiens (rbf) et polynomial avec un équilibrage des classes et affichez la fron-
tière de décision.

In [None]:
clf2rbf = SVC(C=2.0, kernel='rbf', probability=True, class_weight='balanced')
clf2rbf.fit(np_X_norm, np_Y)

np_Y_pred = clf2rbf.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()



clf2poly = SVC(C=2.0, kernel='poly', probability=True, class_weight='balanced')
clf2poly.fit(np_X_norm, np_Y)

np_Y_pred = clf2poly.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()

In [None]:
x_min, x_max = np_X_norm[:, 0].min() - 0.1, np_X_norm[:, 0].max() + 0.1
y_min, y_max = np_X_norm[:, 1].min() - 0.1, np_X_norm[:, 1].max() + 0.1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01),
                     np.arange(y_min, y_max, 0.01))

f, axarr = plt.subplots(1, 3, sharex='col', sharey='row', figsize=(14, 6))

for idx, clf, tt in zip(product([0, 1, 2]),
                        [clf2, clf2rbf, clf2poly],
                        [ 'Linear SVM', 'rbf SVM', 'poly SVM']):

    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    axarr[idx[0]].contourf(xx, yy, Z, alpha=0.4)
    axarr[idx[0]].scatter(np_X_norm[:, 0], np_X_norm[:, 1], c=np_Y,
                                  s=20, edgecolor='k')
    axarr[idx[0]].set_title(tt)

plt

**QUESTION 7**

Selon vous, quel est le meilleur noyau pour cet ensemble de données ? Justifiez votre réponse.

Le noyeau ne change pas grand chose, le score AUC reste le meme. Pour la frontiere de decision, on remarque que les nouyeaux gaussien et polynomiale ne change pas grand choses.On en conclu que le noyeau lineaire suffit pour cet ensemble de donnees.

**BONUS**

Ajustez les paramètres des algorithmes d’arbre de décision et de forêt aléatoire et tracez les fron-
tières de décision.

In [None]:
clf3up = DecisionTreeClassifier(max_depth=5, class_weight='balanced')
clf3up.fit(np_X_norm, np_Y)


np_Y_pred = clf3up.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()



clf4up = RandomForestClassifier(n_estimators=100, max_depth=5)
clf4up.fit(np_X_norm, np_Y)


np_Y_pred = clf4up.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()

In [None]:
x_min, x_max = np_X_norm[:, 0].min() - 0.1, np_X_norm[:, 0].max() + 0.1
y_min, y_max = np_X_norm[:, 1].min() - 0.1, np_X_norm[:, 1].max() + 0.1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01),
                     np.arange(y_min, y_max, 0.01))

f, axarr = plt.subplots(1, 2, sharex='col', sharey='row', figsize=(14, 6))




for idx, clf, tt in zip(product([0, 1]),
                        [clf3up, clf4up],
                        [ 'Decision tree 5 nods', 'Ramdom Forest 5 nods']):

    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    axarr[idx[0]].contourf(xx, yy, Z, alpha=0.4)
    axarr[idx[0]].scatter(np_X_norm[:, 0], np_X_norm[:, 1], c=np_Y,
                                  s=20, edgecolor='k')
    axarr[idx[0]].set_title(tt)

En augmentent le nombre de noeuds, on augmente le score AUC jusqu'a 1. Cependant, la frontiere de decision semble assez bizarre. Il faudrait augmenter le nombre de données avant d'augmenter les performences du classifieur. 

This part is to test the generalization of your models.

You trained several classifiers on two features extracted from the year 2000.

**À coder 4.1**

Appliquez vos modèles sur l’année 2012.

In [None]:
df2 = df[(df.Year == 2012)]


df_X = df2[['Schooling', 'Life_expectancy']]

df_Y = df2['Status'].replace(['Developing', 'Developed'], [0, 1])

np_Y = df_Y.to_numpy().squeeze()



print(np_Y.shape)

scaler = MinMaxScaler()

np_X_norm = scaler.fit_transform(df_X.to_numpy())

# df_X_norm = pd.DataFrame(np_X_norm, columns=['Schooling', 'Life_expectancy'])

print(np_X_norm)

plt.scatter(np_X_norm[:,0], np_X_norm[:,1], c=np.squeeze(np_Y), cmap=matplotlib.colors.ListedColormap(['red', 'green']))

In [None]:

np_Y_pred = clf2.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()



np_Y_pred = clf3.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()


np_Y_pred = clf4.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()

In [None]:
x_min, x_max = np_X_norm[:, 0].min() - 0.1, np_X_norm[:, 0].max() + 0.1
y_min, y_max = np_X_norm[:, 1].min() - 0.1, np_X_norm[:, 1].max() + 0.1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01),
                     np.arange(y_min, y_max, 0.01))

f, axarr = plt.subplots(1, 3, sharex='col', sharey='row', figsize=(14, 6))

for idx, clf, tt in zip(product([0, 1, 2]),
                        [clf2, clf3, clf4],
                        [ 'Linear SVM', 'Decision Tree', 'Random Forest']):

    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    axarr[idx[0]].contourf(xx, yy, Z, alpha=0.4)
    axarr[idx[0]].scatter(np_X_norm[:, 0], np_X_norm[:, 1], c=np_Y,
                                  s=20, edgecolor='k')
    axarr[idx[0]].set_title(tt)

plt

In [None]:


np_Y_pred = clf2.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()


np_Y_pred = clf3.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()



np_Y_pred = clf4.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()

In [None]:
x_min, x_max = np_X_norm[:, 0].min() - 0.1, np_X_norm[:, 0].max() + 0.1
y_min, y_max = np_X_norm[:, 1].min() - 0.1, np_X_norm[:, 1].max() + 0.1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01),
                     np.arange(y_min, y_max, 0.01))

f, axarr = plt.subplots(1, 3, sharex='col', sharey='row', figsize=(14, 6))

for idx, clf, tt in zip(product([0, 1, 2]),
                        [clf2, clf2rbf, clf2poly],
                        [ 'Linear SVM', 'rbf SVM', 'poly SVM']):

    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    axarr[idx[0]].contourf(xx, yy, Z, alpha=0.4)
    axarr[idx[0]].scatter(np_X_norm[:, 0], np_X_norm[:, 1], c=np_Y,
                                  s=20, edgecolor='k')
    axarr[idx[0]].set_title(tt)

plt

In [None]:

np_Y_pred = clf3up.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()


np_Y_pred = clf4up.predict_proba(np_X_norm)

fpr, tpr, thresholds = metrics.roc_curve(np_Y, np_Y_pred[:,1])
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                                   estimator_name='KNN')
display.plot()
plt.show()

**QUESTION 8**

Vos modèles se généralisent-ils encore bien en 2012 ?

In [None]:

pip install pandas