# TD/TP 1 IA : Machine Learning

Introduction

I. Régression
1. Données et traitement
2. Régression linéaire
2.1 Régression linéaire 1d
2.2 Régression linéaire multi variable
3. Régression polynomiale


II. Classification
1. Données et traitement
2. Classifier SGD
3. Arbres de décision
4. Forêts aléatoires (Random Forests)
5. Evaluation : métriques



# Introduction


L'objectif de ce TD est de comprendre la différence entre Régression et Classification au travers de divers exemples. Dans ce TD, nous allons apprendre à importer, prétraiter et manipuler les données utilisées pour l'entrainement des modèles d'IA.
On va voir les bonnes pratiques à effectuer pour l'entrainement des algos, la façon dont les données doivent être découpées et quelques exemples différents d'algos. Enfin, on abordera la façon d'évaluer ces modèles au moyen de métriques.


# I. Régression
## 1. Données et traitement


Nous allons importer un jeu de données stocké sous la forme d'un fichier CSV (Comma-separated values). Ce dataset a été généré par l'IA, c'est donc un ensemble de données synthétiques. Ces données représentent un groupe d'étudiants se caractérisant par un ID unique, le nombre d'heures d'études, leur taux de présence aux cours, une note à un projet, et une note à un examen final.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
# Nom du dataset, doit être dans le même doossier que le Notebook du TD
file_path = 'datasets/student_performance.csv'

# Lecture du fichier csv et affectation dans un pandas dataframe
df = pd.read_csv(file_path)

# Affichage des premières lignes du jeu de données pour visualiser sa structure
df.head()

Une fois notre jeu de données importé dans un dataframe, nous avons visualisé quelques échantillons avec la fonction head(). On peut aussi visualiser ces données sous la forme d'un plot. Ici, on affiche le nombre d'heures d'études en fonction de la note à l'éxamen en ordonnée

In [None]:
plt.figure(figsize=(10, 6))
plt.scatter(df['StudyHours'], df['ExamScores'], alpha=0.5)
plt.title("Relation entre les heures d'étude et les scores d'examen")
plt.xlabel("Heures d'étude")
plt.ylabel("Scores d'examen")
plt.grid(True)
plt.show()

# Question : Que remarquez vous sur le plot ci dessus ? Peut-on, à l'aide d'une régression, prédire la note obtenue à l'examen à partir du nombre d'heures d'étude d'un étudiant ?
Réponse :  Il n'y a pas de corrélation directe entre le nombre d'heures d'étude et la note
obtenue à l'éxamen, il est donc inutile ici d'entrainer un algo d'IA. Il est crucial d'analyser les
données avant de se lancer dans la construction d'un algo d'IA.

# Exercice 1 : Affichez un plot du taux de présence en fonction de la note à l'examen

In [None]:
# à compléter

plt.figure(figsize=(10, 6))
plt.scatter(df['AttendanceRate'], df['ExamScores'], alpha=0.5)
plt.title("Relation entre les présences et les scores d'examen")
plt.xlabel("taux de présence")
plt.ylabel("Scores d'examen")

plt.grid(True)
plt.show()

# Question : Même question
Réponse : On peut un peu ici imaginer en plissant les yeux une relation plus claire que la précédente mais ça reste très mauvais.

Prenons maintenant un meilleur jeu de données :

In [None]:
file_path_c = 'datasets/student_performance_correlated.csv'

# Lecture du fichier csv et affectation dans un pandas dataframe
dfc = pd.read_csv(file_path_c)

# Affichage des première ligne du jeu de données pour visualiser sa structure
dfc.head()

In [None]:
plt.figure(figsize=(10, 6))
plt.scatter(dfc['StudyHours'], dfc['ExamScores'], alpha=0.5)
plt.title("Relation entre les heures d'étude et les scores d'examen")
plt.xlabel("Heures d'étude")
plt.ylabel("Scores d'examen")
plt.grid(True)
plt.show()

# Question : Que remarquez vous ici ? Voyez vous une correlation entre le nombre d'heures d'études et les notes à l'examen ? estimez la droite correspondante

# Exercice 2 : faites la même chose pour le taux de présence et la note à l'examen

In [None]:
plt.figure(figsize=(10, 6))
plt.scatter(dfc['AttendanceRate'], dfc['ExamScores'], alpha=0.5)
plt.title("Relation entre les heures d'étude et les scores d'examen")
plt.xlabel("Taux de présence")
plt.ylabel("Scores d'examen")
plt.grid(True)
plt.show()

Conclusion :

Les données doivent être analysées avant utilisation, parfois prétraitées (partie NN).

## Préparation des données

In [None]:
# Import des bibliothèques utiles
import matplotlib.pyplot as plt
import numpy as np
import sklearn

à partir du jeu de données précédent (student_performance_correlated), nous allons réaliser une régression linéaire pour pouvoir prédire la note d'un étudiant en fonction du nombre d'heures étudiés

In [None]:

# Notre X sera la variable qu'on possède et qui servira à prédire y, ici on a le nombre d'heures
X = dfc['StudyHours']
# y correspond à la note de l'examen, ici donnée par la dataset mais qui sera prédite par notre régresseur linéaire sur des nouvelles données
y = dfc['ExamScores']



print(X)
print(y)


Visualisation des données

In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(X, y, s=50)
plt.xlabel("Heures d'étude : StudyHours (X)")
plt.ylabel("Scores d'examen : ExamScores (y)")
plt.show()

Lorsqu'on utilise les méthodes de Machine Learning, on sépare les données pour l'entrainement et une partie pour les tests. Gnénéralement on consacre entre 70 et 80% des données pour l'apprentissage et entre 30 et 20% pour les tests. La methode train_test_split permet ce découpage. La variable `test_size` permet de spécifier le pourcentage du jeu de données qui sera dans le jeu de test. On choisira par exemple `test_size` égal à 0,30. On représentera de couleurs différentes les données de test et les données d'entrainement.

In [None]:
from sklearn.model_selection import train_test_split

# Découpage des données en 2 : apprentissage et test.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# Visualisation du jeu de données
plt.figure(figsize=(8, 6))
plt.scatter(X_train, y_train, s=50, edgecolors='blue', label="Exemples d'entraînement")
plt.scatter(X_test, y_test, c='none', s=50, edgecolors='red', label="Exemples d'évaluation")
plt.legend()
plt.xlabel("Heures d'étude : StudyHours (X)")
plt.ylabel("Scores d'examen : ExamScores (y)")
plt.show()

On peut voir la séparation entre données d'entrainement et données de test, visualisons cela avec un tableau :

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

# Créer un DataFrame pour afficher les divisions avec des couleurs
train_data = pd.DataFrame(X_train, columns=['StudyHours'])
train_data['ExamScores'] = y_train
#train_data['Student'] = train_data.index
train_data['Set'] = 'Train'

test_data = pd.DataFrame(X_test, columns=['StudyHours'])
test_data['ExamScores'] = y_test
#test_data['Student'] = test_data.index
test_data['Set'] = 'Test'

# Combiner les données d'entraînement et de test pour la visualisation
combined_data = pd.concat([train_data, test_data])

# Ajouter un titre à la première colonne
combined_data.index.name = 'Student'

# Afficher le tableau avec des couleurs pour X et y et le numéro de l'étudiant en bleu pour train et rouge pour test
def highlight_columns(x):
    df1 = pd.DataFrame('', index=x.index, columns=x.columns)
    df1.loc[:, ['StudyHours']] = 'background-color: yellow'
    df1.loc[:, ['ExamScores']] = 'background-color: lightblue'
    df1.loc[x['Set'] == 'Train', ['Set']] = 'color: blue'
    df1.loc[x['Set'] == 'Test', ['Set']] = 'color: red'
    return df1

combined_data.style.apply(highlight_columns, axis=None)

## 2. Régression linéaire
### 2.1 Régression linéaire 1d

Réalisons une régréssion linéaire sur une seule variable (donc à une dimension). Cela consiste à tracer une droite (et donc déterminer les coéfficients associés).

Quelle que soit la méthode choisie, les étapes seront les mêmes :
*   `fit()` : permet l'entrainement avec la méthode choisie
*   `predict()` ou `transform()` : permet d'appliquer le modèle entrainé à de nouvelles données
* `score()` permet d'évaluer le modèle sur un jeu de tests
Nous allons appliquer une régression linéaire sur nos données d'entrainement

Nous allons utiliser un méthode de regression linéaire. Il est donc necessaire d'importer les modèles linéaire (`linear_model`) de sklearn et d'utiliser la méthode `LinearRegression` de regression linéaire

In [None]:
# on commence par réimporter nos données

# ATTENTION : X doit être sous cette forme, car habituellement il comporter plusieurs "features/colonnes/caractéristiques"
X = dfc[['StudyHours']]
y = dfc['ExamScores']

# Découpage des données en 2 : apprentissage et test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)


In [None]:
# importation du linear_model de sklearn
from sklearn import linear_model

# définition de notre régresseur linéaire que l'on appelera reg
reg = linear_model.LinearRegression()

# entrainement du modèle: détermination des paramètres de la régression linéaire, ici on lui donne X_train et y_train : données d'entrainement
reg.fit(X_train,y_train)

Nous pouvons maintenant évaluer le modèle obtenu sur nos données d'entrainement

In [None]:
# attention, score() ici ne renvoie pas l'erreur mais la valeur du coefficient de détermination R² !
coeff_train = reg.score(X_train, y_train)
print(f"Coefficient de détermination R² en train : {coeff_train:.2f}")
#reg.predict?



Le coefficient de determination (R<sup>2</sup>, soit le carré du coefficient de correlation linéaire r) est un indicateur qui permet de mesurer l'adéquation entre le modèle et les données). Plus R<sup>2</sup> tend vers 1 plus les données sont proches du modèle.

# Exercice 3 : Calculer ce même coefficient sur les données de tests. que constatez-vous ? pourquoi ?

In [None]:
# à compléter
coeff_test = reg.score(X_test, y_test)
print(f"Coefficient de détermination R² en test : {coeff_test:.2f}")

Réponse: Le coefficient est plus élevé, parce qu'il y a moins de données. On aurait pu s'attendre au contraire, puisque le modèle s'est entrainé sur les données de train.

Visualisons les données d'entrainement , les données de tests et la droite de regressions linéaire

In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(X_train,y_train, s=50, edgecolors='blue', label="Exemples d'apprentissage")
plt.scatter(X_test,y_test, c='none', s=50, edgecolors='red', label="Exemples d'évaluation")
plt.xlabel("")
plt.ylabel("")

x_min, x_max = plt.xlim()
nx = 100
xx = np.linspace(x_min, x_max, nx).reshape(-1,1)
plt.plot(xx,reg.predict(xx), color='k', label="Régression linéaire")
plt.title("Régression linéaire unidimensionnelle")
plt.legend()
plt.show()

Calculons l'erreur quadratique moyenne (`mean_square_error` sur les données d'apprentissage puis sur les données de tests). Plus le MSE est faible plus les prédictions sont meilleures.

In [None]:
from sklearn.metrics import mean_squared_error
y_pred_train = reg.predict(X_train)
y_pred_test = reg.predict(X_test)

mse_train = mean_squared_error(y_train, y_pred_train)

print(f"MSE = {mse_train:.3f} (train)")

# Exercice 4 : Calculer l'erreur quadratique moyenne pour le jeu de test

In [None]:
#à compléter
mse_test = mean_squared_error(y_test, y_pred_test)
print(f"MSE = {mse_test:.3f} (test)")

### 2.2 Régression linéaire multivariable

Cette fois, au lieu de prédire le score d'examen uniquement à partir des heures d'étude, on va prendre également le taux de présence dans notre X : studyHours et AttendanceRate pour prédire le ExamScores

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D


# Définir les caractéristiques (X) et la cible (y)
X = dfc[['StudyHours', 'AttendanceRate']]
y = dfc['ExamScores']

# Découpage des données en 2 : apprentissage et test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# Graphique 3D : AttendanceRate en X, StudyHours en Y, et ExamScores en Z
fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(X_train['AttendanceRate'], X_train['StudyHours'], y_train, c='blue', label="Exemples d'entraînement")
ax.scatter(X_test['AttendanceRate'], X_test['StudyHours'], y_test, c='red', label="Exemples d'évaluation")
ax.set_xlabel("Taux de présence")
ax.set_ylabel("Heures d'étude")
ax.set_zlabel("Scores d'examen")
plt.legend()
plt.show()

Comme précédemment on visualise nos données, ici en 3d car on à 3 variables.

In [None]:
# on commence par réimporter nos données

# ATTENTION : X doit être sous cette forme, car habituellement il comporter plusieurs "features/colonnes/caractéristiques"
X = dfc[['StudyHours', 'AttendanceRate']]
y = dfc['ExamScores']

# Découpage des données en 2 : apprentissage et test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

Maintenant qu'on a nos données, on peut, comme précédemment définir puis entrainer notre régresseur linéaire :

In [None]:
# définition de notre régresseur linéaire que l'on appelera reg
reg2 = linear_model.LinearRegression()

# entrainement du modèle: détermination des paramètres de la régression linéaire
reg2.fit(X_train,y_train)

In [None]:
# Prédire avec l'ensemble d'entraînement pour tracer la droite de régression
y_train_pred = reg2.predict(X_train)


# Graphique 3D : AttendanceRate en X, StudyHours en Y, et ExamScores en Z
fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(X_train['AttendanceRate'], X_train['StudyHours'], y_train, c='blue', label="Exemples d'entraînement")
ax.scatter(X_test['AttendanceRate'], X_test['StudyHours'], y_test, c='red', label="Exemples d'évaluation")

# Tracer la droite de régression
ax.plot_trisurf(X_train['AttendanceRate'], X_train['StudyHours'], y_train_pred, color='green', alpha=0.5)

ax.set_xlabel("Taux de présence")
ax.set_ylabel("Heures d'étude")
ax.set_zlabel("Scores d'examen")
plt.legend()
plt.show()

## 3. Regression polynomiale


On utilise la régression polynomiale lorsque les relations entre les variables sont non linéaires. Cela permet de modéliser des courbes plus complexes et d’améliorer la précision des prédictions.
Elle offre généralement une plus grande flexibilité pour capturer des tendances changeantes, mais il faut se méfier du surapprentissage avec un degré de polynome trop élevé.




On va commencer par générer des données aléatoires polynomiales, car nos jeux de données précédents présentaient une tendance linéaire.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

# Seed
np.random.seed(42)

# On génère des données polynomiales aléatoires pour l'exemple,
# on ne prend plus notre jeu de donnée préféré avec les students
n_samples = 100
X = np.linspace(-10, 10, n_samples).reshape(-1, 1)
y = 0.5 * X**2 + 2 * X + 3 + np.random.normal(0, 5, n_samples).reshape(-1, 1)


# Split train test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)


Une fois nos données générées et séparées, on peut entrainer le régresseur polynomial. Contrairement au régresseur linéaire, une étape supplémentaire doit être effectuée :  l'entrainement et la transformation en Features Polynomiales des X.

In [None]:

#Sur Sklearn, pour créer un régresseur polynomial, on doit passer par le PolynomialFeatures
#qui va convertir les données en données polynomiales
#noter le degrée qui correspondra au degrée de notre régrésseur polynomial par la suite
poly = PolynomialFeatures(degree=2)


#on transforme donc notre X_train et X_test avec le PolynomialFeatures
X_poly_train = poly.fit_transform(X_train)
X_poly_test = poly.transform(X_test)

# On créé et entraine notre régresseur polynomial
poly_regressor = LinearRegression()
poly_regressor.fit(X_poly_train, y_train)

# Prédiction
y_poly_pred = poly_regressor.predict(X_poly_test)

# Plot des données polynomiales en bleu, et des prédictions en jaune
plt.figure(figsize=(8, 6))
plt.scatter(X, y, color='blue', label="Données réelles")
plt.scatter(X_test, y_poly_pred, color='yellow', label="Prédictions")
plt.xlabel("X")
plt.ylabel("y")
plt.title("Régression polynomiale")
plt.legend()
plt.show()


Ici on peut visualiser en bleu les données polynomiales générées aléatoirement et en jaune les données prédites par le régresseur polynomial

Le code ci-dessous permet de générer des données polynomiales suivant un degré aléatoire (entre 2 et 8), puis on définit une fonction plot_polynomial_regression(degree) qui permet d'entrainer un regresseur polynomial de degré donné en paramètre et d'afficher les prédictions sur un plot.

In [None]:

# Seed, vous pouvez la faire varier pour avoir un jeux de données avec un degrée différent
np.random.seed(7)

# Generation d'un jeu de données polynomiales avec des valeurs aléatoires
degree = np.random.randint(2, 8)
n_samples = 100
X = np.linspace(-10, 10, n_samples).reshape(-1, 1)
coefficients = np.random.randn(degree + 1)
y = sum(coefficients[i] * X**i for i in range(degree + 1)) + np.random.normal(0, 5, n_samples).reshape(-1, 1)



# Split train test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)


#fonction qui permet l'affichage des prédictions et des données réelles avec en entrée le degré du polynome
def plot_polynomial_regression(degree):
    # transformation des doonnées avec degré
    poly = PolynomialFeatures(degree=degree)
    # entrainement du polynoomial feature
    X_poly_train = poly.fit_transform(X_train)
    # application du polynomial feature sur le jeu de test
    X_poly_test = poly.transform(X_test)

    # creation et entrainement du regresseur
    poly_regressor = LinearRegression()
    poly_regressor.fit(X_poly_train, y_train)

    # prédiction
    y_poly_pred = poly_regressor.predict(X_poly_test)

    # visualisation
    plt.figure(figsize=(8, 6))
    plt.scatter(X, y, color='blue', label="Données réelles")
    plt.scatter(X_test, y_poly_pred, color='yellow', label="Prédictions")
    plt.xlabel("X")
    plt.ylabel("y")
    plt.title(f"Régression polynomiale (degré {degree})")
    plt.legend()
    plt.show()



# Exercice 5: Trouver le bon degré du régresseur polynomial en utilisant la fonction ci-dessus


## Question bonus : automatisez la recherche de degrée à l'aide de métrique style r2 ou mse vues précédemment





In [None]:
# à compléter
# Utiliser plot_polynomial_regression et trouver le bon degré du polynome

plot_polynomial_regression(degree=5)

# II. Classification
## 1. Données et traitement
2. SGD
3. Arbres de décision
4. Forêts aléatoires (Random Forests)
5. Evaluation : métriques

### Dataset MNIST

Dans ce chapitre, nous utiliserons l'ensemble de données MNIST, qui est un ensemble de 70 000 petites images de chiffres écrits à la main par des lycéens et des employés du Bureau du recensement des États-Unis. Chaque image est étiquetée avec le chiffre qu'elle représente. Cet ensemble de données a été tellement étudié qu'il est souvent appelé le "Hello World" de l'apprentissage automatique : chaque fois que des personnes inventent un nouvel algorithme de classification, elles sont curieuses de voir comment il se comportera sur MNIST. Tôt ou tard, toute personne apprenant l'apprentissage automatique se penche sur MNIST. Scikit-Learn fournit de nombreuses fonctions d'aide pour télécharger des ensembles de données populaires. MNIST en fait partie. Le code suivant récupère l'ensemble de données MNIST.


In [None]:
plt.rc('font', size=14)
plt.rc('axes', labelsize=14, titlesize=14)
plt.rc('legend', fontsize=14)
plt.rc('xtick', labelsize=10)
plt.rc('ytick', labelsize=10)

On importe le jeu de données MNIST, ici sous la forme d'un fichier .mat, on peut aussi le récupérer via le code en commentaire, directement sur internet.

In [None]:
from sklearn.datasets import fetch_openml
from scipy.io import loadmat


#mnist = fetch_openml('mnist_784', as_frame=False)

mnist = loadmat("datasets/mnist-original.mat")
mnist_data = mnist["data"].T
mnist_label = mnist["label"][0]




In [None]:
# affichage des clefs
mnist.keys()

Les ensembles de données chargés par Scikit-Learn ont généralement une structure de dictionnaire similaire comprenant :
• Une clé DESCR décrivant l'ensemble de données
• Une clé data contenant un tableau avec une ligne par instance et une colonne par caractéristique
• Une clé target contenant un tableau avec les étiquettes.  

Ici, puisque nous importons le dataset depuis une source externe, on retrouve une structure similaire, mais target est label dans notre cas.

Affichons ces tableaux :

In [None]:
X, y = mnist_data, mnist_label

#print(mnist.categories)
print('data',X[0:100])
print('target', y[0:100])

Chaque instance (70000 instances), ou échantillon est une image de 28x28.

In [None]:
X.shape

In [None]:
y

In [None]:
y.shape

Il y a 70 000 images, et chaque image a 784 caractéristiques. Cela est dû au fait que chaque image mesure 28x28 pixels, et chaque caractéristique représente simplement l'intensité d'un pixel, de 0 (blanc) à 255 (noir). Affichons un échantillon.

In [None]:
import matplotlib.pyplot as plt

def plot_digit(image_data):
    image = image_data.reshape(28, 28)
    plt.imshow(image, cmap="binary")
    plt.axis("off")

some_digit = X[0]
plot_digit(some_digit)
#save_fig("some_digit_plot")  # extra code
plt.show()

Cela ressemble à un 0, et effectivement le label le confirme :

In [None]:
y[0]

Affichage d'exemples d'images disponibles dans le dataset :

In [None]:
plt.figure(figsize=(9, 9))
for idx, image_data in enumerate(X[:100]):
    plt.subplot(10, 10, idx + 1)
    plot_digit(image_data)
plt.subplots_adjust(wspace=0, hspace=0)
#save_fig("more_digits_plot", tight_layout=False)
plt.show()

Découpage de notre jeu de données en prenant 80% pour l'entrainement et 20% pour le test

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(y)
print(y_train)

L'ensemble d'entraînement est mélangé par la fonction split, ce qui est une bonne chose car cela garantit que toutes les partitions de validation croisée seront similaires (vous ne voulez pas qu'une partition manque certains chiffres). De plus, certains algorithmes d'apprentissage sont sensibles à l'ordre des instances d'entraînement, et ils se comportent mal s'ils reçoivent de nombreuses instances similaires à la suite. Mélanger l'ensemble de données garantit que cela ne se produira pas

 1. Données et traitement
## 2. SGD
3. Arbres de décision
4. Forêts aléatoires (Random Forests)
5. Evaluation : métriques

### Entrainement d'un classifier binaire SGD
Simplifions le problème pour l'instant et essayons seulement d'identifier un chiffre, par exemple le chiffre 5. Ce "détecteur de 5" sera un exemple de classifieur binaire, capable de distinguer uniquement deux classes, 5 et non-5. Créons les vecteurs cibles pour cette tâche de classification :

In [None]:
# petite subtilité, on créé un sous ensemble de y poour avoir une classification binaire
# donc au lieu d'avoir y qui contient 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, y_5 contient True ou False, True si le y valait 5, et False sinon, on créé un problème binaire plus facile à classifier

y_train_5 = [True if value == 5 else False for value in y_train]
y_test_5 = [True if value == 5 else False for value in y_test]


Maintenant choisissons un classifieur et entraînons-le. Un bon point de départ est d'utiliser un classifieur de descente de gradient stochastique (SGD) en utilisant la classe SGDClassifier de Scikit-Learn. Ce classifieur présente l'avantage d'être capable de gérer efficacement des ensembles de données très volumineux. Cela est en partie dû au fait que SGD traite les instances d'entraînement indépendamment, une par une (ce qui rend également SGD bien adapté à l'apprentissage en ligne). Créons un SGDClassifier et entraînons-le sur l'ensemble d'entraînement complet

In [None]:
from sklearn.linear_model import SGDClassifier
sgd_clf = SGDClassifier(random_state=42)

sgd_clf.fit(X_train, y_train_5)

Maintenant on peut l'utiliser pour détecter les images contenant le nombre 5 :

In [None]:
y_pred = sgd_clf.predict(X_test)

y_pred correspond aux données prédites par notre classifieur SGD. On comparera les y_pred aux y_test_5 par la suite.

### Métriques
#### Mesures de performance


#### Mesure de l'accuracy
Pour évaluer notre classifieur, on peut utiliser l'accuracy

In [None]:
# On importe la mesure de l'accuracy avec sklearn
from sklearn.metrics import accuracy_score

# calcul de l'accuracy par rapport aux y prédites par notre classifieur, et les y_test_5
accuracy = accuracy_score(y_test_5, y_pred)
print("Accuracy SGD :", accuracy)

Comparaison de l'accuracy du classifieur SGD avec un classifier "dumb" :

In [None]:
from sklearn.dummy import DummyClassifier

dummy_clf = DummyClassifier()
dummy_clf.fit(X_train, y_train_5)
y_pred_dumb = dummy_clf.predict(X_test)

Afficher l'accuracy de ce classifieur Dummy

In [None]:

accuracy = accuracy_score(y_test_5, y_pred_dumb)
print("Accuracy Dummy :", accuracy)

On remarque ici que l'accuracy de notre classifieur SGB est bien meilleure que celle du classifieur Dummy. Néanmoins, l'accuracy du Dummy reste très élevée, ce qui implique que la mesure de l'accuracy n'est pas forcément la meilleure façon d'évaluer un classifieur.

#### Matrices de Confusion
Une bien meilleure façon d'évaluer les performances d'un classifieur est d'examiner la matrice de confusion. L'idée générale est de compter le nombre de fois où des instances de la classe A sont classées comme la classe B. Par exemple, pour connaître le nombre de fois où le classifieur a confondu des images de 5 avec des 3, vous regarderiez dans la 5e ligne et la 3e colonne de la matrice de confusion. Pour calculer la matrice de confusion, vous avez d'abord besoin d'un ensemble de prédictions, afin de pouvoir les comparer aux cibles réelles.

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay



# création de la matrice de confusion sur le jeu de test
cm = confusion_matrix(y_test_5, y_pred)
cm

# affichage
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=dummy_clf.classes_)
disp.plot()
plt.show()

Chaque ligne d'une matrice de confusion représente une classe réelle, tandis que chaque colonne représente une classe prédite. La première ligne de cette matrice concerne les images non-5 (la classe négative) : 12499 d'entre elles ont été correctement classées comme non-5 (on les appelle les vrais négatifs), tandis que les 215 restantes ont été incorrectement classées comme des 5 (faux positifs). La deuxième ligne concerne les images de 5 (la classe positive) : 240 ont été incorrectement classées comme des non-5 (faux négatifs), tandis que les 1046 restantes ont été correctement classées comme des 5 (vrais positifs). Un classifieur parfait aurait uniquement des vrais positifs et des vrais négatifs, donc sa matrice de confusion ne présenterait que des valeurs non nulles sur sa diagonale principale (du coin supérieur gauche au coin inférieur droit).

# Exercice 6 : Trouver la matrice de confusion idéale, celle obtenue si les prédictions sont parfaites

In [None]:
# à compléter
y_test_perfect_predictions = y_test_5  # pretend we reached perfection

cm = confusion_matrix(y_test_5, y_test_perfect_predictions)

disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=dummy_clf.classes_)
disp.plot()
plt.show()

#### Precision et Recall

La matrice de confusion vous donne beaucoup d'informations, mais parfois vous pouvez préférer une mesure plus concise. Une mesure intéressante à examiner est l'exactitude des prédictions positives ; cela s'appelle la précision du classifieur (ou prédiction positive).

La précision d'un classifieur est une mesure qui évalue la proportion de prédictions positives qui sont effectivement correctes. Elle est calculée en divisant le nombre de vrais positifs par la somme des vrais positifs et des faux positifs. En d'autres termes, elle représente la capacité du classifieur à ne pas identifier à tort des échantillons négatifs comme positifs.

La précision est particulièrement utile dans les cas où les faux positifs sont coûteux ou indésirables. Par exemple, dans un système de détection de spam, il est important de minimiser le nombre de courriels légitimes classés comme spams.

Pour calculer la précision à partir de la matrice de confusion, vous pouvez utiliser la formule suivante :

Précision = Vrais positifs / (Vrais positifs + Faux positifs)

Une façon banale d'obtenir une précision parfaite est de faire une seule prédiction positive et de s'assurer qu'elle est correcte (précision = 1/1 = 100%). Cela ne serait pas très utile car le classifieur ignorerait toutes les instances positives sauf une. C'est pourquoi la précision est généralement utilisée en conjonction avec une autre mesure appelée sensibilité (Recall), également appelée sensibilité ou taux de vrais positifs.

La sensibilité est une mesure qui évalue la proportion d'échantillons positifs réellement identifiés par le classifieur. Elle est calculée en divisant le nombre de vrais positifs par la somme des vrais positifs et des faux négatifs. En d'autres termes, elle représente la capacité du classifieur à détecter correctement les échantillons positifs.

Le recall est particulièrement utile dans les cas où les faux négatifs sont coûteux ou indésirables. Par exemple, dans un système de détection de fraude, il est important de minimiser le nombre de transactions frauduleuses non détectées.

Pour calculer le recall à partir de la matrice de confusion, vous pouvez utiliser la formule suivante :

Recall = Vrais positifs / (Vrais positifs + Faux négatifs)

Scikit-Learn propose des fonctions pour calculer des métriques, incluant la precision et le recall :

In [None]:
from sklearn.metrics import precision_score, recall_score

precision_score(y_test_5, y_pred)

In [None]:
recall_score(y_test_5, y_pred)

Maintenant, votre détecteur de 5 ne semble pas aussi performant qu'il ne l'était lorsque vous avez examiné son accuracy. Lorsqu'il affirme qu'une image représente un 5, il est correct seulement 82% du temps. De plus, il ne détecte que 81% des 5. Il est souvent pratique de combiner la précision et le recall dans une seule mesure appelée score F1, en particulier si vous avez besoin d'une manière simple de comparer deux classifieurs. Le score F1 est la moyenne harmonique de la précision et du rappel. Alors que la moyenne régulière traite toutes les valeurs de manière égale, la moyenne harmonique accorde beaucoup plus de poids aux valeurs faibles. Par conséquent, le classifieur n'obtiendra un score F1 élevé que si à la fois le recall et la précision sont élevés.

F1 = 2 * (précision * recall) / (précision + recall)

On peut directement appeler la fonction comme pour les métriques précédentes :

In [None]:
from sklearn.metrics import f1_score

f1_score(y_test_5, y_pred)

Le score F1 favorise les classifieurs qui ont une précision et un rappel similaires. Ce n'est pas toujours ce que vous voulez : dans certains contextes, vous vous souciez principalement de la précision, et dans d'autres, vous vous souciez vraiment du rappel. Par exemple, si vous avez formé un classifieur pour détecter des vidéos adaptées aux enfants, vous préféreriez probablement un classifieur qui rejette de nombreuses bonnes vidéos (faible rappel) mais ne conserve que celles qui sont sécurisées (haute précision), plutôt qu'un classifieur ayant un rappel beaucoup plus élevé mais laissant apparaître quelques vidéos vraiment mauvaises dans votre produit (dans de tels cas, vous voudrez peut-être même ajouter une étape manuelle pour vérifier la sélection vidéo du classifieur). D'un autre côté, supposez que vous entraîniez un classifieur pour détecter les voleurs à l'étalage sur des images de surveillance : il est probablement acceptable que votre classifieur n'ait qu'une précision de 30% tant qu'il a un rappel de 99% (bien sûr, les agents de sécurité recevront quelques fausses alertes, mais presque tous les voleurs à l'étalage seront attrapés).

Malheureusement, vous ne pouvez pas avoir les deux à la fois : augmenter la précision réduit le rappel, et vice versa. Cela s'appelle le compromis précision/rappel.

#### Compromis Precision/Recall

Pour comprendre ce compromis, examinons comment le SGDClassifier prend ses décisions de classification. Pour chaque instance, il calcule un score basé sur une fonction de décision, et si ce score est supérieur à un seuil, il attribue l'instance à la classe positive, sinon à la classe négative. Si vous augmentez le seuil, un faux positif peut devenir  un vrai négatif, augmentant ainsi la précision, mais un vrai positif peut devenir  un faux négatif, réduisant le recall. Inversement, abaisser le seuil augmente le recall et réduit la précision. Scikit-Learn ne vous permet pas de définir le seuil directement, mais il vous donne accès aux scores de décision qu'il utilise pour faire des prédictions. Au lieu d'appeler la méthode predict() du classifieur, vous pouvez appeler sa méthode decision_function(), qui renvoie un score pour chaque instance, puis faire des prédictions basées sur ces scores en utilisant n'importe quel seuil que vous souhaitez :


In [None]:
y_scores = sgd_clf.decision_function([some_digit])
y_scores

In [None]:
threshold = 0
y_some_digit_pred = (y_scores > threshold)

In [None]:
y_some_digit_pred

Le classifieur SGD utilise un seuil égal à 0, donc le code précédent retourne le même résultat que la fonction predict(). Augmentons le seuil :

In [None]:
threshold = 3000
y_some_digit_pred = (y_scores > threshold)
y_some_digit_pred

Cela confirme que l'augmentation du seuil diminue le recall. L'image représente effectivement un 5, et le classifieur le détecte lorsque le seuil est à 0, mais le manque lorsque le seuil est augmenté à 8 000.
Maintenant, comment décidez-vous du seuil à utiliser ? Pour cela, vous devrez d'abord obtenir les scores de toutes les instances dans l'ensemble d'entraînement en utilisant à nouveau la fonction cross_val_predict(), mais cette fois en précisant que vous voulez qu'elle renvoie les scores de décision au lieu des prédictions :

In [None]:
from sklearn.model_selection import cross_val_score, cross_val_predict

y_scores = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3,
                             method="decision_function")

Maintenant, avec ces scores, vous pouvez calculer la précision et le recall pour tous les seuils possibles en utilisant la fonction precision_recall_curve() :

In [None]:
from sklearn.metrics import precision_recall_curve

precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores)

Finalement, vous pouvez afficher la precision et le recall comme des fonctions de la valeur du seuil :

In [None]:
plt.figure(figsize=(8, 4))  # extra code – it's not needed, just formatting
plt.plot(thresholds, precisions[:-1], "b--", label="Precision", linewidth=2)
plt.plot(thresholds, recalls[:-1], "g-", label="Recall", linewidth=2)
plt.vlines(threshold, 0, 1.0, "k", "dotted", label="threshold")

# extra code – this section just beautifies and saves Figure 3–5
idx = (thresholds >= threshold).argmax()  # first index ≥ threshold
plt.plot(thresholds[idx], precisions[idx], "bo")
plt.plot(thresholds[idx], recalls[idx], "go")
plt.axis([-50000, 50000, 0, 1])
plt.grid()
plt.xlabel("Threshold")
plt.legend(loc="center right")
#save_fig("precision_recall_vs_threshold_plot")

plt.show()

In [None]:
idx_for_90_precision = (precisions >= 0.90).argmax()
threshold_for_90_precision = thresholds[idx_for_90_precision]
threshold_for_90_precision

#### Courbe ROC

La courbe de caractéristique de fonctionnement du récepteur (Receiver Operating Characteristic) est un autre outil couramment utilisé avec les classifieur binaires. Elle est très similaire à la courbe précision/rappel, mais au lieu de représenter la précision par rapport au rappel, la courbe ROC représente le taux de vrais positifs (un autre nom pour le rappel) par rapport au taux de faux positifs. Le taux de faux positifs (FPR) est le rapport d'instances négatives incorrectement classées comme positives. Il est égal à un moins le taux de vrais négatifs, qui est le rapport d'instances négatives correctement classées comme négatives. Le TNR est également appelé spécificité. Ainsi, la courbe ROC représente la sensibilité (rappel) par rapport à 1 moins la spécificité.
Pour tracer la courbe ROC, vous devez d'abord calculer le TPR et le FPR pour diverses valeurs de seuil, en utilisant la fonction roc_curve() :


In [None]:
from sklearn.metrics import roc_curve

fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)

Affichage des FPR (False Positive Rate) en fonction des TPR (True Positive Rate):

In [None]:
import matplotlib.patches as patches
idx_for_threshold_at_90 = (thresholds <= threshold_for_90_precision).argmax()
tpr_90, fpr_90 = tpr[idx_for_threshold_at_90], fpr[idx_for_threshold_at_90]

plt.figure(figsize=(6, 5))  # extra code – not needed, just formatting
plt.plot(fpr, tpr, linewidth=2, label="ROC curve")
plt.plot([0, 1], [0, 1], 'k:', label="Random classifier's ROC curve")
plt.plot([fpr_90], [tpr_90], "ko", label="Threshold for 90% precision")

plt.gca().add_patch(patches.FancyArrowPatch(
    (0.20, 0.89), (0.07, 0.70),
    connectionstyle="arc3,rad=.4",
    arrowstyle="Simple, tail_width=1.5, head_width=8, head_length=10",
    color="#444444"))
plt.text(0.12, 0.71, "Higher\nthreshold", color="#333333")
plt.xlabel('False Positive Rate (Fall-Out)')
plt.ylabel('True Positive Rate (Recall)')
plt.grid()
plt.axis([0, 1, 0, 1])
plt.legend(loc="lower right", fontsize=13)


plt.show()

Encore une fois, il y a un compromis : plus le rappel (TPR) est élevé, plus le classifieur produit de faux positifs (FPR). La ligne en pointillés représente la courbe ROC d'un classifieur purement aléatoire ; un bon classifieur reste aussi loin que possible de cette ligne (vers le coin supérieur gauche).
Une façon de comparer les classifieurs est de mesurer la surface sous la courbe (AUC). Un classifieur parfait aura une AUC-ROC égale à 1, tandis qu'un classifieur purement aléatoire aura une AUC-ROC égale à 0,5. Scikit-Learn fournit une fonction pour calculer l'AUC-ROC :

In [None]:
from sklearn.metrics import roc_auc_score

roc_auc_score(y_train_5, y_scores)

Ici on a une aire sous la courbe de 94%

# 4.Arbres de décision

Maintenant, expérimentons les arbres de décision, ci dessous un très court code illustrer le fonctionnement des DT :

In [None]:
from sklearn import tree

#instantiation du dt
clf = tree.DecisionTreeClassifier()


#creation d'un mini dataset bidon pour l'exemple d'instantiation
X = [[0, 0], [1, 1]]
y = [0, 1]

#entrainement du DT, attention, il faudra prendre X_train et y_train, ici mini exemple pour montrer la syntaxe
clf = clf.fit(X, y)
# affichage des prédictions
clf.predict([[2., 2.]])
#affichage des probabilités de prédiction
clf.predict_proba([[2., 2.]])

Dans cet exemple nous allons travailler avec la base iris. C'est une base classique, facilement accessible dans scikit learn. Elle permet la classification des fleurs iris en fonction de la longueur et largeur des pétales et des sépales

On commence par charger le jeu de donnée dataset iris. On appelera X le vecteur correspondant au jeu de données et Y la cible

In [None]:
from sklearn.datasets import load_iris

iris = load_iris()
X, y = iris.data, iris.target
print(X)
print(y)

On construit l'arbre de décision

In [None]:
from sklearn import tree

clf = tree.DecisionTreeClassifier()
clf = clf.fit(X, y)

Visualisation de l'arbre

A l'aide de la méthode plot_tree, on peut visualiser l'arbre construit

In [None]:
tree.plot_tree(clf)

Visualisation de l'arbre sous forme de texte :

In [None]:
from sklearn.tree import export_text
r = export_text(clf, feature_names=iris['feature_names'])
print(r)

On peut aussi visualiser les données par paires

Caractéristique de l'arbre

Calculer les statistiques (moyenne et écart-type) des quatre variables : longueur de sépale, largueur de sépale, longueur de pétale et largeur de pétale.

Pour cela, on utilisera la méthode describe de scipy

In [None]:
import scipy
scipy.stats.describe(iris.data[:,:5])

Combien y a-t-il d’exemples de chaque classe ? On pourra utiliser la méthode bincount

In [None]:
np.bincount(iris.target)

Construction et exploitation du modéle

Avant de construire le modèle, séparons le jeu de données en deux : 70% pour l’apprentissage, 30% pour le test.

In [None]:
#A completer
from sklearn.model_selection import train_test_split


from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.70, random_state=0)

Nous pouvons désormais construire un arbre de décision sur ces données :

# Exercice 7 : Ecrire le code correspondant et effectuer l'entrainement

In [None]:
# à compléter
from sklearn import tree

clf = tree.DecisionTreeClassifier()
clf.fit(X_train, y_train)


Une fois l’apprentissage terminé, nous pouvons visualiser l’arbre, soit avec matplotlib en passant par la méthode plot_tree, soit avec l’outil graphviz (commande dot). Par exemple, avec matplotlib :

In [None]:
tree.plot_tree(clf, filled=True)

Prédiction

In [None]:
clf.predict(X_test)

On peut de cette façon calculer le score en test. Comment est calculé le score?

In [None]:
clf.score(X_test, y_test)
clf.score?

# QUESTION :  Changer la valeur du parametre max_depth. Que se passe-t-il si on prend une valeur trop grande ? Trop petite ? Changer le taux d’éléménts affectés par le bruit (le y[::5]). Quand tous les éléments sont affectés par le bruit, faut-il préférer une valeur élevée ou faible pour max_depth ? Vous pouvez vous aider de la doc de sklearn


question ouverte pour les plus en avance

# Sujet du TP : Voir feuille d'exercice TD/TP1

