# Chapitre 3. Classification

## MNIST

In [None]:
from sklearn.datasets import fetch_openml
mnist = fetch_openml("mnist_784", version=1, data_home="C:\\Users\\tchak\\scikit_learn_data")
mnist.keys()

In [None]:
X, y = mnist["data"], mnist["target"]
print(X.shape, y.shape)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
some_digit = np.array(X[:1])
some_digit_image = some_digit.reshape(28, 28)

plt.imshow(some_digit_image, cmap="binary")
plt.axis("off")

In [None]:
y[0]

In [None]:
y = y.astype(np.uint8)

In [None]:
X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

## Entrainement d'un classificateur binaire

In [None]:
y_train_5 = (y_train == 5)
y_test_5 = (y_test == 5)

In [None]:
# Classificateur de descente de gradient stochastique (Stochastic Gradient Descent - SGD)
from sklearn.linear_model import SGDClassifier
sgd_clf = SGDClassifier(random_state=42)
sgd_clf.fit(X_train, y_train_5)

sgd_clf.predict(X[:1]) # True!

## Mesures de performance

### Mesurer l'exactitude à l'aide de la validation croisée

In [None]:
# Implementation d'une validation croisée (meilleur contrôle du processus)
from sklearn.model_selection import StratifiedKFold
from sklearn.base import clone

skfolds = StratifiedKFold(n_splits=3, shuffle=True, random_state=42)
# Echantillonage stratifié pour produire des blocs contenant un ratio représentatif de chaque classe

for train_index, test_index in skfolds.split(X_train, y_train_5):
    clone_clf = clone(sgd_clf)
    X_train_folds = X_train.loc[train_index]
    y_train_folds = y_train_5.loc[train_index]
    X_test_fold = X_train.loc[test_index]
    y_test_fold = y_train_5.loc[test_index]
    
    clone_clf.fit(X_train_folds, y_train_folds)
    y_pred = clone_clf.predict(X_test_fold)
    n_correct = sum(y_pred == y_test_fold)
    print(n_correct / len(y_pred))
# Résultats plutôt satisfaisants

In [None]:
from sklearn.model_selection import cross_val_score
cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring="accuracy")
# > 95%, stupéfiant, mais pas assez, on verra pourquoi

In [None]:
# Classificateur dénué de toute intelligence
from sklearn.base import BaseEstimator
class Never5Classifier(BaseEstimator):
    def fit(self, X, y=None):
        pass
    def predict(self, X):
        return np.zeros((len(X), 1), dtype=bool) # Retourne juste une matrice unicolonne nulle

In [None]:
never_5_clf = Never5Classifier()
cross_val_score(never_5_clf, X_train, y_train_5, cv=3, scoring="accuracy")
# > 90% avec ce classificateur -> en effet les 5 ne représentent que 10% des images
# Décider à chaque fois qu'une image n'est pas 5 -> avoir raison dans 90% des cas
# L'exactitude n'est pas en général une mesure de performance surtout en cas d'asymétrie des données

### Matrice de confusion

In [None]:
# Capter les observations rangées dans la mauvaise classe
# Ne pouvant pas utiliser le jeu test -> cross_val_predict

from sklearn.model_selection import cross_val_predict
y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)
# Prédiction dite saine (par un modèle qui n'a jamais rencontré les données) pour chaque bloc de test

from sklearn.metrics import confusion_matrix
confusion_matrix(y_train_5, y_train_pred)
# En ligne la classe réelle, en colonne la classe prédite
# TrueNegative     FalseNegative 
# FalsePositive    TruePositive

### Precision et rappel

In [None]:
from sklearn.metrics import precision_score, recall_score
print("Precision:", precision_score(y_train_5, y_train_pred),
      "\nRappel:", recall_score(y_train_5, y_train_pred))

# Précision -> exactitude des prédictions positives - TP / (TP + FP)
# Lorsqu'il declare qu'une image est 5, il n'a raison que 83.71% du temps

# Rappel (sensibilité, True Positive Rate) -> Nombre d'observations positives detectées TP / (TP + FN)
# Il ne detecte que 65.11% des 5

In [None]:
# Score F1 -> moyenne harmonique de la précision et du rappel, donne plus de poid aux faibles valeurs
# Bon score F1 si précision et rappel élevés 
# F1 = 2 / [(1/precision) + (1/rappel)]
from sklearn.metrics import f1_score
f1_score(y_train_5, y_train_pred)
# Favorise les classificateurs ayant une précision et un rappel similaires

### Compromis precision/rappel

In [None]:
# Augmentation de la précision -> baisse du rappel
# Augmentation du rappel -> baisse de la précision

# Accès manuel au score pour personnaliser le seuil de décision
y_scores = sgd_clf.decision_function(X[:1])
y_scores

In [None]:
threshold = 8000 # 0 par defaut
y_some_digit_pred = (y_scores > threshold)
y_some_digit_pred

In [None]:
# Comment décider du seuil à utiliser?
y_scores = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3, method="decision_function")

from sklearn.metrics import precision_recall_curve
precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores)

plt.style.use("Solarize_Light2")
def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):
    plt.plot(thresholds, precisions[:-1], "b--", label="Precision")
    plt.plot(thresholds, recalls[:-1], "g-", label="Rappel")

In [None]:
plot_precision_recall_vs_threshold(precisions, recalls, thresholds)

seuil = 5000
prec_seuil = precisions[np.argmin(thresholds <= seuil)]
rapp_seuil = recalls[np.argmin(thresholds <= seuil)]

plt.scatter(seuil, prec_seuil, c="r", marker="o", s=50)
plt.scatter(seuil, rapp_seuil, c="r", marker="o", s=50)
plt.scatter(np.linspace(seuil, seuil), np.linspace(0, max([prec_seuil, rapp_seuil])),
            marker=".", s=10, c="r")
plt.scatter(np.linspace(-60000, seuil), np.linspace(prec_seuil, prec_seuil), marker=".", s=10, c="r")
plt.scatter(np.linspace(-60000, seuil), np.linspace(rapp_seuil, rapp_seuil), marker=".", s=10, c="r")

plt.xlim(-60000, 40000)
plt.ylim(-.1, 1.1)
plt.xlabel("Seuil")
plt.legend(loc="best")

In [None]:
plt.plot(recalls, precisions, c="green")
plt.scatter(np.linspace(0, rapp_seuil), np.linspace(prec_seuil, prec_seuil),  marker=".", s=10, c="r")
plt.scatter(np.linspace(rapp_seuil, rapp_seuil), np.linspace(0, prec_seuil),  marker=".", s=10, c="r")
plt.xlabel("Rappel")
plt.ylabel("Precision")
plt.xlim(0, 1)
plt.ylim(0, 1)

In [None]:
# Si l'on souhaite avoir une pracision de 90%
threshold_90_precision = thresholds[np.argmax(precisions >= .90)] # ~ 3370
y_train_pred_90 = (y_scores >= threshold_90_precision)

In [None]:
precision_score(y_train_5, y_train_pred_90)

In [None]:
recall_score(y_train_5, y_train_pred_90) # Rappel trop bas (dapendant du projet!)

### La courbe ROC

In [None]:
# Courbe d'efficacita du racepteur (Receiver Operating Characteristic)
# Croise le taux de vrais positifs (rappel) avec le taux de faux positifs
# Taux de faux positifs -> pourcentage d'observations nagatives incorrectement classaes comme positives
# FPR = 1 - TNR = 1 - specificite
from sklearn.metrics import roc_curve
fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)

def plot_roc_curve(fpr, tpr, label=None):
    plt.plot(fpr, tpr, linewidth=2, label=label)
    plt.plot([0, 1], [0, 1], "k--") # diagonale pointilae
    plt.xlabel("Taux de faux positifs")
    plt.ylabel("Taux de vrais positifs (rappel)")
    
plot_roc_curve(fpr, tpr)

# Similaire à la courbe pracision/rappel (courbe PR) à préférer lorsque la classe positive est rare ou
# si l'on attache davantage d'importance aux faux positifs qu'aux faux negatifs

In [None]:
from sklearn.metrics import roc_auc_score # Area Under the Curve
roc_auc_score(y_train_5, y_scores)
# Classificateur purement aléatoire -> auc = 1/2
# Classificateur parfait -> auc = 1

In [None]:
from sklearn.ensemble import RandomForestClassifier
forest_clf = RandomForestClassifier(random_state=42)
y_probas_forest = cross_val_predict(forest_clf, X_train, y_train_5, cv=3,
                                   method="predict_proba")
y_scores_forest = y_probas_forest[:, 1] # score = probas de la classe positive
fpr_forest, tpr_forest, threshold_forest = roc_curve(y_train_5, y_scores_forest)
plt.plot(fpr, tpr, "b:", label="SGD")
plot_roc_curve(fpr_forest, tpr_forest, "Foret aleatoire")
plt.legend(loc=0)

In [None]:
y_forest_predict = y_scores_forest > .5
print("ROC AUC score:", roc_auc_score(y_train_5, y_scores_forest),
      "\nPrecision:", precision_score(y_train_5, y_forest_predict),
      "\nRappel:", recall_score(y_train_5, y_forest_predict))

## Classification multi-classes