# Introduction à l'apprentissage machine

Nous commençons l'apprentissage machine!

Ce qu'il faut savoir, c'est qu'il existe 3 grandes catégories de ML (machine learning).
- Apprentissage supervisé
- Apprentissage non-supervisé
- Apprentissage par renforcement

Dans ce volet, seul l'apprentissage supervisé sera couvert.

## Type d'apprentissage
Voici une explication courte sur les différents type d'apprentissage.
### Apprentissage supervisé
On cherche à classifier chaque donnée (comprendre chaque ligne de notre jeu de données) à une étiquette. Prenons un exemple : j'ai un ensemble de données qui peuvent être classifiées soit pour la classe A ou la classe B. L'algorithme va tenter de séparer les données selon ces classes.

Les classiques sont :
- [Régression logistique](https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression)
- [SVM](https://scikit-learn.org/stable/modules/svm.html#classification)
- [KNN](https://scikit-learn.org/stable/modules/neighbors.html#nearest-neighbors-classification)
- [Naive Bayes](https://scikit-learn.org/stable/modules/naive_bayes.html#gaussian-naive-bayes)
- [Arbre de décision](https://scikit-learn.org/stable/modules/tree.html#classification)

Et plusieurs autres... [apprentissage supervisé](https://scikit-learn.org/stable/supervised_learning.html)

### Apprentissage non-supervisé
On cherche, à partir des données, à créer des classes SANS avoir les étiquettes. Ainsi, sans connaître le nombre d'étiquettes, nous donnons aux algorithmes d'apprentissage non-supervisé (clustering) un nombre de regroupements à faire et le calcul se fera. On essaie avec 2, 3, 4 et plus jusqu'à ce que ce soit satisfaisant. Quand est-ce que ce sera satisfaisant? Il faut avoir une connaissance de nos données, idéalement. Sinon, la visualisation des regroupements peuvent aider le scientifique de données à voir ce qui semble ressortir.

### Apprentissage par renforcement
Ici, c'est complètement différent des deux derniers types d'apprentissage. C'est inspiré de l'apprentissage que ferait un bébé. Par exemple, il tente quelque chose, puis il reçoit une récompense (lance un cri et reçoit du lait en récompense) ou une punition (tente de marcher, mais tombe se fait mal). Dans le cas des machines, l'exemple le plus simple est un robot qui se déplace dans un labyrinthe. Ce robot contient une liste d'actions : avancer d'une case, tourner à gauche. Son but est d'arriver à la sortie du labyrinthe. Sa récompense pour avoir trouvé la sortie est de, disons, 500 points. Sa pénalité est le temps qu'il prend pour sortir du labyrinthe. Ainsi, son objectif est de sortir le plus rapidement possible. Afin d'éviter qu'il reste pris indéfiniment pendant une partie, le temps est limité, sinon, c'est la mort et on doit recommencer la partie.

De manière itérative, le robot apprendra les actions qu'il peut faire et le meilleur moyen de trouver la sortie.

Cette technique est relativement jeune, il y a beaucoup de recherches qui se font dans ce domaine, dont 
- les robots
- des algorithmes qui apprennent à jouer à des jeux plus ou moins complexes (échec, go, StarCraft, etc.)
- les algorithmes de proposition d'items comme certains sites d'achats en ligne


## Conclusion
Certes, il y a énormément de fonctions mathématiques et statistiques. C'est la magie de l'intelligence artificielle : il n'y en a pas, ce ne sont que des statistiques en dessous et beaucoup, mais beaucoup de données!

Vous pouvez prendre le temps de tenter de comprendre chacun des algorithmes qui existent dans Scikit-Learn à l'aide de leurs exemples, de Wikipedia, de Youtube ou même de plusieurs forums ou discord. Ce n'est pas l'information qui manque!

In [None]:
# Afin d'avoir un jeu de données sur lequel jouer, nous allons installer un paquet supplémentaire : scikit-learn. 
# Vous savez déjà comment installer un paquet. ;)

import sklearn.datasets as datasets

# Mais vous savez, installer les paquets un à un devient lourd et ce n'est pas du tout pratique
# pour des installations automatisées en production...
# Il y a moyen de faire des installations plus simples et plus robustes avec pip. Vous pouvez observer le fichier "requirements.txt".
# Vous pouvez installer les paquets avec la commande "pip install -r requirements.txt".
# Les paquets suivants vont nous aider pour la visualisation des données :
from IPython import display
import seaborn as sns
import matplotlib
matplotlib.rcParams['figure.figsize'] = (9.0, 7.0)
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

In [None]:
# Commençons par charger les données de l'apprentissage machine.
data = datasets.load_iris()

In [None]:
# Voici une description du jeu de données :
print(data.DESCR)

In [None]:
# Voici la liste des noms des fleurs de notre jeu de données :
data.target_names

In [None]:
df = pd.DataFrame(data.data, columns=data.feature_names)

df.head()

In [None]:
# Afin de mieux comprendre les données, nous allons afficher les données.
# Cette ligne crée une liste contenant toutes les paires possibles
# entre les 4 mesures.
# Par exemple : [(0, 1), (0, 2), (0, 3), (1, 2), (1, 3), (2, 3)]
pairs = [(i, j) for i in range(4) for j in range(i+1, 4)]

# Utilisons cette liste de paires pour afficher les données, deux
# mesures à la fois.
# On crée une figure à plusieurs sous-graphes.
fig, subfigs = plt.subplots(2, 3, tight_layout=True)
colors = np.array([x for x in "bgrcmyk"])

for (f1, f2), subfig in zip(pairs, subfigs.reshape(-1)):
    subfig.scatter(data.data[:, f1], data.data[:, f2], cmap=plt.cm.Paired, color=colors[data.target].tolist())
    subfig.set_xlabel(data.feature_names[f1])
    subfig.set_ylabel(data.feature_names[f2])

In [None]:
# Il existe un grand nombre d'algorithmes d'apprentissage machine disponibles. sciki-learn en possède plus d'une centaine.
# Ce n'est pas tous les algorithmes qui fonctionnent avec tous les jeux de données. Malheureusement, il faut soit très bien les connaître, 
# soit les tester. Tout en n'oubliant pas notre connaissance du jeu de données.
# Voici une visualisation de plusieurs algorithmes d'apprentissage machine 
# (source : https://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html#sphx-glr-auto-examples-classification-plot-classifier-comparison-py):

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_moons, make_circles, make_classification
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis

h = 0.02 #On indique la grandeur du pas pour la recherche en grilles

names = [
    "Nearest Neighbors",
    "Linear SVM",
    "RBF SVM",
    "Gaussian Process",
    "Decision Tree",
    "Random Forest",
    "Neural Net",
    "AdaBoost",
    "Naive Bayes",
    "QDA",
]

# Chaque paramètre des algorithmes suivants s'appelle hyperparamètre. Ces hyperparamètres sont des paramètres qui déterminent 
# le comportement de l'algorithme de classification.
classifiers = [
    KNeighborsClassifier(3),
    SVC(kernel="linear", C=0.025),
    SVC(gamma=2, C=1),
    GaussianProcessClassifier(1.0 * RBF(1.0)),
    DecisionTreeClassifier(max_depth=5),
    RandomForestClassifier(max_depth=5, n_estimators=10, max_features=1),
    MLPClassifier(alpha=1, max_iter=1000),
    AdaBoostClassifier(),
    GaussianNB(),
    QuadraticDiscriminantAnalysis(),
]

# Nous créons un jeu de données d'apprentissage.
X, y = make_classification(
    n_features=2, n_redundant=0, n_informative=2, random_state=1, n_clusters_per_class=1
)
rng = np.random.RandomState(2)
X += 2 * rng.uniform(size=X.shape)
linearly_separable = (X, y)

datasets = [
    make_moons(noise=0.3, random_state=0),
    make_circles(noise=0.2, factor=0.5, random_state=1),
    linearly_separable,
]

# Ici, il s'agit du code pour faire l'entrainement et pour faire la visualisation.
figure = plt.figure(figsize=(27, 9))
i = 1
# On utilise la fonction "iterate_over_datasets" pour parcourir les jeux de données.
for ds_cnt, ds in enumerate(datasets):
    # On fait un prétraitement de données, on sépare les données d'apprentissage et de test.
    X, y = ds
    X = StandardScaler().fit_transform(X)
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.4, random_state=42
    )

    x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
    y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

    # Affichage des données
    cm = plt.cm.RdBu
    cm_bright = ListedColormap(["#FF0000", "#0000FF"])
    ax = plt.subplot(len(datasets), len(classifiers) + 1, i)
    if ds_cnt == 0:
        ax.set_title("Input data")
    # On utilise la fonction "plot_dataset" pour afficher les données d'apprentissage.
    ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright, edgecolors="k")
    # On utilise la fonction "plot_dataset" pour afficher les données de test.
    ax.scatter(
        X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright, alpha=0.6, edgecolors="k"
    )
    ax.set_xlim(xx.min(), xx.max())
    ax.set_ylim(yy.min(), yy.max())
    ax.set_xticks(())
    ax.set_yticks(())
    i += 1

    # On utilise la fonction "iterate_over_classifiers" pour parcourir les algorithmes d'apprentissage.
    for name, clf in zip(names, classifiers):
        ax = plt.subplot(len(datasets), len(classifiers) + 1, i)
        clf.fit(X_train, y_train)
        score = clf.score(X_test, y_test)

        # On utilise la fonction "plot_decision_boundary" pour afficher la frontière de décision [x_min, x_max]x[y_min, y_max].
        if hasattr(clf, "decision_function"):
            Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
        else:
            Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]

        # On affiche les résultats sous forme de couleurs.
        Z = Z.reshape(xx.shape)
        ax.contourf(xx, yy, Z, cmap=cm, alpha=0.8)

        # On dessine les points d'apprentissage.
        ax.scatter(
            X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright, edgecolors="k"
        )
        # On dessine les points de test.
        ax.scatter(
            X_test[:, 0],
            X_test[:, 1],
            c=y_test,
            cmap=cm_bright,
            edgecolors="k",
            alpha=0.6,
        )

        ax.set_xlim(xx.min(), xx.max())
        ax.set_ylim(yy.min(), yy.max())
        ax.set_xticks(())
        ax.set_yticks(())
        if ds_cnt == 0:
            ax.set_title(name)
        ax.text(
            xx.max() - 0.3,
            yy.min() + 0.3,
            ("%.2f" % score).lstrip("0"),
            size=15,
            horizontalalignment="right",
        )
        i += 1

plt.tight_layout()
plt.show()

# Exercices
C'est l'heure de vous faire essayer les différents algorithmes! Vu le temps qui nous est imparti, nous ne regarderons qu'un seul algorithme : le KNN.

Dans la cellule suivante, il y a beaucoup de code, ne vous inquiétez pas. Une majeure partie est pour la gestion des données et pour l'affichage.

Le but de l'exercice est d'expérimenter les hyperparamètres pour trouver ceux qui permettront d'avoir le meilleur score de précision. Le score de précision (accuracy) est ce qui permet d'évaluer si notre modèle performe bien ou non. Plus le score est élevé, mieux c'est, généralement... Il faut faire attention au surentraînement.


In [None]:
# Source : https://scikit-learn.org/stable/auto_examples/neighbors/plot_classification.html#sphx-glr-auto-examples-neighbors-plot-classification-py

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.colors import ListedColormap
from sklearn import neighbors, datasets
from sklearn.model_selection import train_test_split

# Voici les hyperparamètres avec lesquels vous pouvez jouer pour tenter d'améliorer le score.
# Pour connaître ce que vous pouvez modifier, consultez la documentation de la fonction "KNeighborsClassifier".
# https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html?highlight=nearest%20neighbors%20classification%20accuracy
n_neighbors = 5
algorithm = "auto"
leaf_size = 30
p = 2

# À partir d'ici, vous n'avez pas à modifier le code.

# On importe les données.
iris = datasets.load_iris()

# Nous ne prenons que les 2 premiers features. Nous pourrions éviter cette lourde
# sélection en utilisant un dataset de deux dimensions.
X_train, X_test, y_train, y_test = train_test_split(iris.data[:, :2], iris.target, test_size=0.4, random_state=42)
#X = iris.data[:, :2]
#y = iris.target

h = 0.02  # Grandeur du pas

# On utilise la fonction "make_cmap" pour créer une palette de couleurs.
cmap_light = ListedColormap(["orange", "cyan", "cornflowerblue"])
cmap_bold = ["darkorange", "c", "darkblue"]

for weights in ["uniform", "distance"]:
    # C'est ici que la magie se passe pour la création du modèle à créer.
    # La première ligne est la création du modèle vide, non entraîné.
    clf = neighbors.KNeighborsClassifier(n_neighbors, weights=weights, algorithm=algorithm, leaf_size=leaf_size, p=p)
    # La deuxième ligne est l'entrainement du modèle.
    clf.fit(X_train, y_train)

    # On utilise la fonction "plot_decision_boundary" pour afficher la frontière de décision [x_min, x_max]x[y_min, y_max].
    x_min, x_max = X_train[:, 0].min() - 1, X_train[:, 0].max() + 1
    y_min, y_max = X_train[:, 1].min() - 1, X_train[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

    # Ici est la seconde magie, on utilise la fonction "predict" pour prédire les valeurs de la frontière de décision.
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    # La fonction "score" permet de calculer le score de précision du modèle.
    score = clf.score(X_test, y_test)
    print(f"Modèle de \"{weights}\" a obtenu le score : {score}.")

    # On place le résultat dans un graphique en couleur.
    Z = Z.reshape(xx.shape)
    plt.figure(figsize=(8, 6))
    plt.contourf(xx, yy, Z, cmap=cmap_light)

    # On dessine les points d'apprentissage.
    sns.scatterplot(
        x=X_train[:, 0],
        y=X_train[:, 1],
        hue=iris.target_names[y_train],
        palette=cmap_bold,
        alpha=1.0,
        edgecolor="black",
    )
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.title(f"3-Class classification (k = {n_neighbors}, weights = {weights})")
    plt.xlabel(iris.feature_names[0])
    plt.ylabel(iris.feature_names[1])

plt.show()

# Conclusion
Pour conclure le tout, vous pouvez expérimenter avec les autres algorithmes tel que montré au début du notebook dont la liste est ramené ici :
- [Régression logistique](https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression)
- [SVM](https://scikit-learn.org/stable/modules/svm.html#classification)
- [KNN](https://scikit-learn.org/stable/modules/neighbors.html#nearest-neighbors-classification)
- [Naive Bayes](https://scikit-learn.org/stable/modules/naive_bayes.html#gaussian-naive-bayes)
- [Arbre de décision](https://scikit-learn.org/stable/modules/tree.html#classification)

Et les autres... [apprentissage supervisé](https://scikit-learn.org/stable/supervised_learning.html). ;)

Vous pourrez y voir que le plus gros des entrainements se résume à instancier la classe de l'algorithme, à faire un entrainement avec `fit` puis une prédiction avec `predict` et/ou un `predict_proba`.

Le plus gros du travail est :
- Obtenir les données
- Nettoyer les données pour les rendre exploitable
- Trouver le bon algorithme d'apprentissage
- Créer le modèle et trouver les bons hyperparamètres
- Valider que l'entrainement apporte un gain significatif par rapport à une autre méthode plus classique de programmation. En effet, une simple logique d'affaire, une expression régulière, une analyse du besoin peut apporter de meilleur résultat en un temps plus rapide.
- Déployer le modèle en production
- Surveiller le modèle pour le moment où il ne répondra plus au besoin. Ce n'est pas une question de si, mais bien de quand...

Lorsque le modèle ne répondra plus au besoin car les données ont changées, car le besoin d'affaire a changé, il faudra refaire tout le processus d'analyse, de préparation des données et d'entrainement.