# Formation ML Flow

L'objectif de cette formation est de vous apprendre à utiliser ML Flow, un dashboard pour expériences de Machine Learning. Cette formation vous montrera pas à pas comment lancer une expérience de Machine Learning et surveiller les paramètres, métriques et resultats de votre expérience grâce à ML Flow. 

Pour cela, la formation s'appuiera sur le célèbre jeu de donnée Iris, qui classifie 150 echantillons de fleur en 3 espèces d'iris : Iris setosa, Iris versicolor et Iris virginica. Le dataset comprend les caractéristiques de chaque échantillon (longueur et largeur des pétales et longueur et largeur des sépales) et nous allons donc essayer de créer plusieurs modèles qui essaieront de classifier les échantillons d'iris selon leurs caractéristiques. 

Commençons par importer les librairies qui vont nous servir :

In [None]:
import mlflow
import numpy as np 
import matplotlib.pyplot as plt 
import pandas as pd 
import time
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score

## Ouverture et visualisation du dataset Iris

A présent ouvrons le fichier contenant le dataset et affichons les données concernant les 5 premiers échantillons :

In [None]:
dataset = pd.read_csv('iris.csv')
dataset.head()

Affichons maintenant quelques informations sur les caractéristiques des fleurs :

In [None]:
dataset.describe()

Affichons le nombre d'échantillons pour chacune des espèces d'iris :

In [None]:
dataset.groupby('class').size()

Affichons maintenant le nuage de points de chaque paire de caractéristiques. Sur la diagonale, on retrouve un histogramme du nombre d'échantillons selon la valeur de la caractéristique. On peut remarquer certaines structures, par exemple des groupes, dans les relations entre certaines caractéristiques.

In [None]:
try:
    import seaborn as sns
    sns.set(style="ticks")
    sns.pairplot(dataset, hue="class")
except ImportError:
    print('Seaborn not available, plot with matplotlib instead')
    pd.plotting.scatter_matrix(dataset,figsize=(15,7))
plt.suptitle('Scatter matrix of the Iris dataset')
plt.show()

## ML Flow : premiers pas avec un modèle aléatoire

Nous allons maintenant réaliser un premier exemple de modèle de classification très simple : le modèle aléatoire. Ce modèle attribuera aléatoirement une classe à chaque échantillon du dataset. Nous visualiserons ensuite ses performances (pas très bonnes, on l'imagine) avec ML FLow.

Commençons par séparer le dataset en 2 variables : les 4 caractéristiques d'une part (X), et l'espèce d'iris d'autre part (Y).

In [None]:
array = dataset.values
X = array[:,0:4]
Y = array[:,4]

Construisons notre modèle aléatoire :

In [None]:
from sklearn.dummy import DummyClassifier
dummy = DummyClassifier(strategy="uniform")
dummy.fit(X, Y)

Affichons ses prédictions pour les premiers échantillons :

In [None]:
Y_pred = dummy.predict(X)
for i in range(5):
    print(X[i], ', vraie classe : ', Y[i], ', prédiction : ', Y_pred[i])

Nous allons maintenant enregistrer les performances de ce magnifique modèle avec ML Flow. Pour l'instant executez les cellules suivantes "bêtement", nous expliquerons chaque ligne ensuite.

In [None]:
with mlflow.start_run(run_name='Modele_Aleatoire'):
    mlflow.log_param('MODEL_NAME', 'DummyClassifier')
    mlflow.log_metric('Accuracy', accuracy_score(Y, Y_pred))
    mlflow.log_artifact('iris.csv')

Maintenant ouvrez un terminal et naviguez jusqu'au dossier ```formation-mlflow```. Affichez le contenu du dossier. Vous devriez y trouver un nouveau dossier nommé ```mlflow```. Ce dossier contient toutes les informations que nous avons enregistré précédemment.

Toujours dans le dossier ```formation-mlflow```, entrez la commande ```mlflow ui```. Le message ```Serving on http://XXXXXXX:5000``` devrait s'afficher. Ouvrez maintenant un navigateur web et ouvrez une fenêtre vers l'url ```http://localhost:5000/```. Vous devriez voir apparaître le dashboard suivant :

![dashboard](MLFlow.png)

La ligne au milieu du tableau, comportant le nom ```Modele_Aleatoire``` correspond aux données que nous avons enregistré précédemment. Vous pouvez remarquer dans la colonne ```Parameters``` le paramètre  ```MODEL_NAME``` que nous avons enregistré, ainsi que la métrique ```Accuracy``` dans la colonne ```Metrics```. Maintenant cliquez sur cette ligne et vous trouverez le détail des informations concernant ce ```run```. Descendez jusqu'à la section ```Artifacts``` où vous pourrez voir une copie du fichier ```iris.csv```. En cliquant dessus vous pourrez le visualiser en entier.

Revenons maintenant sur la façon dont nous avons enregistré ces informations avec ML FLow.

ML Flow permet d'enregistrer puis visualiser 3 types de choses :
* des **paramètres** : ce sont des valeurs (int, float, string, ...) qui ne varient pas au cours d'un 'run', ici ```MODEL_NAME``` est un paramètre.
* des **métriques** : ce sont des valeurs numériques qui peuvent varier au cours du 'run', ici ```Accuracy``` est une métrique.
* des **fichiers** : ces fichiers peuvent prendre n'importe quelle forme (png, jpeg, gif, txt, ...) et ne sont pas modifiables au cours du 'run. Ici nous avons fait une copie du fichier ```iris.csv```.

Toutes ces variables sont regroupées dans un même 'run', ici nommé 'Modele_Aleatoire'. Un 'run' correspond à une ligne du tableau. Les 'runs' peuvent être regroupés en 'experiences', ici nommée ```Default``` dans la colonne de gauche. Nous verons comment changer le nom de l'expérience par la suite.

Reprenons les lignes de code qui nous ont permis de faire tout ça :

In [None]:
# 1. Création du 'run' ML FLow, nommé ici 'Modele_Aleatoire'
#    Tous les paramètres, métriques ou fichiers que nous enregistrerons ensuite
#    seront enregistré dans ce 'run', qui correspond à une ligne du tableau
with mlflow.start_run(run_name='Modele_Aleatoire'):

    # 2. Enregistrement d'un paramètre
    mlflow.log_param('MODEL_NAME', 'DummyClassifier')

    # 3. Enregistrement d'une métrique
    mlflow.log_metric('Accuracy', accuracy_score(Y, Y_pred))

    # 4. Enregistrement d'un fichier
    mlflow.log_artifact('iris.csv')

Nous allons maintenant entraîner différents modèles sur le jeu de données et voir comment nous pouvons les comparer facilement avec ML FLow.

## ML Flow : Comparaison de plusieurs modèles

Nous allons maintenant créer plusieurs modèles et estimer leurs performances sur des données qu'ils n'ont pas vu pendant l'entraînement. Commençons par séparer notre dataset en deux parties : une pour l'entraînement et une pour le test.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_val, Y_train, Y_val = train_test_split(X, Y, test_size=0.20, random_state=1)

Construisons la liste des modèles à tester :

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC

models = []
models.append(('LogisticRegression', LogisticRegression(solver='liblinear', multi_class='ovr')))
models.append(('LinearDiscriminantAnalysis', LinearDiscriminantAnalysis()))
models.append(('KNeighborsClassifier', KNeighborsClassifier()))
models.append(('DecisionTreeClassifier', DecisionTreeClassifier()))
models.append(('GaussianNB', GaussianNB()))
models.append(('SVM', SVC(gamma='auto')))

Ajoutons cette fonction qui va nous permettre de tracer de jolies matrices de confusion par la suite :

In [None]:
def plot_confusion_matrix(cm, target_names, title, 
                          normalize=True, save_path='matrix.png'):
    import itertools
    accuracy = np.trace(cm) / float(np.sum(cm))
    misclass = 1 - accuracy
    if normalize: cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]

    cmap = plt.get_cmap('Blues')
    plt.figure(figsize=(5,5))
    plt.imshow(cm, interpolation='nearest', cmap=cmap, vmin=0, vmax=1)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(target_names))
    plt.xticks(tick_marks, target_names, rotation=45)
    plt.yticks(tick_marks, target_names)

    thresh = cm.max() / 1.5 if normalize else cm.max() / 2
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        if normalize:
            plt.text(j, i, "{:0.4f}".format(cm[i, j]),
                     horizontalalignment="center",
                     color="white" if cm[i, j] > thresh else "black")
        else:
            plt.text(j, i, "{:,}".format(cm[i, j]),
                     horizontalalignment="center",
                     color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label\naccuracy={:0.4f}; misclass={:0.4f}'\
               .format(accuracy, misclass))
    plt.gcf().canvas.draw()
    plt.savefig(save_path)
    plt.close()

Nous allons maintenant entraîner nos modèles et enregistrer leurs paramètres et métriques avec ML Flow. 

Nous allons voir deux nouvelles choses : 
* Comment créer une nouvelle expérience
* Comment enregistrer plusieurs paramètres ou métriques d'un seul coup

In [None]:
# 1. Création d'une nouvelle expérience
#    Tous les nouveaux runs seront enregistrés dans cette expérience
mlflow.set_experiment('Comparaison')

for name, model in models:
    print(name)

    # 2. Création et début d'un nouveau run
    with mlflow.start_run(run_name=name):

        # 3. Enregistrement de plusieurs paramètres sous forme d'un dictionnaire
        params = {}
        params['MODEL_NAME'] = name
        params['TRAIN_SIZE'] = len(X_train)
        params['TEST_SIZE'] = len(X_val)
        mlflow.log_params(params)

        # On note le moment du début de l'expérience pour mesurer la durée de l'entraînement
        start = time.time()

        # Entraînement du modèle
        model.fit(X_train, Y_train)

        training_time = time.time() - start

        predictions = model.predict(X_val)

        # 4. Enregistrement de plusieurs métriques sous forme d'un dictionnaire
        metrics = {}
        metrics['Accuracy'] = accuracy_score(Y_val, predictions)
        metrics['Precision'] = precision_score(Y_val, predictions, average='macro')
        metrics['Recall'] = recall_score(Y_val, predictions, average='macro')
        metrics['Training Time'] = training_time
        mlflow.log_metrics(metrics)

        # 5. Enregistrement de la matrice de confusion
        cm = confusion_matrix(Y_val, predictions)
        plot_confusion_matrix(cm, ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'],
                              'Confusion matrix '+name)
        mlflow.log_artifact('matrix.png')

Retrounez maintenant sur votre navigateur pour voir le résultat dans le dashboard ML Flow.

Vous devriez voir une nouvelle expérience 'Comparaison' dans la liste des expériences à gauche. En cliquant dessus vous pourrez voir apparaître les 6 runs que nous venons de lancer. Selectionnez les tous et cliquez sur ```Compare```. Vous pouvez maintenant facilement comparer toutes les caractéristiques de nos modèles. En cliquant sur le nom d'une des métriques vous pourrez afficher un diagramme comparant les valeurs pour tous les modèles.

Revenez au tableau des runs et ouvrer l'un des runs. Dans la partie ```Artifacts``` vous pourrez voir la superbe matrice de confusion que nous avons tracé.

# ML Flow : Enregistrer l'évolution d'une métrique

Dans cette dernière partie, nous allons voir comment enregistrer l'évolution d'une métrique au cours du temps. Pour cela, nous allons utiliser comme modèle un réseau de neurones basique : le perceptron multi-couches.

Afin de calculer nos métriques au cours de l'entrainement, nous decoupons celui-ci en plusieurs epochs. A chaque epoch, le reseau de neurone s'entraîne une fois sur l'intégralité du dataset. Tout ceci est fait automatiquement dans la fonction ```fit``` par défaut de scikit learn, mais nous allons faire les choses manuellement ici, pour visualiser l'évolution des métriques au cours de l'apprentissage.

In [None]:
from sklearn.neural_network import MLPClassifier

# 1. Création et début d'un nouveau run
with mlflow.start_run(run_name='Multilayer Perceptron'):

    model = MLPClassifier(max_iter=10)
    mlflow.log_param('MODEL_NAME', 'MLPClassifier')

    N_TRAIN_SAMPLES = X_train.shape[0]
    N_EPOCHS = 50
    N_BATCH = 8
    N_CLASSES = np.unique(Y_train)
    scores_train = []
    scores_test = []

    # EPOCH
    epoch = 0
    while epoch < N_EPOCHS:
        if epoch % 5 == 0 : print('Epoch: ', epoch)
        # SHUFFLING
        random_perm = np.random.permutation(X_train.shape[0])
        mini_batch_index = 0
        while True:
            # TRAIN ON MINI-BATCH
            indices = random_perm[mini_batch_index:mini_batch_index + N_BATCH]
            model.partial_fit(X_train[indices], Y_train[indices], classes=N_CLASSES)
            mini_batch_index += N_BATCH
            if mini_batch_index >= N_TRAIN_SAMPLES:
                break

        metrics = {}
        predictions = model.predict(X_val)
        metrics['Accuracy'] = accuracy_score(Y_val, predictions)
        metrics['Precision'] = precision_score(Y_val, predictions, average='macro')
        metrics['Recall'] = recall_score(Y_val, predictions, average='macro')
        metrics['Loss'] = model.loss_
        # 2. Enregistrement de plusieurs métriques pour une epoch donnée
        mlflow.log_metrics(metrics, step=epoch)

        epoch += 1

Revenez sur le tableau des runs dans le dashboard et ouvrez le run que nous venons de créer. En cliquant sur l'une des métriques, vous pourrez voir son évolution au cours de l'apprentissage du réseau de neurones.