# TP1 - Utilisation de l'apprentissage automatique en nutrition: notions de base #
------------------
Dans ce TP, nous allons tenter de vous donner les outils et les connaissances nécessaires au bon déroulement de cette école d'été.
Nous allons explorer les possibilités offertes par nos outils technologiques (Python, Jupyter et autres librairies) en plus de débuter dans le merveilleux monde de l'apprentissage automatique.


# Jupyter et python #
Durant cette semaine de TP, nous allons utiliser le langage Python et l'interface Jupyter Lab. L'avantage de Jupyter est qu'il permet de travailler de façon intéractive. On peut écrire du code dans une cellule puis l'exécuter. Si une sortie est demandée, elle sera affichée sous la cellule.


L'interface Jupyter permet d'écrire du code et d'obtenir rapidement le résultat.

In [None]:
#Python peut servir de calculatrice
1+1

In [None]:
#On peut afficher du texte
print("La fonction print() est super pratique pour afficher du texte")

In [None]:
# Jupyter peut aussi afficher des graphiques produits avec la librairie Matplotlib

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 9]
y= [4, 10, 9, 3, 4]

fig, ax = plt.subplots()
ax.plot(x, y, linewidth=2.0)

In [None]:
# Il y a également d'autres librairies permetant de faire des graphiques, dits intéractifs. Voici un exemple avec Plotly.
import plotly.express as px
fig = px.scatter(x = [1, 2, 3, 4, 9], y= [4, 10, 9, 3, 4], title="Exemple de graphique intéractif", width=600, height=600)
fig.update_traces(marker=dict(size=20))
fig.update_layout(title_x=0.5)
fig.show()
# Vous pouvez essayer de passer votre curseur sur un point ou de sélectionner une région du graphique avec la souris. Quelques fonctionnalités sont disponibles dans le coin supérieur droit de la zone graphique.

La librairie plotly est assez complète. Plusieurs exemples de code sont disponibles: https://plotly.com/python/.

On peut aller chercher de l'aide sur les différentes commandes et fonctions, directement dans l'interpréteur en ajoutant un ``?`` à une fonction. Voici un exemple:

In [None]:
px.scatter?

Jupyter a certaines commandes spéciales, appelée "magic". Ici, le ``!`` permet d'intéragir avec un terminal.
La liste complète des commandes "magic" est ici: https://ipython.readthedocs.io/en/stable/interactive/magics.html

In [None]:
!date
!ls

# Exercices
Reprenez le code de la figure prédécente (copié ci-bas) et ajoutez au graphique une ligne reliant les points.

In [None]:
fig = px.scatter(x = [1, 2, 3, 4, 9], y= [4, 10, 9, 3, 4], title="Exercice supplémentaire", width=600, height=600)
fig.update_traces(marker=dict(size=20))
fig.update_layout(title_x=0.5)
fig.show()

Exercice supplémentaire #2

Reprenez le graphique précédent. Coloriez les points en vert et la ligne en rouge.






Exercice supplémentaire #3

Reproduisez le graphique précédent créé avec Plotly mais cette fois avec Matplotlib.

# On attend le reste du groupe #
----------------------------------------

# Pandas pour les données tabulées #
Toute analyse commence par un point de départ: les données!
Elles peuvent se trouver sous différentes formes (base de données, tableaux, web, etc). Dans le TP d'aujourd'hui nous allons travailler avec des données structurées sous forme de tableau.
La librairie pandas permet d'ouvrir des fichiers de données structurées sous forme de tableau et de les garder en mémoire. 

In [None]:
# On importe la librairie et on ouvre le fichier Excel contenant nos données. 
import pandas as pd
metabo_df = pd.read_excel("Data/Metabolomic_diet.xlsx", header=0, index_col=0)

Dans la cellule précédente, que font les paramètres header et index_col?

In [None]:
#La fonction head() permet d'avoir un apperçu du tableau de données (5 premières lignes par défaut).
metabo_df.head()

Quelle est la dimension de notre jeu de données? Est-ce que nous avons assez de données? Pouvons-nous espérer à produire de bons modèles?

Durant la semaine, nous allons principalement nous concentrer sur l'apprentissage supervisé. C'est à dire que nous connaissons dès le départ les classes ou les valeurs à prédire pour un ensemble de données. Ces données sont étiquetéesé. On cherche donc à construire des modèles pouvant prédire ces valeurs pour de nouvelles données que l'algorithme n'aura jamais vu.


Notre tableau de données contient beaucoup d'information mais pas les classes correspondantes à chaque échantillon. Cette information est dans un autre fichier. Allons le récupérer!

In [None]:
# Complétez cette commande afin de bien charger le tableau de métadonnées en utilisant la colonne Sample comme index.
metadata_df = pd.read_csv("Data/Metadata_diet.csv")

In [None]:
# Réponse:


In [None]:
#Pour valider votre réponse
metadata_df.head()

Pour que l'information corresponde entre les 2 tableaux, nous allons tout joindre ensemble dans le même tableau, en utilisant le nom d'échantillon pour la jointure. 

In [None]:
metabo_df = metabo_df.transpose()
metabo_df.head()
data_merged = pd.concat([metabo_df, metadata_df], axis=1)
data_merged.head()


In [None]:
data_merged.shape

# On attend le reste du groupe #
----------------------------------------

# Scikit learn pour l'apprentissage automatique #

In [None]:
# Import des fonctions nécessaires dans scikit-learn
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score, balanced_accuracy_score, roc_auc_score, confusion_matrix, ConfusionMatrixDisplay

Nous avons notre premier jeu de données, prêt à être employé pour de l'apprentissage automatique. La première étape est de séparer notre jeu de données entre un ensemble d'entrainement et un ensemble de test. La librairie Scikit-learn contient une fonction pour faire cela.

In [None]:
x_train, x_test, y_train, y_test = train_test_split(data_merged.drop("Diet", axis=1), data_merged["Diet"], test_size=0.2) #On garde 20% du jeu de données en test
print("La forme de notre ensemble d'entraînement: %s x %s" %(x_train.shape))
print("Le nombre d'étiquettes dans notre ensemble d'entrainement %s" %y_train.shape)
print("La forme de notre ensemble de test: %s x %s" %(x_test.shape))
print("Le nombre d'étiquettes dans notre ensemble de test %s" %y_test.shape)

Débutons avec un arbre de décision. Notre objectif est de prédire la diète à partir du profil métabolique.

In [None]:
dt = DecisionTreeClassifier() # On initie un modèle
dt = dt.fit(X=x_train, y=y_train) # On entraine le modèle en lui donnant les données d'entraînement, y compris les classes correspondantes.

Maintenant que nous avons un modèle entrainer, il faut aller évaluer s'il performe bien. Pour cela, nous pouvons utiliser notre ensemble de test.

In [None]:
dt_predictions = dt.predict(x_test)
print(dt_predictions)

Pour évaluer les performances du modèle, on peut utiliser différentes métriques. Pour débuter, nous allons utiliser la matrice de confusion. 

La matrice de confusion permet de voir les prédictions et les valeurs de références dans le même tableau. On peut donc rapidement voir les taux de faux posifs et faux négatifs en plus du taux de bonnes classifications pour chaque classe.

In [None]:
ConfusionMatrixDisplay.from_predictions(y_test, dt_predictions)

En fonction de ces résultats, qu'est-ce qu'on peut conclure?

Les prédictions sont parfaites mais on a 4 classes alors que l'on cherche à prédire deux diètes. Allons corriger les étiquettes et ré-entrainer un modèle.

In [None]:
diet_converter = {i:"Mediterranean" if i[-1]=="B" else "North-American" for i in set(data_merged["Diet"])} #On crée un convertisseur
data_merged["Diet"]=[diet_converter[i] for i in data_merged["Diet"]] # On l'applique sur la colonne Diet de notre tableau.

# Exercice
Entrainez un arbre de decision en utilisant le jeu de données modifié puis évaluez ses performances avec la matrice de confusion et la précision (accuracy).

In [None]:
#Écrire le code dans les cellules ci-bas. Ajoutez des cellules au besoin.



In [None]:
#Réponse:
x_train, x_test, y_train, y_test = train_test_split(data_merged.drop("Diet", axis=1), data_merged["Diet"], test_size=0.2)
dt = DecisionTreeClassifier() # On initie un modèle
dt = dt.fit(X=x_train, y=y_train)
dt_predictions = dt.predict(x_test)
print("Matrice de confusion:")
print(confusion_matrix(y_true=y_test, y_pred=dt_predictions))
print("Accuracy score: %s" %accuracy_score(y_true=y_test, y_pred=dt_predictions))

Qu'est-ce que vous pensez des résultats?

In [None]:
#Allons voir la structure de l'arbre qui nous donne ces performances incroyables.
plot_tree(dt)

Les performances sont obtenues à partir d'un seul élément de notre tableau: l'élément 6004. Quel est cet élément?

In [None]:
data_merged.columns[6004]

Dans notre tableau de données, nous avons un élément correspondant au numéro de la visite à la clinique par chaque sujet pour la collecte d'échantillon. C'est un élément qui est parfaitement corrélé au type de diète consommé par nos sujets (voir le design expérimental). Nous avons donc indirectement donné la bonne réponse à notre algorithme à partir de notre jeu de données. La fuite de données (data leakage) est une erreure courrante en apprentissage automatique et entraine des performances artificiellement gonflées.

Allons enlever cette colonne et ré-entrainons un modèle!

In [None]:
x_train, x_test, y_train, y_test = train_test_split(data_merged.drop(["Diet", "Visit"], axis=1), data_merged["Diet"], test_size=0.2)
dt = DecisionTreeClassifier() # On initie un modèle
dt = dt.fit(X=x_train, y=y_train)
dt_predictions = dt.predict(x_test)
print("Accuracy score: %s" %accuracy_score(y_true=y_test, y_pred=dt_predictions))
ConfusionMatrixDisplay.from_predictions(y_test, dt_predictions)

Les performances obtenues ici sont beaucoup plus raisonnables. On prédit la diète correctement dans la grande majorité des cas (normalement autour de 90%).

Si on revient à notre devis expérimental, nous avons deux études où chaque sujet a consommé les deux diètes. Une règle en intelligence artificielle est d'utiliser des données indépendantes entre l'ensemble d'entraînement et de test. Puisque nous pouvons avoir les données provenant d'un même sujet dans l'ensemble d'entrainement et de test, notre expérience précédente ne respecte pas cette règle.

De plus, si vous comparez vos résultats à ceux de vos voisins, vous pourrez probablement constater des différences. Le facteur aléatoire de la fonction `train_test_split()` explique en partie ces différences: vous n'avez pas les même données dans vos ensembles d'entrainement et de tests que vos voisins. Ce facteur aléatoire peut causer des problèmes de reproductibilité. Pour contrôler le facteur aléatoire, nous allons définir une valeur de départ (`np.random.seed`) au générateur de nombre aléatoire et ainsi garantir la reproductibilité de nos résultats!

Allons séparer nos données à partir des sujets et en contrôlant le facteur aléatoire:

In [None]:
np.random.seed(948)

study_subjects = data_merged.subject.unique()
train_subjects = np.random.choice(study_subjects, size=int(len(study_subjects) * 0.8), replace=False) #On utilise encore 80% des données dans l'ensemble d'entrainement. Le reste dans l'ensemble de test.
test_subjects = np.setdiff1d(study_subjects, train_subjects)

#On crée les jeux de données en enlevant la visite, la diet et le numéro du sujet.
x_train = data_merged[data_merged["subject"].isin(train_subjects)].drop(["Visit", "Diet", "subject"], axis=1)
x_test = data_merged[data_merged["subject"].isin(test_subjects)].drop(["Visit", "Diet", "subject"], axis=1)
y_train = data_merged.Diet[data_merged["subject"].isin(train_subjects)] 
y_test = data_merged.Diet[data_merged["subject"].isin(test_subjects)] 

On pourrait valider la dimension de nos ensembles de données avant d'aller plus loin.

In [None]:
#Essayez-le!



In [None]:
dt = DecisionTreeClassifier() # On initie un modèle
dt = dt.fit(X=x_train, y=y_train)
dt_predictions = dt.predict(x_test)
print("Accuracy score: %s" %accuracy_score(y_true=y_test, y_pred=dt_predictions))
ConfusionMatrixDisplay.from_predictions(y_test, dt_predictions)

La mesure de précision et la matrice de confusion indiquent bien que le modèle performe encore bien après avoir séparé les sujet entre les 2 groupes.

In [None]:
plot_tree(dt)

On peut remarquer que l'arbre est beaucoup plus complexe que celui qui utilisait le numéro de visite pour effectuer la classification. Vous devriez voir ici un arbre ou certaines feuilles contiennent un seul ou deux échantillons. Une séparation pour un très petit nombre d'échantillon a très peu de chance de généraliser. C'est ce qu'on appel du sur-apprentissage. Une autre façon de détecter le sur-apprentissage est de comparer les performances d'un modèle entre son ensemble d'entraînement et son ensemble de test. Si la différence est importante, on peut supposer qu'il y a eu sur-apprentissage.

In [None]:
print("Précision sur l'ensemble d'entrainement: %s" %accuracy_score(y_true=y_train, y_pred=dt.predict(x_train)))
print("Précision sur l'ensemble de test: %s" %accuracy_score(y_true=y_test, y_pred=dt.predict(x_test)))

Notre modèle ne fait pas d'erreur sur l'ensemble d'entrainement et fait 10% d'erreur sur l'ensemble de test. On peut émètre l'hypothèse qu'il y a un léger sur-apprentissage. La structure de l'arbre confirme notre hypothèse: l'arbre a appris "par coeur" certains échantillons de l'ensemble d'entrainement. C'est à dire qu'il a trouvé un caractère distinctif d'un échantillon précis. Pour contrôler le sur-apprentissage, on peut moduler les paramètres de constuction du modèle par l'algorithme. On les appelle des hyper-paramètres. Allons essayer de modifier les hyper-paramètres de notre algorithme.

In [None]:
dt = DecisionTreeClassifier(min_samples_leaf=10, max_depth=3, min_impurity_decrease=0.02) # On initie un modèle en déterminant certains hyper-paramètres
dt = dt.fit(X=x_train, y=y_train)
dt_predictions = dt.predict(x_test)
print("Accuracy score: %s" %accuracy_score(y_true=y_test, y_pred=dt_predictions))
ConfusionMatrixDisplay.from_predictions(y_test, dt_predictions)

In [None]:
print("Précision sur l'ensemble d'entrainement: %s" %accuracy_score(y_true=y_train, y_pred=dt.predict(x_train)))
print("Précision sur l'ensemble de test: %s" %accuracy_score(y_true=y_test, y_pred=dt.predict(x_test)))

In [None]:
plot_tree(dt)

En modifier les hyper-paramètres de l'algorithme, le modèle produit est plus simple. Si l'on compare les performances du modèle entre l'ensemble d'entrainement et l'ensemble de test, elles sont beaucoup plus similaires. En changeant les hyper-paramètres, l'algorithme commence à faire des erreurs de classification sur l'ensemble d'entrainement. C'est domage mais nous augmentons ainsi le potentiel de généralisation de notre modèle.

Nous avons sélectionné manuellement les hyper-paramètres de l'algorithme mais il existe différentes façons de les optimiser afin d'obtenir certaines garanties de performance et de généralisation. Certaines de ces méthodes d'optimisation d'hyper-paramètres seront introduites durant la semaine.

Jusqu'à maintenant, nous avons utilisé un des algorithme les plus simple, l'arbre de décision. Est-ce que nous pourrions arriver à obtenir des performances supérieure en employant un algorithme produisant des modèles plus complexes? Essayons d'utiliser l'algorithmes de la forêt aléatoire (`RandomForestClassifier`) qui consiste en un ensemble d'arbres de décision, chacun entraîné sur une fraction des données.

In [None]:
rf = RandomForestClassifier() # On initie un modèle avec les paramètres par défaut pour commencer.
rf = rf.fit(X=x_train, y=y_train)
rf_predictions = rf.predict(x_test)
print("Accuracy score: %s" %accuracy_score(y_true=y_test, y_pred=rf_predictions))
ConfusionMatrixDisplay.from_predictions(y_test, rf_predictions)

In [None]:
print("Précision sur l'ensemble d'entrainement: %s" %accuracy_score(y_true=y_train, y_pred=rf.predict(x_train)))
print("Précision sur l'ensemble de test: %s" %accuracy_score(y_true=y_test, y_pred=rf.predict(x_test)))

À partir des résultats de la forêt aléatoire, quelles sont vos conclusions?

# Exercice
Modifiez les hyper-paramètres de l'algorithme Random Forest pour essayer d'obtenir un résultat différent. Vous pouvez trouvez la liste des paramètres de l'algorithme en affichant la fiche d'aide dans Jupyter ou en consultant la documentation web de Scikit-learn.