## **TP Supervised Learning (UE MU4RBI04, 2021) -- VERSION ETUDIANTS**

Ce notebook fonctionne directement avec Google Colab et Jupyterlab. Nous vous conseillons d'utiliser Google Colab.

Aide: pour utiliser ce notebook, vous devez exécuter chacun des cellules les unes après les autres. En effet, certaines cellules définissent et construisent des éléments qui sont utiles par la suite. En cas de (gros) problème, vous pouvez redémarrer le noyau, et ré-exécuter les cellules une par une en partant de la première. 

Les deux premières cellules, à exécuter avant de commencer, permettent de:

1.   charger les librairies utiles pour le TP
2.   charger un premier jeu de données qui sera utilisé par la suite

Les cellules suivantes contiennent parfois du code pour vous aider à commencer un exercice.

Vous devez répondre dans la cellule qui correspond à la question (ne créez pas de nouvelle cellule SVP), y compris quand il faut faire une réponse en langage naturelle (mettez vos réponses en commentaire Python). 

Pour répondre aux questions, vous devez vous référer au cours disponible sur Moodle.

Astuce: *dans une cellule, le raccourci clavier shift+entrée permet d'exécuter la cellule courante.*



---





# Import des librairies nécessaires


*   Matplotlib: permet d'afficher des figures. Seaborn offre des options de rendu avancée.
*   numpy et panda: permettent de manipuler des structures de données
*   sklearn (scikit-learn): permet d'utiliser divers algorithmes d'apprentissage



In [None]:
import os
from datetime import datetime
from datetime import date

import math
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

from sklearn import datasets
from sklearn.linear_model import *
from sklearn.preprocessing import PolynomialFeatures

import seaborn as sns
sns.set()

print(date.today(), datetime.now().strftime("%H:%M:%S"),"GMT") # timestamp is greenwich time
print("OK.")

---

# Chargement et affichage d'une base de données

Cette base de données décrits le lien entre descripteurs (age, sexe, etc.) et diagnostic de diabète chez une cohorte d'individus. Une description succintes des données est ici (ainsi qu'une description d'autres bases de données accessibles directement via scikit-learn) : https://scikit-learn.org/stable/datasets/index.html (il n'est pas utile de consulter cette page pour le TP)

Nous allons détourner cette base de données pour étudier uniquement la relation entre l'âge et la tension artérielle (systolique). 

Etudiez ce code. Il illustre comment manipuler et accéder à une base de données, et comment afficher un graphique qui permet de visualiser le rapport entre l'âge et la tension artérielle. 

Remarque: *vous remarquerez que les données ont été préparées. Elles sont centrées en zéro et redimensionnées. C'est une pratique courante en apprentissage automatique.*

In [None]:
# Base de données normalisées contenant une description de quelques centaines de patients diabétiques
# lien vers la base originelle: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html
# article référence: http://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf

diabetes = datasets.load_diabetes() # note that values have been centered and scaled
#print (diabetes['feature_names'])
diabetes_data = pd.DataFrame(data=diabetes["data"], columns=diabetes["feature_names"])

X = diabetes_data['age']
y = diabetes_data['bp']

plt.scatter(X,y, label="Data points", color='brown', s=1)
plt.title('age vs. blood pressure')
plt.xlabel('age')
plt.ylabel('blood pressure')
plt.legend()
plt.show()


---
# Régression linéaire à la main

Dans cet exercice, vous devez trouver *à la main* les paramètres d'une fonction affine qui capture au mieux le rapport entre l'âge et la pression artérielle. Vous trouverez les slides du cours sur Moodle pour vous aider.



1.   écrivez une fonction qui prend en paramètre *X*, *theta_0* et *theta_1*, et qui renvoie la valeur de theta_0 + theta_1 * x pour chaque élément de *X*. *X* est un vecteur (cf. Section précédente), il faut donc renvoyer un nouveau vecteur de même taille.
  * Pour tester votre fonction, affichez le résultat de son appel sur le vecteur X initialisé précédemment. 


In [1]:
def h(X,theta_0,theta_1):
  # A compléter
  return 0 #à compléter

2.   écrivez une fonction qui calcule la perte pour une fonction hypothèse. Cette fonction calcule la perte et prend en paramètres:
*   (a) un ensemble d'exemples (*X*) et des labels associés (*y*). Cf. Section précédente pour voir le contenu et la structure de X et y.
*   (b) les paramètres d'une fonction hypothèse (theta_1 et theta_2), à utiliser avec la fonction *h* précédemment écrite.
* Pour tester votre fonction, affichez le résultat de son appel sur le vecteur X initialisé précédemment en utilisant la fonction *h* de la question précédente. choisissez *theta_0*=1 et *theta_1*=1 (il s'agit d'un test!).

In [2]:
def loss(X, y, theta_0, theta_1):
  # A compléter
  return 0

3.   cherchez *à la main* pendant *5 minutes maximum* les valeurs theta_0 et theta_1 tel que la fonction de perte renvoie une erreur minimale pour prédire la pression artérielle en fonction de l'âge sur la base précédemment chargée ("diabetes"). Tracez le résultat sur un graphe ou vous projeterez aussi les données brutes.


In [None]:
# Assume that the expert provides a good guess for the hypothesis and it looks like a straight line (i.e. expert guess)

theta_0_opt = 0 # à chercher
theta_1_opt = 0 # à chercher

print ("Best hypothesis: h(x) =",theta_0_opt,"+ ",theta_1_opt,"* x")

plt.scatter(X,y, label="Data points", color='brown', s=1)
plt.plot(X,X_approx, label="Regression (expert)", color='red')
plt.title('age vs. blood pressure')
plt.xlabel('age')
plt.ylabel('blood pressure')
plt.legend()
plt.show()

#print('loss(Theta) = %2.2f' % loss(X, y, theta_0_opt, theta_1_opt))
print('loss(Theta) = ', loss(X, y, theta_0_opt, theta_1_opt))


---

# Influence des paramètres de la fonction linéaire sur la performance

Vous allez maintenant étudier l'influence des valeurs de *theta_0* et *theta_1* sur la qualité des fonctions hypothèses que l'on peut obtenir. Pour cela, vous allez tracer le comportement d'une fonction hypothèse dont on fixe la valeur de *theta_0*, et dont on fait varier la valeur de *theta_1* sur une plage de valeur. 

Vous allez donc tracer sur une figure la perte en fonction de la valeur de *theta_1*. Ceci va nous permettre de manière simple de visualiser le gradient d'une fonction particulière sur une dimension (theta_1). On s'attend à une courbe ressemblant à une fonction sphère (i.e. convexe, unimodale, ressemblant à un "U") dont le point le plus bas donne la valeur optimale de theta_1 étant donné theta_0 fixé.



1.   calculer la perte de la fonction h(x) avec *theta_0* fixé à 0, en faisant varier *theta_1* de -100 à 100, par pas de 0.1. Tracez cette fonction et affichez la valeur de *theta_1* qui permet de minimiser la perte (que vous afficherez aussi).


In [None]:

theta_1 = np.arange(-100, 100, 0.1)

theta_0_fixed = 0
loss1 = [] # après len(loss1) = len(theta_1)

for t1 in theta_1:
  # à compléter

plt.title('Impact of a fixed theta_0')
plt.plot(theta_1, loss1, label='theta_0=0', color='red') 
plt.legend()
plt.xlabel(r'$\theta_1$')
plt.ylabel(r'$loss(\theta)$')
plt.show()


2.   idem en fixant *theta_0* à 2.


In [None]:
# à compléter

3.   idem en fixant *theta_0* à la valeur que vous aviez trouvée lors de votre recherche à la main.


In [None]:
# à compléter

---

# Algorithme de régression linéaire pour l'apprentissage supervisé

Dans cet exercice, vous allez implémenter l'algorithme de regression linéaire, en utilisant un modèle de la forme *y = ax +b*. Vous ne devez pas utiliser de librairies externes, seulement du code Python simple (et numpy).

Vous testerez votre algorithme sur les mêmes données que précédemment. L'objectif est de comparer la solution obtenue par apprentissage avec la solution proposée précédemment par l'expert. 


1.   En vous référant au cours, implémentez la regression linéaire et entrainez votre algorithme sur les données précédemment utilisées. Suggestion pour commencer: initialisez les paramètres d'apprentissage *theta_1* et *theta_2* à zéro, *alpha* à 0.1 et fixez le nombre d'itérations à 20000. Vous afficherez la valeur de la fonction de perte toutes les 1000 itérations.


In [None]:
alpha = 0.1 # learning rate
theta_0 = 0 # initial value for theta_0
theta_1 = 0 # initial value for theta_1
iterations = 20000 

# A compléter

print ("SUMMARY:")
print ("h(x) =", theta_0," + ",theta_1,"* x with loss on learning dataset:", loss(X, y, theta_0, theta_1) )



2.   Tracer la fonction hypothèse obtenue et comparez le résultat avec celui donnez par la solution précédemment proposée par l'expert (à tracer sur la même figure).


In [None]:
# A compléter



3.   Etudiez l'influence du taux d'apprentissage et du nombre d'itérations. Qu'observez vous?

In [None]:
# A compléter

# Répondre ici (texte libre à mettre en commentaire).