## **TME 3 - Descente de gradient**

Membres du binôme :
- KRISNI Almehdi (3800519)
- ARICHANDRA Santhos (3802651)

L'objectif de ce TME est d'expérimenter sur la descente de gradient dans le cadre de la régression linéaire et de la régression logistique. L'espace d'entrée est de dimension *d*, les labels sont des réels (linéaire) ou dans {-1, 1} (logistique). L'espace de recherche fonctionnel est considéré par **w**, un vecteur réel de dimension *d* et avec *n* le nombre d'exemples. La notion de biais ne sera pas retenu dans le cadre de ce TME, donc pas de poids à **w0**.

On s'occupe dans un premier temps à importer les fichiers nécessaires à la création du rapport et implémenter les fonctions de coût dans le fichier *tme3*.

### **Implémentation des fonctions de coût**

Les méthodes allant être codées ne contiennent aucune boucle, ce qui permet de meilleurs résultats en terme d'exécution.

In [1]:
# Import du fichier tme3.py
from tme3 import *

# Rechargement automatique des fichiers importés (vu dans l'UE de Data Science en L3)
%load_ext autoreload
%autoreload 2

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


Dans le fichier *mltools.py* fourni dans le cadre du TME, on dispose de plusieurs méthodes nous facilitant la tâche, comme par exemple la méthode *gen_arti* permettant la création rapide d'un dataset.

On code dans un premier temps les méthodes **mse(w,x,y)** et **reglog(w,x,y)**, retournant respectivement l'erreur sur les moindres carrés, soit pour des données linéaires, et l'erreur de la regression logistique. Les formules utilisées dans la rédaction sont celles vues en cours. 

On code ensuite les gradients de chacune des erreurs, dont les formes matricielles sont obtenues en dérivant les fonctions de coût par chaque poids du vecteur w.

La méthode **check_fonctions** permet de vérifier si les méthodes codées précedemment sont correctes en réalisant une série d'assert sur les valeurs obtenues. Si un des asserts se retrouve être faux, alors la méthode se termine et renvoie une erreur. On vérifie donc si le code mis en place est correct.

In [2]:
# Vérification des fonctions
check_fonctions()

Il semblerait que les méthodes codées soient toutes correctes. On a essayé de modifier un des résultats retournés, comme par exemple l'ajout d'une multiplication par un réel dans la MSE, ce qui a provoqué une AssertError.

Afin de tester l'exactitude de nos fonctions de gradient, on écrit la fonction **grad_check(f,f_grad,N=100,eps=1E-2)** allant tirer N points au hasard et vérifie le calcul du gradient sur les N points en moyenne. On doit rajouter un paramètre *epsilon*.

In [3]:
# Utilisation de grad_check avec la MSE
mG, logG = grad_check(mse, mse_grad)

print("La différence moyenne entre le gradient MSE et celui du DL de Taylor est :", "{:.2f}".format(mG[0][0]))
print("\nOn affiche les différentes valeurs :\nGradient MSE\t\tGradient Taylor")
for i in range(len(logG)) :
    print("{:.2f}".format(logG[i][0]), "{:.2f}".format(logG[i][1]), sep="\t\t")

La différence moyenne entre le gradient MSE et celui du DL de Taylor est : 28.77

On affiche les différentes valeurs :
Gradient MSE		Gradient Taylor
117610.02		117512.01
1432.42		1431.21
78701.22		78635.61
37582.72		37551.36
106020.72		105932.36
14654.50		14642.25
27598.08		27575.04
53823.78		53778.89
52227.12		52183.56
184.32		184.16
21119.28		21101.64
49105.92		49064.96
0.00		0.00
3439.78		3436.89
26458.18		26436.09
17280.88		17266.44
38938.98		38906.49
108290.50		108200.25
12244.48		12234.24
63908.58		63855.29
4768.00		4764.00
50654.50		50612.25
21119.28		21101.64
43152.00		43116.00
5773.68		5768.84
16381.38		16367.69
1182.00		1181.00
41723.62		41688.81
2327.92		2325.96
8073.52		8066.76
2674.50		2672.25
88727.92		88653.96
10050.82		10042.41
1182.00		1181.00
47581.38		47541.69
24250.50		24230.25
1432.42		1431.21
84645.12		84574.56
103774.98		103688.49
71112.58		71053.29
420.72		420.36
108290.50		108200.25
19152.00		19136.00
117610.02		117512.01
33658.18		33630.09
2327.92		2325.96
44.

On remarque donc que les valeurs des gradients sont pratiquement égales à chaque niveau puisque sur 100 exemples, la différence moyenne est de 31,91. Les exemples dont les dimensions sont importantes sont la principale source de différence tandis que pour les faibles dimensions, on retrouve des valeurs égales au dixième près.

On réalise une nouvelle fois un test avec cette fois le gradient de la régression logistique.

In [4]:
# Utilisation de grad_check avec la Reg Log
mG, logG = grad_check(reglog, reglog_grad)

print("La différence moyenne entre le gradient de la Reg Log et celui du DL de Taylor est :", "{:.2f}".format(mG[0][0]))
print("\nOn affiche les différentes valeurs des gradients:\nReg Log\t\tTaylor")
for i in range(len(logG)) :
    print("{:.2f}".format(logG[i][0]), "{:.2f}".format(logG[i][1]), sep="\t\t")

La différence moyenne entre le gradient de la Reg Log et celui du DL de Taylor est : nan

On affiche les différentes valeurs des gradients:
Reg Log		Taylor
17.00		17.00
94.00		nan
56.00		56.00
33.00		33.00
8.00		8.00
50.00		50.00
30.00		30.00
76.00		76.00
22.00		22.00
82.00		nan
8.00		8.00
21.00		21.00
13.00		13.00
99.00		nan
5.00		5.00
32.00		32.00
26.00		26.00
42.00		42.00
46.00		46.00
49.00		49.00
82.00		nan
30.00		30.00
89.00		nan
53.00		53.00
24.00		24.00
0.00		0.00
35.00		35.00
76.00		76.00
64.00		64.00
72.00		72.00
28.00		28.00
92.00		nan
93.00		nan
32.00		32.00
93.00		nan
7.00		7.00
78.00		78.00
16.00		16.00
22.00		22.00
85.00		nan
85.00		nan
7.00		7.00
88.00		nan
42.00		42.00
60.00		60.00
56.00		56.00
15.00		15.00
76.00		76.00
38.00		38.00
70.00		70.00
12.00		12.00
2.00		2.00
59.00		59.00
40.00		40.00
38.00		38.00
70.00		70.00
24.00		24.00
91.00		nan
58.00		58.00
4.00		4.00
83.00		nan
92.00		nan
46.00		46.00
37.00		37.00
77.00		77.00
66.00		66.00
4.00		4.00
77.00		77.00
98.00	

  return np.log(1 + np.exp((-y) * np.dot(x,w)))
  gradT = ((f(w + eps, x[i], y)) - (f(w,x[i],y))) / eps


Les résultats sont remarquables puisque la différence moyenne sur 100 exemples est considérée comme nulle au centième près. On en conclut donc que pour la MSE ou la régression logistique, les gradients calculés sont corrects. <br/>Passons maintenant au sujet de la descente de gradient.

### **Descente de gradient**

On implémente avant toute chose la fonction **descente_gradient(datax,datay,f_loss,f_grad,eps,maxIter)** réalisant une descente de gradient afin d'optimiser le coût de *f_loss*, dont le gradient est donné par *f_grad* sur les données *datax*, les labels *datay*, un pas de descente *eps* et un nombre *iter* d'itérations.
<br/>La fonction retournera le paramètre optimal **w** trouvé, la liste des **w** calculés et les valeurs de la fonction de coût au fur et à mesure des itérations.

Nous avons vu en cours plusieurs formes de descente de gradient :
- batch
- stochastique
- mini-batch
On code donc une fonction par forme de descente de gradient.

On réalise un premier test avec le gradient MSE sur la descente de gradient en batch. On génère avant un dataset allant être utilisé pour toutes les expériences.

In [5]:
# Création du dataset
datax, datay = gen_arti(epsilon=0.1)

In [7]:
# Descente de gradient en batch - MSE
w, logW, logF = descente_gradient_batch(datax, datay, mse, mse_grad, eps=0.1, maxIter=100)