# Descente de gradient
Dans ce notebook, vous allez programmer l'algorithme de descente de gradient dans sa version ordinaire, stochastique et mini-batch.
Dans un premier temps, vous utiliserez un jeu de données simple pour tester votre code dans le cas d'une régressison linéaire. Dans un second temps, vous implémenterz vos algorithmes sur un jeu de donnée plus conséquent et comparerez vos résultats à ceux obtenus en utilisant la bibliothèque ***ScikitLearn***.

# Un jeu de données simple pour tester votre code
Un je de donnée simple constitué de 100 instance est créé artificiellement à l'aide de la relation linéaire $\ y_{i} = 2+5\times x_{i}  $<br>
Ce jeu de donnée ne comporte qu'une seuler variables $\ x  $.

In [126]:
import numpy as np

In [127]:
# Crée un vecteur X de taille 100 
X=np.arange(100)

In [128]:
# Affichez X
print(X)
# Affichez ses dimensions
print(X.shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]
(100,)


In [129]:
# Calcul de Y
Y=2+5*X

In [130]:
# Affichez le contenu de Y
print(Y)
# Affichez les dimensions de Y
print(Y.shape)

[  2   7  12  17  22  27  32  37  42  47  52  57  62  67  72  77  82  87
  92  97 102 107 112 117 122 127 132 137 142 147 152 157 162 167 172 177
 182 187 192 197 202 207 212 217 222 227 232 237 242 247 252 257 262 267
 272 277 282 287 292 297 302 307 312 317 322 327 332 337 342 347 352 357
 362 367 372 377 382 387 392 397 402 407 412 417 422 427 432 437 442 447
 452 457 462 467 472 477 482 487 492 497]
(100,)


Maintenant que nous avons notre jeu de données avec les valeurs $\ x_{i} $ et leur label $\ y_{i} $ correspondant, il faut transformer le vecteur $\ X $ poour la faire correpondre à une matrice de forme générale :

$$\begin{bmatrix} 1 & x_{11} & x_{12} & ... & x_{1j} & ... & x_{1n}\\ 1 & x_{21} & x_{22} & ... & x_{2j} & ... & x_{2n} \\...&...&...&...&...&...&... \\1 & x_{i1} & x_{i2} & ... & x_{ij} & ... & x_{in}\\...&...&...&...&...&...&...\\1 & x_{m1} & x_{m2} & ... & x_{mj} & ... & x_{mn} \end{bmatrix}$$ <br>
Nous réaliserons cette transformation à l'aide d'une fonction ***Stand_Trans***  qui prend en entrée la matrice $\ X $ à transformer, le nombre de d'instances $\ m $ et le nombre de variables $\ n $

In [131]:
def Stand_Trans(X,m,n):
    # Transorme la matrice en entrée en une matrice de dimension m*n
    X=X.reshape(m,n) 
    # Crée une matrice de dimension m*1 remplie de 1
    Ones=np.ones((m)).reshape(m,1) 
    # Concatenation horizontale des matrice X et Ones pour donner lieu à une nouvelle matrice X
    X=np.hstack([Ones,X]) 
    return X

In [132]:
# Appliquez la fonction Stand_Trans au vecteur X
X=Stand_Trans(X,100,1)

In [136]:
# Affichez le contenu de la nouvelle matrice X
print(X)

[[ 1.  0.]
 [ 1.  1.]
 [ 1.  2.]
 [ 1.  3.]
 [ 1.  4.]
 [ 1.  5.]
 [ 1.  6.]
 [ 1.  7.]
 [ 1.  8.]
 [ 1.  9.]
 [ 1. 10.]
 [ 1. 11.]
 [ 1. 12.]
 [ 1. 13.]
 [ 1. 14.]
 [ 1. 15.]
 [ 1. 16.]
 [ 1. 17.]
 [ 1. 18.]
 [ 1. 19.]
 [ 1. 20.]
 [ 1. 21.]
 [ 1. 22.]
 [ 1. 23.]
 [ 1. 24.]
 [ 1. 25.]
 [ 1. 26.]
 [ 1. 27.]
 [ 1. 28.]
 [ 1. 29.]
 [ 1. 30.]
 [ 1. 31.]
 [ 1. 32.]
 [ 1. 33.]
 [ 1. 34.]
 [ 1. 35.]
 [ 1. 36.]
 [ 1. 37.]
 [ 1. 38.]
 [ 1. 39.]
 [ 1. 40.]
 [ 1. 41.]
 [ 1. 42.]
 [ 1. 43.]
 [ 1. 44.]
 [ 1. 45.]
 [ 1. 46.]
 [ 1. 47.]
 [ 1. 48.]
 [ 1. 49.]
 [ 1. 50.]
 [ 1. 51.]
 [ 1. 52.]
 [ 1. 53.]
 [ 1. 54.]
 [ 1. 55.]
 [ 1. 56.]
 [ 1. 57.]
 [ 1. 58.]
 [ 1. 59.]
 [ 1. 60.]
 [ 1. 61.]
 [ 1. 62.]
 [ 1. 63.]
 [ 1. 64.]
 [ 1. 65.]
 [ 1. 66.]
 [ 1. 67.]
 [ 1. 68.]
 [ 1. 69.]
 [ 1. 70.]
 [ 1. 71.]
 [ 1. 72.]
 [ 1. 73.]
 [ 1. 74.]
 [ 1. 75.]
 [ 1. 76.]
 [ 1. 77.]
 [ 1. 78.]
 [ 1. 79.]
 [ 1. 80.]
 [ 1. 81.]
 [ 1. 82.]
 [ 1. 83.]
 [ 1. 84.]
 [ 1. 85.]
 [ 1. 86.]
 [ 1. 87.]
 [ 1. 88.]
 [ 1. 89.]
 [ 1. 90.]

Vérifiez qu'à ce stade votre matrice $\ X $ est de dimension $\ 100 \times 2 $ et que la première colonne colonne ne contient que des $\ 1 $.

# Equation normale
Dans le cas de la régression linéaire ($\ \hat{Y}= X \cdot \theta $ ), l'équation normale donne une solution exacte à la problématique de minimisation de la fonction ***Loss*** lorque celle-ci correspond à une MSE (Mean Squared Error).<br>
\begin{equation}
\theta=(X^T \times X)^{-1} \times X^T \times Y
\end{equation}<br>
Pour calculer les $\ \theta_{j} $, on utilise les méthodes de calcul matriciel de la bibliothèque ***numpy***.

In [137]:
Theta=np.linalg.inv(X.transpose().dot(X)).dot(X.transpose()).dot(Y)
print(Theta)

[2. 5.]


En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [138]:
# Votre code ici
Y_101=np.dot(Theta,[1,101])
print(Y_101)

507.0000000000002


Les valeurs des paramètres $\ \theta_{j} $ obtenues avec l'équation normale sont optimales. Néanmoins, le calcul peut être long lorsque le nombre de variables est grand. La descente de gradient est une alternative à l'équation normale dans le cas linéaire lorsque le nombre de variables est grand. 
Par ailleurs, la descente de gradient s'applique à des modèles non-linéaires pour lesuqles il n'existe pas de solution exacte à la problamatique de minimisation de la ***loss***.

# Procédure générique de descente de gradient
La descente de gradient est une approche ittérative qui conssiste à mettre à jour les pramètres $\ \theta_{j} $ en effectuant un déplacement dans le sens opposé au gradient.<br>
De façon générique, la mise à jour des paramètres $\ \theta_{j} $ s’effectue comme suit :<br>

\begin{equation}
\theta^k=\theta^{k-1}- \eta \times \nabla_{\theta}MSE 
\end{equation}<br>

Avec :<br>
- $\ \theta $ : le vecteur des paramètres $\ \theta_{j} $
- $\ k $ : le numéro d'itération en cours
- $\ \eta $ : le pas de gradient
- $\ \nabla_{\theta}MSE$ : le vecteur gradient <br>

*Remarque: l'initialisation de $\ \theta $ est arbitraire.*<br>

Il existe de nombreuse variantes de la descente de gradient qui se différentient par la façon de calculer $\ \nabla_{\theta}MSE$. <br>
Nous pouvons donc écrire une fonction générique de descente de gradient dont un des arguments est lui-même une fonction qui précise la façons de calculer $\ \nabla_{\theta}MSE$.<br>
Ecrvivez la fonction ***Grad_Desc*** qui renvoie en sortie $\ \theta $ et qui prend comme arguments:<br>
- $\ X $: la matrice des données d'apprentissage
- $\ Y $: le vecteur des labels
- $\ \eta $ : le pas de gradient
- $\ K $ : le nombre total d'itérations
- $\ Grad $ : la fonction de calcul de $\ \nabla_{\theta}MSE$ <br>

*Remarque : dans un premier temps, faites comme si la fonction ***Grad*** était connue. Vous en préciserez le comportement dans un second temps.*



In [139]:
def Grad_Desc(X,Y,Eta,K,Grad):
    # Init Theta as np array 
    # with dimension based on X shape    
    Theta=np.array([1]*X.shape[1])
    # Loop through each iteration
    for i in range(K):
        # Re-compute Theta during each 
        # iteration based on k-1 Theta
        # and using the Grad function
        Theta=Theta-Eta*Grad(X,Y,Theta)
    # Return Theta array at the end of the loop
    return(Theta)

# Descente de gradient ordinaire
Les composantes du vecteur gradient correpondent aux dérivées partielles de la fonction ***Loss*** par rapport à chaque paramètre $\ \theta_{j} $. Le vecteur gradient s'écrit comme suit :

$$
\nabla_{\theta}MSE=\left[\begin{array}{c}
\dfrac{\partial MSE(\theta)}{\partial \theta_{0}}\\
\dfrac{\partial MSE(\theta)}{\partial \theta_{1}}\\
\ldots\\
\dfrac{\partial MSE(\theta)}{\partial \theta_{j}}\\
\ldots\\
\dfrac{\partial MSE(\theta)}{\partial \theta_{n}}
\end{array}\right]
$$

Dans le cas de la descente de gradient ordinaire, la totalité du jeu d'entrainement est utilisé pour le calcul des $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$ selon la formule ci-dessous. <br>

$\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}=\dfrac{2}{m}\times \sum_{i=1}^{m} x_{ij}\times(X_{i} \cdot \theta - y_{i}) $<br>

Le vecteur gradient $\nabla_{\theta}MSE $ peut s'obtenir directement à travers la formule matricielle: $\nabla_{\theta}MSE= \dfrac{2}{m} \times X^T\cdot(X\cdot \theta - Y) $

Ecrivez la fonction ***Grad_Regular*** qui calcule le gradient ordinaire en $\ \theta $ et renvoie en sortie le vecteur gradient $
\nabla_{\theta}MSE $

In [140]:
def Grad_Regular(X,Y,Theta):
    # m is based on the size of X
    m = X.shape[0]
    return (2/m)*X.transpose().dot(X.dot(Theta)-Y)

Testez la descente de gradient ordinaire sur votre jeu de donnée en utilisant la fonction ***Grad_Desc*** dont l'argument ***Grad*** est à remplacer par la fonction ***Grad_Regular***.
Réalisez votre test avec :
- $\ \eta =0.0001$
- $\ K=100$

In [141]:
eta=0.0001
K=100
Regular_Theta=Grad_Desc(X,Y,eta,K,Grad_Regular)
print(Regular_Theta)

[1.06527489 5.01409242]


Que constatez-vous au niveau des valeurs des paramètres $\ \theta_{j} $ ?<br>
Expliquez le phénomène observé.

En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [142]:
# Votre code ici
Regular_Raw_Y=np.dot(Regular_Theta,[1,101])
Regular_Rounded_Y=round(Regular_Raw_Y,2)
print(f"Y prediction for x=101 using regular gradient descent: {Regular_Rounded_Y}")

Y prediction for x=101 using regular gradient descent: 507.49


# Descente de gradient stochastique
Dans le cas de la descente de gradient stochastique, seule une instance $\ X_{i} $ du jeu d'entrainement, tirée au hasard à chaque itération, est utilisé pour le calcul des $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$ selon la formule ci-dessous.<br>

$\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}=2 \times x_{ij}\times(X_{i} \cdot \theta - y_{i}) $<br>

Pour une instance $\ i$ prise au hasard, le vecteur gradient $\nabla_{\theta}MSE $ peut s'obtenir directement à travers la formule matricielle: $\nabla_{\theta}MSE= 2 \times X_{i}\cdot(X_{i}\cdot \theta - Y) $

Ecrivez la fonction ***Grad_Stochastic*** qui calcule le gradient stochastique en $\ \theta $ et renvoie en sortie le vecteur gradient $
\nabla_{\theta}MSE $

In [143]:
import random 
def Grad_Stochastic(X,Y,Theta):
    # m is based on the size of X
    m=X.shape[0]
    # i is a random integer in the range 0, m
    # we use numpy instead of the random library 
    # to minimize import size as numpy provides the 
    # same function
    i=np.random.randint(m)
    # assign respectively, X[i] and Y[i] based 
    # on random array position i
    Xi,Yi=X[i],Y[i]
    # return the gradient computation
    return 2*Xi.dot(Xi.dot(Theta)-Yi)

Testez la descente de gradient stochastique sur votre jeu de donnée en utilisant la fonction ***Grad_Desc*** dont l'argument ***Grad*** est à remplacer par la fonction ***Grad_Stochastic***.
Réalisez votre test avec :
- $\ \eta =0.0001$
- $\ K=100$

In [144]:
Eta=0.0001
K=100
Stochastic_Theta=Grad_Desc(X,Y,Eta,K,Grad_Stochastic)
print(Stochastic_Theta)

[1.07549561 5.0170083 ]


Que constatez-vous au niveau des valeurs des paramètres $\ \theta_{j} $ ?<br>
Expliquez le phénomène observé.

En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [145]:
Stochastic_Raw_Y=np.dot(Stochastic_Theta,[1,101])
Stochastic_Rounded_Y=round(Stochastic_Raw_Y,2)
print(f"Y prediction for x=101 using stochastic gradient descent: {Stochastic_Rounded_Y}")

Y prediction for x=101 using stochastic gradient descent: 507.79


# Descente de gradient mini-batch

Dans le cas de la descente de gradient mini-batch, un sous-ensemble du jeu d'entrainement, constitué de $\ q $ exemples tirés aléatoirement, est utilisé à chaque itération pour le calcul des $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$. Le nombre $\ q $  est un hyperparamètre fixé par l'utilisateur avec $\ q \le m$.<br>

La formule pour le calcul $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$ devient:

$\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}=\dfrac{2}{m}\times \sum_{i\in \mathscr{E}} x_{ij}\times(X_{i} \cdot \theta - y_{i}) $<br>

Avec $\mathscr{E} $ l'ensemble des $\ q $ exemples tirés aléatoirement (cet ensemble est réactualisé à cahque itération).

Ecrivez la fonction ***Grad_Batch*** qui calcule le gradient mini_batch en $\ \theta $ et renvoie en sortie le vecteur gradient $
\nabla_{\theta}MSE $<br>

In [146]:
def Grad_Batch(X,Y,Theta,q):
    # m is based on the size of X
    m=X.shape[0]
    # create empty list to store random numbers
    # between 0 and m-1
    Rand_Instances=[]
    # while the length of the rand_instances 
    # list is inferior to the hyperparameter q
    while len(Rand_Instances)<q:
        # create a random integer
        # between 0 and m-1
        i=np.random.randint(m-1)
        # if the number is not already
        # in the rand_instances list
        # push i at the end of it
        # 'it allows us to have a 
        # unique array of 
        # gradient coefficients'
        if i not in Rand_Instances:
            Rand_Instances.append(i)
    # when we have our list of rand_instances
    # create an empty list of gradient coefficients
    Grad_Coefficients=[]
    # Loop through every k between 0 and the size
    # of Theta
    for k in range(len(Theta)):
        # Compute the gradient coefficient for a given i and k
        Coefficient=(2/m)*(sum([X[i][k]*(X[i].dot(Theta)-Y[i]) for i in Rand_Instances]))
        # Add the coefficient to the list of coefficients
        Grad_Coefficients.append(Coefficient)
    # Return the list of gradient coefficients as np array
    return np.array(Grad_Coefficients)

Testez la descente de gradient ordinaire sur votre jeu de donnée en utilisant la fonction ***Grad_Desc*** dont l'argument ***Grad*** est à remplacer par la fonction ***Grad_Batch***.
Réalisez votre test avec :
- $\ \eta =0.0001$
- $\ K=100$
- $\ q=10$

*Remarque : pensez à adapter la fonction ***Grad_Desc*** en ***Grad_Desc_Batch***  pour tenir compte de l'hyperparamètre $\ q $ spécifique à l'approche mini-batch. Dans la nouvelle fonction ***Grad_Desc_Batch***, le paramètre ***Grad*** prend par défaut la valeur ***Grad_Batch***.*

In [147]:
def Grad_Desc_Batch(X,Y,Eta,K,q,Grad=Grad_Batch):
    # Initialize Theta with a list filled with 1's
    # of the size of X 
    Theta=np.array([1]*X.shape[1])
    # for i between 0 and K
    for i in range(K):
        # Compute Theta based on the k-1
        # associated Theta value
        # using the Mini-Batch method
        Theta=Theta-Eta*Grad_Batch(X,Y,Theta,q)
    return Theta

In [148]:
Eta=0.0001
K=100
q=10
MiniBatch_Theta=Grad_Desc_Batch(X,Y,Eta,K,q)
print(MiniBatch_Theta)

[1.06098874 5.00869257]


En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [149]:
MiniBatch_Raw_Y=np.dot(MiniBatch_Theta,[1,101])
MiniBatch_Rounded_Y=round(MiniBatch_Raw_Y,2)
print(f"Y prediction for x=101 using mini-batch gradient descent: {MiniBatch_Rounded_Y}")

Y prediction for x=101 using mini-batch gradient descent: 506.94


# Tests sur jeu de donnée plus conséquent
Vous allez maintenant tester votre code sur un jeu de données plus conséquent et comparer vos résultats à ceux obtenus en utilisant la bibliothèque ***ScikitLearn***.<br>
L'objectif est d'entrainer un régresseur linéaire qui prédit les dépenses de santé par ménage à partir de la base de données HISP (Health Insurance Subsidy Program). La base HISP contient des informations concernant les dépenses de santé de ménages américains avant et après la mise en plce du programme d'assurance HISP (les données sont fictives). <br>


Pour des raisons de cohérence, vous n'utiliserez que les données décrivant la situation des ménages avant la mise en œuvre du programme HISP (rond=Before).<br>
De plus, seules les variables continues ci-dessous seront utilisées pour entraîner votre modèle :
- poverty_index 
- hhsize
- age_sp
- age_hh
- educ_hh
- educ_sp
- hospital_distance

### Importation et nettoyage des données
Comme il s'agit simplement de comparer vos résultats avec ceux obtenus avec les regérsseurs ScikitLearn, il n'est pas nécessaire de séparer les données en jeu de test et jeu d'entrainement.

In [150]:
import pandas as pd
data=pd.read_csv("datafinalexam.csv") # importation des données (le fichier datafinalexam.csv et le notebook doivent être dans le même dossier)
data=data.loc[data["round"]=="Before"] # filtre pour garder la situation avant la mise en place du dispositif
features=["poverty_index","hhsize","age_sp","age_hh","educ_hh","educ_sp","hospital_distance"] # liste des variables à utiliser
label=['health_expenditures'] # label
data=data[features+label] # selction des colonnes utiles
Train_set_features=data[features] # variables du jeu d'entrainement 
Train_set_label=data[label] # labeldu jeu d'entrainement 

### Entrainement d'un régresseur linéaire avec descente de gradient stochastique - ScikitLearn

In [151]:
# paramètres
eta=0.00001
K=1000

In [152]:
# Import de la classe SGDRegressor
from sklearn.linear_model import SGDRegressor 
# Create a Stochastic Gradient Regressor model 
# with corresponding args
reg = SGDRegressor(fit_intercept=True,learning_rate="constant",eta0=eta,max_iter=K)
# Fit our model with a feature and label training data sets
reg.fit(Train_set_features,Train_set_label.values.ravel())

SGDRegressor(eta0=1e-05, learning_rate='constant')

In [153]:
# Coefficient du modèle linéaire
Theta=np.concatenate((reg.intercept_,reg.coef_),axis=None)
print(Theta)

[ 0.51223593  0.24923264 -1.34539748  0.02926478  0.12667713  0.25464952
  0.2602398   0.00273023]


In [154]:
# Performance du modèle Scikit-Learn (RMSE sur jeu d'entrainement)
from sklearn.metrics import mean_squared_error
# Prédiction faites par le modèle
Pred=reg.predict(Train_set_features) 
# MSE entre prédictions et valeurs réelles
MSE=mean_squared_error(Pred,Train_set_label) 
# RMSE 
RMSE=MSE**(1/2)
print("RMSE: ",RMSE)
# SGDRegressor from SciKitLearn
# has a RMSE (Root Mean Squared Error) 
# that oscillate around 3

RMSE:  2.9813127469438


### Entrainement d'un régresseur linéaire avec descente de gradient stochastique - Votre approche

In [155]:
# Préparation des données dans un format compatible avec vos fonctions
X=Stand_Trans(Train_set_features.values,Train_set_features.shape[0],Train_set_features.shape[1])
Y=Train_set_label.values.reshape(Train_set_label.shape[0])

In [156]:
# Affichez les dimensions de X
print(f"X dimensions:{X.shape}")
# Affichez les dimensions de Y
print(f"Y dimensions:{Y.shape}")

X dimensions:(9913, 8)
Y dimensions:(9913,)


In [157]:
# Calcul des Theta
Stochastic_Theta=Grad_Desc(X,Y,eta,K,Grad_Stochastic)
print(Stochastic_Theta)

[ 0.97789129  0.02313109  0.60106723  0.07512959  0.19841781  0.81546044
  0.85736171 -0.00452756]


In [158]:
# Performance de votre modèle (RMSE sur jeu d'entrainement)
Pred=X.dot(Stochastic_Theta)
MSE=mean_squared_error(Pred,Y)
RMSE=MSE**(1/2)
print("RMSE: ",RMSE)
# Our model has a RMSE which oscillate
# around 7.5

RMSE:  7.889691630065824


### Comparaison des résultats
Comparer vos résultats à ceux obtenus avec ***SGDRegressor***.

In [125]:
# The RMSE (standard deviation of the residual)
# is higher when we use our model to predict Y
# than when we use the scikit learn model
# Therefore, the Stochastic Model from SciKit
# perform better the prediction of Y
# than our model

# We can conclude, that it's important to 
# compare the RSME when we use different techniques
# of gradient calculation, as the one with the lowest
# RMSE is best