# Descente de gradient
Dans ce notebook, vous allez programmer l'algorithme de descente de gradient dans sa version ordinaire, stochastique et mini-batch.
Dans un premier temps, vous utiliserez un jeu de données simple pour tester votre code dans le cas d'une régressison linéaire. Dans un second temps, vous implémenterz vos algorithmes sur un jeu de donnée plus conséquent et comparerez vos résultats à ceux obtenus en utilisant la bibliothèque ***ScikitLearn***.

# Un jeu de données simple pour tester votre code
Un je de donnée simple constitué de 100 instance est créé artificiellement à l'aide de la relation linéaire $\ y_{i} = 2+5\times x_{i}  $<br>
Ce jeu de donnée ne comporte qu'une seuler variables $\ x  $.

In [1]:
import numpy as np

In [2]:
# Crée un vecteur X de taille 100 
X=np.arange(100)

In [3]:
# Affichez X ainsi que ses dimensions
print('X = ',X)
print('Dimension de X = ',X.shape)

X =  [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]
Dimension de X =  (100,)


In [4]:
# Calcul de Y
Y=2+5*X

In [5]:
# Affichez le contenu de Y ainsi que ses dimensions
print('Y = ',Y)
print('Dimension de Y = ',np.shape(Y))

Y =  [  2   7  12  17  22  27  32  37  42  47  52  57  62  67  72  77  82  87
  92  97 102 107 112 117 122 127 132 137 142 147 152 157 162 167 172 177
 182 187 192 197 202 207 212 217 222 227 232 237 242 247 252 257 262 267
 272 277 282 287 292 297 302 307 312 317 322 327 332 337 342 347 352 357
 362 367 372 377 382 387 392 397 402 407 412 417 422 427 432 437 442 447
 452 457 462 467 472 477 482 487 492 497]
Dimension de Y =  (100,)


Maintenant que nous avons notre jeu de données avec les valeurs $\ x_{i} $ et leur label $\ y_{i} $ correspondant, il faut transformer le vecteur $\ X $ poour la faire correpondre à une matrice de forme générale :

$$\begin{bmatrix} 1 & x_{11} & x_{12} & ... & x_{1j} & ... & x_{1n}\\ 1 & x_{21} & x_{22} & ... & x_{2j} & ... & x_{2n} \\...&...&...&...&...&...&... \\1 & x_{i1} & x_{i2} & ... & x_{ij} & ... & x_{in}\\...&...&...&...&...&...&...\\1 & x_{m1} & x_{m2} & ... & x_{mj} & ... & x_{mn} \end{bmatrix}$$ <br>
Nous réaliserons cette transformation à l'aide d'une fonction ***Stand_Trans***  qui prend en entrée la matrice $\ X $ à transformer, le nombre de d'instances $\ m $ et le nombre de variables $\ n $

In [6]:
def Stand_Trans(X,m,n):
    X=X.reshape(m,n) # Transforme la matrice en entrée en une matrice de dimension m*n
    Ones=np.ones((m)).reshape(m,1) #crée une matrice de dimension m*1 remplie de 1
    X=np.hstack([Ones,X]) # Concatenation horizontale des matrice X et Ones pour donner lieu à une nouvelle matrice X
    return X

In [7]:
# Appliquez la fonction Stand_Trans au vecteur X
X=Stand_Trans(X,100,1)

In [8]:
# Affichez le contenu de la nouvelle matrice X
print('X = ',X)

X =  [[ 1.  0.]
 [ 1.  1.]
 [ 1.  2.]
 [ 1.  3.]
 [ 1.  4.]
 [ 1.  5.]
 [ 1.  6.]
 [ 1.  7.]
 [ 1.  8.]
 [ 1.  9.]
 [ 1. 10.]
 [ 1. 11.]
 [ 1. 12.]
 [ 1. 13.]
 [ 1. 14.]
 [ 1. 15.]
 [ 1. 16.]
 [ 1. 17.]
 [ 1. 18.]
 [ 1. 19.]
 [ 1. 20.]
 [ 1. 21.]
 [ 1. 22.]
 [ 1. 23.]
 [ 1. 24.]
 [ 1. 25.]
 [ 1. 26.]
 [ 1. 27.]
 [ 1. 28.]
 [ 1. 29.]
 [ 1. 30.]
 [ 1. 31.]
 [ 1. 32.]
 [ 1. 33.]
 [ 1. 34.]
 [ 1. 35.]
 [ 1. 36.]
 [ 1. 37.]
 [ 1. 38.]
 [ 1. 39.]
 [ 1. 40.]
 [ 1. 41.]
 [ 1. 42.]
 [ 1. 43.]
 [ 1. 44.]
 [ 1. 45.]
 [ 1. 46.]
 [ 1. 47.]
 [ 1. 48.]
 [ 1. 49.]
 [ 1. 50.]
 [ 1. 51.]
 [ 1. 52.]
 [ 1. 53.]
 [ 1. 54.]
 [ 1. 55.]
 [ 1. 56.]
 [ 1. 57.]
 [ 1. 58.]
 [ 1. 59.]
 [ 1. 60.]
 [ 1. 61.]
 [ 1. 62.]
 [ 1. 63.]
 [ 1. 64.]
 [ 1. 65.]
 [ 1. 66.]
 [ 1. 67.]
 [ 1. 68.]
 [ 1. 69.]
 [ 1. 70.]
 [ 1. 71.]
 [ 1. 72.]
 [ 1. 73.]
 [ 1. 74.]
 [ 1. 75.]
 [ 1. 76.]
 [ 1. 77.]
 [ 1. 78.]
 [ 1. 79.]
 [ 1. 80.]
 [ 1. 81.]
 [ 1. 82.]
 [ 1. 83.]
 [ 1. 84.]
 [ 1. 85.]
 [ 1. 86.]
 [ 1. 87.]
 [ 1. 88.]
 [ 1. 89.]
 [ 1.

Vérifiez qu'à ce stade votre matrice $\ X $ est de dimension $\ 100 \times 2 $ et que la première colonne colonne ne contient que des $\ 1 $.

In [9]:
#on a une colonne de 1 pour avoir l'intercept, cad la constante de la regression linéaireo

# Equation normale
Dans le cas de la régression linéaire ($\ \hat{Y}= X \cdot \theta $ ), l'équation normale donne une solution exacte à la problématique de minimisation de la fonction ***Loss*** lorque celle-ci correspond à une MSE (Mean Squared Error).<br>
\begin{equation}
\theta=(X^T \times X)^{-1} \times X^T \times Y
\end{equation}<br>
Pour calculer les $\ \theta_{j} $, on utilise les méthodes de calcul matriciel de la bibliothèque ***numpy***.

In [10]:
Theta=np.linalg.inv(X.transpose().dot(X)).dot(X.transpose()).dot(Y)
print(Theta)

[2. 5.]


En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [11]:
X1=[1,101]
y_hat = np.dot(X1,Theta)
print('prediction = ',y_hat)

prediction =  507.00000000000006


Les valeurs des paramètres $\ \theta_{j} $ obtenues avec l'équation normale sont optimales. Néanmoins, le calcul peut être long lorsque le nombre de variables est grand. La descente de gradient est une alternative à l'équation normale dans le cas linéaire lorsque le nombre de variables est grand. 
Par ailleurs, la descente de gradient s'applique à des modèles non-linéaires pour lesuqles il n'existe pas de solution exacte à la problamatique de minimisation de la ***loss***.

# Procédure générique de descente de gradient
La descente de gradient est une approche ittérative qui conssiste à mettre à jour les pramètres $\ \theta_{j} $ en effectuant un déplacement dans le sens opposé au gradient.<br>
De façon générique, la mise à jour des paramètres $\ \theta_{j} $ s’effectue comme suit :<br>

\begin{equation}
\theta^k=\theta^{k-1}- \eta \times \nabla_{\theta}MSE 
\end{equation}<br>

Avec :<br>
- $\ \theta $ : le vecteur des paramètres $\ \theta_{j} $
- $\ k $ : le numéro d'itération en cours
- $\ \eta $ : le pas de gradient
- $\ \nabla_{\theta}MSE$ : le vecteur gradient <br>

*Remarque: l'initialisation de $\ \theta $ est arbitraire.*<br>

Il existe de nombreuse variantes de la descente de gradient qui se différentient par la façon de calculer $\ \nabla_{\theta}MSE$. <br>
Nous pouvons donc écrire une fonction générique de descente de gradient dont un des arguments est lui-même une fonction qui précise la façons de calculer $\ \nabla_{\theta}MSE$.<br>
Ecrvivez la fonction ***Grad_Desc*** qui renvoie en sortie $\ \theta $ et qui prend comme arguments:<br>
- $\ X $: la matrice des données d'apprentissage
- $\ Y $: le vecteur des labels
- $\ \eta $ : le pas de gradient
- $\ K $ : le nombre total d'itérations
- $\ Grad $ : la fonction de calcul de $\ \nabla_{\theta}MSE$ <br>

*Remarque : dans un premier temps, faites comme si la fonction ***Grad*** était connue. Vous en préciserez le comportement dans un second temps.*



In [12]:
def Grad_Desc(X,Y,Eta,K,Grad_function):
    nb_colonne = len(X[0]) 
    Theta = np.zeros(nb_colonne) #initialisation de theta en fonction du nbre de variables avec que des 0
    print(Theta)
    for i in range (0,K):
        Theta = Theta - Eta * Grad_function(X,Y,Theta) # on fait un pas
        print('i = ',i,' Theta = ',Theta)
    return(Theta)

# Descente de gradient ordinaire
Les composantes du vecteur gradient correpondent aux dérivées partielles de la fonction ***Loss*** par rapport à chaque paramètre $\ \theta_{j} $. Le vecteur gradient s'écrit comme suit :

$$
\nabla_{\theta}MSE=\left[\begin{array}{c}
\dfrac{\partial MSE(\theta)}{\partial \theta_{0}}\\
\dfrac{\partial MSE(\theta)}{\partial \theta_{1}}\\
\ldots\\
\dfrac{\partial MSE(\theta)}{\partial \theta_{j}}\\
\ldots\\
\dfrac{\partial MSE(\theta)}{\partial \theta_{n}}
\end{array}\right]
$$

Dans le cas de la descente de gradient ordinaire, la totalité du jeu d'entrainement est utilisé pour le calcul des $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$ selon la formule ci-dessous. <br>

$\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}=\dfrac{2}{m}\times \sum_{i=1}^{m} x_{ij}\times(X_{i} \cdot \theta - y_{i}) $<br>

Le vecteur gradient $\nabla_{\theta}MSE $ peut s'obtenir directement à travers la formule matricielle: $\nabla_{\theta}MSE= \dfrac{2}{m} \times X^T\cdot(X\cdot \theta - Y) $

Ecrivez la fonction ***Grad_Regular*** qui calcule le gradient ordinaire en $\ \theta $ et renvoie en sortie le vecteur gradient $
\nabla_{\theta}MSE $

In [13]:
def Grad_Regular(X,Y,Theta): #calcul du vecteur gradient
    m = len(Y)
    Grad = 2/m * X.transpose().dot(X.dot(Theta)-Y)
    print('Grad = ',Grad)
    return(Grad)

Testez la descente de gradient ordinaire sur votre jeu de donnée en utilisant la fonction ***Grad_Desc*** dont l'argument ***Grad*** est à remplacer par la fonction ***Grad_Regular***.
Réalisez votre test avec :
- $\ \eta =0.0001$
- $\ K=100$

In [14]:
Theta = Grad_Desc(X,Y,0.0001,100,Grad_Regular)

[0. 0.]
Grad =  [  -499. -33033.]
i =  0  Theta =  [0.0499 3.3033]
Grad =  [  -171.8735 -11335.2888]
i =  1  Theta =  [0.06708735 4.43682888]
Grad =  [  -59.61976618 -3889.70309739]
i =  2  Theta =  [0.07304933 4.82579919]
Grad =  [  -21.09978156 -1334.74483765]
i =  3  Theta =  [0.0751593  4.95927367]
Grad =  [  -7.88158771 -458.00901493]
i =  4  Theta =  [0.07594746 5.00507457]
Grad =  [  -3.34572215 -157.15646711]
i =  5  Theta =  [0.07628204 5.02079022]
Grad =  [ -1.78920398 -53.91869251]
i =  6  Theta =  [0.07646096 5.02618209]
Grad =  [ -1.25505108 -18.49257402]
i =  7  Theta =  [0.07658646 5.02803135]
Grad =  [-1.07172359 -6.33607565]
i =  8  Theta =  [0.07669363 5.02866496]
Grad =  [-1.0087821  -2.16456471]
i =  9  Theta =  [0.07679451 5.02888141]
Grad =  [-0.98715115 -0.73310812]
i =  10  Theta =  [0.07689323 5.02895472]
Grad =  [-0.97969595 -0.24190322]
i =  11  Theta =  [0.0769912  5.02897891]
Grad =  [-0.97710517 -0.07334639]
i =  12  Theta =  [0.07708891 5.02898625]
Grad =

Que constatez-vous au niveau des valeurs des paramètres $\ \theta_{j} $ ?<br>
Expliquez le phénomène observé.

En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [15]:
prediction_regular = np.dot(X1, Theta)
print('prediction_regular = ',prediction_regular)

prediction_regular =  508.0007369661721


# Descente de gradient stochastique
Dans le cas de la descente de gradient stochastique, seule une instance $\ X_{i} $ du jeu d'entrainement, tirée au hasard à chaque itération, est utilisé pour le calcul des $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$ selon la formule ci-dessous.<br>

$\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}=2 \times x_{ij}\times(X_{i} \cdot \theta - y_{i}) $<br>

Pour une instance $\ i$ prise au hasard, le vecteur gradient $\nabla_{\theta}MSE $ peut s'obtenir directement à travers la formule matricielle: $\nabla_{\theta}MSE= 2 \times X_{i}\cdot(X_{i}\cdot \theta - Y) $

Ecrivez la fonction ***Grad_Stochastic*** qui calcule le gradient stochastique en $\ \theta $ et renvoie en sortie le vecteur gradient $
\nabla_{\theta}MSE $

In [16]:
import random # à utiliser pour le tirage aléatoire d'une instance Xi à chaque itération
def Grad_Stochastic(X,Y,Theta):
    i = random.randrange(0,len(Y)-1,1) #start,stop,step
    Grad = 2 * X[i].dot(X[i].dot(Theta) - Y[i])
    print('Grad = ',Grad)
    return(Grad)

Testez la descente de gradient stochastique sur votre jeu de donnée en utilisant la fonction ***Grad_Desc*** dont l'argument ***Grad*** est à remplacer par la fonction ***Grad_Stochastic***.
Réalisez votre test avec :
- $\ \eta =0.0001$
- $\ K=100$

In [17]:
Grad_Desc(X,Y,0.0001,100,Grad_Stochastic)

[0. 0.]
Grad =  [  -334. -11022.]
i =  0  Theta =  [0.0334 1.1022]
Grad =  [ -152.0496 -2888.9424]
i =  1  Theta =  [0.04860496 1.39109424]
Grad =  [  -408.1002352 -22853.6131712]
i =  2  Theta =  [0.08941498 3.67645556]
Grad =  [ -22.35079223 -156.45554563]
i =  3  Theta =  [0.09165006 3.69210111]
Grad =  [  -205.23312868 -15802.950908  ]
i =  4  Theta =  [0.11217338 5.2723962 ]
Grad =  [ 18.56083535 760.99424955]
i =  5  Theta =  [0.11031729 5.19629678]
Grad =  [  18.20587367 1019.52892537]
i =  6  Theta =  [0.1084967  5.09434388]
Grad =  [  6.9721963  397.41518901]
i =  7  Theta =  [0.10779949 5.05460237]
Grad =  [  2.33106397 130.53958245]
i =  8  Theta =  [0.10756638 5.04154841]
Grad =  [ -3.12009272 -24.96074174]
i =  9  Theta =  [0.10787839 5.04404448]
Grad =  [-3.78424322  0.        ]
i =  10  Theta =  [0.10825681 5.04404448]
Grad =  [ 0.35669493 16.76466191]
i =  11  Theta =  [0.10822114 5.04236802]
Grad =  [  2.23270053 158.52173785]
i =  12  Theta =  [0.10799787 5.02651584]


array([0.11612179, 5.02947972])

Que constatez-vous au niveau des valeurs des paramètres $\ \theta_{j} $ ?<br>
Expliquez le phénomène observé.

En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [18]:
prediction_stochastic=np.dot(X1,Theta)
print('prediction_stochastic =', prediction_stochastic)

prediction_stochastic = 508.0007369661721


# Descente de gradient mini-batch

Dans le cas de la descente de gradient mini-batch, un sous-ensemble du jeu d'entrainement, constitué de $\ q $ exemples tirés aléatoirement, est utilisé à chaque itération pour le calcul des $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$. Le nombre $\ q $  est un hyperparamètre fixé par l'utilisateur avec $\ q \le m$.<br>

La formule pour le calcul $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$ devient:

$\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}=\dfrac{2}{m}\times \sum_{i\in \mathscr{E}} x_{ij}\times(X_{i} \cdot \theta - y_{i}) $<br>

Avec $\mathscr{E} $ l'ensemble des $\ q $ exemples tirés aléatoirement (cet ensemble est réactualisé à cahque itération).

Ecrivez la fonction ***Grad_Batch*** qui calcule le gradient mini_batch en $\ \theta $ et renvoie en sortie le vecteur gradient $
\nabla_{\theta}MSE $<br>

In [19]:
import random

def Already_choose(j_history, j): #renvoie 1 si j a déjà été tiré, 0 sinon
    count = 0
    for i in j_history:
        if (j_history[count] == j):
            return (1)
        count+=1
    return (0)

def examples(q): #retourne une liste des exemples tirés, jamais 2 fois le même exemple
    j_history = np.zeros(q) #créer un tableau de 0 de taille q pour mettre l'historique des j tirés
    i = 0
    while i < q: #on parcours le nombre d'exemples demandé
        j = random.randrange(0, 99, 1) #on tire au hasard un exemple
        if (Already_choose(j_history, j) == 0): #s'il a pas déjà été tiré
            j_history[i] = j #on le rentre dans notre liste d'exemples
            i+=1 #on passe au suivant
    return(j_history)

In [20]:
import random
def Grad_Batch(X,Y,Theta,q):
    j_history = examples(q)
    count, sum, i = 0, 0, 0
    m = len(Y) 
    while count < q:
        i = int(j_history[count])
        #sum = sum + x[i][j].dot(X[i].dot(Theta) - Y[i]) #???? c'est quoi x[i][j]
        sum = sum + X[i].dot(X[i].dot(Theta) - Y[i]) 
        count+=1
    Grad = 2/m * sum
    return(Grad)

Testez la descente de gradient ordinaire sur votre jeu de donnée en utilisant la fonction ***Grad_Desc*** dont l'argument ***Grad*** est à remplacer par la fonction ***Grad_Batch***.
Réalisez votre test avec :
- $\ \eta =0.0001$
- $\ K=100$
- $\ q=10$

*Remarque : pensez à adapter la fonction ***Grad_Desc*** en ***Grad_Desc_Batch***  pour tenir compte de l'hyperparamètre $\ q $ spécifique à l'approche mini-batch. Dans la nouvelle fonction ***Grad_Desc_Batch***, le paramètre ***Grad*** prend par défaut la valeur ***Grad_Batch***.*

In [21]:
def Grad_Desc_Batch(X,Y,Eta,K,Grad_function,q):
    nb_colonne = len(X[0]) 
    Theta = np.zeros(nb_colonne) #initialisation de theta en fonction du nbre de variables avec que des 0
    print(Theta)
    for i in range (0,K):
        Theta = Theta - Eta * Grad_Batch(X,Y,Theta,q) # on fait un pas
        print('i = ',i,' Theta = ',Theta)
    return(Theta)

In [22]:
Grad_Desc_Batch(X,Y,0.0001,100,Grad_Batch,10)

[0. 0.]
i =  0  Theta =  [0.0052   0.320684]
i =  1  Theta =  [0.0101719  0.62560377]
i =  2  Theta =  [0.01440236 0.91579149]
i =  3  Theta =  [0.01881218 1.20736394]
i =  4  Theta =  [0.02168869 1.32925447]
i =  5  Theta =  [0.02559723 1.61878101]
i =  6  Theta =  [0.02989029 1.91683069]
i =  7  Theta =  [0.0323284  2.05110621]
i =  8  Theta =  [0.03535203 2.25149906]
i =  9  Theta =  [0.03785948 2.4245444 ]
i =  10  Theta =  [0.04009301 2.54759221]
i =  11  Theta =  [0.04177041 2.62987013]
i =  12  Theta =  [0.04409438 2.79037643]
i =  13  Theta =  [0.04664805 2.97319479]
i =  14  Theta =  [0.04903821 3.14185328]
i =  15  Theta =  [0.05139248 3.31824015]
i =  16  Theta =  [0.05295849 3.4185808 ]
i =  17  Theta =  [0.05468007 3.53149729]
i =  18  Theta =  [0.05639894 3.65203118]
i =  19  Theta =  [0.05796371 3.75955623]
i =  20  Theta =  [0.05917849 3.83900937]
i =  21  Theta =  [0.06022041 3.89866147]
i =  22  Theta =  [0.06197288 4.04119292]
i =  23  Theta =  [0.06295703 4.10359112

array([0.07767986, 5.02414401])

En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [23]:
prediction_batch=np.dot(X1,Theta)
print('prediction_batch =', prediction_batch)

prediction_batch = 508.0007369661721


# Tests sur jeu de donnée plus conséquent
Vous allez maintenant tester votre code sur un jeu de données plus conséquent et comparer vos résultats à ceux obtenus en utilisant la bibliothèque ***ScikitLearn***.<br>
L'objectif est d'entrainer un régresseur linéaire qui prédit les dépenses de santé par ménage à partir de la base de données HISP (Health Insurance Subsidy Program). La base HISP contient des informations concernant les dépenses de santé de ménages américains avant et après la mise en plce du programme d'assurance HISP (les données sont fictives). <br>


Pour des raisons de cohérence, vous n'utiliserez que les données décrivant la situation des ménages avant la mise en œuvre du programme HISP (rond=Before).<br>
De plus, seules les variables continues ci-dessous seront utilisées pour entraîner votre modèle :
- poverty_index 
- hhsize
- age_sp
- age_hh
- educ_hh
- educ_sp
- hospital_distance

### Importation et nettoyage des données
Comme il s'agit simplement de comparer vos résultats avec ceux obtenus avec les regérsseurs ScikitLearn, il n'est pas nécessaire de séparer les données en jeu de test et jeu d'entrainement.

In [24]:
import pandas as pd
data=pd.read_csv("datafinalexam.csv") # importation des données (le fichier datafinalexam.csv et le notebook doivent être dans le même dossier)
data=data.loc[data["round"]=="Before"] # filtre pour garder la situation avant la mise en place du dispositif
features=["poverty_index","hhsize","age_sp","age_hh","educ_hh","educ_sp","hospital_distance"] # liste des variables à utiliser
label=['health_expenditures'] # label
data=data[features+label] # selction des colonnes utiles
Train_set_features=data[features] # variables du jeu d'entrainement 
Train_set_label=data[label] # labeldu jeu d'entrainement 

### Entrainement d'un régresseur linéaire avec descente de gradient stochastique - ScikitLearn

In [25]:
# paramètres
eta=0.00001
K=1000

In [26]:
from sklearn.linear_model import SGDRegressor # import de la classe SGDRegressor
reg = SGDRegressor(fit_intercept=True,learning_rate="constant",eta0=eta,max_iter=K) # Instancition d'un régresseur
reg.fit(Train_set_features,Train_set_label) # entrainement

  y = column_or_1d(y, warn=True)


SGDRegressor(eta0=1e-05, learning_rate='constant')

In [27]:
# Coefficient du modèle linéaire
Theta=np.concatenate((reg.intercept_,reg.coef_),axis=None)
print(Theta)

[ 9.27127282e-01  2.56993225e-01 -1.36176485e+00  2.09903323e-02
  1.23333482e-01  2.49189297e-01  2.57853195e-01  3.51253679e-04]


In [28]:
# Performance du modèle Scikit-Learn (RMSE sur jeu d'entrainement)
from sklearn.metrics import mean_squared_error
Pred=reg.predict(Train_set_features) # prédiction faites par le modèle
MSE=mean_squared_error(Pred,Train_set_label) # MSE entre prédictions et valeurs réelles
RMSE=MSE**(1/2) # RMSE
print("RMSE: ",RMSE)

RMSE:  2.9509857107983577


### Entrainement d'un régresseur linéaire avec descente de gradient stochastique - Votre approche

In [29]:
# Préparation des données dans un format compatible avec vos fonctions
X=Stand_Trans(Train_set_features.values,Train_set_features.shape[0],Train_set_features.shape[1])
Y=Train_set_label.values.reshape(Train_set_label.shape[0])

In [30]:
# Affichez les dimensions de X et de Y
print("X =",X.shape)
print("Y =",Y.shape)

X = (9913, 8)
Y = (9913,)


In [31]:
# Calcul des Theta 
Theta=[10,20]

In [32]:
# Calcul des Theta
Theta=Grad_Desc(X,Y,eta,K,Grad_Stochastic)

[0. 0. 0. 0. 0. 0. 0. 0.]
Grad =  [  -22.8775177  -1142.10795306  -160.1426239   -800.71311951
 -1281.14099121  -137.2651062   -205.8976593  -2993.70719842]
i =  0  Theta =  [0.00022878 0.01142108 0.00160143 0.00800713 0.01281141 0.00137265
 0.00205898 0.02993707]
Grad =  [  -16.21551394  -597.74344251  -113.5085976   -454.03439041
  -567.54298802   -48.64654183   -48.64654183 -1380.56890649]
i =  1  Theta =  [0.00039093 0.01739851 0.00273651 0.01254748 0.01848684 0.00185912
 0.00254544 0.04374276]
Grad =  [  -46.06506344 -3129.1491652   -138.19519033 -1888.66760119
 -2902.09899696     0.           -92.13012689 -3822.54434951]
i =  2  Theta =  [0.00085158 0.04869001 0.00411846 0.03143415 0.04750783 0.00185912
 0.00346674 0.0819682 ]
Grad =  [  -6.99785349 -388.829713    -34.98926743 -167.94848365 -174.94633714
  -41.98712091  -41.98712091 -742.64946905]
i =  3  Theta =  [0.00092156 0.0525783  0.00446836 0.03311364 0.04925729 0.00227899
 0.00388661 0.0893947 ]
Grad =  [  12.54021447  58

i =  283  Theta =  [ 0.00210695  0.18632098 -0.03940182  0.04609064  0.11192191  0.0098701
  0.01711167 -0.01897323]
Grad =  [  -15.86558139 -1012.74887005   -31.73116277 -1047.12837156
 -1015.39720879     0.             0.         -1955.50744357]
i =  284  Theta =  [ 0.0022656   0.19644847 -0.03908451  0.05656192  0.12207588  0.0098701
  0.01711167  0.00058184]
Grad =  [  3.94544378 194.37561175  27.61810648 185.43585779 185.43585779
   7.89088757   3.94544378 306.89696823]
i =  285  Theta =  [ 0.00222615  0.19450472 -0.03936069  0.05470756  0.12022152  0.00979119
  0.01707221 -0.00248712]
Grad =  [  -19.21122129 -1278.2736424    -19.21122129  -787.66007275
 -1056.61717076     0.           -38.42244257 -1395.53267338]
i =  286  Theta =  [ 0.00241826  0.20728745 -0.03916858  0.06258416  0.13078769  0.00979119
  0.01745644  0.0114682 ]
Grad =  [  10.73317796  584.76744141   64.39906775  321.99533873  429.3271183
   32.19953387   32.19953387 1416.7955301 ]
i =  287  Theta =  [ 0.00231093

  0.02847961  0.0003372 ]
Grad =  [  0.90378169  46.55104195   4.51890843  37.05504917  40.67017591
   0.90378169   1.80756337 148.55287967]
i =  571  Theta =  [ 0.00236574  0.21529147 -0.07836913  0.02925774  0.10149266  0.0185195
  0.02846154 -0.00114833]
Grad =  [  -10.15506671  -532.08154289   -30.46520013  -203.1013342
  -243.72160104  -121.86080052   -60.93040026 -1669.16903137]
i =  572  Theta =  [ 0.00246729  0.22061229 -0.07806448  0.03128875  0.10392988  0.01973811
  0.02907084  0.01554336]
Grad =  [  -6.97481298 -431.38732952  -20.92443893 -285.96733204 -327.8162099
  -20.92443893  -13.94962595 -843.71063069]
i =  573  Theta =  [ 0.00253703  0.22492616 -0.07785523  0.03414842  0.10720804  0.01994735
  0.02921034  0.02398047]
Grad =  [  2.11531268 120.72321812   6.34593805  38.07562829  52.88281707
  12.6918761    0.         238.5374803 ]
i =  574  Theta =  [ 0.00251588  0.22371893 -0.07791869  0.03376767  0.10667921  0.01982043
  0.02921034  0.0215951 ]
Grad =  [ 0.17727854 

  0.0402098  -0.0077637 ]
Grad =  [  -2.83515037 -105.82516925  -17.0109022   -79.38421024  -93.55996207
    0.            0.         -293.46852508]
i =  855  Theta =  [ 0.00281366  0.22697512 -0.12194956 -0.00468649  0.1217321   0.02813834
  0.0402098  -0.00482901]
Grad =  [   -9.20236009  -519.02309279   -27.60708027  -377.29676375
  -708.58172703     0.           -18.40472018 -1324.51348689]
i =  856  Theta =  [ 0.00290568  0.23216535 -0.12167349 -0.00091352  0.12881792  0.02813834
  0.04039385  0.00841612]
Grad =  [  20.26943292 1390.97808143  162.15546338  648.62185354  729.69958523
  101.34716462  222.96376215 2677.83087361]
i =  857  Theta =  [ 0.00270299  0.21825557 -0.12329505 -0.00739974  0.12152093  0.02712487
  0.03816421 -0.01836219]
Grad =  [  -8.08252871 -495.32035075  -32.33011486 -468.78666546 -517.28183775
    0.          -24.24758614 -667.43791077]
i =  858  Theta =  [ 0.00278381  0.22320878 -0.12297175 -0.00271188  0.12669374  0.02712487
  0.03840669 -0.01168781]
Gr

In [33]:
#Nous avons fait 2 méthodes différentes du calcul du MSE

In [34]:
# Performance de votre modèle (RMSE sur jeu d'entrainement)
Pred_ent=np.dot(X,Theta)
print('prediction_ent =', Pred_ent)

MSE_ent=np.mean((Y-Pred_ent)**2)
print("MSE_ent =",MSE_ent)

RMSE_ent=MSE_ent**(1/2)
print("RMSE_ent = ",RMSE_ent)

prediction_ent = [14.33116176 12.32024274 17.04086156 ... 17.50437862 18.63628458
 18.81704171]
MSE_ent = 17.716360191762217
RMSE_ent =  4.209080682496145


In [35]:
# Performance de votre modèle (RMSE sur jeu d'entrainement)
somme = 0 
n = len(Y) 
for i in range (0,n): 
  somme = somme + (Y[i] - np.dot(X[i],Theta))**2
MSE_ent2 = somme/n  
print ("MSE_ent2 = " , MSE_ent2)

RMSE_ent2=MSE_ent2**(1/2)
print("RMSE_ent2 = ",RMSE_ent2)

MSE_ent2 =  17.716360191762227
RMSE_ent2 =  4.209080682496147


In [36]:
# Performance de votre modèle (RMSE sur jeu d'entrainement)
Pred=X.dot(Theta)
print("Pred =",Pred)

MSE=mean_squared_error(Pred,Y)
print("MSE =",MSE)

RMSE=MSE**(1/2)
print("RMSE = ",RMSE)

Pred = [14.33116176 12.32024274 17.04086156 ... 17.50437862 18.63628458
 18.81704171]
MSE = 17.716360191762217
RMSE =  4.209080682496145


### Comparaison des résultats
Comparer vos résultats à ceux obtenus avec ***SGDRegressor***.