# Descente de gradient
Dans ce notebook, vous allez programmer l'algorithme de descente de gradient dans sa version ordinaire, stochastique et mini-batch.
Dans un premier temps, vous utiliserez un jeu de données simple pour tester votre code dans le cas d'une régressison linéaire. Dans un second temps, vous implémenterz vos algorithmes sur un jeu de donnée plus conséquent et comparerez vos résultats à ceux obtenus en utilisant la bibliothèque ***ScikitLearn***.

# Un jeu de données simple pour tester votre code
Un je de donnée simple constitué de 100 instance est créé artificiellement à l'aide de la relation linéaire $\ y_{i} = 2+5\times x_{i}  $<br>
Ce jeu de donnée ne comporte qu'une seule variables $\ x  $.

In [161]:
import numpy as np

In [162]:
# Crée un vecteur X de taille 100 
X=np.arange(100)

In [163]:
# Affichez X ainsi que ses dimensions
print('X =', X) #on affiche X
print('Dimension =', X.shape) #montre que X est un tableau à une dimension 100x1
print('Taille =', len(X)) #donne la taille de X
print('Type =', type(X)) #affichons aussi le type de X

X = [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]
Dimension = (100,)
Taille = 100
Type = <class 'numpy.ndarray'>


In [164]:
# Clcul de Y
Y=2+5*X

In [165]:
# Affichez le contenu de Y ainsi que ses dimensions
print('Y =', Y)
print('Dimension =', Y.shape)
print('Taille =', len(Y))
print('Type =', type(X))

Y = [  2   7  12  17  22  27  32  37  42  47  52  57  62  67  72  77  82  87
  92  97 102 107 112 117 122 127 132 137 142 147 152 157 162 167 172 177
 182 187 192 197 202 207 212 217 222 227 232 237 242 247 252 257 262 267
 272 277 282 287 292 297 302 307 312 317 322 327 332 337 342 347 352 357
 362 367 372 377 382 387 392 397 402 407 412 417 422 427 432 437 442 447
 452 457 462 467 472 477 482 487 492 497]
Dimension = (100,)
Taille = 100
Type = <class 'numpy.ndarray'>


Maintenant que nous avons notre jeu de données avec les valeurs $\ x_{i} $ et leur label $\ y_{i} $ correspondant, il faut transformer le vecteur $\ X $ poour la faire correpondre à une matrice de forme générale :

$$\begin{bmatrix} 1 & x_{11} & x_{12} & ... & x_{1j} & ... & x_{1n}\\ 1 & x_{21} & x_{22} & ... & x_{2j} & ... & x_{2n} \\...&...&...&...&...&...&... \\1 & x_{i1} & x_{i2} & ... & x_{ij} & ... & x_{in}\\...&...&...&...&...&...&...\\1 & x_{m1} & x_{m2} & ... & x_{mj} & ... & x_{mn} \end{bmatrix}$$ <br>
Nous réaliserons cette transformation à l'aide d'une fonction ***Stand_Trans***  qui prend en entrée la matrice $\ X $ à transformer, le nombre de d'instances $\ m $ et le nombre de variables $\ n $

In [166]:
def Stand_Trans(X,m,n):
    X=X.reshape(m,n) # Transorme la matrice en entrée en une matrice de dimension m*n
    Ones=np.ones((m)).reshape(m,1) #crée une matrice de dimension m*1 remplie de 1
    X=np.hstack([Ones,X]) # Concatenation horizontale des matrice X et Ones pour donner lieu à une nouvelle matrice X
    return X

In [167]:
# Appliquez la fonction Stand_Trans au vecteur X
X=Stand_Trans(X,100,1)

In [168]:
# Affichez le contenu de la nouvelle matrice X
print('X =', X)

X = [[ 1.  0.]
 [ 1.  1.]
 [ 1.  2.]
 [ 1.  3.]
 [ 1.  4.]
 [ 1.  5.]
 [ 1.  6.]
 [ 1.  7.]
 [ 1.  8.]
 [ 1.  9.]
 [ 1. 10.]
 [ 1. 11.]
 [ 1. 12.]
 [ 1. 13.]
 [ 1. 14.]
 [ 1. 15.]
 [ 1. 16.]
 [ 1. 17.]
 [ 1. 18.]
 [ 1. 19.]
 [ 1. 20.]
 [ 1. 21.]
 [ 1. 22.]
 [ 1. 23.]
 [ 1. 24.]
 [ 1. 25.]
 [ 1. 26.]
 [ 1. 27.]
 [ 1. 28.]
 [ 1. 29.]
 [ 1. 30.]
 [ 1. 31.]
 [ 1. 32.]
 [ 1. 33.]
 [ 1. 34.]
 [ 1. 35.]
 [ 1. 36.]
 [ 1. 37.]
 [ 1. 38.]
 [ 1. 39.]
 [ 1. 40.]
 [ 1. 41.]
 [ 1. 42.]
 [ 1. 43.]
 [ 1. 44.]
 [ 1. 45.]
 [ 1. 46.]
 [ 1. 47.]
 [ 1. 48.]
 [ 1. 49.]
 [ 1. 50.]
 [ 1. 51.]
 [ 1. 52.]
 [ 1. 53.]
 [ 1. 54.]
 [ 1. 55.]
 [ 1. 56.]
 [ 1. 57.]
 [ 1. 58.]
 [ 1. 59.]
 [ 1. 60.]
 [ 1. 61.]
 [ 1. 62.]
 [ 1. 63.]
 [ 1. 64.]
 [ 1. 65.]
 [ 1. 66.]
 [ 1. 67.]
 [ 1. 68.]
 [ 1. 69.]
 [ 1. 70.]
 [ 1. 71.]
 [ 1. 72.]
 [ 1. 73.]
 [ 1. 74.]
 [ 1. 75.]
 [ 1. 76.]
 [ 1. 77.]
 [ 1. 78.]
 [ 1. 79.]
 [ 1. 80.]
 [ 1. 81.]
 [ 1. 82.]
 [ 1. 83.]
 [ 1. 84.]
 [ 1. 85.]
 [ 1. 86.]
 [ 1. 87.]
 [ 1. 88.]
 [ 1. 89.]
 [ 1. 

Vérifiez qu'à ce stade votre matrice $\ X $ est de dimension $\ 100 \times 2 $ et que la première colonne colonne ne contient que des $\ 1 $.

# Equation normale
Dans le cas de la régression linéaire ($\ \hat{Y}= X \cdot \theta $ ), l'équation normale donne une solution exacte à la problématique de minimisation de la fonction ***Loss*** lorque celle-ci correspond à une MSE (Mean Squared Error).<br>
\begin{equation}
\theta=(X^T \times X)^{-1} \times X^T \times Y
\end{equation}<br>
Pour calculer les $\ \theta_{j} $, on utilise les méthodes de calcul matriciel de la bibliothèque ***numpy***.

In [169]:
Theta=np.linalg.inv(X.transpose().dot(X)).dot(X.transpose()).dot(Y)
print(Theta)

[2. 5.]


En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [170]:
X1 = [1 , 101]
prediction = np.dot(X1, Theta)
print('prediction =', prediction)

prediction = 507.00000000000006


Les valeurs des paramètres $\ \theta_{j} $ obtenues avec l'équation normale sont optimales. Néanmoins, le calcul peut être long lorsque le nombre de variables est grand. La descente de gradient est une alternative à l'équation normale dans le cas linéaire lorsque le nombre de variables est grand. 
Par ailleurs, la descente de gradient s'applique à des modèles non-linéaires pour lesuqles il n'existe pas de solution exacte à la problamatique de minimisation de la ***loss***.

# Procédure générique de descente de gradient
La descente de gradient est une approche ittérative qui conssiste à mettre à jour les pramètres $\ \theta_{j} $ en effectuant un déplacement dans le sens opposé au gradient.<br>
De façon générique, la mise à jour des paramètres $\ \theta_{j} $ s’effectue comme suit :<br>

\begin{equation}
\theta^k=\theta^{k-1}- \eta \times \nabla_{\theta}MSE 
\end{equation}<br>

Avec :<br>
- $\ \theta $ : le vecteur des paramètres $\ \theta_{j} $
- $\ k $ : le numéro d'itération en cours
- $\ \eta $ : le pas de gradient
- $\ \nabla_{\theta}MSE$ : le vecteur gradient <br>

*Remarque: l'initialisation de $\ \theta $ est arbitraire.*<br>

Il existe de nombreuse variantes de la descente de gradient qui se différentient par la façon de calculer $\ \nabla_{\theta}MSE$. <br>
Nous pouvons donc écrire une fonction générique de descente de gradient dont un des arguments est lui-même une fonction qui précise la façons de calculer $\ \nabla_{\theta}MSE$.<br>
Ecrvivez la fonction ***Grad_Desc*** qui renvoie en sortie $\ \theta $ et qui prend comme arguments:<br>
- $\ X $: la matrice des données d'apprentissage
- $\ Y $: le vecteur des labels
- $\ \eta $ : le pas de gradient
- $\ K $ : le nombre total d'itérations
- $\ Grad $ : la fonction de calcul de $\ \nabla_{\theta}MSE$ <br>

*Remarque : dans un premier temps, faites comme si la fonction ***Grad*** était connue. Vous en préciserez le comportement dans un second temps.*



In [171]:
#Eta = learning_rate
#K = nb_iterations
#Grad = gradient
##il faut envoyer la fonction à Grad_Desc et non pas une chaîne de caractères

In [172]:
def Grad_Desc(X,Y,Eta,K,Grad_function): #algorithme de gradient
    nb_column = len(X[0])
    Theta = np.zeros(nb_column)
    for i in range(0, K):
        #Grad = Grad_function(X,Y,Theta)
        #if Grad_function == 'stochastic':
        #    Grad = Grad_Stochastic(X,Y,Theta) #on recalcule la dérivée à chaque fois
        #elif Grad_function == 'regular':
        #    Grad = Grad_Regular(X,Y,Theta) #on recalcule la dérivée à chaque fois
        #else :
        #    print('Syntax Error :"', Grad_function, '"')
        #    return
        Theta = Theta - Eta * Grad_function(X,Y,Theta) #on fait un petit pas
        print('i =', i, 'Theta =', Theta)
    return(Theta)

# Descente de gradient ordinaire
Les composantes du vecteur gradient correpondent aux dérivées partielles de la fonction ***Loss*** par rapport à chaque paramètre $\ \theta_{j} $. Le vecteur gradient s'écrit comme suit :

$$
\nabla_{\theta}MSE=\left[\begin{array}{c}
\dfrac{\partial MSE(\theta)}{\partial \theta_{0}}\\
\dfrac{\partial MSE(\theta)}{\partial \theta_{1}}\\
\ldots\\
\dfrac{\partial MSE(\theta)}{\partial \theta_{j}}\\
\ldots\\
\dfrac{\partial MSE(\theta)}{\partial \theta_{n}}
\end{array}\right]
$$

Dans le cas de la descente de gradient ordinaire, la totalité du jeu d'entrainement est utilisé pour le calcul des $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$ selon la formule ci-dessous. <br>

$\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}=\dfrac{2}{m}\times \sum_{i=1}^{m} x_{ij}\times(X_{i} \cdot \theta - y_{i}) $<br>

Le vecteur gradient $\nabla_{\theta}MSE $ peut s'obtenir directement à travers la formule matricielle: $\nabla_{\theta}MSE= \dfrac{2}{m} \times X^T\cdot(X\cdot \theta - Y) $

Ecrivez la fonction ***Grad_Regular*** qui calcule le gradient ordinaire en $\ \theta $ et renvoie en sortie le vecteur gradient $
\nabla_{\theta}MSE $

In [173]:
def Grad_Regular(X,Y,Theta): #calcule le vecteur de gradient
    m = len(Y)
    Grad = 2/m * X.transpose().dot(X.dot(Theta) - Y)
    print('Grad =', Grad)
    return(Grad)

Testez la descente de gradient ordinaire sur votre jeu de donnée en utilisant la fonction ***Grad_Desc*** dont l'argument ***Grad*** est à remplacer par la fonction ***Grad_Regular***.
Réalisez votre test avec :
- $\ \eta =0.0001$
- $\ K=100$

In [174]:
Theta = Grad_Desc(X,Y,0.0001,100, Grad_Regular)
#Theta = Grad_Desc(X,Y,0.0001,100,'regular')

Grad = [  -499. -33033.]
i = 0 Theta = [0.0499 3.3033]
Grad = [  -171.8735 -11335.2888]
i = 1 Theta = [0.06708735 4.43682888]
Grad = [  -59.61976618 -3889.70309739]
i = 2 Theta = [0.07304933 4.82579919]
Grad = [  -21.09978156 -1334.74483765]
i = 3 Theta = [0.0751593  4.95927367]
Grad = [  -7.88158771 -458.00901493]
i = 4 Theta = [0.07594746 5.00507457]
Grad = [  -3.34572215 -157.15646711]
i = 5 Theta = [0.07628204 5.02079022]
Grad = [ -1.78920398 -53.91869251]
i = 6 Theta = [0.07646096 5.02618209]
Grad = [ -1.25505108 -18.49257402]
i = 7 Theta = [0.07658646 5.02803135]
Grad = [-1.07172359 -6.33607565]
i = 8 Theta = [0.07669363 5.02866496]
Grad = [-1.0087821  -2.16456471]
i = 9 Theta = [0.07679451 5.02888141]
Grad = [-0.98715115 -0.73310812]
i = 10 Theta = [0.07689323 5.02895472]
Grad = [-0.97969595 -0.24190322]
i = 11 Theta = [0.0769912  5.02897891]
Grad = [-0.97710517 -0.07334639]
i = 12 Theta = [0.07708891 5.02898625]
Grad = [-0.97618362 -0.01550647]
i = 13 Theta = [0.07718653 5.0289

Que constatez-vous au niveau des valeurs des paramètres $\ \theta_{j} $ ?<br>
Expliquez le phénomène observé.

En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [175]:
prediction_regular = np.dot(X1, Theta)
print('prediction_regular =', prediction_regular)

prediction_regular = 508.0007369661721


# Descente de gradient stochastique
Dans le cas de la descente de gradient stochastique, seule une instance $\ X_{i} $ du jeu d'entrainement, tirée au hasard à chaque itération, est utilisé pour le calcul des $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$ selon la formule ci-dessous.<br>

$\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}=2 \times x_{ij}\times(X_{i} \cdot \theta - y_{i}) $<br>

Pour une instance $\ i$ prise au hasard, le vecteur gradient $\nabla_{\theta}MSE $ peut s'obtenir directement à travers la formule matricielle: $\nabla_{\theta}MSE= 2 \times X_{i}\cdot(X_{i}\cdot \theta - Y) $

Ecrivez la fonction ***Grad_Stochastic*** qui calcule le gradient stochastique en $\ \theta $ et renvoie en sortie le vecteur gradient $
\nabla_{\theta}MSE $

In [176]:
import random # à utiliser pour le tirage aléatoire d'une instance Xi à chaque itération
def Grad_Stochastic(X,Y,Theta):
    i = random.randrange(0, (len(Y) - 1), 1)
    #Xi = Xi.reshape(2, 1)
    #Theta = np.reshape(Theta, (2, 1))
    Grad = 2 * X[i].dot(X[i].dot(Theta) - Y[i]) #impossible avec X.shape(2,) et Y(100,) donc j'ai mis Y[i]
    print('Grad =', Grad)
    return(Grad)

Testez la descente de gradient stochastique sur votre jeu de donnée en utilisant la fonction ***Grad_Desc*** dont l'argument ***Grad*** est à remplacer par la fonction ***Grad_Stochastic***.
Réalisez votre test avec :
- $\ \eta =0.0001$
- $\ K=100$

In [177]:
Grad_Desc(X,Y,0.0001,100, Grad_Stochastic)

Grad = [  -414. -16974.]
i = 0 Theta = [0.0414 1.6974]
Grad = [-3.9172  0.    ]
i = 1 Theta = [0.04179172 1.6974    ]
Grad = [ -175.65161656 -4566.94203056]
i = 2 Theta = [0.05935688 2.1540942 ]
Grad = [ -72.18302536 -866.19630436]
i = 3 Theta = [0.06657518 2.24071383]
Grad = [  -478.46407027 -41147.91004331]
i = 4 Theta = [0.11442159 6.35550484]
Grad = [  64.00408507 1600.10212684]
i = 5 Theta = [0.10802118 6.19549463]
Grad = [0.99802087 1.99604173]
i = 6 Theta = [0.10792138 6.19529502]
Grad = [  230.49366687 22588.37935331]
i = 7 Theta = [0.08487201 3.93645709]
Grad = [  -50.6261442  -1113.77517249]
i = 8 Theta = [0.08993463 4.0478346 ]
Grad = [  -186.63588699 -17917.045151  ]
i = 9 Theta = [0.10859822 5.83953912]
Grad = [  91.92465588 5239.7053854 ]
i = 10 Theta = [0.09940575 5.31556858]
Grad = [  8.82155468 176.43109361]
i = 11 Theta = [0.0985236  5.29792547]
Grad = [ 10.49746976 251.93927414]
i = 12 Theta = [0.09747385 5.27273154]
Grad = [  48.0139408  4561.32437647]
i = 13 Theta 

array([0.10199654, 5.02338049])

Que constatez-vous au niveau des valeurs des paramètres $\ \theta_{j} $ ?<br>
Expliquez le phénomène observé.

En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [178]:
prediction_stochastic = np.dot(X1, Theta)
print('prediction_stochastic =', prediction_stochastic)

prediction_stochastic = 508.0007369661721


# Descente de gradient mini-batch

Dans le cas de la descente de gradient mini-batch, un sous-ensemble du jeu d'entrainement, constitué de $\ q $ exemples tirés aléatoirement, est utilisé à chaque itération pour le calcul des $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$. Le nombre $\ q $  est un hyperparamètre fixé par l'utilisateur avec $\ q \le m$.<br>

La formule pour le calcul $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$ devient:

$\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}=\dfrac{2}{m}\times \sum_{i\in \mathscr{E}} x_{ij}\times(X_{i} \cdot \theta - y_{i}) $<br>

Avec $\mathscr{E} $ l'ensemble des $\ q $ exemples tirés aléatoirement (cet ensemble est réactualisé à cahque itération).

Ecrivez la fonction ***Grad_Batch*** qui calcule le gradient mini_batch en $\ \theta $ et renvoie en sortie le vecteur gradient $
\nabla_{\theta}MSE $<br>

In [179]:
import random

def Already_choose(j_history, j): #renvoie 1 si j a déjà été tiré, 0 sinon
    count = 0
    for i in j_history:
        if (j_history[count] == j):
            return (1)
        count+=1
    return (0)

def examples(q): #retourne une liste des exemples tirés, jamais 2 fois le même exemple
    j_history = np.zeros(q) #créer un tableau de 0 de taille q pour mettre l'historique des j tirés
    i = 0
    while i < q: #on parcours le nombre d'exemples demandé
        j = random.randrange(0, 99, 1) #on tire au hasard un exemple
        if (Already_choose(j_history, j) == 0): #s'il a pas déjà été tiré
            j_history[i] = j #on le rentre dans notre liste d'exemples
            i+=1 #on passe au suivant
    return(j_history)

In [180]:
def Grad_Batch(X,Y,Theta,q):
    j_history = examples(q)
    count, sum, i = 0, 0, 0
    m = len(Y) 
    while count < q:
        i = int(j_history[count])
        #sum = sum + x[i][j].dot(X[i].dot(Theta) - Y[i]) #???? c'est quoi x[i][j]
        sum = sum + X[i].dot(X[i].dot(Theta) - Y[i]) #???? 
        count+=1
    Grad = 2/m * sum
    return(Grad)

Testez la descente de gradient ordinaire sur votre jeu de donnée en utilisant la fonction ***Grad_Desc*** dont l'argument ***Grad*** est à remplacer par la fonction ***Grad_Batch***.
Réalisez votre test avec :
- $\ \eta =0.0001$
- $\ K=100$
- $\ q=10$

*Remarque : pensez à adapter la fonction ***Grad_Desc*** en ***Grad_Desc_Batch***  pour tenir compte de l'hyperparamètre $\ q $ spécifique à l'approche mini-batch. Dans la nouvelle fonction ***Grad_Desc_Batch***, le paramètre ***Grad*** prend par défaut la valeur ***Grad_Batch***.*

In [181]:
def Grad_Desc_Batch(X,Y,Eta,K,q,Grad=Grad_Batch):
    nb_column = len(X[0])
    Theta = np.zeros(nb_column)
    for i in range(0, K):
        Theta = Theta - Eta * Grad_Batch(X,Y,Theta,q) #on fait un petit pas
        print('i =', i, 'Theta =', Theta)
    return(Theta)

In [182]:
Grad_Desc_Batch(X,Y,0.0001,100,10,Grad=Grad_Batch)

i = 0 Theta = [0.00482  0.305712]
i = 1 Theta = [0.00899088 0.5466699 ]
i = 2 Theta = [0.01306541 0.81511244]
i = 3 Theta = [0.01785082 1.13542545]
i = 4 Theta = [0.02177049 1.38870562]
i = 5 Theta = [0.02609305 1.68667958]
i = 6 Theta = [0.02924042 1.87328848]
i = 7 Theta = [0.03182498 2.02050363]
i = 8 Theta = [0.03498686 2.22473107]
i = 9 Theta = [0.03780698 2.41794379]
i = 10 Theta = [0.04112027 2.65761954]
i = 11 Theta = [0.04303804 2.77127346]
i = 12 Theta = [0.04581851 2.97855844]
i = 13 Theta = [0.04777392 3.11362401]
i = 14 Theta = [0.05053689 3.32349165]
i = 15 Theta = [0.05232951 3.46043941]
i = 16 Theta = [0.05335378 3.50694285]
i = 17 Theta = [0.05487084 3.60147839]
i = 18 Theta = [0.05606212 3.67781817]
i = 19 Theta = [0.05721692 3.74952391]
i = 20 Theta = [0.05842122 3.82785872]
i = 21 Theta = [0.05972831 3.92739493]
i = 22 Theta = [0.06092124 4.00250132]
i = 23 Theta = [0.06203931 4.08150855]
i = 24 Theta = [0.06287532 4.13721636]
i = 25 Theta = [0.06366641 4.18174447]


array([0.07710267, 5.02297201])

En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [183]:
prediction_batch = np.dot(X1, Theta)
print('prediction_batch =', prediction_batch)

prediction_batch = 508.0007369661721


# Tests sur jeu de donnée plus conséquent
Vous allez maintenant tester votre code sur un jeu de données plus conséquent et comparer vos résultats à ceux obtenus en utilisant la bibliothèque ***ScikitLearn***.<br>
L'objectif est d'entrainer un régresseur linéaire qui prédit les dépenses de santé par ménage à partir de la base de données HISP (Health Insurance Subsidy Program). La base HISP contient des informations concernant les dépenses de santé de ménages américains avant et après la mise en plce du programme d'assurance HISP (les données sont fictives). <br>


Pour des raisons de cohérence, vous n'utiliserez que les données décrivant la situation des ménages avant la mise en œuvre du programme HISP (rond=Before).<br>
De plus, seules les variables continues ci-dessous seront utilisées pour entraîner votre modèle :
- poverty_index 
- hhsize
- age_sp
- age_hh
- educ_hh
- educ_sp
- hospital_distance

### Importation et nettoyage des données
Comme il s'agit simplement de comparer vos résultats avec ceux obtenus avec les regérsseurs ScikitLearn, il n'est pas nécessaire de séparer les données en jeu de test et jeu d'entrainement.

In [184]:
import pandas as pd
data=pd.read_csv("datafinalexam.csv") # importation des données (le fichier datafinalexam.csv et le notebook doivent être dans le même dossier)
data=data.loc[data["round"]=="Before"] # filtre pour garder la situation avant la mise en place du dispositif
features=["poverty_index","hhsize","age_sp","age_hh","educ_hh","educ_sp","hospital_distance"] # liste des variables à utiliser
label=['health_expenditures'] # label
data=data[features+label] # selction des colonnes utiles
Train_set_features=data[features] # variables du jeu d'entrainement 
Train_set_label=data[label] # labeldu jeu d'entrainement 

### Entrainement d'un régresseur linéaire avec descente de gradient stochastique - ScikitLearn

In [201]:
# paramètres
eta=0.00001
K=1000

In [202]:
#pip install scikit-learn
from sklearn.linear_model import SGDRegressor # import de la classe SGDRegressor
reg = SGDRegressor(fit_intercept=True,learning_rate="constant",eta0=eta,max_iter=K) # Instancition d'un régresseur
reg.fit(Train_set_features,Train_set_label) # entrainement

  y = column_or_1d(y, warn=True)


SGDRegressor(eta0=1e-05, learning_rate='constant')

In [203]:
# Coefficient du modèle linéaire
Theta=np.concatenate((reg.intercept_,reg.coef_),axis=None)
print(Theta)

[ 0.27586821  0.25440563 -1.33837166  0.01672262  0.13630549  0.25495911
  0.26450165  0.00698213]


In [204]:
# Performance du modèle Scikit-Learn (RMSE sur jeu d'entrainement)
from sklearn.metrics import mean_squared_error
Pred=reg.predict(Train_set_features) # prédiction faites par le modèle
MSE=mean_squared_error(Pred,Train_set_label) # MSE entre prédictions et valeurs réelles
RMSE=MSE**(1/2) # RMSE
print("RMSE: ",RMSE)

RMSE:  2.948355933553478


### Entrainement d'un régresseur linéaire avec descente de gradient stochastique - Votre approche

In [205]:
# Préparation des données dans un format compatible avec vos fonctions
X=Stand_Trans(Train_set_features.values,Train_set_features.shape[0],Train_set_features.shape[1])
Y=Train_set_label.values.reshape(Train_set_label.shape[0])

In [206]:
# Affichez les dimensions de X et de Y
print('Dimensions de X :', X.shape)
print('Dimensions de Y :', Y.shape)

Dimensions de X : (9913, 8)
Dimensions de Y : (9913,)


In [207]:
# Calcul des Theta 
Theta=[20,10]

In [208]:
# Calcul des Theta
Theta=Grad_Desc(X,Y,eta,K,Grad_Stochastic)

Grad = [  -30.18192673 -1289.84584194  -181.09156036 -1146.91321564
 -1207.27706909  -120.72770691     0.         -4927.30040178]
i = 0 Theta = [0.00030182 0.01289846 0.00181092 0.01146913 0.01207277 0.00120728
 0.         0.049273  ]
Grad = [  -21.57040641 -1021.84386035  -129.42243845  -690.25300507
  -733.39381789  -194.13365768     0.         -1744.2340611 ]
i = 1 Theta = [0.00051752 0.0231169  0.00310514 0.01837166 0.01940671 0.00314861
 0.         0.06671534]
Grad = [  -10.1050595   -542.47926293   -50.52529752  -616.40862979
  -828.61487939     0.             0.         -1239.21909616]
i = 2 Theta = [0.00061857 0.02854169 0.00361039 0.02453575 0.02769286 0.00314861
 0.         0.07910754]
Grad = [  -18.28379485 -1517.52665558   -73.13517942  -749.63558903
  -749.63558903   -54.85138456   -36.56758971 -2468.33945076]
i = 3 Theta = [0.00080141 0.04371696 0.00434174 0.0320321  0.03518921 0.00369713
 0.00036568 0.10379093]
Grad = [  -3.0910619  -190.38457534   -6.18212379 -213.28327

i = 266 Theta = [ 2.61877646e-03  2.00928034e-01 -3.46169751e-02  4.56794099e-02
  7.20707547e-02  7.81028927e-03  1.53486962e-02  1.60178824e-04]
Grad = [  -23.23483485 -1323.34413868   -23.23483485  -952.62822892
 -1370.85525625     0.           -46.4696697  -1791.0030025 ]
i = 267 Theta = [ 0.00285112  0.21416148 -0.03438463  0.05520569  0.08577931  0.00781029
  0.01581339  0.01807021]
Grad = [  18.02445149  919.9991679   144.19561193 1045.41818648 1081.46708947
   51.18718457    0.         2889.50699747]
i = 268 Theta = [ 0.00267088  0.20496148 -0.03582658  0.04475151  0.07496464  0.00729842
  0.01581339 -0.01082486]
Grad = [  -8.15438428 -388.18398496  -32.6175371  -179.39645406 -171.24206978
  -48.92630565  -48.92630565 -659.38279192]
i = 269 Theta = [ 0.00275242  0.20884332 -0.03550041  0.04654547  0.07667706  0.00778768
  0.01630266 -0.00423103]
Grad = [  19.7238803  1669.06098855  157.79104237  769.23133154  788.95521184
  118.34328178   39.44776059 2112.24096368]
i = 270 Thet

  0.02552915  0.00146299]
Grad = [ -1.1735484  -60.40055895  -5.86774201 -31.68580684 -43.42129086
  -2.3470968   -1.1735484  -86.49036134]
i = 540 Theta = [ 0.00314261  0.24661085 -0.08300568  0.01275454  0.07663696  0.01387556
  0.02554088  0.00232789]
Grad = [  13.10510312  749.18857636   91.73572186  537.30922804  576.6245374
    0.           26.21020625 1553.313065  ]
i = 541 Theta = [ 0.00301156  0.23911897 -0.08392304  0.00738145  0.07087071  0.01387556
  0.02527878 -0.01320524]
Grad = [ -0.5479561  -21.59641501  -4.38364878 -18.08255122 -18.63050732
  -1.64386829  -1.64386829 -82.44764454]
i = 542 Theta = [ 0.00301704  0.23933493 -0.0838792   0.00756227  0.07105702  0.01389199
  0.02529522 -0.01238076]
Grad = [   -8.0973248   -622.63048097   -32.38929919  -315.79566713
  -372.47694072   -24.29197439   -48.58394879 -1244.06797643]
i = 543 Theta = [ 3.09801495e-03  2.45561237e-01 -8.35553102e-02  1.07202299e-02
  7.47817853e-02  1.41349142e-02  2.57810598e-02  5.99157364e-05]
Gra

  0.03915515  0.00715805]
Grad = [  9.23998871 440.93456347  83.15989836 425.03948051 434.27946922
   9.23998871   9.23998871 747.16733294]
i = 826 Theta = [ 0.00337586  0.24805691 -0.12278701 -0.01780458  0.06196795  0.02031988
  0.03906275 -0.00031362]
Grad = [  -12.52804805  -733.86865694   -37.58414416  -501.1219222
  -501.1219222    -37.58414416   -25.05609611 -1603.78562302]
i = 827 Theta = [ 0.00350114  0.25539559 -0.12241117 -0.01279336  0.06697916  0.02069572
  0.03931331  0.01572423]
Grad = [  6.42428855 312.52625761  32.12144276 199.1529451  218.42581075
   0.           0.         669.98945579]
i = 828 Theta = [ 0.0034369   0.25227033 -0.12273238 -0.01478489  0.06479491  0.02069572
  0.03931331  0.00902434]
Grad = [  5.03252661 225.95811044  40.26021289 150.97579835 161.04085157
  30.19515967  25.16263306 172.76621701]
i = 829 Theta = [ 0.00338658  0.25001075 -0.12313498 -0.01629465  0.0631845   0.02039377
  0.03906169  0.00729668]
Grad = [  -12.66027508  -716.17630282   -25

In [209]:
# Performance de votre modèle (RMSE sur jeu d'entrainement)
Pred_ent = np.dot(X, Theta)
print('Pred_ent =', Pred_ent)

MSE_ent = np.mean((Y-Pred_ent)**2)
print('MSE_ent =', MSE_ent)

RMSE_ent=MSE**(1/2)
print('RMSE_ent =', RMSE_ent)

Pred_ent = [12.31130063  9.89884198 14.19117442 ... 14.07402081 16.32376301
 16.4117701 ]
MSE_ent = 24.495756429691063
RMSE_ent = 2.948355933553478


In [214]:
summation = 0  #variable to store the summation of differences
n = len(Y) #finding total number of items in list
for i in range (0,n):  #looping through each element of the list
  diff = Y[i] - np.dot(X[i], Theta)  #finding the difference between observed and predicted value
  diff_carre = diff**2  #taking square of the differene 
  summation = summation + diff_carre  #taking a sum of all the differences
MSE_ent2 = summation/n
print("MSE_ent2 =" , MSE_ent2)

RMSE_ent2=MSE_ent2**(1/2)
print('RMSE_ent2 =', RMSE_ent2)

MSE_ent2 = 24.49575642969105
RMSE_ent2 = 4.949318784407714


In [215]:
# Performance de votre modèle (RMSE sur jeu d'entrainement)
Pred=X.dot(Theta)
print('Pred =', Pred)

MSE=mean_squared_error(Pred,Y)
print('MSE =', MSE)

RMSE=MSE**(1/2)
print('RMSE =', RMSE)

Pred = [12.31130063  9.89884198 14.19117442 ... 14.07402081 16.32376301
 16.4117701 ]
MSE = 24.495756429691063
RMSE = 4.9493187844077156


### Comparaison des résultats
Comparer vos résultats à ceux obtenus avec ***SGDRegressor***.