# Descente de gradient
Dans ce notebook, vous allez programmer l'algorithme de descente de gradient dans sa version ordinaire, stochastique et mini-batch.
Dans un premier temps, vous utiliserez un jeu de données simple pour tester votre code dans le cas d'une régressison linéaire. Dans un second temps, vous implémenterz vos algorithmes sur un jeu de donnée plus conséquent et comparerez vos résultats à ceux obtenus en utilisant la bibliothèque ***ScikitLearn***.

# Un jeu de données simple pour tester votre code
Un je de donnée simple constitué de 100 instance est créé artificiellement à l'aide de la relation linéaire $\ y_{i} = 2+5\times x_{i}  $<br>
Ce jeu de donnée ne comporte qu'une seule variables $\ x  $.

In [1]:
import numpy as np

In [2]:
# Crée un vecteur X de taille 100 
X=np.arange(100)

In [3]:
# Affichez X ainsi que ses dimensions
print('X =', X) #on affiche X
print('Dimension =', X.shape) #montre que X est un tableau à une dimension 100x1
print('Taille =', len(X)) #donne la taille de X
print('Type =', type(X)) #affichons aussi le type de X

X = [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]
Dimension = (100,)
Taille = 100
Type = <class 'numpy.ndarray'>


In [4]:
# Clcul de Y
Y=2+5*X

In [5]:
# Affichez le contenu de Y ainsi que ses dimensions
print('Y =', Y)
print('Dimension =', Y.shape)
print('Taille =', len(Y))
print('Type =', type(X))

Y = [  2   7  12  17  22  27  32  37  42  47  52  57  62  67  72  77  82  87
  92  97 102 107 112 117 122 127 132 137 142 147 152 157 162 167 172 177
 182 187 192 197 202 207 212 217 222 227 232 237 242 247 252 257 262 267
 272 277 282 287 292 297 302 307 312 317 322 327 332 337 342 347 352 357
 362 367 372 377 382 387 392 397 402 407 412 417 422 427 432 437 442 447
 452 457 462 467 472 477 482 487 492 497]
Dimension = (100,)
Taille = 100
Type = <class 'numpy.ndarray'>


Maintenant que nous avons notre jeu de données avec les valeurs $\ x_{i} $ et leur label $\ y_{i} $ correspondant, il faut transformer le vecteur $\ X $ poour la faire correpondre à une matrice de forme générale :

$$\begin{bmatrix} 1 & x_{11} & x_{12} & ... & x_{1j} & ... & x_{1n}\\ 1 & x_{21} & x_{22} & ... & x_{2j} & ... & x_{2n} \\...&...&...&...&...&...&... \\1 & x_{i1} & x_{i2} & ... & x_{ij} & ... & x_{in}\\...&...&...&...&...&...&...\\1 & x_{m1} & x_{m2} & ... & x_{mj} & ... & x_{mn} \end{bmatrix}$$ <br>
Nous réaliserons cette transformation à l'aide d'une fonction ***Stand_Trans***  qui prend en entrée la matrice $\ X $ à transformer, le nombre de d'instances $\ m $ et le nombre de variables $\ n $

In [6]:
def Stand_Trans(X,m,n):
    X=X.reshape(m,n) # Transorme la matrice en entrée en une matrice de dimension m*n
    Ones=np.ones((m)).reshape(m,1) #crée une matrice de dimension m*1 remplie de 1
    X=np.hstack([Ones,X]) # Concatenation horizontale des matrice X et Ones pour donner lieu à une nouvelle matrice X
    return X

In [7]:
# Appliquez la fonction Stand_Trans au vecteur X
X=Stand_Trans(X,100,1)

In [8]:
# Affichez le contenu de la nouvelle matrice X
print('X =', X)

X = [[ 1.  0.]
 [ 1.  1.]
 [ 1.  2.]
 [ 1.  3.]
 [ 1.  4.]
 [ 1.  5.]
 [ 1.  6.]
 [ 1.  7.]
 [ 1.  8.]
 [ 1.  9.]
 [ 1. 10.]
 [ 1. 11.]
 [ 1. 12.]
 [ 1. 13.]
 [ 1. 14.]
 [ 1. 15.]
 [ 1. 16.]
 [ 1. 17.]
 [ 1. 18.]
 [ 1. 19.]
 [ 1. 20.]
 [ 1. 21.]
 [ 1. 22.]
 [ 1. 23.]
 [ 1. 24.]
 [ 1. 25.]
 [ 1. 26.]
 [ 1. 27.]
 [ 1. 28.]
 [ 1. 29.]
 [ 1. 30.]
 [ 1. 31.]
 [ 1. 32.]
 [ 1. 33.]
 [ 1. 34.]
 [ 1. 35.]
 [ 1. 36.]
 [ 1. 37.]
 [ 1. 38.]
 [ 1. 39.]
 [ 1. 40.]
 [ 1. 41.]
 [ 1. 42.]
 [ 1. 43.]
 [ 1. 44.]
 [ 1. 45.]
 [ 1. 46.]
 [ 1. 47.]
 [ 1. 48.]
 [ 1. 49.]
 [ 1. 50.]
 [ 1. 51.]
 [ 1. 52.]
 [ 1. 53.]
 [ 1. 54.]
 [ 1. 55.]
 [ 1. 56.]
 [ 1. 57.]
 [ 1. 58.]
 [ 1. 59.]
 [ 1. 60.]
 [ 1. 61.]
 [ 1. 62.]
 [ 1. 63.]
 [ 1. 64.]
 [ 1. 65.]
 [ 1. 66.]
 [ 1. 67.]
 [ 1. 68.]
 [ 1. 69.]
 [ 1. 70.]
 [ 1. 71.]
 [ 1. 72.]
 [ 1. 73.]
 [ 1. 74.]
 [ 1. 75.]
 [ 1. 76.]
 [ 1. 77.]
 [ 1. 78.]
 [ 1. 79.]
 [ 1. 80.]
 [ 1. 81.]
 [ 1. 82.]
 [ 1. 83.]
 [ 1. 84.]
 [ 1. 85.]
 [ 1. 86.]
 [ 1. 87.]
 [ 1. 88.]
 [ 1. 89.]
 [ 1. 

Vérifiez qu'à ce stade votre matrice $\ X $ est de dimension $\ 100 \times 2 $ et que la première colonne colonne ne contient que des $\ 1 $.

# Equation normale
Dans le cas de la régression linéaire ($\ \hat{Y}= X \cdot \theta $ ), l'équation normale donne une solution exacte à la problématique de minimisation de la fonction ***Loss*** lorque celle-ci correspond à une MSE (Mean Squared Error).<br>
\begin{equation}
\theta=(X^T \times X)^{-1} \times X^T \times Y
\end{equation}<br>
Pour calculer les $\ \theta_{j} $, on utilise les méthodes de calcul matriciel de la bibliothèque ***numpy***.

In [9]:
Theta=np.linalg.inv(X.transpose().dot(X)).dot(X.transpose()).dot(Y)
print(Theta)

[2. 5.]


En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [10]:
X1 = [1 , 101]
prediction = np.dot(X1, Theta)
print('prediction =', prediction)

prediction = 507.00000000000006


Les valeurs des paramètres $\ \theta_{j} $ obtenues avec l'équation normale sont optimales. Néanmoins, le calcul peut être long lorsque le nombre de variables est grand. La descente de gradient est une alternative à l'équation normale dans le cas linéaire lorsque le nombre de variables est grand. 
Par ailleurs, la descente de gradient s'applique à des modèles non-linéaires pour lesuqles il n'existe pas de solution exacte à la problamatique de minimisation de la ***loss***.

# Procédure générique de descente de gradient
La descente de gradient est une approche ittérative qui conssiste à mettre à jour les pramètres $\ \theta_{j} $ en effectuant un déplacement dans le sens opposé au gradient.<br>
De façon générique, la mise à jour des paramètres $\ \theta_{j} $ s’effectue comme suit :<br>

\begin{equation}
\theta^k=\theta^{k-1}- \eta \times \nabla_{\theta}MSE 
\end{equation}<br>

Avec :<br>
- $\ \theta $ : le vecteur des paramètres $\ \theta_{j} $
- $\ k $ : le numéro d'itération en cours
- $\ \eta $ : le pas de gradient
- $\ \nabla_{\theta}MSE$ : le vecteur gradient <br>

*Remarque: l'initialisation de $\ \theta $ est arbitraire.*<br>

Il existe de nombreuse variantes de la descente de gradient qui se différentient par la façon de calculer $\ \nabla_{\theta}MSE$. <br>
Nous pouvons donc écrire une fonction générique de descente de gradient dont un des arguments est lui-même une fonction qui précise la façons de calculer $\ \nabla_{\theta}MSE$.<br>
Ecrvivez la fonction ***Grad_Desc*** qui renvoie en sortie $\ \theta $ et qui prend comme arguments:<br>
- $\ X $: la matrice des données d'apprentissage
- $\ Y $: le vecteur des labels
- $\ \eta $ : le pas de gradient
- $\ K $ : le nombre total d'itérations
- $\ Grad $ : la fonction de calcul de $\ \nabla_{\theta}MSE$ <br>

*Remarque : dans un premier temps, faites comme si la fonction ***Grad*** était connue. Vous en préciserez le comportement dans un second temps.*



In [11]:
#Eta = learning_rate
#K = nb_iterations
#Grad = gradient

In [12]:
def Grad_Desc(X,Y,Eta,K,Grad_function): #algorithme de gradient
    Theta = [7, 8] #random initialisation
    for i in range(0, K):
        if Grad_function == 'stochastic':
            Grad = Grad_Stochastic(X,Y,Theta) #on recalcule la dérivée à chaque fois
        elif Grad_function == 'regular':
            Grad = Grad_Regular(X,Y,Theta) #on recalcule la dérivée à chaque fois
        else :
            print('Syntax Error :"', Grad_function, '"')
            return
        Theta = Theta - Eta * Grad #on fait un petit pas
        print('i =', i, 'Theta =', Theta)
    return(Theta)

# Descente de gradient ordinaire
Les composantes du vecteur gradient correpondent aux dérivées partielles de la fonction ***Loss*** par rapport à chaque paramètre $\ \theta_{j} $. Le vecteur gradient s'écrit comme suit :

$$
\nabla_{\theta}MSE=\left[\begin{array}{c}
\dfrac{\partial MSE(\theta)}{\partial \theta_{0}}\\
\dfrac{\partial MSE(\theta)}{\partial \theta_{1}}\\
\ldots\\
\dfrac{\partial MSE(\theta)}{\partial \theta_{j}}\\
\ldots\\
\dfrac{\partial MSE(\theta)}{\partial \theta_{n}}
\end{array}\right]
$$

Dans le cas de la descente de gradient ordinaire, la totalité du jeu d'entrainement est utilisé pour le calcul des $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$ selon la formule ci-dessous. <br>

$\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}=\dfrac{2}{m}\times \sum_{i=1}^{m} x_{ij}\times(X_{i} \cdot \theta - y_{i}) $<br>

Le vecteur gradient $\nabla_{\theta}MSE $ peut s'obtenir directement à travers la formule matricielle: $\nabla_{\theta}MSE= \dfrac{2}{m} \times X^T\cdot(X\cdot \theta - Y) $

Ecrivez la fonction ***Grad_Regular*** qui calcule le gradient ordinaire en $\ \theta $ et renvoie en sortie le vecteur gradient $
\nabla_{\theta}MSE $

In [13]:
def Grad_Regular(X,Y,Theta): #calcule le vecteur de gradient
    m = len(Y)
    Grad = 2/m * X.transpose().dot(X.dot(Theta) - Y)
    #print('TYPE==================', type(Theta))
    #print('TYPE==================', type(X))
    print('Grad =', Grad)
    return(Grad)

Testez la descente de gradient ordinaire sur votre jeu de donnée en utilisant la fonction ***Grad_Desc*** dont l'argument ***Grad*** est à remplacer par la fonction ***Grad_Regular***.
Réalisez votre test avec :
- $\ \eta =0.0001$
- $\ K=100$

In [14]:
Theta = Grad_Desc(X,Y,0.0001,100,'regular')

Grad = [  307. 20196.]
i = 0 Theta = [6.9693 5.9804]
Grad = [ 106.9982 6930.2475]
i = 1 Theta = [6.95860018 5.28737525]
Grad = [  38.36735011 2378.09468457]
i = 2 Theta = [6.95476344 5.04956578]
Grad = [ 14.81653926 816.02006845]
i = 3 Theta = [6.95328179 4.96796377]
Grad = [  6.73497728 279.99300576]
i = 4 Theta = [6.95260829 4.93996447]
Grad = [ 3.96169952 96.0549226 ]
i = 5 Theta = [6.95221212 4.93035898]
Grad = [ 3.00996345 32.9364341 ]
i = 6 Theta = [6.95191113 4.92706534]
Grad = [ 2.68329076 11.27727919]
i = 7 Theta = [6.9516428  4.92593761]
Grad = [2.57110904 3.84492537]
i = 8 Theta = [6.95138569 4.92555312]
Grad = [2.53253006 1.2945089 ]
i = 9 Theta = [6.95113243 4.92542367]
Grad = [2.51920791 0.41933286]
i = 10 Theta = [6.95088051 4.92538173]
Grad = [2.51455267 0.11901681]
i = 11 Theta = [6.95062906 4.92536983]
Grad = [2.5128715 0.0159644]
i = 12 Theta = [6.95037777 4.92536824]
Grad = [ 2.51221088 -0.01939685]
i = 13 Theta = [6.95012655 4.92537018]
Grad = [ 2.51190046 -0.03152

Que constatez-vous au niveau des valeurs des paramètres $\ \theta_{j} $ ?<br>
Expliquez le phénomène observé.

En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [15]:
prediction_regular = np.dot(X1, Theta)
print('prediction_regular =', prediction_regular)

prediction_regular = 504.4236842325979


# Descente de gradient stochastique
Dans le cas de la descente de gradient stochastique, seule une instance $\ X_{i} $ du jeu d'entrainement, tirée au hasard à chaque itération, est utilisé pour le calcul des $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$ selon la formule ci-dessous.<br>

$\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}=2 \times x_{ij}\times(X_{i} \cdot \theta - y_{i}) $<br>

Pour une instance $\ i$ prise au hasard, le vecteur gradient $\nabla_{\theta}MSE $ peut s'obtenir directement à travers la formule matricielle: $\nabla_{\theta}MSE= 2 \times X_{i}\cdot(X_{i}\cdot \theta - Y) $

Ecrivez la fonction ***Grad_Stochastic*** qui calcule le gradient stochastique en $\ \theta $ et renvoie en sortie le vecteur gradient $
\nabla_{\theta}MSE $

In [16]:
import random # à utiliser pour le tirage aléatoire d'une instance Xi à chaque itération
def Grad_Stochastic(X,Y,Theta):
    i = random.randrange(0, 99, 1)
    #Xi = Xi.reshape(2, 1)
    #Theta = np.reshape(Theta, (2, 1))
    Grad = 2 * X[i].dot(X[i].dot(Theta) - Y[i]) #impossible avec X.shape(2,) et Y(100,) donc j'ai mis Y[i]
    print('Grad =', Grad)
    return(Grad)

Testez la descente de gradient stochastique sur votre jeu de donnée en utilisant la fonction ***Grad_Desc*** dont l'argument ***Grad*** est à remplacer par la fonction ***Grad_Stochastic***.
Réalisez votre test avec :
- $\ \eta =0.0001$
- $\ K=100$

In [17]:
Grad_Desc(X,Y,0.0001,100,"stochastic")

Grad = [  394. 25216.]
i = 0 Theta = [6.9606 5.4784]
Grad = [ 20.446 224.906]
i = 1 Theta = [6.9585554 5.4559094]
Grad = [  98.3635344 9541.2628368]
i = 2 Theta = [6.94871905 4.50178312]
Grad = [0.92953419 8.36580768]
i = 3 Theta = [6.94862609 4.50094654]
Grad = [  -77.93615756 -6858.38186498]
i = 4 Theta = [6.95641971 5.18678472]
Grad = [  43.90765883 3995.59695361]
i = 5 Theta = [6.95202894 4.78722503]
Grad = [  -5.41574019 -194.96664693]
i = 6 Theta = [6.95257052 4.80672169]
Grad = [  -24.4983979 -2180.3574131]
i = 7 Theta = [6.95502036 5.02475743]
Grad = [ 10.70227856 171.23645696]
i = 8 Theta = [6.95395013 5.00763379]
Grad = [ 10.80868712 637.71254028]
i = 9 Theta = [6.95286926 4.94386253]
Grad = [  8.55843931 102.70127174]
i = 10 Theta = [6.95201342 4.93359241]
Grad = [  6.71646231 161.19509546]
i = 11 Theta = [6.95134177 4.9174729 ]
Grad = [ 8.08708726 88.95795983]
i = 12 Theta = [6.95053306 4.9085771 ]
Grad = [  -4.36090624 -340.15068641]
i = 13 Theta = [6.95096915 4.94259217]


array([6.93148752, 4.92081548])

Que constatez-vous au niveau des valeurs des paramètres $\ \theta_{j} $ ?<br>
Expliquez le phénomène observé.

En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [18]:
prediction_stochastic = np.dot(X1, Theta)
print('prediction_stochastic =', prediction_stochastic)

prediction_stochastic = 504.4236842325979


# Descente de gradient mini-batch

Dans le cas de la descente de gradient mini-batch, un sous-ensemble du jeu d'entrainement, constitué de $\ q $ exemples tirés aléatoirement, est utilisé à chaque itération pour le calcul des $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$. Le nombre $\ q $  est un hyperparamètre fixé par l'utilisateur avec $\ q \le m$.<br>

La formule pour le calcul $\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}$ devient:

$\ \dfrac{\partial MSE(\theta)}{\partial \theta_{j}}=\dfrac{2}{m}\times \sum_{i\in \mathscr{E}} x_{ij}\times(X_{i} \cdot \theta - y_{i}) $<br>

Avec $\mathscr{E} $ l'ensemble des $\ q $ exemples tirés aléatoirement (cet ensemble est réactualisé à cahque itération).

Ecrivez la fonction ***Grad_Batch*** qui calcule le gradient mini_batch en $\ \theta $ et renvoie en sortie le vecteur gradient $
\nabla_{\theta}MSE $<br>

In [19]:
import random

def Already_choose(j_history, j): #renvoie 1 si j a déjà été tiré, 0 sinon
    count = 0
    for i in j_history:
        if (j_history[count] == j):
            return (1)
        count+=1
    return (0)

def examples(q): #retourne une liste des exemples tirés, jamais 2 fois le même exemple
    j_history = np.zeros(q) #créer un tableau de 0 de taille q pour mettre l'historique des j tirés
    i = 0
    while i < q: #on parcours le nombre d'exemples demandé
        j = random.randrange(0, 99, 1) #on tire au hasard un exemple
        if (Already_choose(j_history, j) == 0): #s'il a pas déjà été tiré
            j_history[i] = j #on le rentre dans notre liste d'exemples
            i+=1 #on passe au suivant
    return(j_history)

In [20]:
def Grad_Batch(X,Y,Theta,q):
    j_history = examples(q)
    count, sum = 0, 0
    i = 0
    m = len(Y) 
    while count < q:
        i = int(j_history[count])
        #sum = sum + x[i][j].dot(X[i].dot(Theta) - Y[i]) #???? c'est quoi x[i][j]
        sum = sum + X[i].dot(X[i].dot(Theta) - Y[i]) #???? 
        count+=1
    Grad = 2/m * sum
    return(Grad)

Testez la descente de gradient ordinaire sur votre jeu de donnée en utilisant la fonction ***Grad_Desc*** dont l'argument ***Grad*** est à remplacer par la fonction ***Grad_Batch***.
Réalisez votre test avec :
- $\ \eta =0.0001$
- $\ K=100$
- $\ q=10$

*Remarque : pensez à adapter la fonction ***Grad_Desc*** en ***Grad_Desc_Batch***  pour tenir compte de l'hyperparamètre $\ q $ spécifique à l'approche mini-batch. Dans la nouvelle fonction ***Grad_Desc_Batch***, le paramètre ***Grad*** prend par défaut la valeur ***Grad_Batch***.*

In [21]:
def Grad_Desc_Batch(X,Y,Eta,K,q,Grad=Grad_Batch):
    Theta = [7, 12] #random initialisation
    for i in range(0, K):
        Grad = Grad_Batch(X,Y,Theta,q)
        Theta = Theta - Eta * Grad #on fait un petit pas
        print('i =', i, 'Theta =', Theta)
    return(Theta)

In [22]:
Grad_Desc_Batch(X,Y,0.0001,100,10,Grad=Grad_Batch)

i = 0 Theta = [ 6.99206  11.443192]
i = 1 Theta = [ 6.98760456 11.18827515]
i = 2 Theta = [ 6.98304925 10.9498019 ]
i = 3 Theta = [ 6.97679749 10.4799818 ]
i = 4 Theta = [ 6.9709111  10.10164914]
i = 5 Theta = [6.96615898 9.78654768]
i = 6 Theta = [6.96203895 9.54354652]
i = 7 Theta = [6.95750521 9.24904339]
i = 8 Theta = [6.95464418 9.08994061]
i = 9 Theta = [6.94989074 8.73661637]
i = 10 Theta = [6.94727326 8.60126549]
i = 11 Theta = [6.94458861 8.45078892]
i = 12 Theta = [6.94043159 8.14042126]
i = 13 Theta = [6.93649518 7.85491796]
i = 14 Theta = [6.93414107 7.73972772]
i = 15 Theta = [6.93158759 7.59597514]
i = 16 Theta = [6.92821803 7.36104554]
i = 17 Theta = [6.92539009 7.14943702]
i = 18 Theta = [6.92251022 6.94545722]
i = 19 Theta = [6.91990602 6.76566006]
i = 20 Theta = [6.91738513 6.56616344]
i = 21 Theta = [6.91579267 6.45802715]
i = 22 Theta = [6.9142509  6.35602383]
i = 23 Theta = [6.9130678  6.28562557]
i = 24 Theta = [6.91151935 6.18100304]
i = 25 Theta = [6.910285   6.

array([6.89046029, 4.93341516])

En utilisant les $\ \theta_{j} $, réalisez une prédiction pour $\ x = 101$

In [23]:
prediction_batch = np.dot(X1, Theta)
print('prediction_stochastic =', prediction_batch)

prediction_stochastic = 504.4236842325979


# Tests sur jeu de donnée plus conséquent
Vous allez maintenant tester votre code sur un jeu de données plus conséquent et comparer vos résultats à ceux obtenus en utilisant la bibliothèque ***ScikitLearn***.<br>
L'objectif est d'entrainer un régresseur linéaire qui prédit les dépenses de santé par ménage à partir de la base de données HISP (Health Insurance Subsidy Program). La base HISP contient des informations concernant les dépenses de santé de ménages américains avant et après la mise en plce du programme d'assurance HISP (les données sont fictives). <br>


Pour des raisons de cohérence, vous n'utiliserez que les données décrivant la situation des ménages avant la mise en œuvre du programme HISP (rond=Before).<br>
De plus, seules les variables continues ci-dessous seront utilisées pour entraîner votre modèle :
- poverty_index 
- hhsize
- age_sp
- age_hh
- educ_hh
- educ_sp
- hospital_distance

### Importation et nettoyage des données
Comme il s'agit simplement de comparer vos résultats avec ceux obtenus avec les regérsseurs ScikitLearn, il n'est pas nécessaire de séparer les données en jeu de test et jeu d'entrainement.

In [24]:
import pandas as pd
data=pd.read_csv("datafinalexam.csv") # importation des données (le fichier datafinalexam.csv et le notebook doivent être dans le même dossier)
data=data.loc[data["round"]=="Before"] # filtre pour garder la situation avant la mise en place du dispositif
features=["poverty_index","hhsize","age_sp","age_hh","educ_hh","educ_sp","hospital_distance"] # liste des variables à utiliser
label=['health_expenditures'] # label
data=data[features+label] # selction des colonnes utiles
Train_set_features=data[features] # variables du jeu d'entrainement 
Train_set_label=data[label] # labeldu jeu d'entrainement 

### Entrainement d'un régresseur linéaire avec descente de gradient stochastique - ScikitLearn

In [25]:
# paramètres
eta=0.00001
K=1000

In [29]:
#pip install scikit-learn
from sklearn.linear_model import SGDRegressor # import de la classe SGDRegressor
reg = SGDRegressor(fit_intercept=True,learning_rate="constant",eta0=eta,max_iter=K) # Instancition d'un régresseur
reg.fit(Train_set_features,Train_set_label) # entrainement

  y = column_or_1d(y, warn=True)


SGDRegressor(eta0=1e-05, learning_rate='constant')

In [30]:
# Coefficient du modèle linéaire
Theta=np.concatenate((reg.intercept_,reg.coef_),axis=None)
print(Theta)

[ 8.84334900e-01  2.54070131e-01 -1.36515921e+00  2.47426159e-02
  1.30648998e-01  2.47700245e-01  2.59747413e-01 -1.57155339e-04]


In [31]:
# Performance du modèle Scikit-Learn (RMSE sur jeu d'entrainement)
from sklearn.metrics import mean_squared_error
Pred=reg.predict(Train_set_features) # prédiction faites par le modèle
MSE=mean_squared_error(Pred,Train_set_label) # MSE entre prédictions et valeurs réelles
RMSE=MSE**(1/2) # RMSE
print("RMSE: ",RMSE)

RMSE:  2.922943184473351


### Entrainement d'un régresseur linéaire avec descente de gradient stochastique - Votre approche

In [39]:
# Préparation des données dans un format compatible avec vos fonctions
X=Stand_Trans(Train_set_features.values,Train_set_features.shape[0],Train_set_features.shape[1])
Y=Train_set_label.values.reshape(Train_set_label.shape[0])

In [40]:
# Affichez les dimensions de X et de Y
print('Dimensions de X :', X.shape)
print('Dimensions de Y :', Y.shape)

Dimensions de X : (9913, 8)
Dimensions de Y : (9913,)


In [41]:
# Calcul des Theta 
Theta=[20,10]

In [42]:
# Calcul des Theta
Theta=Grad_Desc(X,Y,eta,K,'stochastic')

ValueError: shapes (8,) and (2,) not aligned: 8 (dim 0) != 2 (dim 0)

In [None]:
# Performance de votre modèle (RMSE sur jeu d'entrainement)
Pred=
MSE=
RMSE=MSE**(1/2)
print("RMSE: ",RMSE)

In [None]:
# Performance de votre modèle (RMSE sur jeu d'entrainement)
Pred=X.dot(Theta)
MSE=mean_squared_error(Pred,Y)
RMSE=MSE**(1/2)
print("RMSE: ",RMSE)

### Comparaison des résultats
Comparer vos résultats à ceux obtenus avec ***SGDRegressor***.