# Coût et Gradient Régularisés

## Objectifs
Dans ce TP, vous allez :
- étendre les précédentes fonctions de coût linéaire et logistique avec un terme de régularisation.
- réexécuter l'exemple précédent de surajustement avec un terme de régularisation ajouté.

In [12]:
import numpy as np
%matplotlib widget
import matplotlib.pyplot as plt
from plt_overfit import overfit_example, output
from lab_utils_common import sigmoid
np.set_printoptions(precision=8)

# Ajout de la régularisation

- Coût
    - Les fonctions de coût diffèrent significativement entre la régression linéaire et logistique, mais l'ajout de la régularisation aux équations est le même.
- Gradient
    - Les fonctions de gradient pour la régression linéaire et logistique sont très similaires. Elles diffèrent seulement dans l'implémentation de $f_{wb}$.

## Fonctions de coût avec régularisation
### Fonction de coût pour la régression linéaire régularisée

L'équation pour la fonction de coût de la régression linéaire régularisée est :
$$J(\mathbf{w},b) = \frac{1}{2m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)})^2  + \frac{\lambda}{2m}  \sum_{j=0}^{n-1} w_j^2 \tag{1}$$ 
où :
$$ f_{\mathbf{w},b}(\mathbf{x}^{(i)}) = \mathbf{w} \cdot \mathbf{x}^{(i)} + b  \tag{2} $$ 


Comparez cela à la fonction de coût sans régularisation (que vous avez mise en œuvre dans un laboratoire précédent), qui est de la forme :

$$J(\mathbf{w},b) = \frac{1}{2m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)})^2 $$ 

La différence est le terme de régularisation,  <span style="color:blue">
    $\frac{\lambda}{2m}  \sum_{j=0}^{n-1} w_j^2$ </span> 
    
L'inclusion de ce terme encourage la descente de gradient à minimiser la taille des paramètres. Notez que, dans cet exemple, le paramètre $b$ n'est pas régularisé. C'est une pratique standard.

Ci-dessous se trouve une implémentation des équations (1) et (2). Notez que cela utilise un *schéma standard pour ce cours*, une boucle `for` sur tous les exemples `m`.

In [13]:
def compute_cost_linear_reg(X, y, w, b, lambda_ = 1):
    """
    Calcule le coût sur tous les exemples
    Args:
      X (ndarray (m,n): Données, m exemples avec n caractéristiques
      y (ndarray (m,)): valeurs cibles
      w (ndarray (n,)): paramètres du modèle  
      b (scalaire)      : paramètre du modèle
      lambda_ (scalaire): Contrôle le montant de la régularisation
    Returns:
      cout_total (scalaire):  coût 
    """

    m  = X.shape[0]
    n  = len(w)
    cout = 0.
    for i in range(m):
        f_wb_i = np.dot(X[i], w) + b                                   #(n,)(n,)=scalaire, voir np.dot
        cout = cout + (f_wb_i - y[i])**2                               #scalaire             
    cout = cout / (2 * m)                                              #scalaire  
 
    cout_reg = 0
    for j in range(n):
        cout_reg += (w[j]**2)                                          #scalaire
    cout_reg = (lambda_/(2*m)) * cout_reg                              #scalaire
    
    cout_total = cout + cout_reg                                       #scalaire
    return cout_total                                                  #scalaire

Excécutez la fonction ci-dessous

In [None]:
np.random.seed(1)
X_tmp = np.random.rand(5,6)
y_tmp = np.array([0,1,0,1,0])
w_tmp = np.random.rand(X_tmp.shape[1]).reshape(-1,)-0.5
b_tmp = 0.5
lambda_tmp = 0.7
cost_tmp = compute_cost_linear_reg(X_tmp, y_tmp, w_tmp, b_tmp, lambda_tmp)

print("Coût régularisé:", cost_tmp)

**Résultat attendu**:
<table>
  <tr>
    <td> <b>Coût régularisé: </b> 0.07917239320214275 </td>
  </tr>
</table>

### Fonction de coût pour la régression logistique régularisée
Pour la régression logistique régularisée, la fonction de coût est de la forme
$$J(\mathbf{w},b) = \frac{1}{m}  \sum_{i=0}^{m-1} \left[ -y^{(i)} \log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) - \left( 1 - y^{(i)}\right) \log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) \right] + \frac{\lambda}{2m}  \sum_{j=0}^{n-1} w_j^2 \tag{3}$$
où:
$$ f_{\mathbf{w},b}(\mathbf{x}^{(i)}) = sigmoid(\mathbf{w} \cdot \mathbf{x}^{(i)} + b)  \tag{4} $$ 

Comparez cela à la fonction de coût sans régularisation (que vous avez implémentée dans un TP précédent):

$$ J(\mathbf{w},b) = \frac{1}{m}\sum_{i=0}^{m-1} \left[ (-y^{(i)} \log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) - \left( 1 - y^{(i)}\right) \log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right)\right] $$

Comme c'était le cas dans la régression linéaire ci-dessus, la différence est le terme de régularisation, qui est    <span style="color:blue">
    $\frac{\lambda}{2m}  \sum_{j=0}^{n-1} w_j^2$ </span> 

Inclure ce terme encourage la descente de gradient à minimiser la taille des paramètres. Notez que, dans cet exemple, le paramètre $b$ n'est pas régularisé. C'est une pratique standard. 

Veuillez implémenter la fonction de coût pour la régression logistique régularisée dans la cellule ci-dessous.

In [None]:
def compute_cost_logistic_reg(X, y, w, b, lambda_ = 1):
    """
    Calcule le coût sur tous les exemples
    Args:
      X (ndarray (m,n)): Données, m exemples avec n caractéristiques
      y (ndarray (m,)): valeurs cibles
      w (ndarray (n,)): paramètres du modèle  
      b (scalaire)    : paramètre du modèle
      lambda_ (scalaire): Contrôle la quantité de régularisation
    Returns:
      total_cost (scalaire): coût 
    """

    return total_cost

Run the cell below to see it in action.

In [None]:
np.random.seed(1)
X_tmp = np.random.rand(5,6)
y_tmp = np.array([0,1,0,1,0])
w_tmp = np.random.rand(X_tmp.shape[1]).reshape(-1,)-0.5
b_tmp = 0.5
lambda_tmp = 0.7
cost_tmp = compute_cost_logistic_reg(X_tmp, y_tmp, w_tmp, b_tmp, lambda_tmp)

print("Coût régularisé:", cost_tmp)

**Résultat attendu**:
<table>
  <tr>
    <td> <b>Coût régularisé: </b> 0.6850849138741673 </td>
  </tr>
</table>

## Descente de gradient avec régularisation
L'algorithme de base pour exécuter la descente de gradient ne change pas avec la régularisation, il est :
$$\begin{align*}
&\text{répéter jusqu'à convergence :} \; \lbrace \\
&  \; \; \;w_j = w_j -  \alpha \frac{\partial J(\mathbf{w},b)}{\partial w_j} \tag{1}  \; & \text{pour j := 0..n-1} \\ 
&  \; \; \;  \; \;b = b -  \alpha \frac{\partial J(\mathbf{w},b)}{\partial b} \\
&\rbrace
\end{align*}$$
Où chaque itération effectue des mises à jour simultanées sur $w_j$ pour tous les $j$.

Ce qui change avec la régularisation est le calcul des gradients.

### Calcul du Gradient avec régularisation (pour la régression linéaire et logistique)
Le calcul du gradient pour la régression linéaire et logistique est presque identique, la seule différence étant le calcul de $f_{\mathbf{w}b}$.
$$\begin{align*}
\frac{\partial J(\mathbf{w},b)}{\partial w_j}  &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)})x_{j}^{(i)}  +  \frac{\lambda}{m} w_j \tag{2} \\
\frac{\partial J(\mathbf{w},b)}{\partial b}  &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)}) \tag{3} 
\end{align*}$$

* m est le nombre d'exemples d'entraînement dans l'ensemble de données      
* $f_{\mathbf{w},b}(x^{(i)})$ est la prédiction du modèle, tandis que $y^{(i)}$ est la cible

      
* Pour un modèle de régression <span style="color:blue"> **linéaire** </span>  
    $f_{\mathbf{w},b}(x) = \mathbf{w} \cdot \mathbf{x} + b$  
* Pour un modèle de régression <span style="color:blue"> **logistique** </span>  
    $z = \mathbf{w} \cdot \mathbf{x} + b$  
    $f_{\mathbf{w},b}(x) = g(z)$  
    où $g(z)$ est la fonction sigmoïde:  
    $g(z) = \frac{1}{1+e^{-z}}$   
    
Le terme qui ajoute la régularisation est le <span style="color:blue">$\frac{\lambda}{m} w_j $</span>.

### Fonction de gradient pour la régression linéaire régularisée

In [None]:
def compute_gradient_linear_reg(X, y, w, b, lambda_): 
    """
    Calcule le gradient pour la régression linéaire
    Args:
      X (ndarray (m,n)): Données, m exemples avec n caractéristiques
      y (ndarray (m,)): valeurs cibles
      w (ndarray (n,)): paramètres du modèle  
      b (scalaire)    : paramètre du modèle
      lambda_ (scalaire): Contrôle la quantité de régularisation
      
    Returns:
      dj_dw (ndarray (n,)): Le gradient du coût par rapport aux paramètres w. 
      dj_db (scalaire):       Le gradient du coût par rapport au paramètre b. 
    """
    m,n = X.shape           # (nombre d'exemples, nombre de caractéristiques)
    dj_dw = np.zeros((n,))
    dj_db = 0.

    for i in range(m):                             
        err = (np.dot(X[i], w) + b) - y[i]                 
        for j in range(n):                         
            dj_dw[j] = dj_dw[j] + err * X[i, j]               
        dj_db = dj_db + err                        
    dj_dw = dj_dw / m                                
    dj_db = dj_db / m   
    
    for j in range(n):
        dj_dw[j] = dj_dw[j] + (lambda_/m) * w[j]

    return dj_db, dj_dw

Exécutez la cellule suivante pour tester cette fonction. 

In [None]:
np.random.seed(1)
X_tmp = np.random.rand(5,3)
y_tmp = np.array([0,1,0,1,0])
w_tmp = np.random.rand(X_tmp.shape[1])
b_tmp = 0.5
lambda_tmp = 0.7
dj_db_tmp, dj_dw_tmp =  compute_gradient_linear_reg(X_tmp, y_tmp, w_tmp, b_tmp, lambda_tmp)

print(f"dj_db: {dj_db_tmp}", )
print(f"dj_dw régularisé:\n {dj_dw_tmp.tolist()}", )

**Résultat attendu**
```
dj_db: 0.6648774569425726
dj_dw régularisé:
 [0.29653214748822276, 0.4911679625918033, 0.21645877535865857]
 ```

### Fonction de gradient pour la régression logistique régularisée

En suivant l'exemple de la fonction de gradient pour la régression linéaire régularisée, implémentez-la pour la régression logistique dans la cellule ci-dessous.

In [None]:
def compute_gradient_logistic_reg(X, y, w, b, lambda_): 
    """
    Calcule le gradient pour la régression logistique
 
    Args:
      X (ndarray (m,n)): Données, m exemples avec n caractéristiques
      y (ndarray (m,)): valeurs cibles
      w (ndarray (n,)): paramètres du modèle  
      b (scalaire)    : paramètre du modèle
      lambda_ (scalaire): Contrôle la quantité de régularisation
    Returns
      dj_dw (ndarray Shape (n,)): Le gradient du coût par rapport aux paramètres w. 
      dj_db (scalaire)            : Le gradient du coût par rapport au paramètre b. 
    """

    return dj_db, dj_dw  

Exécutez la cellule suivante pour tester cette fonction. 

In [None]:
np.random.seed(1)
X_tmp = np.random.rand(5,3)
y_tmp = np.array([0,1,0,1,0])
w_tmp = np.random.rand(X_tmp.shape[1])
b_tmp = 0.5
lambda_tmp = 0.7
dj_db_tmp, dj_dw_tmp =  compute_gradient_logistic_reg(X_tmp, y_tmp, w_tmp, b_tmp, lambda_tmp)

print(f"dj_db: {dj_db_tmp}", )
print(f"dj_dw régularisé:\n {dj_dw_tmp.tolist()}", )

**Résultat attendu**
```
dj_db: 0.341798994972791
dj_dw régularisé:
 [0.17380012933994293, 0.32007507881566943, 0.10776313396851499]
 ```

## Réexécutez l'exemple de surapprentissage

In [None]:
plt.close("all")
display(output)
ofit = overfit_example(True)

Dans le graphique ci-dessus, essayez la régularisation sur l'exemple précédent. En particulier :
- Catégorie (régression logistique)
    - définissez le degré à 6, lambda à 0 (pas de régularisation), ajustez les données
    - maintenant définissez lambda à 1 (augmentez la régularisation), ajustez les données, remarquez la différence.
- Régression (régression linéaire)
    - essayez la même procédure.

## Félicitations !
Vous avez :
- des exemples de fonction de coût et de gradient avec régularisation ajoutée pour la régression linéaire et logistique
- développé une certaine intuition sur la façon dont la régularisation peut réduire le surapprentissage. 