# Fonction de coût pour la régression logistique

## Objectifs
Dans ce TP, vous allez :
- Étudier l'implémentation et utiliser la fonction de coût pour la régression logistique.

In [None]:
import numpy as np
%matplotlib widget
import matplotlib.pyplot as plt
from lab_utils_common import  plot_data, sigmoid, dlc
plt.style.use('./deeplearning.mplstyle')

## Ensemble de données 
Commençons avec le même ensemble de données que celui utilisé dans le TP dédié à la frontière de décision.

In [None]:
X_train = np.array([[0.5, 1.5], [1,1], [1.5, 0.5], [3, 0.5], [2, 2], [1, 2.5]])  #(m,n)
y_train = np.array([0, 0, 0, 1, 1, 1])                                           #(m,)

Nous utiliserons une fonction déjà implémentée pour tracer ces données. Les points de données avec l'étiquette $y=1$ sont représentés par des croix rouges, tandis que les points de données avec l'étiquette $y=0$ sont représentés par des cercles bleus.

In [None]:
fig,ax = plt.subplots(1,1,figsize=(4,4))
plot_data(X_train, y_train, ax)

# On fixe les deux axes entre 0 et 4
ax.axis([0, 4, 0, 3.5])
ax.set_ylabel('$x_1$', fontsize=12)
ax.set_xlabel('$x_0$', fontsize=12)
plt.show()

## Fonction de coût

Dans un TP précédent, vous avez développé la fonction de *perte logistique (logistic loss)*. Rappelez-vous, la perte est définie pour s'appliquer à un seul exemple. Ici, vous combinez les pertes pour former le **coût**, qui inclut tous les exemples.

Rappelez-vous que pour la régression logistique, la fonction de coût est de la forme 

$$ J(\mathbf{w},b) = \frac{1}{m} \sum_{i=0}^{m-1} \left[ loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)}) \right] \tag{1}$$

où
* $loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)})$ est le coût pour un seul point de données, qui est :

    $$loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)}) = -y^{(i)} \log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) - \left( 1 - y^{(i)}\right) \log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) \tag{2}$$
    
* où m est le nombre d'exemples d'entraînement dans l'ensemble de données et :
$$
\begin{align}
  f_{\mathbf{w},b}(\mathbf{x^{(i)}}) &= g(z^{(i)})\tag{3} \\
  z^{(i)} &= \mathbf{w} \cdot \mathbf{x}^{(i)}+ b\tag{4} \\
  g(z^{(i)}) &= \frac{1}{1+e^{-z^{(i)}}}\tag{5} 
\end{align}
$$


#### Description du code

L'algorithme pour `compute_cost_logistic` itère sur tous les exemples en calculant la perte pour chaque exemple et en accumulant le total.

Notez que les variables X et y ne sont pas des valeurs scalaires mais des matrices de forme ($m, n$) et ($𝑚$,) respectivement, où  $𝑛$ est le nombre de caractéristiques et $𝑚$ est le nombre d'exemples d'entraînement.

In [None]:
def compute_cost_logistic(X, y, w, b):
    """
    Calcule le coût

    Args:
      X (ndarray (m,n)): Données, m exemples avec n caractéristiques
      y (ndarray (m,)) : valeurs cibles
      w (ndarray (n,)) : paramètres du modèle  
      b (scalaire)     : paramètre du modèle
      
    Returns:
      coût (scalaire): coût
    """
    #définir une variable pour le nombre d'échantillons

    #définir le coût total
    
    #utiliser une boucle for sur les échantillons
    # calculer le z(X) en utilisant le produit scalaire vectorisé de numpy
    # calculer le fwb
    #calculer la fonction de coût en utilisant la fonction log de numpy
    
    
    
    
    
    return cost


Vérifiez l'implémentation de la fonction de coût en utilisant la cellule ci-dessous.

In [None]:
w_tmp = np.array([1,1])
b_tmp = -3
print(compute_cost_logistic(X_train, y_train, w_tmp, b_tmp))

**Expected output**: 0.3668667864055175

## Exemple
Maintenant, voyons ce que donne la fonction de coût pour une valeur différente de $w$. 

* Dans un TP précédent, vous avez tracé la frontière de décision pour  $b = -3, w_0 = 1, w_1 = 1$. C'est-à-dire que vous aviez `b = -3, w = np.array([1,1])`.

* Disons que vous voulez voir si $b = -4, w_0 = 1, w_1 = 1$, ou `b = -4, w = np.array([1,1])` fournit un meilleur modèle.

Commençons par tracer la frontière de décision pour ces deux différentes valeurs de $b$ pour voir laquelle s'adapte le mieux aux données.

* Pour $b = -3, w_0 = 1, w_1 = 1$, nous tracerons $-3 + x_0+x_1 = 0$ (représenté en bleu)
* Pour $b = -4, w_0 = 1, w_1 = 1$, nous tracerons $-4 + x_0+x_1 = 0$ (représenté en magenta)

In [None]:
import matplotlib.pyplot as plt


# On choisit des valeurs entre 0 et 6
x0 = np.arange(0,6)

# On affiche les deux frontières de décision
x1 = 3 - x0
x1_other = 4 - x0

fig,ax = plt.subplots(1, 1, figsize=(4,4))

# On affiche la frontière de décision
ax.plot(x0,x1, c=dlc["dlblue"], label="$b$=-3")
ax.plot(x0,x1_other, c=dlc["dlmagenta"], label="$b$=-4")
ax.axis([0, 4, 0, 4])


# On affiche les données originales
plot_data(X_train,y_train,ax)
ax.axis([0, 4, 0, 4])
ax.set_ylabel('$x_1$', fontsize=12)
ax.set_xlabel('$x_0$', fontsize=12)
plt.legend(loc="upper right")
plt.title("Decision Boundary")
plt.show()

Vous pouvez voir sur ce graphique que `b = -4, w = np.array([1,1])` est un modèle moins bon pour les données d'entraînement. Voyons si l'implémentation de la fonction de coût reflète cela.

In [None]:
w_array1 = np.array([1,1])
b_1 = -3
w_array2 = np.array([1,1])
b_2 = -4

print("Coût pour b = -3 : ", compute_cost_logistic(X_train, y_train, w_array1, b_1))
print("Coût pour b = -4 : ", compute_cost_logistic(X_train, y_train, w_array2, b_2))

**Résultat attendu**

Coût pour b = -3 :  0.3668667864055175

Coût pour b = -4 :  0.5036808636748461


Vous pouvez voir que la fonction de coût se comporte comme prévu et que le coût pour `b = -4, w = np.array([1,1])` est en effet plus élevé que le coût pour `b = -3, w = np.array([1,1])`