# Régression logistique, "frontière de décision" (Decision Boundary)

## Objectifs
Dans ce TP, vous allez : 

- Tracez la frontière de décision pour un modèle de régression logistique. Cela vous donnera une meilleure idée de ce que le modèle prédit.


In [None]:
import numpy as np
#%matplotlib widget
import matplotlib.pyplot as plt
from lab_utils_common import plot_data, sigmoid, draw_vthresh
plt.style.use('./deeplearning.mplstyle')

## Ensemble de données

Supposons que vous ayez l'ensemble de données d'entraînement suivant :
- La variable d'entrée `X` est un tableau numpy qui contient 6 exemples d'entraînement, chacun avec deux caractéristiques
- La variable de sortie `y` est également un tableau numpy avec 6 exemples, `y` est soit `0`, soit `1`

In [None]:
X = np.array([[0.5, 1.5], [1,1], [1.5, 0.5], [3, 0.5], [2, 2], [1, 2.5]])
y = np.array([0, 0, 0, 1, 1, 1]).reshape(-1,1) 

### Plot data 

Let's use a helper function to plot this data. The data points with label $y=1$ are shown as red crosses, while the data points with label $y=0$ are shown as blue circles. 

### Tracer les données

Utilisons une fonction (déjà implémentée) pour tracer ces données. Les points de données avec l'étiquette $y=1$ sont représentés par des croix rouges, tandis que les points de données avec l'étiquette $y=0$ sont représentés par des cercles bleus.

In [None]:
fig,ax = plt.subplots(1,1,figsize=(4,4))
plot_data(X, y, ax)

ax.axis([0, 4, 0, 3.5])
ax.set_ylabel('$x_1$')
ax.set_xlabel('$x_0$')
plt.show()

## Modèle de régression logistique

* Supposons que vous souhaitez entraîner un modèle de régression logistique sur ces données qui a la forme

  $f(x) = g(w_0x_0+w_1x_1 + b)$
  
  où $g(z) = \frac{1}{1+e^{-z}}$, qui est la fonction sigmoïde


* Disons que vous avez entraîné le modèle et obtenu les paramètres comme $b = -3, w_0 = 1, w_1 = 1$. C'est-à-dire,

  $f(x) = g(x_0+x_1-3)$

  (Vous apprendrez comment ajuster ces paramètres aux données plus loin dans le cours)
  
  
Essayons de comprendre ce que ce modèle entraîné prédit en traçant sa frontière de décision.

### Rappel sur la régression logistique et la frontière de décision

* Rappelons que pour la régression logistique, le modèle est représenté comme suit :

  $$f_{\mathbf{w},b}(\mathbf{x}^{(i)}) = g(\mathbf{w} \cdot \mathbf{x}^{(i)} + b) \tag{1}$$

  où $g(z)$ est connu comme la fonction sigmoïde et elle mappe toutes les valeurs d'entrée à des valeurs entre 0 et 1 :

  $$g(z) = \frac{1}{1+e^{-z}}\tag{2}$$
  et $\mathbf{w} \cdot \mathbf{x}$ est le produit scalaire du vecteur :
  
  $$\mathbf{w} \cdot \mathbf{x} = w_0 x_0 + w_1 x_1$$
  
  
 * Nous interprétons la sortie du modèle ($f_{\mathbf{w},b}(x)$) comme la probabilité que $y=1$ étant donné $\mathbf{x}$ et paramétré par $\mathbf{w}$ et $b$.
* Par conséquent, pour obtenir une prédiction finale ($y=0$ ou $y=1$) du modèle de régression logistique, nous pouvons utiliser l'heuristique suivante -

  si $f_{\mathbf{w},b}(x) >= 0.5$, prédire $y=1$
  
  si $f_{\mathbf{w},b}(x) < 0.5$, prédire $y=0$
  
  
* Traçons la fonction sigmoïde pour voir où $g(z) >= 0.5$

In [None]:
# Plot sigmoid(z) over a range of values from -10 to 10
z = np.arange(-10,11)

fig,ax = plt.subplots(1,1,figsize=(5,3))
# Plot z vs sigmoid(z)
ax.plot(z, sigmoid(z), c="b")

ax.set_title("Fonction sigmoïde")
ax.set_ylabel('sigmoid(z)')
ax.set_xlabel('z')
draw_vthresh(ax,0)

* Comme vous pouvez le voir, $g(z) >= 0.5$ pour $z >=0$

* Pour un modèle de régression logistique, $z = \mathbf{w} \cdot \mathbf{x} + b$. Par conséquent,

  si $\mathbf{w} \cdot \mathbf{x} + b >= 0$, le modèle prédit $y=1$
  
  si $\mathbf{w} \cdot \mathbf{x} + b < 0$, le modèle prédit $y=0$
  
  
  
### Tracer la frontière de décision

Maintenant, revenons à notre exemple pour comprendre comment le modèle de régression logistique fait des prédictions.

* Notre modèle de régression logistique a la forme

  $f(\mathbf{x}) = g(-3 + x_0+x_1)$


* De ce que vous avez appris ci-dessus, vous pouvez voir que ce modèle prédit $y=1$ si $-3 + x_0+x_1 >= 0$

Voyons à quoi cela ressemble graphiquement. Nous commencerons par tracer $-3 + x_0+x_1 = 0$, qui est équivalent à $x_1 = 3 - x_0$.

In [None]:
# On choisit des valeurs entre 0 et 6. 
x0 = np.arange(0,6)

x1 = 3 - x0
fig,ax = plt.subplots(1,1,figsize=(5,4))
# Plot the decision boundary
ax.plot(x0,x1, c="b")
ax.axis([0, 4, 0, 3.5])

# On remplit la région en dessous de la droite
ax.fill_between(x0,x1, alpha=0.2)

# On affiche les points
plot_data(X,y,ax)
ax.set_ylabel(r'$x_1$')
ax.set_xlabel(r'$x_0$')
plt.show()

* Dans le graphique ci-dessus, la ligne bleue représente la ligne $x_0 + x_1 - 3 = 0$ et elle devrait intersecter l'axe x1 à 3 (si nous fixons $x_1$ = 3, $x_0$ = 0) et l'axe x0 à 3 (si nous fixons $x_1$ = 0, $x_0$ = 3).


* La région ombrée représente $-3 + x_0+x_1 < 0$. La région au-dessus de la ligne est $-3 + x_0+x_1 > 0$.


* Tout point dans la région ombrée (sous la ligne) est classé comme $y=0$. Tout point sur ou au-dessus de la ligne est classé comme $y=1$. Cette ligne est connue sous le nom de "frontière de décision".

Comme nous l'avons vu dans les cours, en utilisant des termes polynomiaux d'ordre supérieur (par exemple : $f(x) = g( x_0^2 + x_1 -1)$, nous pouvons obtenir des frontières non linéaires plus complexes.