Notebook lab basé sur le cours Machine Learning d'Andrew Ng sur Coursera

CREDIT: DeepLearning.AI https://www.deeplearning.ai/

## Buts
Dans ce TP, vous allez : 
- Implémenter et explorer la "fonction de coût" (cost function) pour la régression linéaire à une variable.


## Outils
Dans ce TP, vous allez utiliser : 
- NumPy, une bibliothèque populaire pour le calcul scientifique
- Matplotlib, une bibliothèque populaire pour créer des graphiques. 

In [None]:
import numpy as np
%matplotlib notebook
import matplotlib.pyplot as plt
from lab_utils_uni import plt_intuition, plt_stationary, plt_update_onclick, soup_bowl
plt.style.use('./deeplearning.mplstyle')

## Énoncé du problème

Vous souhaitez un modèle capable de prédire les prix des logements en fonction de la taille de la maison.
Utilisons les mêmes deux points de données que précédemment - une maison de 1000 pieds carrés vendue 300 000 \\$ et une maison de 2000 pieds carrés vendue 500 000 \\$.

| taille (millier de sqft)     | Prix (milliers de dollars) |
| -------------------| ------------------------ |
| 1                 | 300                      |
|1.5                | 400
| 2                  | 500                      |


In [None]:
x_train = np.array([1.0, 1.5, 2.0])           # (taille en millieur de sqft)
y_train = np.array([300.0, 400.0, 500.0])           # (prix en millier de dollars)

## Calculer le coût
Le terme "coût" dans notre contexte peut porter à confusion parce que nos données consiste en partie au coût du logement. 

Le terme "coût" dans notre contexte peut prêter à confusion car les données sont en partie le coût des logements.

Ici, le coût est une mesure de la précision avec laquelle notre modèle prédit le prix cible de la maison. Le terme "prix" est utilisé pour les données sur les logements.

L'équation pour le cût avec une variable est : 
  $$J(w,b) = \frac{1}{2m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})^2 \tag{1}$$ 
 
où 
  $$f_{w,b}(x^{(i)}) = wx^{(i)} + b \tag{2}$$
  
- $f_{w,b}(x^{(i)})$  est notre prédiction. 
- $(f_{w,b}(x^{(i)}) - y^{(i)})^2$ est la différence entre la valeur cible et la prédiction, le tout est mis au carré. 
- Ces différences sont ensuite sommées sur toutes les données de taille $m$ et divisées par `2m` pour avoir le coût $J(w,b)$.  
> Note : en cours, les indices de sommation vont de 1 à $m$, alors que dans le code, les indices vont de 0 à $m-1$.


Le code ci-dessous calcule le coût en itérant sur les données.

A chaque boucle :
- `f_wb`, une prédiction est calculée
- la différence entre la cible et la prédiction est calculée et mise au carré.
- le résultat est ajouté au coût total.

In [None]:
def compute_cost(x, y, w, b): 
    """
    Calcule la fonction de coût pour la régression linéaire.
    
    Args:
      x (ndarray (m,)): Data, m données
      y (ndarray (m,)): Données cibles
      w,b (scalar)    : Paramètres du modèle
    
    Returns
        total_cost (float): Le coût total relaif à w,b lors de la régression linéaire pour les données x et y.
    """
    
    
    
    
    

## Intuition sur la fonction de coût

Votre objectif est de trouver un modèle $f_{w,b}(x) = wx + b$, avec des paramètres $w, b$, qui prédira précisément les valeurs des maisons données une entrée $x$. Le coût est une mesure de la précision du modèle sur les données d'entraînement.

L'équation de coût (1) ci-dessus montre que si $w$ et $b$ peuvent être sélectionnés de telle sorte que les prédictions $f_{w,b}(x)$ correspondent aux données cibles $y$, le terme $(f_{w,b}(x^{(i)}) - y^{(i)})^2 $ sera nul et le coût minimisé. 

Dans le TP précédent, vous avez déterminé que $b=100$ fournissait une solution optimale, donc fixons $b$ à 100 et concentrons-nous sur $w$.


Ci-dessous, utilisez le curseur pour sélectionner la valeur de $w$ qui minimise le coût. Cela peut prendre quelques secondes pour que le graphique soit mis à jour.

In [5]:
plt_intuition(x_train,y_train)

Le graphique contient quelques points qui valent la peine d'être mentionnés.
- Le coût est minimisé lorsque $w = 200$, ce qui correspond aux résultats du TP précédent.
- Parce que la différence entre la cible et la prédiction est mise au carré dans l'équation de coût, le coût augmente rapidement lorsque $w$ est soit trop grand soit trop petit.
- Utiliser les valeurs de `w` et `b` sélectionnées en minimisant le coût conduit à une droite qui correspond parfaitement aux données.

## Visualisation de la fonction de coût - 3D

Vous pouvez voir comment le coût varie par rapport à *à la fois* `w` et `b` en traçant en 3D ou en utilisant un tracé de contour.
Il convient de noter que certains des graphiques dans ce cours peuvent devenir assez complexes. Les routines pour créer les graphiques sont fournies et bien qu'il puisse être instructif de lire le code pour se familiariser avec les méthodes, cela n'est pas nécessaire pour réussir le cours. Les routines se trouvent dans `lab_utils_uni.py` dans le répertoire local

### Ensemble de données plus volumineux
Il est instructif d'examiner un scénario avec quelques points de données supplémentaires. Cet ensemble de données comprend des points de données qui ne se trouvent pas sur la même ligne. Qu'est-ce que cela signifie pour l'équation de coût ? Pouvons-nous trouver $w$ et $b$ qui nous donneront un coût de 0 ?

In [None]:
x_train = np.array([1.0, 1.7, 2.0, 2.5, 3.0, 3.2])
y_train = np.array([250, 300, 480,  430,   630, 730,])

Dans le "contour plot", cliquez sur un point pour sélectionner `w` et `b` afin d'obtenir le coût le plus bas. Utilisez les contours pour guider vos sélections. Notez que cela peut prendre quelques secondes pour mettre à jour le graphique.

In [None]:
plt.close('all') 
fig, ax, dyn_items = plt_stationary(x_train, y_train)
updater = plt_update_onclick(fig, ax, x_train, y_train, dyn_items)

Ci-dessus, notez les lignes en pointillés dans le graphique de gauche. Elles représentent la contribution au coût total par chaque exemple de votre ensemble d'entraînement. Dans ce cas, des valeurs d'environ $w=209$ et $b=2.4$ fournissent un faible coût. Notez que, parce que nos données d'entraînement ne sont pas sur une droite parfaite, le coût minimum n'est pas zéro.

### Surface de coût convexe
Le fait que la fonction de coût mette au carré la perte garantit que la 'surface d'erreur' est convexe comme un bol de soupe. Elle aura toujours un minimum qui peut être atteint en suivant le gradient dans toutes les dimensions. Dans le graphique précédent, parce que les dimensions $w$ et $b$ évoluent différemment, cela n'est pas facile à reconnaître. Le graphique suivant, où $w$ et $b$ sont symétriques, a été présenté en cours :

In [None]:
soup_bowl()

# Félicitations !
Vous avez (on espère) appris les points suivants :
- L'équation de coût fournit une mesure de la précision avec laquelle vos prédictions correspondent à vos données d'entraînement.
- Minimiser le coût peut fournir des valeurs optimales de $w$, $b$.