Notebook lab basé sur le cours Machine Learning d'Andrew Ng sur Coursera

CREDIT: DeepLearning.AI https://www.deeplearning.ai/

## Buts
Durant ce TP, vous allez :
- Apprendre à implémenter le modèle $f_{w,b}$ pour la régression linéaire à une variable.

## Outils
Dans ce TP, vous utiliserez : 
- NumPy, une bibliothèque populaire pour le calcul scientifique
- Matplotlib, une bibliothèque populaire pour créer des graphiques. 

In [None]:
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('./deeplearning.mplstyle')

# Énoncé du problème

Comme dans le cours, vous allez utiliser l'exemple de la prédiction du prix des logements.

Ce laboratoire utilisera un ensemble de données simple avec seulement trois points - une maison de 1000 pieds carrés (sqft) vendue pour 300 000 \\$ et une maison de 2000 pieds carrés vendue pour 500 000 \\$, et une maison de 1500 pieds carrés (sqft) vendue pour 400 000 \\$. Ces trois points constitueront nos *données* (ou *échantillons d'entraînement*).
Pour ce TP, les unités de taille sont 1000 sqft et les unités de prix sont des milliers de dollars.


| Taille (1000 sqft)     | Prix (millier de dollars) |
| -------------------| ------------------------ |
| 1.0               | 300                      |
| 1.5               | 400                      |
| 2.0               | 500                      |

Vous souhaitez ajuster un modèle de régression linéaire à ces deux points, afin de pouvoir prédire le prix d'autres maisons - par exemple, une maison de 1 200 sqft.


Exécutez la cellule de code suivante pour créer vos variables `x_train` et `y_train`. Les données sont stockées dans des tableaux NumPy unidimensionnels.

In [None]:
# x_train est la variable d'entrée (taille en millier de pieds carrés) 
# y_train est la cible (prix en milliers de dollars)
x_train = np.array([1.0, 1.5, 2.0])
y_train = np.array([300.0, 400.0, 500.0])
print(f"x_train = {x_train}")
print(f"y_train = {y_train}")

>**Note** : Le cours utilisera fréquemment le formatage de sortie python 'f-string' décrit [ici] (https://docs.python.org/3/tutorial/inputoutput.html) lors de l'affichage avec `print()`. Le contenu entre les accolades est évalué lorsque le contenu est affiché.

### Nombre de données d'entraînement `m`
Vous utiliserez `m` pour désigner le nombre de donnée d'entraînement. Les tableaux Numpy ont un paramètre `.shape`. `x_train.shape` renvoie un tuple Python avec une entrée pour chaque dimension. `x_train.shape[0]` est la longueur du tableau et le nombre d'exemples. 

Veuillez implémenter votre code dans la cellule ci-dessous, où vous définissez `m` en utilisant la fonction `shape` de numpy pour le tableau numpy `x_train`.

Ensuite, affichez `m` à l'écran.

In [None]:
# m est le nombre d'exemples d'entraînement

Il est aussi possible la fonction `len()` pour avoir le même résultat, comme montré ci-dessous : 

In [None]:
# m is the number of training examples
m = len(x_train)
print(f"Number of training examples is: {m}")

### Données d'entraînement `x_i, y_i`

Vous utiliserez (x$^{(i)}$, y$^{(i)}$) pour désigner la $i^{ème}$ donnée d'entraînement. Comme Python est indexé à partir de zéro, (x$^{(0)}$, y$^{(0)}$) est (1.0, 300.0) et (x$^{(1)}$, y$^{(1)}$) est (1.5, 400.0).

Pour accéder à une valeur dans un tableau Numpy, on indexe le tableau avec l'indice voulu. Par exemple, la syntaxe pour accéder à l'emplacement zéro de `x_train` est `x_train[0]`.
Exécutez le bloc de code suivant pour obtenir le $i^{ème}$ exemple d'entraînement.

In [None]:
for i in range(m): # Changez m par 1 pour afficher (x^1, y^1)   
 x_i = x_train[i]
 y_i = y_train[i]
 print(f"(x^({i}), y^({i})) = ({x_i}, {y_i})")

### Afficher les données

Vous pouvez tracer ces deux points en utilisant la fonction `scatter()` de la bibliothèque `matplotlib`, comme illustré dans la cellule ci-dessous.
- Les arguments `marker` et `c` affichent les points sous forme de croix rouges (par défaut, ce sont des points bleus).

Vous pouvez utiliser d'autres fonctions de la bibliothèque `matplotlib` pour définir le titre et les labels à afficher.

In [None]:
# Afficheir les données
plt.scatter(x_train, y_train, marker='x', c='r')
# On définit le titre du graphique.
plt.title("Prix du logement")
# On définit le label de l'axe des ordonnées
plt.ylabel('Prix (en millier de dollars)')
# On définit le label de l'axe des abscisses
plt.xlabel('Taille (en millier de sqft)')
plt.show()

## Fonction de modèle

Comme décrit en cours, la fonction de modèle pour la régression linéaire (qui est une fonction qui relie un `x` à un `y`) est représentée par

$$f_{w,b}(x^{(i)}) = wx^{(i)} + b \tag{1}$$

La formule ci-dessus représente des droites - différentes valeurs de $w$ et $b$ vous donnent différentes droites sur le graphique.

Essayons d'avoir une meilleure intuition à ce sujet à travers les blocs de code ci-dessous. Commençons avec $w = 100$ et $b = 100$.

**Note : Vous pouvez revenir à cette cellule pour ajuster les paramètres $w$ et $b$ du modèle**

In [None]:
w = 100
b = 100
print(f"w: {w}")
print(f"b: {b}")

Maintenant, calculons la valeur de $f_{w,b}(x^{(i)})$ pour deux points de données. Vous pouvez l'écrire explicitement pour chaque point de données comme suit :

pour $x^{(0)}$, `f_wb = w * x[0] + b`

pour $x^{(1)}$, `f_wb = w * x[1] + b`

Pour un grand nombre de points de données, cela peut devenir fastidieux et répétitif. Donc, à la place, vous pouvez calculer la sortie de la fonction dans une boucle `for` à l'intérieur d'une fonction dédiée `compute_model_output`. Veuillez implémenter la fonction dans la cellule de code ci-dessous.
> **Note** : La description de l'argument `(ndarray (m,))` décrit un tableau Numpy n-dimensionnel de forme (m,). `(scalaire)` décrit un argument sans dimensions, juste une magnitude.  
> **Note** : `np.zeros(n)` retournera un tableau Numpy unidimensionnel avec $n$ entrées.

In [None]:
# Définissez ci-dessous une fonction 'compute_model_output', prenant 'w', 'x' et 'b' comme arguments

Maintenant, appelons la fonction `compute_model_output` et faisons un graphique de la sortie, en commençant par le graphique d'exemple que vous avez obtenu précédemment.

In [None]:
# Tracer ici les données d'entraînement (voir exemple précédent), ainsi que votre modèle en utilisant la fonction 'compute_model_output'.

Comme vous pouvez le voir, définir $w = 100$ et $b = 100$ ne donne *pas* une droite qui correspond à nos données.

### Défi
Essayez d'expérimenter avec différentes valeurs de $w$ et $b$. Quelles devraient être les valeurs pour une ligne qui correspond à nos données ?

#### Conseil :
Vous pouvez cliquer sur les "Indications" vertes ci-dessous pour révéler quelques indications pour choisir b et w.

<details>
<summary>
    <font size='3', color='darkgreen'><b>Hints</b></font>
</summary>
    <p>
    <ul>
        <li>Try $w = 200$ and $b = 100$ </li>
    </ul>
    </p>

### Prédiction
Maintenant que nous avons un modèle, nous pouvons l'utiliser pour faire notre prédiction d'origine. Prédisons le prix d'une maison avec 1200 pieds carrés. Puisque les unités de $x$ sont en milliers de pieds carrés, $x$ est égal à 1.2. Utilisez la cellule de code ci-dessous et affichez votre prédiction : 


In [None]:
# Calculez votre prédiction pour x = 1.2