# Objectif de l'examen
Cet examen simule des données de temps et d'impulsion' avec pour objectif de prédire la force. La force, définie comme ($F = 5 \times t + 0.002 * p$), est ajoutée comme label. Du bruit aléatoire a également été ajouté aux valeurs de force afin de rendre le problème plus réaliste.
Supposons que vous ne connaissez pas a priori les constantes de proportionnalité qui, à partir de l'impulsion et du temps, vous donnent la force dans ce cas spécifique, et utilisez la régression linéaire pour prédire la force à partir des données disponibles.

L'objectif de l'examen est de montrer que la mise à échelle des caractéristiques aide à améliorer les performances d'un modèle de régression. Comme dans le cours, vous avez vu la normalisation du score z, vous devriez donc l'utiliser pour montrer qu'une prédiction de modèle sur les données de test s'améliore si le modèle est entraîné et testé sur des caractéristiques normalisées.

Dans la cellule ci-dessous, des données sont générées et ensuite divisées en set d’entraînement et de test.
Vous devrez utiliser ces deux sets de données durant la suite de l'examen.

In [None]:
# On importe les librairies nécessaires
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

# On génère des données pour le temps, l'impulsion et la force
np.random.seed(42)
num_samples = 100
time = np.random.uniform(0, 1, num_samples)
momentum = np.random.uniform(0, 1000, num_samples)
force = 5 * time + 0.002 * momentum + np.random.normal(0, 1, num_samples)

# On sépare les données en un set d'entraînement et un set de test
X_ = np.column_stack((time, momentum))
y_ = force
X_train, X_test, y_train, y_test = train_test_split(X_, y_, test_size=0.8, random_state=42)

Dans la cellule ci-dessous, implémentez la fonction de coût pour la régression linéaire, y compris un terme de régularisation lambda_.

In [None]:
def compute_cost(    ):
    """
    Calcule la fonction de coût pour la régression linéaire sur tous les exemples
    Args:
      X (ndarray (m,n)  : données, m exemples avec n caractéristiques
      y (ndarray (m,))  : valeurs cibles
      w (ndarray (n,))  : paramètres du modèle  
      b (scalaire)      : paramètre du modèle
      lambda_ (scalaire): contrôle la quantité de régularisation
    Returns:
      total_cost (scalaire):  coût 
    """

Dans la cellule ci-dessous, implémentez la fonction de coût pour la régression linéaire, y compris un terme de régularisation lambda_.

In [None]:
def compute_gradient(    ): 
    """
    Calcule le gradient pour la régression linéaire
 
    Args:
      X (ndarray (m,n): Données, m exemples avec n caractéristiques
      y (ndarray (m,)): valeurs cibles
      w (ndarray (n,)): paramètres du modèle  
      b (scalaire)    : paramètre du modèle
    Returns
      dj_dw (ndarray (n,)): Le gradient du coût par rapport aux paramètres w. 
      dj_db (scalaire)    : Le gradient du coût par rapport au paramètre b. 
    """

Dans la cellule ci-dessous, l'algorithme de descente de gradient vous est fourni. Assurez-vous que votre implémentation des fonctions de coût et de gradient est compatible avec le code ci-dessous.

In [None]:
import copy, math
def gradient_descent(X, y, w_in, b_in, alpha, num_iters, lambda_):
    """
    Effectue la descente de gradient en batch
    
    Args:
      X (ndarray (m,n)   : Données, m exemples avec n caractéristiques
      y (ndarray (m,))   : valeurs cibles
      w_in (ndarray (n,)): Valeurs initiales des paramètres du modèle  
      b_in (scalaire)    : Valeurs initiales du paramètre du modèle
      alpha (float)      : Taux d'apprentissage
      num_iters (scalaire) : nombre d'itérations pour exécuter la descente de gradient
      lambda_ (scalaire)   : paramètre de régularisation pour la fonction de coût
      
    Returns:
      w (ndarray (n,))   : Valeurs mises à jour des paramètres
      b (scalaire)       : Valeur mise à jour du paramètre 
    """
    J_history = []
    w = copy.deepcopy(w_in)
    b = b_in
    
    for i in range(num_iters):
        # Calculez le gradient et mettez à jour les paramètres
        dj_db, dj_dw = compute_gradient(X, y, w, b )

        # Mettre à jour les paramètres en utilisant w, b, alpha et gradient
        w = w - alpha * dj_dw
        b = b - alpha * dj_db
      
        # Enregistrez le coût J à chaque itération
        if i<100000:      
            J_history.append( compute_cost(X, y, w, b, lambda_) )

        # Afficher le coût toutes les 10 itérations ainsi que les dix dernières itérations < 10
        if i% math.ceil(num_iters / 10) == 0:
            print(f"Iteration {i:4d}: Coût {J_history[-1]}   ")
        
    return w, b, J_history

Dans la cellule ci-dessous, initialisez correctement les paramètres du modèle et appelez la fonction de descente de gradient sur 1000 itérations. Le paramètre de régularisation est fixé à lambda_ = 0.1 et vous est donné, tandis que vous devez trouver une valeur du taux d'apprentissage alpha_ dans l'intervalle entre $10^{-4}$ et $10^{-8}$ qui assure la convergence de l'algorithme de descente de gradient.

In [None]:
# entraînement et test avant la mise à l'échelle des caractéristiques
w_tmp  = 
b_tmp  = 
# trouver une valeur alpha_ entre 10^-4 et 10^-8 qui assure la convergence pour la descente de gradient
alpha_ = 
# pas besoin de changer lambda_ ou iters
lambda_ = 0.1
iters = 1000

# appelez la fonction de descente de gradient ci-dessous sur l'ensemble de données d'entraînement, en utilisant les arguments que vous venez d'initialiser

Complétez la cellule ci-dessous afin que "y_pred" stocke les prédictions du modèle pour l'ensemble de données de test.

In [None]:
y_pred = 

Calculez le coût pour les X_test en utilisant lambda = 0

In [None]:
compute_cost()

Vous devriez obtenir quelque chose comme 4.057513207508225

Dans la cellule ci-dessous, définissez une fonction qui implémente la normalisation du score $z$ pour les caractéristiques du modèle.

In [None]:
def zscore_normalize_features(X):
    """
    calcule X, normalisé par le score z par colonne
    
    Args:
      X (ndarray (m,n))     : données d'entrée, m exemples, n caractéristiques
      
    Returns:
      X_norm (ndarray (m,n)): entrée normalisée par colonne
    """

Dans la cellule ci-dessous, utilisez la normalisation du score $z$ que vous avez implémentée ci-dessus pour obtenir les ensembles de données d'entraînement ("X_train_norm") et de test ("X_test_norm") mis à l'échelle.

In [None]:
X_train_norm = 
X_test_norm = 

Dans la cellule ci-dessous, appelez la fonction de descente de gradient pour 1000 itérations en utilisant les ensembles de données d'entraînement ("X_train_norm") et de test ("X_test_norm") mis à l'échelle. Le paramètre de régularisation est fixé à lambda_ = 0.1 et vous est donné. **De plus, le taux d'apprentissage alpha_ dans ce cas a été changé à alpha_ = 0.01 et vous est donné** : vous n'avez pas besoin de changer sa valeur. C'est parce que la mise à l'échelle des caractéristiques aide à la convergence et vous permet d'utiliser un taux d'apprentissage plus élevé.

In [None]:
# données d'entraînement et de test après la mise à l'échelle des caractéristiques
w_tmp  = 
b_tmp  = 
# pas besoin de changer alpha_, lambda_, iters
alpha_ = 0.01 
lambda_ = 0.1
iters = 1000

# appelez la fonction de descente de gradient ci-dessous sur l'ensemble de données d'entraînement, en utilisant les caractéristiques mises à l'échelle et les arguments que vous venez d'initialiser

Complétez la cellule ci-dessous afin que "y_pred_xnorm" stocke les prédictions du modèle pour l'ensemble de données de test en utilisant les caractéristiques **mises à l'échelle** que vous avez précédemment calculées.

In [None]:
y_pred_xnorm = 

Enfin, exécutez la cellule ci-dessous pour obtenir la MSE de votre modèle après la mise à l'échelle des caractéristiques. Vous vous attendez à obtenir une valeur nettement plus petite que celle que vous avez précédemment obtenue en entraînant l'ensemble de données sur les caractéristiques originales, avant la normalisation du score $z$.

Calculez à nouveau la fonction de coût pour X_test_norm en utilisant lambda_ = 0

In [None]:
compute_cost()

Cette fois, le coût devrait être plus bas et devrait être approximativement 0.949801563674332