# Un peu d'apprentissage automatique avec NumPy

Nous allons effectuer un petit peu d'apprentissage automatique, qui est une sous-branche de l'intelligence artificielle, pour illustrer l'utilisation du paquet `numpy`.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

## Régression linéaire simple

Supposons que l'on a une variable d'intérêt $y \in \mathbb{R}$, qui est continue, que l'on cherche à prédire à partir d'une variable en entrée continue $x \in \mathbb{R}$.
On dispose de $n$ observations, qui sont représentées par le vecteur $\mathbf{x} \in \mathbb{R}^n$ contenant les entrées et le vecteur $\mathbf{y} \in \mathbb{R}^n$ contenant les sorties.
On utilise la fonction [`sklearn.datasets.make_regression()`](https://scikit-learn.org/1.6/modules/generated/sklearn.datasets.make_regression.html) pour générer un tel jeu de données :

In [None]:
from sklearn.datasets import make_regression

x_lin_sim, y_lin_sim = make_regression(
    n_samples=40, n_features=1, n_informative=1, bias=2.0, noise=40, random_state=42
)

x_lin_sim = x_lin_sim.ravel()

Deux variables Python ont été créées :

* `x_lin_sim` correspond au vecteur $\mathbf{x}$ contenant les entrées,
* `y_lin_sim` correspond au vecteur $\mathbf{y}$ contenant les sorties.

**Question 1 : Affichez les données avec un graphique adapté.**

In [None]:
# TODO

La régression linéaire simple fait l'hypothèse que la relation entre la variable d'intérêt et la variable en entrée est modélisée par une relation linéaire :

$$
    y \approx a x + b
$$

Pour estimer le coefficient $a$ et la constante $b$, on utilise le critère de la somme des moindres carrés :

$$
    \hat{a}, \hat{b} = \arg\min_{a, b} \sum_{i=1}^n \left( y^{(i)} - (a x^{(i)} + b) \right)^2
$$

Les solutions à ce problème d'optimisation (obtenues en cherchant quand le gradient de cette fonction est nul) sont les suivantes :

$$
    \hat{a} = \frac{\text{Cov}(x, y)}{\text{Var}(x)} = \frac{\sum_{i=1}^n \left( x^{(i)} - \bar{x} \right) \left( y^{(i)} - \bar{y} \right)}{\sum_{i=1}^n \left( x^{(i)} - \bar{x} \right)^2} \qquad\text{et}\qquad \hat{b} = \bar{y} - \hat{a} \bar{x}
$$

avec :

$$
    \bar{x} = \frac{1}{n} \sum_{i=1}^n x^{(i)} \qquad\text{et}\qquad \bar{y} = \frac{1}{n} \sum_{i=1}^n y^{(i)}
$$

**Question 2 : Calculez les solutions de la régression linéaire simple pour ce jeu de données avec les formules fournies ci-dessus.** Vous pouvez utiliser la fonction [`numpy.cov()`](https://numpy.org/doc/stable/reference/generated/numpy.cov.html) qui renvoie la **matrice de covariance** entre deux vecteurs, ou implémenter la formule fournie ci-dessus. Les solutions approximatives sont :

$$
    \hat{a} \approx 86.91856 \qquad\text{et}\qquad \hat{b} \approx 1.02764
$$

In [None]:
# TODO

**Question 3 : Affichez la régression linéaire simple optimale avec le jeu de données.**

In [None]:
# TODO

## Régression linéaire multiple

Passons maintenant à un cas plus complexe, mais plus réaliste, avec la régression linéaire multiple.
En effet, il est irréaliste dans l'immense majorité des cas d'espérer pouvoir prédire la variable d'intérêt $y$ avec une seule variable en entrée.

On suppose maintenant que chaque entrée n'est plus un réel $x^{(i)} \in \mathbb{R}$ mais un vecteur de nombre réels $\mathbf{x}^{(i)} \in \mathbb{R}^p$.
À chaque entrée $\mathbf{x}_i$ est toujours associée une sortie $y^{(i)} \in \mathbb{R}$.
Les entrées sont représentées par la matrice $\mathbf{X} \in \mathbb{R}^{n \times d}$ et les sorties sont représentées par le vecteur $\mathbf{y} \in \mathbb{R}^{n}$.

On utilise à nouveau la fonction [`sklearn.datasets.make_regression()`](https://scikit-learn.org/1.6/modules/generated/sklearn.datasets.make_regression.html) pour générer un tel jeu de données :

In [None]:
X_lin, y_lin = make_regression(
    n_samples=40, n_features=10, n_informative=8, bias=70.0, noise=40, random_state=42
)

Deux variables Python ont été créées :

* `X_lin` correspond à la matrice $\mathbf{X}$ contenant les entrées,
* `y_lin` correspond au vecteur $\mathbf{y}$ contenant les sorties.

La régression linéaire multiple fait l'hypothèse que la relation entre la variable d'intérêt et les variables en entrée est modélisée par une relation linéaire :

$$
    y \approx w_0 + \sum_{j=1}^p w_i x_i
$$

Une manière courante de rajouter la constante est de rajouter une variable supplémentaire qui vaut 1, c'est-à-dire une colonne de 1 à la matrice $\mathbf{X}$ :

$$
    y \approx \sum_{j=0}^p w_i x_i = \mathbf{w}^\top \mathbf{x}
$$

**Question 4 : Ajoutez une colonne de 1 en tant que dernière colonne à la matrice `X_lin` pour modéliser la constante.** Vous pouvez utiliser les fonctions [`numpy.ones()`](https://numpy.org/doc/stable/reference/generated/numpy.ones.html) pour créer un tableau ne contenant que des 1 et [`numpy.column_stack()`](https://numpy.org/doc/stable/reference/generated/numpy.column_stack.html), [`numpy.hstack()`](https://numpy.org/doc/stable/reference/generated/numpy.hstack.html) ou [`numpy.concatenate()`](https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html) pour concaténer deux tableaux NumPy le long des colonnes.

In [None]:
# TODO

On utilise toujours le critère de la somme des moindres carrés pour trouver les paramètres optimaux :

$$
    \hat{\mathbf{w}} = \arg\min_{\mathbf{w}} \sum_{i=1}^n \left( y^{(i)} - \mathbf{w}^\top \mathbf{x}_i \right)^2
    = \arg\min_{\mathbf{w}} \Vert \mathbf{y} - \mathbf{X} \mathbf{w} \Vert_2^2
$$

On calcule le gradient de cette fonction par rapport à $\mathbf{w}$ et on cherche quand il est nul :

$$
-2 \mathbf{X}^\top \left( \mathbf{y} - \mathbf{X} \hat{\mathbf{w}} \right) = 0
\Longleftrightarrow \mathbf{X}^\top \left( \mathbf{y} - \mathbf{X} \hat{\mathbf{w}} \right) = 0
\Longleftrightarrow \mathbf{X}^\top \mathbf{X} \hat{\mathbf{w}} = \mathbf{X}^\top \mathbf{y}
$$

On obtient donc l'équation suivante :

$$
    \mathbf{X}^\top \mathbf{X} \hat{\mathbf{w}} = \mathbf{X}^\top \mathbf{y}
$$

Vous avez peut-être envie d'inverser la matrice $\mathbf{X}^\top \mathbf{X}$ pour trouver $\hat{\mathbf{w}}$, mais ce n'est pas une bonne idée.
En effet, on n'a pas besoin de $\left(\mathbf{X}^\top \mathbf{X}\right)^{-1}$, qui est une matrice de taille $(p + 1) \times (p + 1)$, mais seulement de $\left( \mathbf{X}^\top \mathbf{X} \right)^{-1} \mathbf{X}^\top \mathbf{y}$, qui est un vecteur de taille $p + 1$.
C'est pourquoi on laisse l'équation sous la forme d'un système d'équations linéaires, parce qu'il est plus efficace de la résoudre sous cette forme :

$$
    \mathbf{X}^\top \mathbf{X} \hat{\mathbf{w}} = \mathbf{X}^\top \mathbf{y}
$$

**Question 5 : La fonction [`numpy.linalg.solve()`](https://numpy.org/doc/stable/reference/generated/numpy.linalg.solve.html) permet de résoudre un système d'équations linéaires. Utilisez cette fonction pour trouver les paramètres optimaux $\hat{\mathbf{w}}$ de la régression linéaire multiple des moindres carrés.** Vous pouvez utiliser la propriété [`.T`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.T.html#numpy.ndarray.T) pour transposer un tableau NumPy à deux dimensions. On rappelle que le produit matriciel peut être obtenu avec l'opérateur `@`.

In [None]:
# TODO

Maintenant que l'on a estimé les paramètres $\hat{\mathbf{w}}$, on peut obtenir la prédiction effectuée par le modèle pour n'importe quelle observation :
* Pour une seule observation $\mathbf{x}$ : $\displaystyle \hat{y} = \hat{\mathbf{w}}^\top \mathbf{x} = \mathbf{x}^\top \hat{\mathbf{w}}$
* Pour un lot d'observations $\mathbf{X}$ : $\displaystyle \hat{\mathbf{y}} = \mathbf{X} \hat{\mathbf{w}}$

**Question 6 : Calculez les prédictions $\hat{\mathbf{y}}$ obtenues avec ce modèle pour toutes les observations $\mathbf{X}$.**

In [None]:
# TODO

Pour évaluer la qualité de notre modèle, nous allons utiliser comme critère la racine carrée de l'erreur quadratique moyenne (RMSE pour *root mean squared error* en anglais) :

$$
    \text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^n \left( y^{(i)} - \hat{y}^{(i)} \right)^2}
$$

**Question 7 : Calculez la racine carrée de l'erreur quadratique moyenne entre les vraies sorties et les sorties prédites.**

In [None]:
# TODO

Quand on fait de l'apprentissage automatique supervisé, on souhaite évaluer le modèle sur un jeu de données indépendant du jeu d'entraînement.

**Question 8 : Utilisez la classe [`sklearn.model_selection.ShuffleSplit()`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.ShuffleSplit.html) pour séparer 10 fois le jeu de données complet en un jeu d'entraînement avec 80% des observations et un jeu d'évaluation avec 20% des observations, répondre à nouveau aux questions 5 à 7 et calculer la moyenne des racines carrées des erreurs quadratiques moyennes. Comparez le score obtenu ici avec celui obtenu à la question précédente.**

In [None]:
from sklearn.model_selection import ShuffleSplit

# On sauvegarde les résultats dans une liste
res = []

# On crée l'instance de sklearn.model_selection.ShuffleSplit() avec les bons arguments
shuffle_split = ShuffleSplit(n_splits=10, test_size=0.2, random_state=43)

for train_idx, test_idx in shuffle_split.split(X_lin):
    # train_idx est un tableau NumPy contenant les indices du jeu d'entraînement
    # test_idx est un tableau NumPy contenant les indices du jeu d'évaluation

    # TODO : Créer les tableaux pour les jeux d'entraînement et d'évaluation


    # TODO : Calculer les paramètres w_hat sur le jeu d'entraînement


    # TODO : Calculer la RMSE sur le jeu d'évaluation et la sauvegarder dans res


# TODO : Calculer la RMSE moyenne sur les 10 jeux d'évaluation


## Régression logistique

La régression logistique est un modèle linéaire pour des tâches de classification binaire.
L'objectif n'est pas de prédire un nombre réel mais une classe parmi deux choix possibles (par exemple *malade* ou *sain* dans le domaine médical).
L'algorithme s'étend aux tâches de classification multiclasse, c'est-à-dire avec un nombre de classes strictement plus grand que deux, mais nous nous limiterons à la classification binaire ici.

Un modèle linéaire de classification binaire sépare l'espace en deux sous-espaces par un hyperplan.
En classification binaire, on fait souvent référence aux deux classes par les termes *classe positive* et *classe négative*.

Le modèle prédit comme :

* observation positive tout point du plan dont la distance signée à l'hyperplan est positive, et
* observation négative tout point du plan dont la distance signée à l'hyperplan est négative.


### Cas où les classes sont linéairement séparables

Tout d'abord, on utilise la fonction [`sklearn.datasets.make_classification()`](https://scikit-learn.org/1.6/modules/generated/sklearn.datasets.make_classification.html) pour créer un jeu de données avec seulement deux variables en entrée pour pouvoir facilement visualiser le jeu de données :

In [None]:
from sklearn.datasets import make_classification

X_log_sep, y_log_sep = make_classification(
    n_samples=40, n_features=2, n_informative=2, n_repeated=0, n_redundant=0,
    n_clusters_per_class=1, flip_y=0, class_sep=2, random_state=42,
)

Deux variables Python ont été créées :
* `X_log_sep` correspond à la matrice $\mathbf{X}$ contenant les entrées,
* `y_log_sep` correspond au vecteur $\mathbf{y}$ contenant les sorties (c'est-à-dire les classes, $0$ ou $1$).

**Question 9 : Effectuez une visualisation du jeu de données. Est-ce que les classes sont linéairement séparables ?**

In [None]:
# TODO

Pour un hyperplan caractérisé par le vecteur $\mathbf{w}$, la distance signée d'un point $\mathbf{x}$ à l'hyperplan est le produit scalaire entre les deux vecteurs :

$$
    f(\mathbf{x}; \mathbf{w}) = \mathbf{w}^\top \mathbf{x}
$$

On fait encore l'hypothèse d'avoir rajouter une variable supplémentaire au vecteur $\mathbf{x}$ contenant un `1` pour modéliser la constante.

**Question 10 : Ajoutez une colonne de 1 en tant que dernière colonne à la matrice `X_log_sep` pour modéliser la constante.**

In [None]:
# TODO

La régression logistique est un modèle probabiliste avec l'hypothsèse suivante :

$$
    P(y=1 \vert \mathbf{x}) = \sigma \left( \mathbf{w}^\top \mathbf{x} \right)
$$

où $\sigma$ est la fonction sigmoïde définie par :

$$
    \sigma(x) = \frac{1}{1 + \exp(-x)}
$$

**Question 11 : Définissez une fonction `sigmoid()` qui prend en argument un tableau NumPy et qui renvoie le tableau NumPy de même forme où la fonction sigmoïde a été appliquée à chaque élément du tableau.**

In [None]:
def sigmoid(x):
    # TODO

Pour trouver les paramètres optimaux (l'hyperplan $\mathbf{w}$), on cherche encore à minimiser une fonction de coût notée $J$ :

$$
    \mathbf{w}^* = \arg\min_{\mathbf{w}} J(\mathbf{w})
$$

On utilise l'[entropie croisée](https://fr.wikipedia.org/wiki/Entropie_croisée) comme critère :

$$
    J(\mathbf{w}) = \frac{1}{n} \sum_{i=1}^n - y^{(i)} \log \left( \sigma \left( \mathbf{w}^\top \mathbf{x}^{(i)} \right) \right) - \left( 1 - y^{(i)} \right) \log \left( 1 - \sigma \left( \mathbf{w}^\top \mathbf{x}^{(i)} \right) \right)
$$

Le gradient de cette fonction par rapport à $\mathbf{w}$ est noté $\nabla_{\mathbf{w}} J$ :

$$
    \nabla_{\mathbf{w}} J(\mathbf{w}) = \frac{1}{n} \sum_{i=1}^n \left( \sigma \left( \mathbf{w}^\top \mathbf{x}^{(i)} \right) - y^{(i)} \right) \mathbf{x}^{(i)}
$$

Il n'existe pas d'[expression de forme fermée](https://fr.wikipedia.org/wiki/Expression_de_forme_fermée) pour résoudre l'équation $\nabla_{\mathbf{w}} J(\mathbf{w}) = 0$.
On va donc implémenter à la place une [descente du gradient](https://fr.wikipedia.org/wiki/Algorithme_du_gradient) pour trouver les paramètres optimaux.

**Algorithme de descente du gradient**

* Paramètres :
    + `X` : matrice des entrées
    + `y` : vecteur des sorties
    + `max_iter` : nombre maximum d'itérations
    + `tol` : tolerance (sur la norme infinie du gradient)
    + `lr` : taux d'apprentissage $\eta$
* Initialiser les coefficients à 0 : $\mathbf{w}^{(0)}$
* Calculer le gradient $\nabla_{\mathbf{w}} J(\mathbf{w}^{(0)})$
* Si la norme infinie du gradient est inférieure à `tol`
    + Renvoyer les résultats : l'initialisation convient
* Sinon, tant que le nombre maximum d'itérations n'est pas atteint
    + Mettre à jour les coefficients avec la formule suivante : $\mathbf{w}^{(t)} = \mathbf{w}^{(t-1)} - \eta \times \nabla_{\mathbf{w}} J(\mathbf{w}^{(t-1)})$
    + Calculer le gradient $\nabla_{\mathbf{w}} J(\mathbf{w}^{(t)})$
    + Si la norme infinie du gradient est inférieure à `tol`
        - Arrêter
* Renvoyer les coefficients finaux, si l'algorithme a convergé et le nombre d'itérations effectuées.

Pour rappel, la norme infinie d'un vecteur est définie par :
$$
    \Vert \mathbf{x} \Vert_{\infty} = \max_{j} \vert x_j \vert
$$

**Question 12 : Définissez une fonction `norm()` qui renvoie la norme infinie d'un tableau NumPy.**

In [None]:
def norm(x):
    # TODO

**Question 13 : Définissez une fonction `gradient_logistic_regression()` qui prend en arguments le vecteur des coefficients $\mathbf{w}$, la matrice des entrées $\mathbf{X}$ et le vecteur des sorties $\mathbf{y}$, et qui renvoie le gradient $\nabla_{\mathbf{w}} J(\mathbf{w})$.**

In [None]:
def gradient_logistic_regression(w, X, y):
    # TODO

Vous vous demandez sûrement si votre implémentation du gradient est correcte. Pour la vérifier, on peut utiliser la fonction [`scipy.optimize.check_grad()`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.check_grad.html) qui vérfie l'exactitude d'une fonction de gradient en la comparant à une approximation par différences finies (vers l'avant) du gradient.
Pour utiliser cette fonction, il est nécessaire de définir la fonction originale pour laquelle on calcule le gradient.

**Question 14 : Définissez une fonction `function_logistic_regression()` qui prend en arguments le vecteur des coefficients $\mathbf{w}$, la matrice des entrées $\mathbf{X}$ et le vecteur des sorties $\mathbf{y}$, et qui renvoie $J(\mathbf{w})$.**

In [1]:
def function_logistic_regression(w, X, y):
    # TODO

**Question 15 : Utilisez la fonction [`scipy.optimize.check_grad()`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.check_grad.html) pour vérifier votre fonction du gradient.** Vous pouvez vérifier que le résultat renvoyé par cette fonction, correspondant à la norme $L_2$ de la différence entre le gradient calculé par la fonction fournie et l'approximation calculée par différences finies, est inférieur à une faible valeur (par exemple `1e-4`). Effectuez cette vérification pour différentes valeurs de $\mathbf{w}$.

In [None]:
from scipy.optimize import check_grad

# TODO

**Question 16 : Définissez une fonction `gradient_descent()` qui implémente l'algorithme de descente de gradient défini ci-dessus et qui renvoie un dictionnaire avec les informations suivantes :**

* La clé `'coef'` a pour valeur les coefficients obtenus à la dernière itération effectuée.
* La clé `'convergé'` a pour valeur un booléen indiquant si l'algorithme a convergé ou non.
* La clé `'n_iter'` a pour valeur le nombre d'itérations effectuées.

In [None]:
# TODO

**Question 17 : Appelez la fonction `gradient_descent()` avec les valeurs suivantes : `max_iter=10_000, tol=1e-4` et le taux d'apprentissage `lr` prenant ses valeurs dans `[10.0 ** k for k in range(-3, 3)]`. Sauvegardez les résultats dans un seul dictionnaire dont les clés sont les valeurs du taux d'apprentissage.**

In [None]:
def gradient_descent(X, y, max_iter, tol, lr):
    # TODO

**Question 18 : Définissez une fonction `plot_decision_functions()` qui affiche sur un même graphique 6 figures, où chaque figure affiche le jeu de données et l'hyperplan appris de la régression logistique pour ce taux d'apprentissage. Indiquez dans le titre de chaque sous-figure les informations pertinentes.**

In [None]:
def plot_decision_functions(X, y, res):
    # TODO

**Question 19 : Appelez cette fonction. Que constatez-vous ?**

In [None]:
# TODO

**Question 20 : Définissez une fonction `accuracy()` qui prend en arguments le vecteur des coefficients $\mathbf{w}$, la matrice des entrées $\mathbf{X}$ et le vecteur des sorties $\mathbf{y}$, et qui renvoie la proportion de bonnes prédictions effectuées par le modèle.** 

In [None]:
def accuracy(w, X, y):
    # TODO

**Question 21 : Utilisez cette fonction pour vérifier que la proportion de bonnes prédictions effectuées par chacun des modèles est bien égale à 1.**

In [None]:
# TODO

### Cas où les classes ne sont pas linéairement séparables

On s'intéresse maintenant au cas plus réaliste où les classes ne sont pas linéairement séparables.
On utilise à nouveau la fonction [`sklearn.datasets.make_classification()`](https://scikit-learn.org/1.6/modules/generated/sklearn.datasets.make_classification.html) pour créer un tel jeu de données :

In [None]:
X_log, y_log = make_classification(
    n_samples=40, n_features=2, n_informative=2, n_repeated=0, n_redundant=0,
    n_clusters_per_class=1, flip_y=0.2, class_sep=0.8, random_state=42,
)

**Question 22 : Effectuez une visualisation du jeu de données. Est-ce que les classes ne sont pas linéairement séparables ?**

In [None]:
# TODO

**Question 23 : Ajoutez une colonne de 1 en tant que dernière colonne à la matrice `X_log` pour modéliser la constante.**

In [None]:
# TODO

**Question 24 : Répétez les questions 14 et 16 pour ce jeu de données.**

In [None]:
# TODO


On constate que le taux d'apprentissage est un hyperparamètre important car :

* s'il est trop élevé, l'algorithme ne vas pas converger (vers la valeur optimale), et
* s'il est trop faible, l'algorithme va mettre trop de temps à converger.

Il existe une borne supérieure qui permet d'affirmer que si le taux d'apprentissage est inférieur à cette borne supérieure, alors l'algorithme converge forcément (avec assez d'itérations) vers la solution optimale.
Cette borne supérieure est l'inverse de la plus grande valeur propre de la matrice hessienne de la fonction de coût.

La matrice hessienne de la fonction de coût est :
$$
    \nabla_{\mathbf{w}}^2 J(\mathbf{w}) 
    = \frac{1}{n} \sum_{i=1}^n \sigma \left( \mathbf{w}^\top \mathbf{x}^{(i)} \right) \left( 1 - \sigma \left( \mathbf{w}^\top \mathbf{x}^{(i)} \right) \right) \mathbf{x}^{(i)} \mathbf{x}^{(i)\top}
    = \frac{1}{n} \mathbf{X}^\top \mathbf{D} \mathbf{X}
    \qquad\text{avec}\qquad
    \mathbf{D} = \text{diag}\left( \left[ \sigma \left( \mathbf{w}^\top \mathbf{x}^{(i)} \right) \left( 1 - \sigma \left( \mathbf{w}^\top \mathbf{x}^{(i)} \right) \right) \right]_{i=1}^p \right)
$$

La matrice hessienne dépend du point d'évaluation $\mathbf{w}$ à travers la matrice diagonale $\mathbf{D}$. Néanmoins, si on trouve un majorant de $\mathbf{D}$ (en valeurs propres), alors on pourra calculer un majorant de la hessienne.

**Question 25 : Affichez la courbe de la fonction $x \mapsto \sigma(x) (1 - \sigma(x))$ sur l'intervalle $[-10, 10]$ pour déterminer visuellement le maximum de cette fonction. En déduire une matrice majorant (en valeurs propres) la hessienne.**

In [None]:
# TODO

On utilise la fonction [`scipy.sparse.linalg.svds()`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.linalg.svds.html) pour calculer la plus grande valeur propre de la matrice $\frac{1}{4n} X^\top X$ sans avoir à calculer le produit entre les deux matrices grâce à la [décomposition en valeurs singulières](https://fr.wikipedia.org/wiki/Décomposition_en_valeurs_singulières) :

In [None]:
from scipy.sparse.linalg import svds


svds(X_log, k=1, which='LM', rng=42, return_singular_vectors=False).item() ** 2 / (4 * X_log.shape[0])

**Question 26 : Définissez une nouvelle version de la fonction `gradient_descent_auto_lr()` qui ne prend plus un argument `lr` pour le taux d'apprentissage, mais qui le calcule automatiquement avec la méthodologie définie ci-dessus. Ajoutez le taux d'apprentissage utilisé dans le dictionnaire renvoyé par cette fonction.**

In [None]:
# TODO

**Question 27 : Affichez les résultats obtenus avec cette fonction dans un graphique. Comparez ces résultats avec ceux obtenus à la question 21.**

In [None]:
# TODO