In [2]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error

# Introduction

Dans ce notebook, nous allons étudier les fondamentaux de la régression polynomiale et mettre en place notre premier projet de Machine Learning.

Pour rappel, un polynôme `p(x)` de degré `d` est une fonction mathématique définie par $p(x) = \theta_{0} + \theta_{1} x + \theta_{2} x^{2} + \ldots + \theta_{d} x^{d}$.

# Objectifs pédagogiques

* Comprendre ce qu'est un polynôme ;
* Comprendre ce qu'est un paramètre d'un modèle de Machine Learning ;
* Comprendre ce qu'est un hyper-paramètre d'un modèle de Machine Learning ;
* S'initier aux notions de sous-apprentissage ("underfitting") et de sur-apprentissage ("overfitting") ;
* Savoir répartir ses données dans un projet de Machine Learning.

# Préparation des données

## Chargement des données

Charger respectivement dans une variable `x` et dans une variable `y`, les tableaux `x.npy` et `y.npy`.

Astuce : utiliser la fonction Numpy `load()`.

In [3]:
x = np.load('x.npy')
# y = ...

FileNotFoundError: ignored

## Affichage des données

In [None]:
# plt.plot(...)

(Exemple de graphique attendu)

![](figure1.png)

Ce jeu de données nous donne l'évolution de la température au cours du temps depuis ces quinze dernières années. Le but est de mettre en place un modèle de Machine Learning capable de prédire la valeur de la température en fonction de la date.

## Coefficient de corrélation

Calculer le coefficient de corrélation entre `x`et `y`.

In [None]:
# rho = ...

Ce coefficient de corrélation est faible, indiquant qu'une régression linéaire simple n'est certainement pas le modèle adéquat pour lier `y` à `x`. Nous allons toutefois voir que malgré ce faible coefficient de corrélation, il est possible de relier mathématiquement `y` et `x` en utilisant ici la régression polynomiale.

# Interpolation des données par une régression polynomiale

Effectuer une régression polynomiale sur l'ensemble du jeu de données (`x`, `y`) en utilisant la librairie `scikit-learn`. Tester différentes valeurs de degrés de polynômes et calculer les erreurs quadratiques moyennes associées ainsi que leurs racines carrées. Afficher sur un graphique les prédictions obtenues.

## Régression polynomiale

In [None]:
d = 2 # degré du polynome
Poly = PolynomialFeatures(d) # creation de mon polynome de degré d
X_poly = Poly.fit_transform(x)
print(X_poly.shape)
print(X_poly[0:5, :])

## Erreur quadratique moyenne

In [None]:
# y_predict = ...

# MSE = ...
# RMSE = ...

## Affichage

In [None]:
# plt.plot(...)

(Exemple de graphique attendu)

![](figure2.png)

## Ensuite...

Calculer la valeur du degré `d` (1 < `d` < 20) du polynôme minimisant l'erreur quadratique moyenne.

In [None]:
# min_MSE = np.inf

# for d in range(20):
    # ...

Vous avez dû identifier un polynôme de degré 11 comme étant celui qui minimise au mieux l'erreur quadratique moyenne. Toutefois en réalité, les variables `x`et `y` sont reliées entre elles par un polynôme de degré 4. Nous faisons ici face à un problème traditionnel en traitement de la donnée, le sur-apprentissage ou "overfitting". Nous allons voir dans la section précédente une méthode pour s'en affranchir.

# Approche Machine Learning

Un modèle de Machine Learning est typiquement défini par :
* des paramètres ;
* des hyper-paramètres.

Un modèle polynomial a plusieurs paramètres : les coefficients du polynôme $\theta_{0}, \theta_{1}, \ldots, \theta_{d}$. Il n'a par contre qu'un seul hyperparamètre, le degré $d$ du polynôme.

Vous allez dans cette section apprendre, sur l'exemple de la régression polynomiale, comment dans un projet de Machine Learning le jeu de données est échantillonné afin :
* de calculer les paramètres du modèle ;
* d'optimiser les hyperparamèters du modèle ;
* d'éviter le phénomène de sur-apprentissage.

## Echantillonnage des données

Créer trois jeu de données :
* le jeu d'apprentissage constitué de 60% des données ;
* le jeu de validation constitué de 20% des données ;
* le jeu de test consituté de 20% des données.

Fixer la variable `random_state` à 42 pour que nous puissions tous comparer nos résultats.

In [None]:
# print(x_test.shape) # (200,)

In [None]:
# print(y_test.shape) # (200,)

In [None]:
# print(x_train.shape) # (600,)

In [None]:
# print(y_train.shape) # (600,)

In [None]:
# print(x_validation.shape) (200,)

In [None]:
# print(y_validation.shape) (200,)

Afficher sur un graphique les trois jeux de données.

In [None]:
# plt.plot(...)

(Exemple de graphique attendu)

![](figure3.png)

# Entrainement du modèle

Calculer la valeur du degré `d` du polynôme qui minimise l'erreur quadratique moyenne.

Pour cela, nous allons tester 20 valeurs de degré `d` ($0 < d < 21$).

Commencer par affecter la valeur 1 à la variable `d`. Effectuer une régression polynomiale sur le jeu d'apprentissage. Calculer l'erreur quadratique moyenne obtenue sur le jeu de validation. Répéter l'opération pour $d = 2, d = 3, \ldots, d = 20$. 

La valeur du degré `d` du polynôme qui donne l'erreur quadratique moyenne la plus faible sur le jeu de validation est celle à retenir. (Vous le savez déjà, la bonne réponse est $d = 4$.)

In [None]:
# min_validation_MSE = np.inf

# for d in range(20):
    # ...

Affecter la valeur 4 à la variable `d`. Effectuer une régression polynomiale sur le jeu d'apprentissage. Calculer l'erreur quadratique moyenne sur le jeu de validation. Afficher l'erreur quadratique moyenne et sa racine carrée.

In [None]:
# d = ...

Extraire du modèle entrainé les coefficients du polynôme.

In [None]:
# time = np.linspace(0, 15, num=31)

# theta0 = ...
# theta1 = ...
# theta2 = ...
# theta3 = ...
# theta4 = ...

#polynomial = theta0 + theta1*time + theta2*time**2 + theta3*time**3 + theta4*time**4

## Données d'apprentissage : affichage des résultats

Calculer l'erreur quadratique moyenne et sa racine carrée obtenues sur les données d'apprentissage.

In [None]:
# train_MSE = ...
# train_RMSE = ...

Afficher sur un graphique les données d'apprentissage et la régression polynomiale obtenue.

In [None]:
# plt.plot(...)

(Exemple de graphique attendu)

![](figure4.png)

## Données de validation : affichage des résultats

Calculer l'erreur quadratique moyenne et sa racine carrée obtenues sur les données de validation.

In [None]:
# validation_MSE = ...
# validation_RMSE = ...

Afficher sur un graphique les données de validation et la régression polynomiale obtenue.

In [None]:
# plt.plot()

(Exemple de graphique attendu)

![](figure5.png)

# Données de test : évaluation des performances

Calculer l'erreur quadratique moyenne et sa racine carrée obtenues sur les données de test.

In [None]:
# test_MSE = ...
# test_RMSE = ...

Afficher sur un graphique les données de test et la régression polynomiale obtenue.

In [None]:
# plt.plot()

(Exemple de graphique attendu)

![](figure6.png)

Effectuer une régression linéaire entre les données de test réelles et les données de test prédites (utiliser Numpy). Calculer la pente `a`, l'ordonnée à l'origine `b` et le coefficient de détermination `R²`.

In [None]:
# [a, b] = ...
# R2 = ...

Afficher sur un graphique les températures prédites en fonction des températures réelles (données de test). Afficher en plus la droite de régression, son équation ainsi que le coefficient de détermination.

In [None]:
# plt.plot(...)

(Exemple de graphique attentu)

![](figure7.png)