# Modèles de régression

Dans le cadre de ce TP, on s'intéressera à différents modèles de régression.

## 1. Régression linéaire et variantes

### 1.1 Régression linéaire simple

On travaille dans $\mathbb{R}^2$ : les positions des points du dataset appartiennent au plan.

$\textbf{Question 1}$ :

a) Générer un dataset $(x^{(k)},y^{(k)})_{ 1 \leq k \leq N}$ tel que :

-$x^{(k)} \in \mathbb{R}, y^{(k)} \in \mathbb{R}$ et $y^{(k)} = 2 x^{(k)} + \varepsilon_k$ avec $\varepsilon_k \sim \mathcal{N}(0,16)$

b) On se place dans le cadre d'un modèle de régression linéaire standard $y= x \beta + \epsilon$

Déterminer l'estimateur standard (moindres carrés) de la quantité $\hat{\beta}$ : dans un premier temps à l'aide de la seule librairie $\texttt{numpy}$; dans un second en vous aidant de $\texttt{sklearn}$.

c) Représenter sur un même graphique, les points du dataset  et la droite d'équation $\hat{y} = \hat{\beta} x$

d) Estimer l'erreur $ \left\|y - \hat{y} \right\|_2$


In [None]:
import numpy as np
import sklearn
import matplotlib.pyplot as plt

from sklearn import linear_model



### 1.2 Régression linéaire standard

$\textbf{Question 2}$ :


a) Générer un dataset $(x^{(k)},y^{(k)} )_{ 1 \leq k \leq N}$ tel que :

-$x^{(k)} \in \mathbb{R}^2, y^{(k)} \in \mathbb{R}$ et $y^{(k)} = \beta_1 x^{(k)}_1 + \beta_2 x^{(k)}_2 + \varepsilon_k$ avec $\varepsilon_k \sim \mathcal{N}(0,16)$

b) On se place dans le cadre d'un modèle de régression linéaire standard $y=  x \beta + \epsilon$

Déterminer l'estimateur standard (moindres carrés) de la quantité $\hat{\beta}$ : dans un premier temps à l'aide de la seule librairie $\texttt{numpy}$; dans un second en vous aidant de $\texttt{sklearn}$.

c) Représenter sur un même graphique, les points du dataset  et les points dont les coordonnées satisfont à  $\hat{y} = x\hat{\beta}$

d) Estimer l'erreur $ \left\|y - \hat{y} \right\|_2$

### 1.3 Régression linéaire régularisée

$\textbf{Question 3}$ :

a) Pour le même dataset, reprendre la démarche de la question 2, en utilisant cette fois un modèle de régression ridge

b) Comparer les coefficients estimés et erreurs pour différentes valeurs du paramètre de régularisation $\alpha$.

c) Si l'on utilise la classe $\texttt{ElasticNetCV}$ pour résoudre ce problème, quelles valeurs de $\alpha$ et $\rho$ sont automatiquement sélectionnées ? Commentaires ?

In [None]:
from sklearn.linear_model import ElasticNet



In [None]:
f


## 2. Application des modèles linéaires

$\textbf{Question 4}$ :

a) Charger le dataset "diabetes" à partir de scikit-learn; isoler 20% des échantillons à des fins de test.

b) Expliquer pourquoi ce dataset peut être canoniquement associé à un problème de régression.

c) Entrainer et tester un modèle de régression linéaire simple pour le problème de régression associé à la prédiction de $y$ à partir de l'*ensemble* des coordonnées de $x$.

d) Estimer dans ce cadre l'erreur quadratique moyenne

e) Représenter dans le plan $(x_3, y)$ les échantillons de test ainsi que leurs estimations.

In [None]:
from sklearn import datasets
from sklearn.model_selection import train_test_split



## 3. Régression bayésienne


$\textbf{Question 5}$ :

a) Générer un dataset ${(x_k,y_k)}_{ 1 \leq k \leq 500}$ tel que :

-$x_k \in \mathbb{R}^{50}, y_k \in \mathbb{R}$ et $\displaystyle{y_k = \sum_{i=1}^{50} \beta_i x_{ik}  + \varepsilon_k }$ avec $\beta \sim \mathcal{N}(0,4 \times \mathbb{I}_{50})$ et $\varepsilon_k \sim \mathcal{N}(0,50)$

Les coefficients exacts (à estimer par la suite) sont donc dans un premier temps tirés au sort.

b) Séparer des échantillons d'entrainement et de test.

c) On se place dans le cadre d'un modèle de régression linéaire  bayésien "ridge" $y=  x \beta + \epsilon$

Déterminer l'estimateur bayésien du vecteur $\tilde{\beta}$ à l'aide de $\texttt{sklearn}$. Comment est construit cet estimateur ?

d) Comparer graphiquement l'estimateur $\tilde{\beta}$ au vecteur des poids exacts; ainsi qu'au poids obtenus via les moindres et carrés et un modèle de régression "ridge".

e) Représenter la distribution de probabilité des poids estimés.

f) Représenter la prédiction pour les échantillons de test (inclure l'intervalle de confiance à cette représentation)



In [None]:
from sklearn.linear_model import BayesianRidge

