# TP 2 (Exercice 2.6) - Regression linéaire 

Dans ce TP, nous implémentons les fonctions pour la résolution d'un problème de regression linéaire. 
Le but est de calculer le regresseur $\beta$ dans les cas où le problème admet une unique solution.  

Les données d'observation est généré aléatoirement par une fonction dédiée de Scikit-Learn (`sklearn`). 

In [None]:
import numpy as np
import pandas as pd
from sklearn import datasets, linear_model
from sklearn.preprocessing import normalize
import matplotlib.pyplot as plt
%matplotlib inline



### Preparation du jeu de données

Dans cet example, on génère un jeu de données de manière aléatoire par `sklearn.datasets.make_regression`. Le nombre de variables dans $\bar{x}$ est $p=1$, et le nombre d'échantillons observés est $n=100$. 



In [None]:
np.random.seed(1)

# Xdata, y = datasets.make_regression(n_samples=30, n_features=1, noise=30) # 
Xdata, y = datasets.make_regression(n_samples=100, n_features=1, noise=30) # 

Observer une paritie du jeu de données avec l'aide de Pandas DataFrame. Les `DataFrame`s de Pandas sont souvent plus facile à visualiser que les structures de données de NumPy.


In [None]:
Xdata_pd = pd.DataFrame( Xdata )
Xdata_pd.head() # voir quelques lignes de la matrix Xdata

Visualiser les données d'observation. 

In [None]:
fig, ax = plt.subplots(1, 1, figsize=(6,5))
ax.scatter(Xdata, y, marker='o', color='b')
ax.set_xlabel('x'); ax.set_ylabel('y')


### Exercice 2.6 
Le modèle linéaire recherché est de la forme $ \bar{y} = {\beta^{\star}}^{T} \bar{x} + \epsilon$. Ici, dans le cas où $\bar{x}$ contient une seule variable prédictive ($p=1$), le produit scaliare entre $\beta^{\star}$ et $\bar{x}$ se réduit au simple produit $\beta^{\star} \bar{x}$ où le regresseur $\beta^{\star} \in \mathbb{R}$ représente la pente recherchée du modèle.

**Question:** dans quels cas ce problème admet-il une seul solution ? Aussi expliquer pour $p>1$ plus généralement. 

Ensuite, dans ces cas, trouver l'expression explicite pour la solution $\beta^*:=(w^*, b^*)^{T} \in\mathbb{R}^{(p+1)}$ qui minimise 
$$ R(w,b) := \| Xw + b - y \|_2^2,$$
en fonction de la matrix des données $X$, et du vecteur $y$ des observations de $\bar{y}$. Voir les lignes contenant `A compléter`.

Note: le vecteur du regresseur peut aussi être représenté par $\beta:=(b, w)^T$. Selon la représentation du regresseur $\beta$, la matrice des données $X$ (de taille $n\times p$) est à ajuster pour être compatible avec le vecteur $\beta$ pour l'expression de la solution. 

In [None]:
n = Xdata.shape[0]
X = Xdata # remove this line 
# Ajuster la matrice Xdata 
# X = ------ A COMPLÉTER ---------  
pd.DataFrame(X).head() 

In [None]:
def beta_closed_form(X, y):
    # implémenter l'expression explicite de la solution recherchée 
    beta = np.array([1,1])
    # ------ A COMPLÉTER -------
    # beta = ... 
    return beta

beta_closedform = beta_closed_form(X, y)
print(beta_closedform.shape) # expected shape: (2,)
print(beta_closedform)

**Visualiser** la solution : 

In [None]:
fig, ax = plt.subplots(1, 1, figsize=(6,5))
ax.scatter(X[:,1], y, marker='o', color='b')
ax.plot(X[:,1], X.dot(beta_closedform), color='r')
ax.set_xlabel('x'); ax.set_ylabel('y')


**Visualiser** la solution sur le plan montrant les lignes de niveau de la fonction d'objective : 

In [None]:
def compute_cost_one_variable(X, y, beta):
    n = y.shape[0]
    J = (1/(2*n)) * (np.sum((X.dot(beta) - y)**2))
    return J
beta0_vals = np.linspace(beta_closedform[0]*(-60), beta_closedform[0]*60, 100)
beta1_vals = np.linspace(beta_closedform[1]*(-8), beta_closedform[1]*8, 100)
J_vals = np.zeros(shape=(len(beta0_vals), len(beta1_vals)))
for i in range(0, len(beta0_vals)):
    for j in range(0, len(beta1_vals)):
        J_vals[i,j] = compute_cost_one_variable(X, y, [[beta0_vals[i]], [beta1_vals[j]]])

# print(J_vals)
fig, ax = plt.subplots(1, 1, figsize=(6,5))
ax.contour(beta0_vals, beta1_vals, np.transpose(J_vals))
ax.plot(beta_closedform[0], beta_closedform[1], marker='x', color='r');
ax.set_xlabel(r'$\beta_1$'); ax.set_ylabel(r'$\beta_2$')
