# Rappel du modèle linéaire

$$y \sim f_{\theta}(x)$$

avec comme fonction f une forme linéaire

$$f_{\theta}(x) = \theta_0 + \theta_1 x +\epsilon $$


### Hypothèses du modèle linéaire

* les erreurs suivent une loi normale de moyenne nulle
* la variance est la même pour tous (homoscédasticité) : la variance est la même pour l'ensemble des termes d'erreures gaussiens
$Var(\epsilon_i)=\sigma$
* les termes d'erreurs pour les différents $x_i$ sont indépendants les uns des autres


### Pourquoi régression ?

<img src='img/Galton-height-regress.png'>

# Generation des données

In [None]:
from random import random
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
def linear(x, params=(0,1)):
    """Generate a linear function f(x)=a*x+b+N(0,1)
    
    Args:
        x (numpy.array()) : vector used to generate the output
        params (tuple of size 2) : b=params[0] and a=params[1]
    
    Returns:
        numpy.array()
    """
    return params[1]*x+params[0]+np.random.normal(size=len(x))

In [None]:
n_samples = 1000
x = 10*np.random.random(n_samples)
y = linear(x)

In [None]:
plt.scatter(x,y)

# Approche statistique / fit de modèle

In [None]:
from scipy import stats
slope, intercept, r_value, p_value, std_err = stats.linregress(x,y)

print slope, intercept

In [None]:
?stats.linregress

In [None]:
print r_value

In [None]:
plt.plot(x, y, '+', alpha=0.2)
plt.plot(x, slope*x+intercept, 'r-')

# Approche Machine Learning

In [None]:
from sklearn import linear_model

n_split = 100

x = x.reshape(n_samples, 1)
y = y.reshape(n_samples, 1)

x_train = x[:n_split]
x_test = x[n_split:]

y_train = x[:n_split]
y_test = y[n_split:] 

In [None]:
regr = linear_model.LinearRegression() #instanciation du modèle
regr.fit(x_train, y_train)
print regr.coef_, regr.intercept_

In [None]:
y_predict = regr.predict(x_test)

In [None]:
plt.scatter(x_test, y_predict-y_test)

In [None]:
plt.hist(y_predict-y_test)