# Introduction aux modèles linéaires de Machine Learning avec Python

## Objectif
Ce notebook vise à illustrer certains aspects de la construction des modèles linéaires avec et sans `scikit-learn`

## Un exemple sans `scikit-learn`

On va traiter un problème jouet extrêmement simple, on va chercher à modéliser la relation entre $X$ et $Y$ avec

$$ Y = 2 \times X + 4 $$

Pour compliquer un peu, on va ajouter un bruit gaussien aux données de sortie (dans un premier temps)

On commence par charger les modules nécessaires

In [1]:
from plotly import __version__
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot

`plotly` permet de tracer des graphiques interactifs, depuis quelque temps, on peut en profiter dans les notebook Jupyter

In [2]:
from plotly.graph_objs import Scatter, Figure, Layout

In [6]:
init_notebook_mode(connected=True)
import numpy as np
X = np.random.random(10)
Y = 2*X+1+0.2*np.random.randn(10)

In [9]:
trace = Scatter(
    x=X,
    y=Y,
    mode='markers',
    marker=dict(size='13'),
    name="Sample Data",
)

fig = dict(data=[trace], layout={})
fig['layout']['xaxis'] = dict(title='Variable X')
fig['layout']['yaxis'] = dict(title='Variable Y')

iplot(fig)

Maintenant nous créons la matrice des observations 

In [12]:
M = np.ones([len(X),2])
M[:,1] = X

In [13]:
M

array([[ 1.        ,  0.56555291],
       [ 1.        ,  0.35330442],
       [ 1.        ,  0.88159553],
       [ 1.        ,  0.36525833],
       [ 1.        ,  0.68886269],
       [ 1.        ,  0.74193548],
       [ 1.        ,  0.65761195],
       [ 1.        ,  0.77873891],
       [ 1.        ,  0.96283744],
       [ 1.        ,  0.24825178]])

et nous résolvons le problème aux moindres carrés

$$ min_{\alpha, \beta} ||MA-Y||_2^2$$

où $A = [\alpha,\beta]$

In [17]:
a, b = np.linalg.lstsq(M,Y)[0]

In [18]:
a

1.0718415195568485

In [19]:
b

1.9466454252227781

*Note* : On utilise ici la méthode `lstsq` de `numpy` qui est précisément faite pour les problèmes aux moindres carrés

On trace maintenant la solution.

In [20]:
x_gr = np.linspace(0,1,3)
y_gr = b*x_gr+a
trace = Scatter(
    x=X,
    y=Y,
    mode='markers',
    marker=dict(size='13'),
    name="Sample Data",
)
trace2 = Scatter(
    x=x_gr,
    y=y_gr,
    mode='lines',
    line=dict(width=4),
    name="Ordinary Least Squares"
)
fig = dict(data=[trace,trace2], layout={})
fig['layout']['xaxis'] = dict(title='Variable X')
fig['layout']['yaxis'] = dict(title='Variable Y')

iplot(fig)