# Introduction aux modèles linéaires de Machine Learning avec Python

## Objectif
Ce notebook vise à illustrer certains aspects de la construction des modèles linéaires avec et sans `scikit-learn`

## Un exemple sans `scikit-learn`

On va traiter un problème jouet extrêmement simple, on va chercher à modéliser la relation entre $X$ et $Y$ avec

$$ Y = 2 \times X + 4 $$

Pour compliquer un peu, on va ajouter un bruit gaussien aux données de sortie (dans un premier temps)

On commence par charger les modules nécessaires

In [1]:
from plotly import __version__
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot

`plotly` permet de tracer des graphiques interactifs, depuis quelque temps, on peut en profiter dans les notebook Jupyter

In [2]:
from plotly.graph_objs import Scatter, Figure, Layout

In [3]:
init_notebook_mode(connected=True)
import numpy as np
X = np.random.random(10)
Y = 2*X+1+0.2*np.random.randn(10)

In [4]:
trace = Scatter(
    x=X,
    y=Y,
    mode='markers',
    marker=dict(size='13'),
    name="Sample Data",
)

fig = dict(data=[trace], layout={})
fig['layout']['xaxis'] = dict(title='Variable X')
fig['layout']['yaxis'] = dict(title='Variable Y')

iplot(fig)

Maintenant nous créons la matrice des observations 

In [5]:
M = np.ones([len(X),2])
M[:,1] = X

In [6]:
M

array([[ 1.        ,  0.07662874],
       [ 1.        ,  0.15100724],
       [ 1.        ,  0.29344071],
       [ 1.        ,  0.75701028],
       [ 1.        ,  0.30419953],
       [ 1.        ,  0.76343243],
       [ 1.        ,  0.71445635],
       [ 1.        ,  0.8216249 ],
       [ 1.        ,  0.12026275],
       [ 1.        ,  0.05198142]])

et nous résolvons le problème aux moindres carrés

$$ min_{\alpha, \beta} ||MA-Y||_2^2$$

où $A = [\alpha,\beta]$

In [7]:
a, b = np.linalg.lstsq(M,Y)[0]

In [8]:
a

1.1243849788566005

In [9]:
b

1.7696477689755001

*Note* : On utilise ici la méthode `lstsq` de `numpy` qui est précisément faite pour les problèmes aux moindres carrés. Il s'agit d'une méthode `python` qui appelle en réalité des routines numériques stables et éprouvées (ici la SVD de la matrice `M`) de la librairie LAPACK (en C ou Fortran).

On trace maintenant la solution.

In [10]:
x_gr = np.linspace(0,1,3)
y_gr = b*x_gr+a
trace = Scatter(
    x=X,
    y=Y,
    mode='markers',
    marker=dict(size='13'),
    name="Sample Data",
)
trace2 = Scatter(
    x=x_gr,
    y=y_gr,
    mode='lines',
    line=dict(width=4),
    name="Ordinary Least Squares"
)
fig = dict(data=[trace,trace2], layout={})
fig['layout']['xaxis'] = dict(title='Variable X')
fig['layout']['yaxis'] = dict(title='Variable Y')

iplot(fig)

In [13]:
import sklearn.linear_model as lm
linreg = lm.LinearRegression()

In [15]:
[method for method in dir(linreg) if not method.startswith('_')]

['copy_X',
 'fit',
 'fit_intercept',
 'get_params',
 'n_jobs',
 'normalize',
 'predict',
 'score',
 'set_params']

In [16]:
linreg.fit(X, Y)

ValueError: Expected 2D array, got 1D array instead:
array=[ 0.07662874  0.15100724  0.29344071  0.75701028  0.30419953  0.76343243
  0.71445635  0.8216249   0.12026275  0.05198142].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.