# CES


## Statistiques régression linéaire avec Python

Auteurs : Joseph Salmon, Alexandre Gramfort

Ce notebook contient des éléments d'introduction au langage Python avec Numpy qui est un outil de base pour le machine learning en Python. Nous allons illustrer tous les concepts sur des images.

Ressources externes: introductions générales (Python, Scipy, Numpy, Matplotlib, Pandas etc.)

* [http://scipy-lectures.github.io](http://scipy-lectures.github.io)

* [http://perso.telecom-paristech.fr/~gramfort/cours_python/1-Intro-Python.html](http://perso.telecom-paristech.fr/~gramfort/cours_python/1-Intro-Python.html)

* [http://perso.telecom-paristech.fr/~gramfort/cours_python/2-Numpy.html](http://perso.telecom-paristech.fr/~gramfort/cours_python/2-Numpy.html)

* [http://perso.telecom-paristech.fr/~gramfort/cours_python/3-Scipy.html](http://perso.telecom-paristech.fr/~gramfort/cours_python/3-Scipy.html)

* [http://jrjohansson.github.io/](http://jrjohansson.github.io/)

* [http://www.loria.fr/~rougier/teaching/matplotlib/matplotlib.html](http://www.loria.fr/~rougier/teaching/matplotlib/matplotlib.html) : introduction à Matplotlib

* [https://www.youtube.com/watch?v=TSsSWuhBpmY](https://www.youtube.com/watch?v=TSsSWuhBpmY) : tutoriel en anglais sur Pandas

Ressources externes diverses:

* [http://freakonometrics.hypotheses.org/category/statistics](http://freakonometrics.hypotheses.org/category/statistics): Blog sur la statistique / science des données

* [http://perso.univ-rennes1.fr/bernard.delyon/regression.pdf](http://perso.univ-rennes1.fr/bernard.delyon/regression.pdf): cours théorique sur la régression lineaire

* [http://bokeh.pydata.org/en/latest/docs/gallery/color_scatter.html](http://bokeh.pydata.org/en/latest/docs/gallery/color_scatter.html): affichage graphique interactif

## Imports et intialisation

In [1]:
import numpy as np
import pandas as pd  # charge un package pour le traitement des données
import matplotlib.pyplot as plt

## Chargement manipulation des données:

On utilisera IPython Notebook pour faire ce TP.

REM: pour les salles machines de Telecom Paristech, charger la version Anconda disponible dans le menu application/developpement. 

Le mot "régression" a été introduit par Sir Francis Galton (cousin de C. Darwin) alors qu'il étudiait la taille des individus au sein d'une descendance. Il tentait de comprendre pourquoi les grands individus d'une population semblait avoir des enfants d'une taille plus petite, plus proche de la taille moyenne de la population; d’où l'introduction du terme "régression". Dans la suite on va s’intéresser aux données historiques récoltées par Galton.


**Questions**: que signifie '\t' dans la commde suivante?

In [2]:
url = 'http://www.math.uah.edu/stat/data/Galton.txt'
data = pd.read_csv(url, sep='\t')
data.head()

Unnamed: 0,Family,Father,Mother,Gender,Height,Kids
0,1,78.5,67.0,M,73.2,4
1,1,78.5,67.0,F,69.2,4
2,1,78.5,67.0,F,69.0,4
3,1,78.5,67.0,F,69.0,4
4,2,75.5,66.5,M,73.5,4


**Questions**: Que fait la ligne de commande suivante? 

In [3]:
data['MeanParents'] = 0.5 * (data['Father'] + 1.08 * data['Mother'])

Pour information la taille du parent "moyen" selon Galton vaut: $\frac12\left(\mathrm{taille}(\mathrm{pere}) + 1.08 \times \mathrm{taille}(\mathrm{mere})\right)$

**Questions**: Comparer les deux commandes qui suivent et notamment les tailles:

In [4]:
X0 = data[['MeanParents']]
X0prime = data['MeanParents']

print X0.shape
print X0prime.shape

(898, 1)
(898,)


## Régression en dimension 1:
On note $x_i$ la taille du parent moyen pour la famille $i$ et $y_i$ la taille de l'enfant. On écrit $y_i = \theta_1 x_i + \theta_0 + \varepsilon_i$ et on modlise les variables $\varepsilon_i$ comme centrées, indépendantes de même variance $\sigma^2$ inconnue.

**Questions**: Tracer le nuage de points $(x_i, y_i)$ pour $1\leq i\leq n$, où $n$ est le nombre d'observations figurant dans les données.

In [5]:
%matplotlib notebook
X0 = data[['MeanParents']]
y = data['Height']
fig=plt.figure()
plt.plot(X0prime, y, '.b')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0xa900064c>]

**Question**: Estimer $\theta_0$, $\theta_1$, par $\hat{\theta}_0$, $\hat{\theta}_1$ en utilisant la fonction **LinearRegression** de **sklearn**.

In [7]:
from sklearn import linear_model
skl_linmod = linear_model.LinearRegression()
X0.shape
skl_linmod.fit(X0, y)
print "La valeur de theta1 est:", skl_linmod.coef_[0]
print "La valeur de theta0 est:", skl_linmod.intercept_

La valeur de theta1 est: 0.641190379591
La valeur de theta0 est: 22.376205683


**Question**: Calculer et visualiser les valeurs prédites $\hat y_i = \hat\theta_1 x_i
+\hat\theta_0$ et $y_i$ sur un même graphique.

In [8]:
fig=plt.figure()
plt.plot(X0, y, '.')
plt.plot(X0, skl_linmod.predict(X0),'-r',linewidth=5)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0xa4f59dac>]

**Question**: Visualiser l'histogramme des résidus $r_i = y_i -\hat y_i$. L'hypothèse de normalité est-elle crédible? 

Bonus: Afficher aussi un estimateur de la densite de type "estimateur à noyau" avec un noyau gaussien (cf. [https://jakevdp.github.io/blog/2013/12/01/kernel-density-estimation/](https://jakevdp.github.io/blog/2013/12/01/kernel-density-estimation/) pour plus d'informations)

In [9]:
plt.figure()
residual = skl_linmod.predict(X0) - y
plt.hist(residual, bins=30, normed=True, align='mid')
plt.title('Histogramme')
plt.xlabel(u'Résidus') # noter la l'utilisaiton du u 'Résidus'
plt.ylabel('Proportion')

<IPython.core.display.Javascript object>

<matplotlib.text.Text at 0xa4f70f4c>

In [10]:
from sklearn.neighbors import KernelDensity
def kde_sklearn(x, x_grid, bandwidth=0.2):
    """Kernel Density Estimation with Scikit-learn"""
    kde_skl = KernelDensity(bandwidth=bandwidth)
    kde_skl.fit(x[:, np.newaxis])
    # score_samples() returns the log-likelihood of the samples
    log_pdf = kde_skl.score_samples(x_grid[:, np.newaxis])
    return np.exp(log_pdf)

In [11]:
x_test= np.sort(residual)
fig=plt.figure()
plt.hist(residual, bins=30, normed=True, align='mid',alpha=0.5)
plt.plot(x_test, kde_sklearn(x_test, x_test, bandwidth=0.5),
         '-r',linewidth=5,label='bandwith=0.5')
plt.plot(x_test, kde_sklearn(x_test, x_test, bandwidth=2),
         '-g',linewidth=5,label='bandwith=2')
plt.plot(x_test, kde_sklearn(x_test, x_test, bandwidth=5),
         '-k',linewidth=5,label='bandwith=5')
plt.legend(loc=2)
plt.title(u'Histogramme et estimateur à noyau')
plt.xlabel(u'Résidus') # noter la l'utilisaiton du u 'Résidus'
plt.ylabel('Proportion')

<IPython.core.display.Javascript object>

<matplotlib.text.Text at 0xa48acb8c>

## Régression en dimension 2:

On travaille ici avec la même base de données, mais cette fois on considère un modèle de régression avec les deux variables explicatives “**Father**” et “**Mother**”.

On rappelle les notations suivantes:

* $\hat{\theta} \in argmin_{\theta \in \mathbb{R}^p} \|y -X\theta\|^2/2$ est l'estimateur par moindres carrés de $\theta$  (pour rappel $\hat{\theta} = (X^\top X)^{-1}X^\top y$ quand la matrice $X^\top X$ est inversible).

* $\hat y = X \hat\theta$, la prédiction sur les valeurs observées

* Le vecteur $r=y-\hat y$ est appelé vecteur des résidus.
$1_n=(1,\dots,1)^\top $ est le vecteur rempli de un, et de taille $n\times 1$


**Question**: Calculer $\hat\theta$, $\hat y$ pour ce modèle avec **sklearn**

In [12]:
X1 = data[['Father', 'Mother']]
skl_linmod = linear_model.LinearRegression()
skl_linmod.fit(X1, y)

results = skl_linmod.coef_
print "La valeur du coefficient de Father est:",results[0]
print "La valeur du coefficient de Mother est:",results[1]
print "La valeur de l'ordonnee a l'origine est:",results[0]

La valeur du coefficient de Father est: 0.379896965324
La valeur du coefficient de Mother est: 0.283214514708
La valeur de l'ordonnee a l'origine est: 0.379896965324


**Question**: comment fonctionne la fonction meshgrid ci-dessous? Afficher les points et leur prédictions sur un même graphique 3D.

In [13]:
# Meshgrid creation:
XX = np.arange(np.min(X1['Father']) - 2, np.max(X1['Father']) + 2, 0.1)
YY = np.arange(np.min(X1['Mother']) - 2, np.max(X1['Mother']) + 2, 0.1)
print XX
print YY.shape
xx, yy = np.meshgrid(XX, YY)
print xx.shape
print yy.shape
zz = results[0] * xx + results[1] * yy + skl_linmod.intercept_

from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure()
ax = Axes3D(fig)
ax.plot(X1['Father'], X1['Mother'], y, 'o')
ax.set_zlim(np.min(y) - 2, np.max(y) + 2)
ax.set_xlabel('Father')
ax.set_ylabel('Mother')
ax.set_zlabel('Child')
ax.plot_wireframe(xx, yy, zz, rstride=10, cstride=10, alpha=0.3)

[ 60.   60.1  60.2  60.3  60.4  60.5  60.6  60.7  60.8  60.9  61.   61.1
  61.2  61.3  61.4  61.5  61.6  61.7  61.8  61.9  62.   62.1  62.2  62.3
  62.4  62.5  62.6  62.7  62.8  62.9  63.   63.1  63.2  63.3  63.4  63.5
  63.6  63.7  63.8  63.9  64.   64.1  64.2  64.3  64.4  64.5  64.6  64.7
  64.8  64.9  65.   65.1  65.2  65.3  65.4  65.5  65.6  65.7  65.8  65.9
  66.   66.1  66.2  66.3  66.4  66.5  66.6  66.7  66.8  66.9  67.   67.1
  67.2  67.3  67.4  67.5  67.6  67.7  67.8  67.9  68.   68.1  68.2  68.3
  68.4  68.5  68.6  68.7  68.8  68.9  69.   69.1  69.2  69.3  69.4  69.5
  69.6  69.7  69.8  69.9  70.   70.1  70.2  70.3  70.4  70.5  70.6  70.7
  70.8  70.9  71.   71.1  71.2  71.3  71.4  71.5  71.6  71.7  71.8  71.9
  72.   72.1  72.2  72.3  72.4  72.5  72.6  72.7  72.8  72.9  73.   73.1
  73.2  73.3  73.4  73.5  73.6  73.7  73.8  73.9  74.   74.1  74.2  74.3
  74.4  74.5  74.6  74.7  74.8  74.9  75.   75.1  75.2  75.3  75.4  75.5
  75.6  75.7  75.8  75.9  76.   76.1  76.2  76.3  7

<IPython.core.display.Javascript object>

<mpl_toolkits.mplot3d.art3d.Line3DCollection at 0xa3d5904c>

**Question**: Calculer le carré de la norme du vecteur des résidus: $ \|r\|^2$. Visualiser l'histogramme des résidus, et aussi un estimateur à noyau de leur densité.

In [14]:
residual = skl_linmod.predict(X1) - y

fig=plt.figure()
plt.hist(residual, bins=30, normed=True, align='mid',alpha=0.5)
print np.linalg.norm(residual)**2

<IPython.core.display.Javascript object>

10261.1274012


**Question**: Comparer l'influence des deux variables. Laquelle semble la plus explicative? Tester avant et après centrage et réduction des données. Utiliser pour cela **StandardScaler** de **preprocessing**. 

In [15]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler().fit(X1)
Xstdzd = scaler.transform(X1)

skl_linmod.fit(Xstdzd, y)

results = skl_linmod.coef_
print "La valeur du coefficient de Father est:",results[0]
print "La valeur du coefficient de Mother est:",results[1]

La valeur du coefficient de Father est: 0.937920022315
La valeur du coefficient de Mother est: 0.653019128034


## Régression en dimension 2: dataset auto-mpg 

On travaille maintenant sur le fichier '**auto-mpg.data**' et on cherche à régresser la consommation des voitures sur leurs caractéristiques: nombre de cylindres, cylindrés (*engine displacement* en anglais), puissance, poids, accélération, année, pays d'origine et le nom de la voiture.

On utilise un modèle linéaire,
où $y$ est le vecteur contenant les consommations des voitures (plus précisément la distance parcourue en *miles par gallon*, ou *mpg*);
les colonnes de $X$ sont les variables restantes. 

**Question**: Importer avec Pandas la base de données disponible ici https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data. On peut ajouter (manuellement) le noms des colonnes en consultant l’adresse : https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.names avec l’attribut 'names' de import_csv. On pourra si besoin considérer l'option sep=r"\s\+".


In [16]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data'
u_cols = ['mpg', 'cylinders', 'displacement', 'horsepower',
          'weight', 'acceleration', 'model year', 'origin', 'car name']
data = pd.read_csv(url, sep=r"\s+", names=u_cols,na_values='?')
print data.shape

(398, 9)


**Question**: Quelle est le marqueur utilisé pour les données manquantes dans le fichier csv utilisé ? Changer cet élément en un NaN, avec l’option na_values de **read_csv**. Quelles sont les lignes qui en ont? pour quelle(s) variable(s)?

In [17]:
#print data.isnull()
print data.isnull().any()

np.where(data['horsepower'].isnull())[0]
# opposite
# np.where(data['horsepower'].notnull())[0]

mpg             False
cylinders       False
displacement    False
horsepower       True
weight          False
acceleration    False
model year      False
origin          False
car name        False
dtype: bool


array([ 32, 126, 330, 336, 354, 374])

**Question**:  Enlever les lignes
possédant des valeurs manquantes dans la base de données.

In [18]:
data = data.dropna(axis=0, how='any')
print data.shape

(392, 9)


**Question**: Calculer $\hat\theta$ et $\hat y$ sur une sous partie de la base: garder les $9$ premières lignes et exclure la variable 
'**car name**' de l'étude. Que constatez-vous?

In [19]:
y = data['mpg']
X = data.drop(['car name', 'mpg'], axis=1)

skl_linmod = linear_model.LinearRegression()
skl_linmod.fit(X[:9], y[:9])
print skl_linmod.coef_
print skl_linmod.intercept_
skl_linmod.predict(X[:9])
# Rem : certains coefficients valent 0... il y a de la redondance dans les donnees,
#       car la matrice X n'est pas de plein rang.  
print skl_linmod.rank_

[ 0.          0.05408848 -0.0945306  -0.00424074 -0.19936701  0.          0.        ]
30.7716953656
4


**Question**: Calculer l'estimateur des moindres carrés $\hat\theta$ et le vecteur de prediction $\hat y$ cette fois sur l'intégralité des données. Calculer le carré de la norme du vecteur des résidus $ \|r\|^2$,
 puis $\|r\|^2/n$. Vérifier numériquement que:
 
  $$\| y - \bar{y}_n 1_n\|^2=\| y - \hat{y}\|^2 +\| \hat{y} - \bar{y}_n 1_n\|^2$$
  
 avec $\bar{y}_n$ répresentant la moyenne des $y_i$.
  
  

In [24]:
y = data['mpg']
X = data.drop(['car name', 'mpg'], axis=1)
scaler = StandardScaler().fit(X)
Xstdzd = scaler.transform(X)
skl_linmod.fit(Xstdzd, y)
yhat = skl_linmod.predict(Xstdzd)
residual = yhat - y
print skl_linmod.score(Xstdzd,y)
print np.linalg.norm(residual) ** 2
print np.linalg.norm(residual) ** 2 +  np.linalg.norm(yhat - np.mean(y)) ** 2
print np.linalg.norm(y-np.mean(y)) ** 2

0.821478076481
4252.21253044
23818.9934694
23818.9934694


**Question**: Supposons que l'on vous fournisse les caractéristiques suivantes d'un nouveau véhicule :

cylinders=6; displacement=225; horsepower =100; weight=3234; acceleration=15.4; year=76; origin=1    

Prédire alors sa consommation.

In [21]:
X_to_pred = np.array([6, 225, 100, 3234, 15.4, 76, 1])
X_to_pred = X_to_pred.reshape(1, -1)
scaler.transform(X_to_pred)

array([[ 0.30996673,  0.29267898, -0.11626304,  0.30226363, -0.05129181,
         0.00554715, -0.71664105]])

**Question**: Utiliser la transformation **PolynomialFeatures** de **sklearn** sur les données, pour ajuster un modèle d'ordre 2. On pourra tester cela avec ou sans les termes d'interactions avec l'option **interaction_only=True/False**

In [23]:
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(2,interaction_only=False)
X = poly.fit_transform(X)
scaler = StandardScaler().fit(X)
Xstdzd = scaler.transform(X)
skl_linmod.fit(Xstdzd, y)
yhat = skl_linmod.predict(Xstdzd)
residual = yhat - y
print np.linalg.norm(residual) ** 2
print skl_linmod.score(Xstdzd,y)

398.26072773
0.983279699529


**Question Bonus** : Proposer une manière de gérer les variables qualitatives, potentiellement avec **sklearn.preprocessing.OneHotEncoder**.