# <center>TP 1 : Linear Regression<center>
-----------------------------

----------------
## Chargement des packages

In [153]:
import math                     
import numpy as np  
import pandas as pd

from sklearn import linear_model
from sklearn import preprocessing
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from statsmodels.nonparametric.kde import KDEUnivariate
import statsmodels.api as sm
from scipy.stats import gaussian_kde
from inspect import getsourcelines  
import random
import string
import time
import urllib
import matplotlib.pyplot as plt
from matplotlib import rc
import seaborn as sns               
import sys

from os import mkdir, rmdir, path 

from IPython.display import HTML
from IPython.display import display

%matplotlib notebook

---------------------
## Question 1 :

In [154]:
# Chargement des données et création du dataframe df
url = 'https://bitbucket.org/portierf/shared_files/downloads/Galton.txt'
df = pd.read_csv(url, sep='\t')
print('Le fichier contient ' + str(df.shape[0]) + ' lignes.\n') 
df.head()

Le fichier contient 898 lignes.



Unnamed: 0,Family,Father,Mother,Gender,Height,Kids
0,1,78.5,67.0,M,73.2,4
1,1,78.5,67.0,F,69.2,4
2,1,78.5,67.0,F,69.0,4
3,1,78.5,67.0,F,69.0,4
4,2,75.5,66.5,M,73.5,4


In [155]:
# Vérification de données manquantes 
null_data = df[df.isnull().any(axis=1)]
print("Il y a " + str(df.isnull().sum().sum()) +
      ' valeurs manquantes.')

Il y a 0 valeurs manquantes.


Il n'y a donc **pas de données manquantes** dans cette table.

------------
## Question 2 :

In [156]:
# Création de la colonne "MeanParents" dans le dataframe df
df['MeanParents'] = 0.5 * (df['Father'] + 1.08 * df['Mother'])
df.head()

Unnamed: 0,Family,Father,Mother,Gender,Height,Kids,MeanParents
0,1,78.5,67.0,M,73.2,4,75.43
1,1,78.5,67.0,F,69.2,4,75.43
2,1,78.5,67.0,F,69.0,4,75.43
3,1,78.5,67.0,F,69.0,4,75.43
4,2,75.5,66.5,M,73.5,4,73.66


On note $x_i$ la taille du parent moyen pour la famille i et $y_i$ la taille de l’enfant. On écrit $y_i = \theta_1 x_i + \theta_0 + \epsilon_i$ et on modélise les variables $\epsilon_i$ comme centrées, indépendantes de même
variance $\sigma^2$ inconnue.

--------------------
## Question 3 :

On va tracer le nuage de point ($x_i$, $y_i$) pour $1 ≤ i ≤ n$ où n est le nombre d’observations figurant dans les données, donc **898** d'après la question 1.

In [157]:
plt.figure()
y = df['Height']
x = df[['MeanParents']]
plt.plot(x, y, 'o',label="")
plt.ylabel('Kids height', fontsize=18)
plt.ylim([df['Height'].min()-1, df['Height'].max()+1])
plt.xlabel('MeanParents height', fontsize=18)
plt.xlim([df['MeanParents'].min()-1, df['MeanParents'].max()+1])
#skl_lm = linear_model.LinearRegression(fit_intercept=True)
#skl_lm.fit(X, y)
#plt.plot(x_grid, skl_lm.predict(x_grid.reshape(x_grid.shape[0], 1)), '-', label='Model prediction')
#plt.legend()
plt.title("Kids height depending on MeanParents height", fontsize=18)
plt.grid(True)
plt.show()

#print(skl_lm.score(X, y))  # it is pretty small...

<IPython.core.display.Javascript object>

----------------------
## Question 4 :

Estimation de $\theta_0$, $\theta_1$ par $\widehat\theta_0$, $\widehat\theta_1$ en utilisant la fonction `LinearRegression` de `sklearn`. 

In [158]:
x0 = df[['MeanParents']]
y = df['Height']
skl_lm = linear_model.LinearRegression()
skl_lm.fit(x0, y)
theta0 = skl_lm.intercept_
theta1 = skl_lm.coef_[0]
y_mean = y.mean()

print('Theta_0 vaut ' + str(theta0))
print('Theta_1 vaut ' + str(theta1))

Theta_0 vaut 22.376205683004223
Theta_1 vaut 0.6411903795908174


Calcul et visualisation des valeurs prédites $\widehat y_i = \widehat\theta_1 x_i + \widehat\theta_0$ et $y_i$ sur un même graphique.

In [159]:
fig = plt.figure()
y = df['Height']
x = df[['MeanParents']]
plt.plot(x, y, 'o',label="")
plt.plot(x0, skl_lm.predict(x0), label='OLS prediction', c='k')
plt.xlabel('MeanParents height', fontsize=18)
plt.xlim([df['MeanParents'].min()-1, df['MeanParents'].max()+1])
plt.ylabel('Kids height', fontsize=18)
plt.ylim([df['Height'].min()-1, df['Height'].max()+1])
plt.title("Kids height depending on MeanParents height / OLS prediction", fontsize=18)
plt.legend()
plt.grid(True)
plt.show()


<IPython.core.display.Javascript object>

---------------------------
## Question 5 :

Nous allons recentrer nos données et vérifier que la prédiction effectuée dans le modèle centré est bien la même que celle effectuée précédemment. Pour rappel, les formules du cours nous donnaient :

<center>
$\widehat\theta_0= \overline{y}_n -\widehat{\theta}_1 \overline{x}_n$,
$\qquad  \widehat\theta_1=  \displaystyle\frac{ \sum_{i=1}^n (x_i-\overline{x}_n)(y_i -\overline{y}_n)}{\sum_{i=1}^n (x_i-\overline{x}_n)^2}$
<center>

In [160]:
# Calcul du y moyen
y_mean = y.mean()
x0_mean = (x0.mean(axis=0)).squeeze()

# Calcul de la variance pour le dénominateur de theta1
x0_var = x0.var(ddof=0).squeeze()


'''
scaler = preprocessing.StandardScaler().fit(X)
print(np.isclose(scaler.mean_, np.mean(X)))
print(np.array_equal(scaler.std_, np.std(X)))
print(np.array_equal(scaler.transform(X), (X - np.mean(X)) / np.std(X)))
print(np.array_equal(scaler.transform([26]), (26 - np.mean(X)) / np.std(X)))
'''



# Calcul de theta0 et theta1 avec les formules du cours permettant de recentrer les données
theta1_manual = (((x0.squeeze() - x0_mean) * (y - y_mean)).mean()) / x0_var
theta0_manual = y_mean - theta1_manual * x0_mean
print('Theta_0 vaut ' + str(theta0))
print('Theta_0 "manuel" vaut ' + str(theta0_manual) +'\n')
print('Theta_1 vaut ' + str(theta1))
print('Theta_1 "manuel" vaut ' + str(theta1_manual) +'\n')


print('Les deux valeurs de theta0' +
      ' sont-elles identiques ? {}, et theta0={}'.format(np.isclose(theta0, theta0_manual),theta0))
print('Les deux valeurs de theta1' +
      ' sont-elles identiques ? {}, et theta1={}'.format(np.isclose(theta1, theta1_manual),theta1))

Theta_0 vaut 22.376205683004223
Theta_0 "manuel" vaut 22.376205683004265

Theta_1 vaut 0.6411903795908174
Theta_1 "manuel" vaut 0.6411903795908169

Les deux valeurs de theta0 sont-elles identiques ? True, et theta0=22.376205683004223
Les deux valeurs de theta1 sont-elles identiques ? True, et theta1=0.6411903795908174


----------------------------
## Question 6 :

Visualisons l’histogramme des résidus $r_i = y_i − \widehat y_i$, ou ($\widehat y_i$ est la valeur prédite par le modèle)

In [161]:
plt.figure()
residual = y - skl_lm.predict(x0)
x_grid = np.linspace(-10, 10, num=150)
plt.title('Histogramme des résidus')
plt.xlabel('Residual value')
plt.ylabel('Frequency')
plt.hist(residual, x_grid, color='blue', edgecolor = 'lightgrey') 
plt.grid(True)
plt.show()



<IPython.core.display.Javascript object>

**L’hypothèse de normalité globale des résidus ne semble pas crédible**. En effet, la distribution semble être bimodale, ce qui est logique de part les différences de taille entre les femmes et les hommes. Il sera donc plus judicieuse de mener l'étude séparement par genre.

---------------------------
## Question 7 :

Sur un graphique similaire à celui de la question 3, sur lequel apparait le nuage de points et la droite de régression, nous allons représenter, à l’aide de deux couleurs différentes, les femmes et les hommes.

In [162]:
homme = df['Gender'] == 'M'
femme = df['Gender'] == 'F'
fig = plt.figure()
plt.plot(df['MeanParents'][homme], y[homme], 'o', c='blue', label="Male")
plt.plot(df['MeanParents'][femme], y[femme], 'o', c='red', label="Female")
plt.plot(x0, skl_lm.predict(x0), label='OLS prediction', c='k')
plt.xlabel('MeanParents height', fontsize=18)
plt.ylabel('Kids height', fontsize=18)
plt.title("Kids Height by gender", fontsize=18)
plt.legend()
plt.grid(True)
plt.show()

<IPython.core.display.Javascript object>

Comme le montre le graphique ci-dessus, on retrouve bien une **répartition bimodale** avec les hommes globalement plus grand que les femmes.

---------------------------
## Question 8 :

Effectuons donc une régression sur le groupe des hommes uniquement.

In [167]:
homme = df['Gender'] == 'M'
femme = df['Gender'] == 'F'

x0_b = df[['Father']][homme]
y_b = df['Height'][homme]
skl_lm_b = linear_model.LinearRegression()
skl_lm_b.fit(x0_b, y_b)

fig = plt.figure()
plt.plot(df['MeanParents'][homme], y[homme], 'o', c='blue', label="Male")
plt.plot(df['MeanParents'][femme], y[femme], 'o', c='red', label="Female")
plt.plot(x0, skl_lm.predict(x0), label='OLS prediction', c='k')
plt.plot(x0_b, skl_lm_b.predict(x0_b), label='OLS prediction for Male', c='silver') 
plt.xlabel('MeanParents height', fontsize=18)
plt.ylabel('Kids height', fontsize=18)
plt.title("Kids Height by gender / OLS prediction", fontsize=18)
plt.legend()
plt.grid(True)
plt.show()

#df['homme'] = df['Gender'] == 'M'
#df.head()

<IPython.core.display.Javascript object>

Représentons alors la distribution des résidus avec ce modèle.

In [169]:
plt.figure()
residual_b = y[homme] - skl_lm_b.predict(x0_b)
x_grid = np.linspace(-10, 10, num=150)
plt.title('Histogramme des résidus')
plt.xlabel('Residual value')
plt.ylabel('Frequency')
plt.hist(residual_b, x_grid, color='blue', edgecolor = 'lightgrey') 
plt.grid(True)
plt.show()

<IPython.core.display.Javascript object>

Avec ce modèle, les résidus sont beaucoup plus **centrés** avec une **répartition unimodale**.

---------------------
## Question 9 :
