In [256]:
%matplotlib inline

import statsmodels.api as sm
import pandas as pd
from sklearn import linear_model
from matplotlib import rc
import matplotlib.pyplot as plt
from sklearn import preprocessing
import numpy as np
import scipy as sci
from pandas.tools.plotting import bootstrap_plot
skl_linmod = linear_model.LinearRegression()

from sklearn.utils import resample as resample
import math

pd.set_option('display.float_format', '{:.1E}'.format)

rc('font', **{'family': 'sans-serif', 'sans-serif': ['Computer Modern Roman']})
params = {'axes.labelsize': 12,
          'font.size': 12,
          'legend.fontsize': 12,
          'xtick.labelsize': 10,
          'ytick.labelsize': 10,
          'text.usetex': True,
          'figure.figsize': (8, 6)}
plt.rcParams.update(params)


# Exercice 1

### Question1: Écrire mathématiquement le modèle linéaire correspondant.

$$ y = X\theta^{*} + \mathcal{N}(O_{n},\sigma^{2}I_{d}) $$

### Question 2: Récupérer le jeu de données à partir du package statsmodels.datasets. On pourra utiliser la fonction get_rdataset de ce package avec la méthode data.

In [259]:
df = sm.datasets.get_rdataset("airquality").data
df.head()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
0,4.1E+01,1.9E+02,7.4,67,5,1
1,3.6E+01,1.2E+02,8.0,72,5,2
2,1.2E+01,1.5E+02,13.0,74,5,3
3,1.8E+01,3.1E+02,12.0,62,5,4
4,NAN,NAN,14.0,56,5,5


### Question 3: Enlever les lignes qui contiennent des valeurs manquantes.

In [260]:
def setDataFrame():
    df = sm.datasets.get_rdataset("airquality").data
    return df.dropna()

df = setDataFrame()
df.head()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
0,41.0,190.0,7.4,67,5,1
1,36.0,120.0,8.0,72,5,2
2,12.0,150.0,13.0,74,5,3
3,18.0,310.0,12.0,62,5,4
6,23.0,300.0,8.6,65,5,7


### Question 4: Ajuster le modèle par la méthode des moindres carrés (avec sklearn ou statsmodels), enrégressant la variable 'Ozonne' sur les cinq autres variables. On se placera dans le cas où l’on a centré et réduit les variables explicatives au préalable.

On définit les variables a expliquer ainsi que les variables explicatives centrées et réduites:

In [261]:
def setVarToPredict():
    return df[['Ozone']].reset_index(drop=True).reset_index(drop=True)

def setVarToExplain():
    return df[['Solar.R', 'Wind', 'Temp', 'Month', 'Day']].reset_index(drop=True)

def setVarToExplain_cr():
    X__cr = setVarToExplain()
    X__cr = preprocessing.StandardScaler().fit_transform(X__cr)
    return pd.DataFrame(X__cr, columns=['Solar.R', 'Wind', 'Temp', 'Month', 'Day'])

def setVarToExplain_crWithOnes():
    X__crWithOnes = setVarToExplain_cr()
    X__crWithOnes.insert(0,"Constant",np.ones(X__crWithOnes.shape[0],float))
    return X__crWithOnes


y = setVarToPredict()
X_cr = setVarToExplain_cr()
X_crWithOnes = setVarToExplain_crWithOnes()

In [262]:
X_cr.head()

Unnamed: 0,Solar.R,Wind,Temp,Month,Day
0,0.057,-0.72,-1.1,-1.5,-1.7
1,-0.74,-0.55,-0.61,-1.5,-1.6
2,-0.39,0.75,-0.4,-1.5,-1.5
3,1.4,0.44,-1.7,-1.5,-1.4
4,1.3,-0.38,-1.3,-1.5,-1.0


In [263]:
X_crWithOnes.head()

Unnamed: 0,Constant,Solar.R,Wind,Temp,Month,Day
0,1.0,0.057,-0.72,-1.1,-1.5,-1.7
1,1.0,-0.74,-0.55,-0.61,-1.5,-1.6
2,1.0,-0.39,0.75,-0.4,-1.5,-1.5
3,1.0,1.4,0.44,-1.7,-1.5,-1.4
4,1.0,1.3,-0.38,-1.3,-1.5,-1.0


On définit l'estimateur:

In [264]:
def estimateur(X,y):
    skl_linmod.fit(X, y)
    estimateur = [skl_linmod.intercept_, skl_linmod.coef_[0], skl_linmod.coef_[1], 
              skl_linmod.coef_[2], skl_linmod.coef_[3], skl_linmod.coef_[4]]
    estimateur = pd.DataFrame(estimateur, columns=["Estimateur"])
    estimateur.index = ['Constante','Solar.R', 'Wind', 'Temp', 'Month', 'Day']
    return estimateur

### Question 5: Calculer l’estimateur des moindres carrés des coefficients du modèle (ainsi que de l’ordonnée à l’origine) ? Donner l’expression théorique d’un estimateur sans biais de la variance du bruit, puis le résultat numérique obtenu.

In [265]:
X = setVarToExplain_cr()
y = setVarToPredict()
estimateur_yFromX = estimateur(X,y['Ozone'])
estimateur_yFromX

Unnamed: 0,Estimateur
Constante,42.0
Solar.R,4.6
Wind,-12.0
Temp,18.0
Month,-4.5
Day,2.4


un estimateur sans biais de la variance du bruit est :

$ \hat{\sigma}^2 = \frac{1}{n - rg(X)} ||y-X\hat{\theta}||^2_2 \>\>\> (n > p) $

Une autre condition pour construire cet estimateur est que la matrice des variables explicatives doit également être de plein rang. C'est le cas ici puisque son rang est égale au nombre de variables explicatives:

In [266]:
X = setVarToExplain_crWithOnes()
rankX = np.linalg.matrix_rank(X)
rankX

6

On définit différentes fonctions par soucis de lisibilité:

In [267]:
def predicteur(X, estimateur):
    predicteur = np.dot(X, estimateur)
    return pd.DataFrame(predicteur, columns=["Predicteur"])

def residus(y, predicteur):
    residus = y - predicteur
    return pd.DataFrame(residus, columns=["Residus"])

def norme(vecteur):
    return np.dot(vecteur.transpose(), vecteur)

def estimateurVarSansBiais(norme_residus, nombreObservation, rank):
    return norme_residus / (float(nombreObservation-rank))

def nombreObservation(X):
    return len(X.index)

def nombreVariable(X):
    return len(X.columns)

On calcule l'estimateur sans biais de la variance:

In [268]:
X = setVarToExplain_crWithOnes()
y = setVarToPredict()
rankX = np.linalg.matrix_rank(X)
nombreObservationX = nombreObservation(X)
predicteur_yFromX = predicteur(X, estimateur_yFromX)
residus_yFromX = residus(y['Ozone'], predicteur_yFromX['Predicteur'])
norme_residus_yFromX = norme(residus_yFromX)
estimateurVarSansBiais_yFromX = estimateurVarSansBiais(norme_residus_yFromX, nombreObservationX, rankX)
estimateurVarSansBiais_yFromX

array([[ 435.07549499]])

Calcul de l'estimateur sans biais de la variance du bruit:

### Question 6: Proposer des intervalles de confiance pour chacun des coefficients de l'estimateur. Calculer les numériquement pour toutes les variables explicatives. On pourra par exemple utiliser scipy.stats.t.

Nous pouvons ici utiliser une loi de student car: 
* $\hat{\sigma}$ et $\hat{\theta}$ sont indépendants: en effet, $\hat{\sigma}$ est issu des résidu des moindres carrés, eux mêmes orthogonaux à tous les vecteurs de variables explicatives sur lesquels sont construit les $\hat{\theta}$. 
* $X^{\top}X$ est inversible: en effet, $rang(X) = Vect( \mathbb{1}_{n} , x_{1} ,..., x_{p} ) \Rightarrow Ker(X)= \{ 0 \} \Rightarrow X^{-1} = X^{\top} \Rightarrow X^{\top}X$ est inversible.

En notant $t_{1-\alpha/2}$ uun quantile d'ordre $1-\alpha/2$ de la loi $\mathfrak{T}_{n-rg(X)}$ alors l'intervalle de confiance de niveau $\alpha$ s'écrit:
$ [ \hat{\theta_{j}} - t_{1-\alpha/2} \hat{\sigma} \sqrt{(X^{\top}X)_{j,j}^{-1} } \:\:,\:\: \hat{\theta_{j}} + t_{1-\alpha/2} \hat{\sigma} \sqrt{(X^{\top}X)_{j,j}^{-1} } ] $

Pour calculer $X^{\top}X$, on définit la fonction covariance_metriqueI qui calcule la matrice de covariance avec la métrique identité. on définit également une fonction calculant l'inverse d'une matrice:

In [269]:
def covariance_metriqueI(X):
    covariance = pd.DataFrame(np.dot(X.transpose(), X))
    covariance.index = ['Constante','Solar.R', 'Wind', 'Temp', 'Month', 'Day']
    covariance.columns = ['Constante','Solar.R', 'Wind', 'Temp', 'Month', 'Day']
    return covariance

def inverse(X):
    inverse = pd.DataFrame(np.linalg.inv(X))
    inverse.index = ['Constante','Solar.R', 'Wind', 'Temp', 'Month', 'Day']
    inverse.columns = ['Constante','Solar.R', 'Wind', 'Temp', 'Month', 'Day']
    return inverse

X = setVarToExplain_crWithOnes()
covarianceX = covariance_metriqueI(X)
covarianceX_inv = inverse(covarianceX)

Puis on calcule $t_{1-\alpha/2}$:

In [270]:
alpha = 0.05
nombreObservationX = nombreObservation(X)
nombreVariableX = nombreVariable(X)
quantile_student = sci.stats.t.ppf(1-alpha,nombreObservationX-nombreVariableX-1)

Nous obtenons l'intervalle de confiance de niveau 99% suivant:

In [271]:
def IC_confiance_student(quantile_student, estimateur, estimateurVarSansBiais, diag_covariance_inv):
    dIC = quantile_student*np.sqrt(estimateurVarSansBiais)*np.sqrt(diag_covariance_inv)
    dIC.index = ['Constante','Solar.R', 'Wind', 'Temp', 'Month', 'Day']
    dIC.columns = ['dIC']
    IC = pd.DataFrame(estimateur.sub(dIC['dIC']),columns=["IC_min"])
    IC["IC max"] = estimateur.add(dIC['dIC'])
    IC.index = ['Constante','Solar.R', 'Wind', 'Temp', 'Month', 'Day']
    return IC

X = setVarToExplain_crWithOnes()

rankX = np.linalg.matrix_rank(X)
predicteur_yFromX = predicteur(X, estimateur_yFromX)
residus_yFromX = residus(y['Ozone'], predicteur_yFromX['Predicteur'])
norme_residus_yFromX = norme(residus_yFromX)
estimateurVarSansBiais_yFromX = estimateurVarSansBiais(norme_residus_yFromX, nombreObservationX, rankX)

diag_covarianceX_inv = pd.DataFrame(np.diag(covarianceX_inv))

IC_confianceX = IC_confiance_student(quantile_student, estimateur_yFromX['Estimateur'], 
                                     estimateurVarSansBiais_yFromX, diag_covarianceX_inv)
IC_confianceX

Unnamed: 0,IC_min,IC max
Constante,39.0,45.0
Solar.R,1.0,8.1
Wind,-16.0,-8.0
Temp,14.0,22.0
Month,-8.1,-0.77
Day,-0.93,5.7


### Qestion 8: On enregistre une nouvelle observation (Solar.R=197, Wind=10, Temp=70, Day=1,Month=3). Quelle est la prévision du modèle concernant la concentration en ozone ?

Notre nouvelle observation $y_{new}$ est:

In [273]:
def newObs(Solar, Wind, Temp, Month, Day):
    newObs = [1.0, Solar, Wind, Temp, Month, Day]
    newObs = pd.DataFrame(newObs, columns=["newObs"])
    newObs.index = ['Constante','Solar.R', 'Wind', 'Temp', 'Month', 'Day']
    return newObs

yNew = newObs(197.0, 10.0, 70.0, 1.0, 3.0)
yNew

Unnamed: 0,newObs
Constante,1.0
Solar.R,200.0
Wind,10.0
Temp,70.0
Month,1.0
Day,3.0


Notre nouvelle observation centrée et réduite $y_{new}^{cr}$ est:

In [274]:
def std(X):
    std = pd.DataFrame(X.std(), columns=["std"])
    std = pd.DataFrame(np.array([[1]]), columns=['std']).append(std, ignore_index=True)
    std.index = ['Constante','Solar.R', 'Wind', 'Temp', 'Month', 'Day']
    return std

def mean(X):
    mean = pd.DataFrame(X.mean(), columns=["mean"])
    mean = pd.DataFrame(np.array([[1]]), columns=['mean']).append(mean, ignore_index=True)
    mean.index = ['Constante','Solar.R', 'Wind', 'Temp', 'Month', 'Day']
    return mean

def centreReduit(y):
    X = setVarToExplain()
    stdX = std(X)
    meanX = mean(X)
    y_cr = pd.DataFrame(y.sub(meanX['mean']), columns=["newObs"])
    y_cr = y_cr['newObs'] / stdX.T
    y_cr = y_cr.transpose()
    y_cr.columns = ['newObs_cr']
    return y_cr
    
yNew = centreReduit(yNew['newObs'])
yNew

Unnamed: 0,newObs_cr
Constante,0.0
Solar.R,0.13
Wind,0.017
Temp,-0.82
Month,-4.2
Day,-1.5


on calcule le produit scalaire $ \langle \hat{\theta} | y_{new}^{cr} \rangle$ afin de calculer notre nouvelle prédiction:

In [275]:
def scalaire(vect1, vect2):
    scalaire = np.dot(vect1.transpose(), vect2)
    return scalaire

X = setVarToExplain_cr()
y = setVarToPredict()
estimateur_yFromX = estimateur(X,y['Ozone'])
New_prediction = scalaire(yNew, estimateur_yFromX)
New_prediction

array([[ 0.98643345]])

# Exercice 2

##### Question 1: Calculer les estimateurs des coefficients obtenus par une moyenne, puis par une médiane sur les échantillons bootstrap. Comparer les avec ceux obtenus avec la méthode de régression classique. On utilisera notamment la fonction utils.resample de sklearn.

On créer une fonction qui renvoie le rééchantillonage bootstrap sur la moyenne de n_iter échantillons de taille sampleSize:

In [276]:
def bootstrapFromMean(n_iter,sampleSize):
    
    dataframe = pd.DataFrame(columns=['Ozone','Solar.R', 'Wind', 'Temp', 'Month', 'Day'])
    X = setVarToExplain_cr()
    y = setVarToPredict()
    
    for i in range(n_iter):
        
        sample = resample(X, n_samples=sampleSize, random_state=i)
        sample = pd.concat([y, sample], axis=1, join='inner')
        sample = sample[['Ozone','Solar.R', 'Wind', 'Temp', 'Month', 'Day']]
        newSample = pd.DataFrame(sample.mean(), columns=["boostrap"])
        newSample = pd.DataFrame(sample.mean(), columns=[i])
        newSample = newSample.transpose()
        dataframe = dataframe.append(newSample)
        
    return dataframe

On créer une fonction qui renvoie le rééchantillonage bootstrap sur la mediane de n_iter échantillons de taille sampleSize:

In [277]:
def bootstrapFromMediane(n_iter,sampleSize):
    
    dataframe = pd.DataFrame(columns=['Ozone','Solar.R', 'Wind', 'Temp', 'Month', 'Day'])
    X = setVarToExplain_cr()
    y = setVarToPredict()
    
    for i in range(n_iter):
        
        sample = resample(X, n_samples=sampleSize, random_state=i)
        sample = pd.concat([y, sample], axis=1, join='inner')
        sample = sample[['Ozone','Solar.R', 'Wind', 'Temp', 'Month', 'Day']]
        newSample = pd.DataFrame(sample.median(), columns=["bootstrap"])
        newSample = pd.DataFrame(sample.median(), columns=[i])
        newSample = newSample.transpose()
        dataframe = dataframe.append(newSample)
        
    return dataframe

On calcule les estimateurs des coefficients obtenus pour la moyenne, pour n_iter = 1000 échantillons de taille sampleSize = 10:

In [278]:
sampleSize = 10
n_iter = 1000

dataframe = bootstrapFromMean(n_iter,sampleSize)
y_bootstrapMean = dataframe['Ozone']
X_bootstrapMean = dataframe[['Solar.R', 'Wind', 'Temp', 'Month', 'Day']]

estimateur_bootstrapMean = estimateur(X_bootstrapMean,y_bootstrapMean)
estimateur_bootstrapMean

Unnamed: 0,Estimateur
Constante,42.0
Solar.R,4.0
Wind,-12.0
Temp,19.0
Month,-5.2
Day,1.9


On calcule les estimateurs des coefficients obtenus pour la mediane, pour n_iter = 1000 échantillons de taille sampleSize = 10:

In [286]:
sampleSize = 10
n_iter = 1000

dataframe = bootstrapFromMediane(n_iter,sampleSize)
y_bootstrapMedian = dataframe['Ozone']
X_bootstrapMedian = dataframe[['Solar.R', 'Wind', 'Temp', 'Month', 'Day']]

estimateur_bootstrapMediane = estimateur(X_bootstrapMedian,y_bootstrapMedian)
estimateur_bootstrapMediane

Unnamed: 0,Estimateur
Constante,31.0
Solar.R,3.3
Wind,-9.1
Temp,18.0
Month,-2.1
Day,1.6


##### Question 2: Calculer un intervalle de confiance de niveau 99%, en utilisant les quantiles empiriques de niveau 99:5% et 0:5% des échantillons bootstrap.

On défint une fonction pour le calcul de l'intervalle de confiance:

In [322]:
def calc_IC_bootstrap(dataframe,alpha):
    IC_bootstrap = dataframe.quantile(alpha)
    IC_bootstrap = pd.DataFrame(IC_bootstrap, columns=["quantileMin"])
    IC_bootstrap["quantileMax"] = dataframe.quantile(1.0 - alpha)
    return IC_bootstrap

Nous obtenons pour la médiane l'intervalle de confiance de niveau 99% suivant:

In [323]:
alpha = 0.05
calc_IC_bootstrap(X_bootstrapMedian,alpha)

Unnamed: 0,quantileMin,quantileMax
Solar.R,-0.78,0.75
Wind,-0.63,0.44
Temp,-0.66,0.65
Month,-0.83,0.88
Day,-0.8,0.7


Nous obtenons pour la moyenne l'intervalle de confiance de niveau 99% suivant:

In [324]:
alpha = 0.05
calc_IC_bootstrap(X_bootstrapMean,alpha)

Unnamed: 0,quantileMin,quantileMax
Solar.R,-0.57,0.5
Wind,-0.49,0.55
Temp,-0.53,0.52
Month,-0.56,0.53
Day,-0.51,0.51


##### Question 3: Afficher sur un graphe les deux courbes (en pointillés noirs) donnant les bornes inférieures et supérieures (des intervalles de confiance) pour la variable 'Wind', et ce en fonction du paramètre B. On ajoutera en trait plein la courbe des estimés par la médiane bootstrap de ce même coefficient. On fera varier B de 1 à 5001 par saut de 500.

On défint une fonction qui va enregistrer la mediane ainsi que l'intervalle de confiance associé pour la variable explicative "Wind":

In [325]:
def saveData(dataframe, save_iter, n_iter):   
    if (n_iter % save_iter == 0):
        mediane = pd.DataFrame(columns=['Mediane'])
        quantileMin = pd.DataFrame(columns=['quantileMin'])
        quantileMax = pd.DataFrame(columns=['quantileMax'])
        quantileMin['quantileMin'] = pd.DataFrame(dataframe.quantile(0.05), 
                                                  columns=["quantileMin"]).transpose()['Wind']
        quantileMax['quantileMax'] = pd.DataFrame(dataframe.quantile(0.95), 
                                                  columns=["quantileMax"]).transpose()['Wind']
        mediane['Mediane'] = pd.DataFrame(dataframe.median(), 
                                                  columns=["Mediane"]).transpose()['Wind']
        mediane.index = [n_iter]
        quantileMin.index = [n_iter]
        quantileMax.index = [n_iter]
        IC = pd.concat([mediane, quantileMin, quantileMax],axis=1, join='inner')
        
        return IC

On rédéfinit la fonction bootstrapFromMediane (question 1) pour y inclure la fonction save:

In [326]:
def bootstrapFromMediane_save(n_iter,sampleSize,save_iter):
    
    dataframe = pd.DataFrame(columns=['Ozone','Solar.R', 'Wind', 'Temp', 'Month', 'Day'])
    X = setVarToExplain_cr()
    y = setVarToPredict()
    IC_MedianeWind = pd.DataFrame(columns=['Mediane','quantileMin','quantileMax'])  
    
    for i in range(n_iter):
        
        sample = resample(X, n_samples=sampleSize, random_state=i)
        sample = pd.concat([y, sample], axis=1, join='inner')
        sample = sample[['Ozone','Solar.R', 'Wind', 'Temp', 'Month', 'Day']]
        newSample = pd.DataFrame(sample.median(), columns=["bootstrap"])
        newSample = pd.DataFrame(sample.median(), columns=[i])
        newSample = newSample.transpose()
        dataframe = dataframe.append(newSample)
        IC_MedianeWind = IC_MedianeWind.append(saveData(dataframe, save_iter, i))
        
    return IC_MedianeWind

On fait une simulation pour n_iter = 5000 échantillons de taille sampleSize = 10 en faisant 10 sauvegardes:

In [327]:
sampleSize = 10
n_iter = 5001
save_iter = 500

IC_MedianeWind = bootstrapFromMediane_save(n_iter,sampleSize,save_iter)
IC_MedianeWind

Unnamed: 0,Mediane,quantileMin,quantileMax
0,-0.14,-0.14,-0.14
500,-0.054,-0.63,0.44
1000,0.017,-0.63,0.44
1500,0.017,-0.63,0.51
2000,-0.054,-0.63,0.44
2500,-0.054,-0.63,0.44
3000,-0.054,-0.7,0.51
3500,-0.054,-0.7,0.51
4000,-0.054,-0.7,0.51
4500,-0.054,-0.7,0.44


In [74]:
IC_MedianeWind['nSample'] = IC_MedianeWind.index
plt.plot(IC_MedianeWind['nSample'],IC_MedianeWind['Mediane'],linewidth=3, color="black",marker='o')
plt.plot(IC_MedianeWind['nSample'],IC_MedianeWind['quantileMin'],linewidth=3,color="red",marker='o')
plt.plot(IC_MedianeWind['nSample'],IC_MedianeWind['quantileMax'],linewidth=3,color="blue",marker='o')
plt.show()