# Mod√®le lin√©aire

Consid√©rons la cas classique d'une fonction affine :

$$y=ax+b$$

Ici, $a$ et $b$ sont des r√©els. Ces deux nombres d√©finissent enti√®rement la courbe et permet donc d'obtenir une relation **affine** entre $x$ et $y$. En statistique, cette relation est √† la base des mod√®les dit **lin√©aires**, o√π une variable r√©ponse se d√©finit comme une somme de variables explicatives o√π chacune de ces derni√®res sont multipli√©s par un coefficient.


## Mod√®le lin√©aire simple

![](https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Linear_regression.svg/438px-Linear_regression.svg.png)

Dans le mod√®le lin√©aire simple (une seule variable explicative), on suppose que la variable r√©ponse suit le mod√®le suivant :

$$y_i=\beta_0 + \beta_1 x_i + \varepsilon_i$$

On remarque la ressemblance avec la fonction affine pr√©sent√©e ci-dessus. La diff√©rence r√©side dans l'existence du terme al√©atoire (appel√© bruit) $\varepsilon_i$. Afin de consid√©rer le mod√®le, il est n√©cessaire de se placer sous les hypoth√®ses suivantes

$$(\mathcal{H}) : \left\{\begin{matrix}
\mathbb{E}[\varepsilon_i]=0\\ 
\text{Cov}(\varepsilon_i, \varepsilon_j)=\delta_{ij} \sigma^2
\end{matrix}\right.$$
Les diff√©rents √©l√©ments qui interviennent sont :

- $\beta_0$ : l'ordonn√©e √† l'origine (nomm√©e *intercept*)
- $\beta_1$ : le coefficient directeur
- $x_i$ : l'observation $i$
- $y_i$ : le $i$-√®me prix
- $\varepsilon_i$ : le bruit al√©atoire li√©e √† la $i$-√®me observation

La solution peut se calculer facilement via les formules ferm√©es suivantes :

$$\hat{\beta}_1=\frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} \qquad \hat{\beta}_0 = \hat{y} - \hat{\beta}_1 \bar{x}$$

##¬†Mod√®le lin√©aire multiple

Dans le cas multiple (pour $p$ variables explicatives), pour la $i$-√®me observation, le mod√®le s'√©crit :

$$y_i= \beta_0 + \sum_{j=1}^p \beta_j x_{ij} + \varepsilon_i$$

Ainsi, une observation $x_i$ n'est plus une valeur, mais un **vecteur** $(x_{i1}, \dots, x_{ip})$. Il est plus commode de regrouper ces prix $y_i$ et ces vecteurs d'observations $x_i$ dans des matrices :

$$Y=X \beta + \varepsilon$$

Sous les hypoth√®ses √©quivalentes du mod√®le simple en plus grand dimension

$$(\mathcal{H}) : \left\{\begin{matrix}
\text{rank}(X)=p\\ 
\mathbb{E}[\varepsilon]=0 \text{ et }\text{Var}(\varepsilon)=\sigma^2 I_p
\end{matrix}\right.$$

Les diff√©rents √©l√©ments qui interviennent sont :

- $\beta$ : le vecteur directeur
- $X$ : la matrice des observations
- $Y$ : le vecteur de prix
- $\varepsilon$ : le vecteur de bruit

Avec $X=( \mathbf{1}, X_1, \dots, X_n)$, $Y=(y_1, \dots, y_n)^\top$ et $\varepsilon=(\varepsilon_1, \dots, \varepsilon_n)^\top$. La solution des MCO (Moindres Carr√©s Ordinaires) est alors :

$$\hat{\beta}= (X^\top X)^{-1} X^\top Y$$

Vous pouvez d'ailleurs faire la d√©monstration de votre cot√© ! Pour plus d'information math√©matiques, le portail de wikip√©dia qui est tr√®s bien fait : [lien ici](https://fr.wikipedia.org/wiki/Portail:Probabilit%C3%A9s_et_statistiques)

# Impl√©menter une r√©gression lin√©aire 


In [2]:
#importer vos librairies 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split



In [16]:
#charger les donn√©es 
data_price = pd.read_csv("./dataset/price_availability.csv",sep=";")
data_listing = pd.read_csv("./dataset/listings_final.csv",sep=";")
#price_availability.csv
#listings_final.csv
#v√©rifier si tous les individus ont bien un prix
data_fusion = pd.merge(data_listing,data_price, on="listing_id")
data_final = data_fusion.groupby('listing_id').mean()
data_final.head(3)


Unnamed: 0_level_0,Unnamed: 0,latitude,longitude,person_capacity,beds,bedrooms,bathrooms,is_rebookable,is_new_listing,is_fully_refundable,is_host_highly_rated,is_business_travel_ready,pricing_weekly_factor,pricing_monthly_factor,available,local_price,min_nights
listing_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
56093,12.0,48.867284,2.358431,4.0,2.0,1.0,1.0,0.0,0.0,1.0,1.0,0.0,0.88,1.0,0.0,170.0,4.0
57207,13.0,48.846184,2.304455,2.0,1.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,0.87,1.0,0.48294,49.952756,2.0
114543,19.0,48.84953,2.290219,2.0,1.0,1.0,1.0,0.0,0.0,1.0,1.0,0.0,0.9,0.9,0.14026,107.374026,3.716883


## Donn√©es d'entr√©e

L'objectif ici est de charger les donn√©es pour cr√©er les matrices $X$ et $Y$ du mod√®le lin√©aire. **Attention**, il n'est pas n√©cessaire de rajouter le vecteur colonne $\mathbf{1}$ en premi√®re colonne, car *scikit-learn* le fait automatiquement !

In [17]:
#fusion des dataset


#d√©finir 2 variables de travail
#X := les features √† utiliser 
X = data_final.drop('local_price',axis=1)
#Y := la target (prix)
Y = data_final['local_price']


In [19]:
#construire l'ensemble de donn√©e prix 
#
#    INDICE 
# 
# r√©cup√©rer les prix des ID dans le dataset de prix 
# üöß il y a plusieurs prix dans le dataset üöß
model = LinearRegression()


0.519716661465031

En *Machine Learning*, on a l'habitude de couper l'ensemble de donn√©es en deux sous-ensembles :

- Un ensemble d'entra√Ænement (*train set*), sur lequel le mod√®le va √™tre calibr√©.
- Un ensemble de test (*test set*), qui ne sera pas utilis√© pendant le calibrage mais permettra de v√©rifier l'aptitude du mod√®le √† g√©n√©raliser sur de nouvelles observations inconnues.

En g√©n√©ral, on d√©coupe l'ensemble de donn√©es (*split*) en prenant $\alpha \%$ de l'ensemble pour entra√Ænement et $1-\alpha \%$ comme test. Dans la plus part des cas, on consid√®re que $\alpha=10,20 ou 30\%$.

In [22]:
#utiliser la m√©thode split de sklearn en splitant avec un alpha=30 et un random state=42 
#afficher la shape de vos donn√©es 
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,random_state=42,)
print("shape X : {}, shape Y : {}", format(X.shape),format(Y.shape))

shape X : {}, shape Y : {} (999, 16) (999,)


## Entra√Ænement

Pour information, *scikit-learn* utilise le solveur OLS (Ordinary Least Squares) de *numpy*.

In [23]:
#cr√©er l'objet de r√©gression et entrainer le sur notre ensemble d'entra√Ænement
model.fit(X_train,Y_train)

LinearRegression()

On affiche le vecteur des coefficients pour interpr√©ter rapidement le mod√®le.

In [24]:
#afficher les coefficients
model.score(X_train,Y_train)
#que remarquez vous ? 
#il a environ  1 chance sur 2 de predir le bon prix


0.5070533354309714

## Validation du mod√®le

### Le coefficient de d√©termination $R^2$

Par la suite, nous ferons l'hypoth√®se de gaussianit√© sur les bruits. Dans l'id√©e, nous aimerions obtenir une valeur num√©rique qui nous indique √† quel point la r√©gression lin√©aire a un sens sur nos donn√©es. Pour cela, introduisons les notations suivantes :

- $SCT=\|Y-\hat{y} \mathbf{1}\|^2$ est la somme des carr√©s totaux
- $SCE=\|\hat{Y}-\hat{y} \mathbf{1}\|^2$ est la somme des carr√©s expliqu√©s
- $SCR=\|\hat{\varepsilon}\|^2$ est la somme des carr√©s r√©siduels

L'id√©e est de d√©composer la somme des carr√©s totaux comme la somme des carr√©s que le mod√®le explique, en plus de la somme des carr√©s qui sont li√©s aux r√©sidus (et donc que le mod√®le ne peut pas expliquer). On voit donc ici l'int√©r√™t de calculer un coefficient √† partir du $SCE$. Puisque l'on a la relation suivante :

$$SCT=SCE+SCR \text{ alors } 1=\frac{SCE}{SCT}+\frac{SCR}{SCT}$$

Plus les r√©sidus sont petits (et donc la r√©gression est "bonne"), plus $SCR$ devient petit et donc $SCE$ devient grand. Le sch√©ma inverse s'op√®re de la m√™me fa√ßon. Dans le meilleur des cas, on obtient $SCR=0$ et donc $SCE=SCT$ d'o√π le premier membre vaut $1$. Dans le cas contraite, $SCE=0$ et automatiquement, le premier membre est nul. C'est ainsi que l'on d√©finit le coefficient de d√©termination $R^2$ comme 
$$R^2=\frac{SCE}{SCT}=1-\frac{SCR}{SCT}$$
Ainsi, $R^2 \in [0,1]$. Plus $R^2$ est proche de $1$, plus la r√©gression lin√©aire a du sens. Au contraire, si $R^2$ est proche de $0$, le mod√®le lin√©aire poss√®de un faible pouvoir explicatif.

In [32]:
#faire une prediction sur X
prediction = model.predict(X_test)
prediction


array([  64.52856224,  639.37106141,  130.1949791 ,  117.46358751,
         66.66224071,  545.11780521,   26.86270012, -251.27875606,
        170.27429863,  445.1345808 ,  131.94568163,  134.63214893,
        330.1278098 ,  254.14321307,  219.7634768 ,  229.18400556,
        258.90645769,  114.93338906,  239.43173168,  240.98800709,
        102.51791333,   60.2168461 ,  500.58888903,  182.42777747,
        104.60716937,  399.3391158 ,  200.78890661,  160.82011775,
        226.29699206,   74.88830081,  145.16325589,  170.24508473,
        157.12559984,  176.48416832,   17.82168241,  245.10145054,
         16.41347411,  400.52579917,  251.48307205,  138.3847261 ,
        206.90060499,   26.9961518 ,  232.7922148 ,  305.74733174,
         73.88862685,   96.02790816,  280.53912082,  178.13820636,
         81.27134555,   94.56638905,  277.07529025,   86.73029733,
        242.16564764,  257.44483937,  200.5903852 ,  272.59016994,
        160.92329954,   46.92739708,  482.69814829,  495.03924

In [29]:
#afficher l'erreur des moindres carr√©es sur l'ensemble d'entrainement ainsi que le R2

from sklearn.metrics import mean_absolute_error
errors = mean_absolute_error(Y_test, prediction)
errors

78.54542305789064

## Bonus : Analyse de l'homosc√©dasticit√©

L'analyse de l'homosc√©dasticit√© est primordiale : c'est en particulier elle qui nous permet de v√©rifier, √† partir des r√©sidus, si les bruits v√©rifient bien l'hypoth√®se $(\mathcal{H})$. On calcule donc les **r√©sidus studentis√©s**.

$$t_i^*=\frac{\hat{\varepsilon}_i}{\hat{\sigma}_{(i)} \sqrt{1-h_{ii}}}$$
Avec $h_{ii}=\{X(X^\top X)^{-1} X^\top\}_{ii}=H_{ii}$ la matrice de projection sur l'hyperplan des variables. Plus pr√©cis√©ment, $H$ est la matrice qui projette $Y$ sur l'espace engendr√© par les variables, soit $\hat{Y}=HY$. De m√™me, on consid√®re $\hat{\sigma}_{(i)}$ l'estimateur de la variance du bruit en supprimant l'observation $i$ (par une m√©thode de validation crois√©e Leave-One-Out que nous ne d√©taillerons pas ici).

Dans ce cas, on peut montrer que les r√©sidus studentis√©s suivent une loi de Student √† $n-p-1$ degr√©s de libert√©.

In [None]:
#analyser le code ci-dessous 
import scipy
Y_pred = regr.predict(X_train)
n = X_train.shape[0]
p = 4
residuals = np.abs(y_train - Y_pred)
H = np.matmul(X_train, np.linalg.solve(np.dot(X_train.T, X_train), X_train.T))
std_hat = np.dot(residuals, residuals) / (n - p)
standart_residuals = np.asarray([residuals[i] / np.sqrt(std_hat * (1 - H[i, i])) for i in range(len(residuals))])
student_residuals = np.asarray([ standart_residuals[i] * np.sqrt((n - p - 1) / (n - p - standart_residuals[i]**2)) for i in range(n) ])
cook = np.asarray([ H[i, i] * student_residuals[i] / (X_train.shape[1] * (1 - H[i, i])) for i in range(n) ])

plt.figure(figsize=(20, 12))
plt.subplot(221)
plt.scatter(Y_pred, student_residuals, s=12, c="white", edgecolors="blue")
plt.plot([min(Y_pred), max(Y_pred)], [ scipy.stats.t.ppf(q=0.975, df=n-p-1), scipy.stats.t.ppf(q=0.975, df=n-p-1)], color="green", alpha=0.6, label="Quantile de Student")
plt.title("Analyse de l‚Äôhomosc√©dasticit√©")
plt.xlabel("Pr√©dictions $\hat{y}_i$")
plt.ylabel("R√©sidus studentis√©s $|t_i^*|$")
plt.legend()

NameError: name 'regr' is not defined