# Mod√®le lin√©aire

Consid√©rons la cas classique d'une fonction affine :

$$y=ax+b$$

Ici, $a$ et $b$ sont des r√©els. Ces deux nombres d√©finissent enti√®rement la courbe et permet donc d'obtenir une relation **affine** entre $x$ et $y$. En statistique, cette relation est √† la base des mod√®les dit **lin√©aires**, o√π une variable r√©ponse se d√©finit comme une somme de variables explicatives o√π chacune de ces derni√®res sont multipli√©s par un coefficient.


## Mod√®le lin√©aire simple

![](https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Linear_regression.svg/438px-Linear_regression.svg.png)

Dans le mod√®le lin√©aire simple (une seule variable explicative), on suppose que la variable r√©ponse suit le mod√®le suivant :

$$y_i=\beta_0 + \beta_1 x_i + \varepsilon_i$$

On remarque la ressemblance avec la fonction affine pr√©sent√©e ci-dessus. La diff√©rence r√©side dans l'existence du terme al√©atoire (appel√© bruit) $\varepsilon_i$. Afin de consid√©rer le mod√®le, il est n√©cessaire de se placer sous les hypoth√®ses suivantes

$$(\mathcal{H}) : \left\{\begin{matrix}
\mathbb{E}[\varepsilon_i]=0\\ 
\text{Cov}(\varepsilon_i, \varepsilon_j)=\delta_{ij} \sigma^2
\end{matrix}\right.$$
Les diff√©rents √©l√©ments qui interviennent sont :

- $\beta_0$ : l'ordonn√©e √† l'origine (nomm√©e *intercept*)
- $\beta_1$ : le coefficient directeur
- $x_i$ : l'observation $i$
- $y_i$ : le $i$-√®me prix
- $\varepsilon_i$ : le bruit al√©atoire li√©e √† la $i$-√®me observation

La solution peut se calculer facilement via les formules ferm√©es suivantes :

$$\hat{\beta}_1=\frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} \qquad \hat{\beta}_0 = \hat{y} - \hat{\beta}_1 \bar{x}$$

##¬†Mod√®le lin√©aire multiple

Dans le cas multiple (pour $p$ variables explicatives), pour la $i$-√®me observation, le mod√®le s'√©crit :

$$y_i= \beta_0 + \sum_{j=1}^p \beta_j x_{ij} + \varepsilon_i$$

Ainsi, une observation $x_i$ n'est plus une valeur, mais un **vecteur** $(x_{i1}, \dots, x_{ip})$. Il est plus commode de regrouper ces prix $y_i$ et ces vecteurs d'observations $x_i$ dans des matrices :

$$Y=X \beta + \varepsilon$$

Sous les hypoth√®ses √©quivalentes du mod√®le simple en plus grand dimension

$$(\mathcal{H}) : \left\{\begin{matrix}
\text{rank}(X)=p\\ 
\mathbb{E}[\varepsilon]=0 \text{ et }\text{Var}(\varepsilon)=\sigma^2 I_p
\end{matrix}\right.$$

Les diff√©rents √©l√©ments qui interviennent sont :

- $\beta$ : le vecteur directeur
- $X$ : la matrice des observations
- $Y$ : le vecteur de prix
- $\varepsilon$ : le vecteur de bruit

Avec $X=( \mathbf{1}, X_1, \dots, X_n)$, $Y=(y_1, \dots, y_n)^\top$ et $\varepsilon=(\varepsilon_1, \dots, \varepsilon_n)^\top$. La solution des MCO (Moindres Carr√©s Ordinaires) est alors :

$$\hat{\beta}= (X^\top X)^{-1} X^\top Y$$

Vous pouvez d'ailleurs faire la d√©monstration de votre cot√© ! Pour plus d'information math√©matiques, le portail de wikip√©dia qui est tr√®s bien fait : [lien ici](https://fr.wikipedia.org/wiki/Portail:Probabilit%C3%A9s_et_statistiques)

# Impl√©menter une r√©gression lin√©aire 


In [23]:
#importer vos librairies 

import pandas as pd 
!pip3 install scikit-learn
import sklearn as sklearn

Collecting scikit-learn
  Using cached scikit_learn-0.24.1-cp38-cp38-win_amd64.whl (6.9 MB)
Installing collected packages: scikit-learn


ERROR: Could not install packages due to an EnvironmentError: [WinError 5] Acc√®s refus√©: 'C:\\Users\\romai\\AppData\\Local\\Packages\\PythonSoftwareFoundation.Python.3.8_qbz5n2kfra8p0\\LocalCache\\local-packages\\Python38\\site-packages\\sklearn\\.libs\\vcomp140.dll'
Check the permissions.

You should consider upgrading via the 'C:\Users\romai\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.8_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip' command.


ModuleNotFoundError: No module named 'sklearn.utils'

In [None]:
price_availability = pd.read_csv('./DATA/price_availability.csv', sep=';')
listings_final = pd.read_csv('./DATA/listings_final.csv', sep=';')




In [3]:
price_availability

Unnamed: 0,listing_id,day,created,available,local_currency,local_price,min_nights
0,9810829,2018-12-08,2018-09-27 06:14:10.000+0000,True,EUR,160,1
1,9810829,2018-12-08,2018-09-26 19:34:02.000+0000,True,EUR,160,1
2,20897010,2018-12-09,2018-09-27 10:38:57.000+0000,True,EUR,172,2
3,20897010,2018-12-09,2018-09-27 06:10:27.000+0000,True,EUR,172,2
4,20897010,2018-12-09,2018-09-26 19:30:25.000+0000,True,EUR,172,2
...,...,...,...,...,...,...,...
4748691,23608395,2018-09-06,2018-09-27 06:05:42.000+0000,False,EUR,24,1
4748692,23608395,2018-09-06,2018-09-26 19:31:32.000+0000,False,EUR,24,1
4748693,1447132,2018-12-27,2018-09-27 10:46:16.000+0000,False,EUR,125,3
4748694,1447132,2018-12-27,2018-09-27 06:07:36.000+0000,False,EUR,125,3


In [4]:
listings_final

Unnamed: 0.1,Unnamed: 0,listing_id,name,type,city,neighborhood,latitude,longitude,person_capacity,beds,bedrooms,bathrooms,is_rebookable,is_new_listing,is_fully_refundable,is_host_highly_rated,is_business_travel_ready,pricing_weekly_factor,pricing_monthly_factor
0,0,28581061,La maison Clery,private_room,Paris,2e arrondissement,48.869292,2.348335,1,1,1,2.0,False,True,True,False,False,1.00,1.00
1,1,661961,studio PARIS PLACE EDITH PIAF 75020,entire_home,Paris,,48.867284,2.403255,2,1,1,1.0,False,False,True,True,False,0.88,0.69
2,2,1261705,chambre priv√©e √† louer @ paris oberkampf,private_room,Paris,,48.867894,2.375897,1,1,1,1.0,False,False,True,True,False,1.00,1.00
3,3,1318834,Appartement au coeur du Marais,entire_home,Paris,R√©publique,48.870370,2.358510,3,2,2,1.0,False,False,True,False,False,0.82,0.48
4,4,1677091,Lovely & Quiet flat,entire_home,Paris,Buttes-Chaumont - Belleville,48.874149,2.373700,2,1,1,1.0,False,False,True,True,False,0.95,0.90
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,995,28335197,Studio cosy Jardin du Luxembourg,entire_home,Paris,Saint Germain des Pr√©s - Od√©on,48.848695,2.325857,2,1,0,1.0,False,True,True,False,False,0.79,1.00
996,996,28583013,Charmant 30m2 - Faubourg Saint Martin,entire_home,Paris,R√©publique,48.871623,2.358006,3,1,1,1.0,False,True,True,False,False,1.00,1.00
997,997,28628316,Cosy flat in the marais - Best area,entire_home,Paris,2e arrondissement,48.867434,2.351771,4,2,1,1.0,False,True,True,True,False,1.00,1.00
998,998,28792796,Appartement 3 chambres madeleine.,entire_home,Paris,Madeleine - Vend√¥me,48.870109,2.321475,6,4,2,1.5,False,True,True,False,False,1.00,1.00


In [5]:
result_mean = price_availability.groupby(['listing_id']).mean()
result_mean

Unnamed: 0_level_0,available,local_price,min_nights
listing_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5396,0.011494,102.363985,2.000000
7397,0.168297,110.107632,11.000000
9342,0.309198,396.863014,2.784736
10010,0.254593,136.154856,4.955381
10270,0.511688,105.779221,4.937662
...,...,...,...
28836096,0.082707,321.428571,1.022556
28838519,0.083333,54.483333,5.000000
28840013,0.743083,112.122530,2.000000
28846494,0.225564,168.037594,4.000000


In [6]:
result_merge = pd.merge(result_mean, listings_final, on="listing_id")
result_merge

Unnamed: 0.1,listing_id,available,local_price,min_nights,Unnamed: 0,name,type,city,neighborhood,latitude,...,beds,bedrooms,bathrooms,is_rebookable,is_new_listing,is_fully_refundable,is_host_highly_rated,is_business_travel_ready,pricing_weekly_factor,pricing_monthly_factor
0,56093,0.000000,170.000000,4.000000,12,Beau duplex dans le Marais,entire_home,Paris,3e arrondissement,48.867284,...,2,1,1.0,False,False,True,True,False,0.88,1.0
1,57207,0.482940,49.952756,2.000000,13,Belle Chambre pour court,private_room,Paris,Vaugirard,48.846184,...,1,1,1.0,False,False,True,False,False,0.87,1.0
2,114543,0.140260,107.374026,3.716883,19,Charming 1bdr 55m¬≤ - Eiffel Tower,entire_home,Paris,,48.849530,...,1,1,1.0,False,False,True,True,False,0.90,0.9
3,149534,0.554974,169.000000,3.000000,9,GREAT WARM FULL APT LE HAUT MARAIS,entire_home,Paris,,48.866360,...,2,1,1.0,False,False,True,True,False,1.00,0.4
4,164255,0.100580,75.876209,3.841393,28,Perfect place in Le Marais - Paris,entire_home,Paris,3e arrondissement,48.861398,...,2,1,1.0,False,False,True,False,False,1.00,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
994,28684174,0.785156,725.175781,1.046875,662,Chambre familiale vue jardin avec petit-d√©jeun...,private_room,Paris,Ternes,48.879223,...,0,1,1.0,False,True,True,False,False,1.00,1.0
995,28709644,0.954286,475.000000,6.000000,745,LORD BYRON-SPACE& STYLE IN 8TH EME,entire_home,Paris,Champs-Elys√©es,48.872202,...,2,1,1.0,False,True,True,False,False,1.00,1.0
996,28751412,0.521053,117.000000,1.000000,88,Malesherbes Monceau Monsen,entire_home,Paris,Monceau,48.880923,...,1,0,1.0,False,True,True,False,False,1.00,1.0
997,28774896,0.840506,156.397468,1.000000,159,5 min to invalides and 10 min to eiffel tower,entire_home,Paris,Invalides - Ecole Militaire,48.852915,...,1,1,1.0,False,True,True,False,False,1.00,1.0


In [17]:
result_selected = result_merge[['local_price', 'type', 'beds', 'bedrooms']]
result_selected

Unnamed: 0,local_price,type,beds,bedrooms
0,170.000000,entire_home,2,1
1,49.952756,private_room,1,1
2,107.374026,entire_home,1,1
3,169.000000,entire_home,2,1
4,75.876209,entire_home,2,1
...,...,...,...,...
994,725.175781,private_room,0,1
995,475.000000,entire_home,2,1
996,117.000000,entire_home,1,0
997,156.397468,entire_home,1,1


## Donn√©es d'entr√©e

L'objectif ici est de charger les donn√©es pour cr√©er les matrices $X$ et $Y$ du mod√®le lin√©aire. **Attention**, il n'est pas n√©cessaire de rajouter le vecteur colonne $\mathbf{1}$ en premi√®re colonne, car *scikit-learn* le fait automatiquement !

In [7]:
#d√©finir 2 variables de travail
#X := les features √† utiliser 
#Y := la target (prix)


In [8]:
#construire l'ensemble de donn√©e prix 
#
#    INDICE 
# 
# r√©cup√©rer les prix des ID dans le dataset de prix 
# üöß il y a plusieurs prix dans le dataset üöß



En *Machine Learning*, on a l'habitude de couper l'ensemble de donn√©es en deux sous-ensembles :

- Un ensemble d'entra√Ænement (*train set*), sur lequel le mod√®le va √™tre calibr√©.
- Un ensemble de test (*test set*), qui ne sera pas utilis√© pendant le calibrage mais permettra de v√©rifier l'aptitude du mod√®le √† g√©n√©raliser sur de nouvelles observations inconnues.

En g√©n√©ral, on d√©coupe l'ensemble de donn√©es (*split*) en prenant $\alpha \%$ de l'ensemble pour entra√Ænement et $1-\alpha \%$ comme test. Dans la plus part des cas, on consid√®re que $\alpha=10,20 ou 30\%$.

In [27]:
#utiliser la m√©thode split de sklearn en splitant avec un alpha=30 et un random state=42 
#afficher la shape de vos donn√©es 
from sklearn.model_selection import train_test_split
train_test_split(result_selected, test_size=300, train_size=699, random_state=42, shuffle=True, stratify=True)

ModuleNotFoundError: No module named 'sklearn.utils'

## Entra√Ænement

Pour information, *scikit-learn* utilise le solveur OLS (Ordinary Least Squares) de *numpy*.

In [10]:
#cr√©er l'objet de r√©gression et entrainer le sur notre ensemble d'entra√Ænement


On affiche le vecteur des coefficients pour interpr√©ter rapidement le mod√®le.

In [11]:
#afficher les coefficients
#que remarquez vous ? 


## Validation du mod√®le

### Le coefficient de d√©termination $R^2$

Par la suite, nous ferons l'hypoth√®se de gaussianit√© sur les bruits. Dans l'id√©e, nous aimerions obtenir une valeur num√©rique qui nous indique √† quel point la r√©gression lin√©aire a un sens sur nos donn√©es. Pour cela, introduisons les notations suivantes :

- $SCT=\|Y-\hat{y} \mathbf{1}\|^2$ est la somme des carr√©s totaux
- $SCE=\|\hat{Y}-\hat{y} \mathbf{1}\|^2$ est la somme des carr√©s expliqu√©s
- $SCR=\|\hat{\varepsilon}\|^2$ est la somme des carr√©s r√©siduels

L'id√©e est de d√©composer la somme des carr√©s totaux comme la somme des carr√©s que le mod√®le explique, en plus de la somme des carr√©s qui sont li√©s aux r√©sidus (et donc que le mod√®le ne peut pas expliquer). On voit donc ici l'int√©r√™t de calculer un coefficient √† partir du $SCE$. Puisque l'on a la relation suivante :

$$SCT=SCE+SCR \text{ alors } 1=\frac{SCE}{SCT}+\frac{SCR}{SCT}$$

Plus les r√©sidus sont petits (et donc la r√©gression est "bonne"), plus $SCR$ devient petit et donc $SCE$ devient grand. Le sch√©ma inverse s'op√®re de la m√™me fa√ßon. Dans le meilleur des cas, on obtient $SCR=0$ et donc $SCE=SCT$ d'o√π le premier membre vaut $1$. Dans le cas contraite, $SCE=0$ et automatiquement, le premier membre est nul. C'est ainsi que l'on d√©finit le coefficient de d√©termination $R^2$ comme 
$$R^2=\frac{SCE}{SCT}=1-\frac{SCR}{SCT}$$
Ainsi, $R^2 \in [0,1]$. Plus $R^2$ est proche de $1$, plus la r√©gression lin√©aire a du sens. Au contraire, si $R^2$ est proche de $0$, le mod√®le lin√©aire poss√®de un faible pouvoir explicatif.

In [12]:
#faire une prediction sur X


In [13]:
#afficher l'erreur des moindres carr√©es sur l'ensemble d'entrainement ainsi que le R2


## Bonus : Analyse de l'homosc√©dasticit√©

L'analyse de l'homosc√©dasticit√© est primordiale : c'est en particulier elle qui nous permet de v√©rifier, √† partir des r√©sidus, si les bruits v√©rifient bien l'hypoth√®se $(\mathcal{H})$. On calcule donc les **r√©sidus studentis√©s**.

$$t_i^*=\frac{\hat{\varepsilon}_i}{\hat{\sigma}_{(i)} \sqrt{1-h_{ii}}}$$
Avec $h_{ii}=\{X(X^\top X)^{-1} X^\top\}_{ii}=H_{ii}$ la matrice de projection sur l'hyperplan des variables. Plus pr√©cis√©ment, $H$ est la matrice qui projette $Y$ sur l'espace engendr√© par les variables, soit $\hat{Y}=HY$. De m√™me, on consid√®re $\hat{\sigma}_{(i)}$ l'estimateur de la variance du bruit en supprimant l'observation $i$ (par une m√©thode de validation crois√©e Leave-One-Out que nous ne d√©taillerons pas ici).

Dans ce cas, on peut montrer que les r√©sidus studentis√©s suivent une loi de Student √† $n-p-1$ degr√©s de libert√©.

In [14]:
#analyser le code ci-dessous 
import scipy
Y_pred = regr.predict(X_train)
n = X_train.shape[0]
p = 4
residuals = np.abs(y_train - Y_pred)
H = np.matmul(X_train, np.linalg.solve(np.dot(X_train.T, X_train), X_train.T))
std_hat = np.dot(residuals, residuals) / (n - p)
standart_residuals = np.asarray([residuals[i] / np.sqrt(std_hat * (1 - H[i, i])) for i in range(len(residuals))])
student_residuals = np.asarray([ standart_residuals[i] * np.sqrt((n - p - 1) / (n - p - standart_residuals[i]**2)) for i in range(n) ])
cook = np.asarray([ H[i, i] * student_residuals[i] / (X_train.shape[1] * (1 - H[i, i])) for i in range(n) ])

plt.figure(figsize=(20, 12))
plt.subplot(221)
plt.scatter(Y_pred, student_residuals, s=12, c="white", edgecolors="blue")
plt.plot([min(Y_pred), max(Y_pred)], [ scipy.stats.t.ppf(q=0.975, df=n-p-1), scipy.stats.t.ppf(q=0.975, df=n-p-1)], color="green", alpha=0.6, label="Quantile de Student")
plt.title("Analyse de l‚Äôhomosc√©dasticit√©")
plt.xlabel("Pr√©dictions $\hat{y}_i$")
plt.ylabel("R√©sidus studentis√©s $|t_i^*|$")
plt.legend()

NameError: name 'regr' is not defined