# Mod√®le lin√©aire

Consid√©rons la cas classique d'une fonction affine :

$$y=ax+b$$

Ici, $a$ et $b$ sont des r√©els. Ces deux nombres d√©finissent enti√®rement la courbe et permet donc d'obtenir une relation **affine** entre $x$ et $y$. En statistique, cette relation est √† la base des mod√®les dit **lin√©aires**, o√π une variable r√©ponse se d√©finit comme une somme de variables explicatives o√π chacune de ces derni√®res sont multipli√©s par un coefficient.


## Mod√®le lin√©aire simple

![](https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Linear_regression.svg/438px-Linear_regression.svg.png)

Dans le mod√®le lin√©aire simple (une seule variable explicative), on suppose que la variable r√©ponse suit le mod√®le suivant :

$$y_i=\beta_0 + \beta_1 x_i + \varepsilon_i$$

On remarque la ressemblance avec la fonction affine pr√©sent√©e ci-dessus. La diff√©rence r√©side dans l'existence du terme al√©atoire (appel√© bruit) $\varepsilon_i$. Afin de consid√©rer le mod√®le, il est n√©cessaire de se placer sous les hypoth√®ses suivantes

$$(\mathcal{H}) : \left\{\begin{matrix}
\mathbb{E}[\varepsilon_i]=0\\ 
\text{Cov}(\varepsilon_i, \varepsilon_j)=\delta_{ij} \sigma^2
\end{matrix}\right.$$
Les diff√©rents √©l√©ments qui interviennent sont :

- $\beta_0$ : l'ordonn√©e √† l'origine (nomm√©e *intercept*)
- $\beta_1$ : le coefficient directeur
- $x_i$ : l'observation $i$
- $y_i$ : le $i$-√®me prix
- $\varepsilon_i$ : le bruit al√©atoire li√©e √† la $i$-√®me observation

La solution peut se calculer facilement via les formules ferm√©es suivantes :

$$\hat{\beta}_1=\frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} \qquad \hat{\beta}_0 = \hat{y} - \hat{\beta}_1 \bar{x}$$

##¬†Mod√®le lin√©aire multiple

Dans le cas multiple (pour $p$ variables explicatives), pour la $i$-√®me observation, le mod√®le s'√©crit :

$$y_i= \beta_0 + \sum_{j=1}^p \beta_j x_{ij} + \varepsilon_i$$

Ainsi, une observation $x_i$ n'est plus une valeur, mais un **vecteur** $(x_{i1}, \dots, x_{ip})$. Il est plus commode de regrouper ces prix $y_i$ et ces vecteurs d'observations $x_i$ dans des matrices :

$$Y=X \beta + \varepsilon$$

Sous les hypoth√®ses √©quivalentes du mod√®le simple en plus grand dimension

$$(\mathcal{H}) : \left\{\begin{matrix}
\text{rank}(X)=p\\ 
\mathbb{E}[\varepsilon]=0 \text{ et }\text{Var}(\varepsilon)=\sigma^2 I_p
\end{matrix}\right.$$

Les diff√©rents √©l√©ments qui interviennent sont :

- $\beta$ : le vecteur directeur
- $X$ : la matrice des observations
- $Y$ : le vecteur de prix
- $\varepsilon$ : le vecteur de bruit

Avec $X=( \mathbf{1}, X_1, \dots, X_n)$, $Y=(y_1, \dots, y_n)^\top$ et $\varepsilon=(\varepsilon_1, \dots, \varepsilon_n)^\top$. La solution des MCO (Moindres Carr√©s Ordinaires) est alors :

$$\hat{\beta}= (X^\top X)^{-1} X^\top Y$$

Vous pouvez d'ailleurs faire la d√©monstration de votre cot√© ! Pour plus d'information math√©matiques, le portail de wikip√©dia qui est tr√®s bien fait : [lien ici](https://fr.wikipedia.org/wiki/Portail:Probabilit%C3%A9s_et_statistiques)

# Impl√©menter une r√©gression lin√©aire 


In [15]:
#importer vos librairies
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import sklearn as sk
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

In [16]:
#charger les donn√©es 
#price_availability.csv
dataprice=pd.read_csv("price_availability.csv",sep=';')
#listings_final.csv
datalisting=pd.read_csv("listings_final.csv",sep=';')
#v√©rifier si tous les individus ont bien un prix 
#datalisting = listing.drop(589)

In [17]:
dataprice.head()

Unnamed: 0,listing_id,day,created,available,local_currency,local_price,min_nights
0,9810829,2018-12-08,2018-09-27 06:14:10.000+0000,True,EUR,160,1
1,9810829,2018-12-08,2018-09-26 19:34:02.000+0000,True,EUR,160,1
2,20897010,2018-12-09,2018-09-27 10:38:57.000+0000,True,EUR,172,2
3,20897010,2018-12-09,2018-09-27 06:10:27.000+0000,True,EUR,172,2
4,20897010,2018-12-09,2018-09-26 19:30:25.000+0000,True,EUR,172,2


In [18]:
datalisting.head()

Unnamed: 0.1,Unnamed: 0,listing_id,name,type,city,neighborhood,latitude,longitude,person_capacity,beds,bedrooms,bathrooms,is_rebookable,is_new_listing,is_fully_refundable,is_host_highly_rated,is_business_travel_ready,pricing_weekly_factor,pricing_monthly_factor
0,0,28581061,La maison Clery,private_room,Paris,2e arrondissement,48.869292,2.348335,1,1,1,2.0,False,True,True,False,False,1.0,1.0
1,1,661961,studio PARIS PLACE EDITH PIAF 75020,entire_home,Paris,,48.867284,2.403255,2,1,1,1.0,False,False,True,True,False,0.88,0.69
2,2,1261705,chambre priv√©e √† louer @ paris oberkampf,private_room,Paris,,48.867894,2.375897,1,1,1,1.0,False,False,True,True,False,1.0,1.0
3,3,1318834,Appartement au coeur du Marais,entire_home,Paris,R√©publique,48.87037,2.35851,3,2,2,1.0,False,False,True,False,False,0.82,0.48
4,4,1677091,Lovely & Quiet flat,entire_home,Paris,Buttes-Chaumont - Belleville,48.874149,2.3737,2,1,1,1.0,False,False,True,True,False,0.95,0.9


In [19]:
datalisting.drop(['Unnamed: 0'],axis='columns',inplace=True)
datalisting

Unnamed: 0,listing_id,name,type,city,neighborhood,latitude,longitude,person_capacity,beds,bedrooms,bathrooms,is_rebookable,is_new_listing,is_fully_refundable,is_host_highly_rated,is_business_travel_ready,pricing_weekly_factor,pricing_monthly_factor
0,28581061,La maison Clery,private_room,Paris,2e arrondissement,48.869292,2.348335,1,1,1,2.0,False,True,True,False,False,1.00,1.00
1,661961,studio PARIS PLACE EDITH PIAF 75020,entire_home,Paris,,48.867284,2.403255,2,1,1,1.0,False,False,True,True,False,0.88,0.69
2,1261705,chambre priv√©e √† louer @ paris oberkampf,private_room,Paris,,48.867894,2.375897,1,1,1,1.0,False,False,True,True,False,1.00,1.00
3,1318834,Appartement au coeur du Marais,entire_home,Paris,R√©publique,48.870370,2.358510,3,2,2,1.0,False,False,True,False,False,0.82,0.48
4,1677091,Lovely & Quiet flat,entire_home,Paris,Buttes-Chaumont - Belleville,48.874149,2.373700,2,1,1,1.0,False,False,True,True,False,0.95,0.90
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,28335197,Studio cosy Jardin du Luxembourg,entire_home,Paris,Saint Germain des Pr√©s - Od√©on,48.848695,2.325857,2,1,0,1.0,False,True,True,False,False,0.79,1.00
996,28583013,Charmant 30m2 - Faubourg Saint Martin,entire_home,Paris,R√©publique,48.871623,2.358006,3,1,1,1.0,False,True,True,False,False,1.00,1.00
997,28628316,Cosy flat in the marais - Best area,entire_home,Paris,2e arrondissement,48.867434,2.351771,4,2,1,1.0,False,True,True,True,False,1.00,1.00
998,28792796,Appartement 3 chambres madeleine.,entire_home,Paris,Madeleine - Vend√¥me,48.870109,2.321475,6,4,2,1.5,False,True,True,False,False,1.00,1.00


In [20]:
dataprice['local_price'].isna().sum()

0

## Donn√©es d'entr√©e

L'objectif ici est de charger les donn√©es pour cr√©er les matrices $X$ et $Y$ du mod√®le lin√©aire. **Attention**, il n'est pas n√©cessaire de rajouter le vecteur colonne $\mathbf{1}$ en premi√®re colonne, car *scikit-learn* le fait automatiquement !

In [21]:
X = datalisting.loc[:,["listing_id","person_capacity","bedrooms","bathrooms"]]
Y = []

In [22]:
#contruire l'ensemble de donn√©e prix
#
#  INDICE
#
#it√©rer votre dataset d'ID
#r√©cup√©rer les prix des ID dans le Dataset de prix
#il y a plusieurs prix, faites des moyennes ;)
for i, row in X.iterrows():
    y = 0
    ID = int(row["listing_id"])
    subset = dataprice[dataprice["listing_id"] == ID]
    y = subset["local_price"].mean()
    Y.append(y)
#Ne pas oublier de convertir Y en object numpy
Y = np.asarray(Y)

In [23]:
duplicas=dataprice.duplicated(keep=False,subset='listing_id')
doublons=dataprice[duplicas]


In [24]:
doublons

Unnamed: 0,listing_id,day,created,available,local_currency,local_price,min_nights
0,9810829,2018-12-08,2018-09-27 06:14:10.000+0000,True,EUR,160,1
1,9810829,2018-12-08,2018-09-26 19:34:02.000+0000,True,EUR,160,1
2,20897010,2018-12-09,2018-09-27 10:38:57.000+0000,True,EUR,172,2
3,20897010,2018-12-09,2018-09-27 06:10:27.000+0000,True,EUR,172,2
4,20897010,2018-12-09,2018-09-26 19:30:25.000+0000,True,EUR,172,2
...,...,...,...,...,...,...,...
4748691,23608395,2018-09-06,2018-09-27 06:05:42.000+0000,False,EUR,24,1
4748692,23608395,2018-09-06,2018-09-26 19:31:32.000+0000,False,EUR,24,1
4748693,1447132,2018-12-27,2018-09-27 10:46:16.000+0000,False,EUR,125,3
4748694,1447132,2018-12-27,2018-09-27 06:07:36.000+0000,False,EUR,125,3


In [25]:
grouped=doublons.groupby(['listing_id']).agg({'local_price':['mean']})
print(grouped)

           local_price
                  mean
listing_id            
5396        102.363985
7397        110.107632
9342        396.863014
10010       136.154856
10270       105.779221
...                ...
28836096    321.428571
28838519     54.483333
28840013    112.122530
28846494    168.037594
28851976    128.000000

[11749 rows x 1 columns]


In [26]:
grouped=grouped.reset_index()
grouped

Unnamed: 0_level_0,listing_id,local_price
Unnamed: 0_level_1,Unnamed: 1_level_1,mean
0,5396,102.363985
1,7397,110.107632
2,9342,396.863014
3,10010,136.154856
4,10270,105.779221
...,...,...
11744,28836096,321.428571
11745,28838519,54.483333
11746,28840013,112.122530
11747,28846494,168.037594


In [27]:
grouped.columns = ['listing_id','local_price']
grouped

Unnamed: 0,listing_id,local_price
0,5396,102.363985
1,7397,110.107632
2,9342,396.863014
3,10010,136.154856
4,10270,105.779221
...,...,...
11744,28836096,321.428571
11745,28838519,54.483333
11746,28840013,112.122530
11747,28846494,168.037594


In [28]:
inner_merged_total=pd.merge(grouped,datalisting,on=["listing_id"])
inner_merged_total.head()

Unnamed: 0,listing_id,local_price,name,type,city,neighborhood,latitude,longitude,person_capacity,beds,bedrooms,bathrooms,is_rebookable,is_new_listing,is_fully_refundable,is_host_highly_rated,is_business_travel_ready,pricing_weekly_factor,pricing_monthly_factor
0,56093,170.0,Beau duplex dans le Marais,entire_home,Paris,3e arrondissement,48.867284,2.358431,4,2,1,1.0,False,False,True,True,False,0.88,1.0
1,57207,49.952756,Belle Chambre pour court,private_room,Paris,Vaugirard,48.846184,2.304455,2,1,1,1.0,False,False,True,False,False,0.87,1.0
2,114543,107.374026,Charming 1bdr 55m¬≤ - Eiffel Tower,entire_home,Paris,,48.84953,2.290219,2,1,1,1.0,False,False,True,True,False,0.9,0.9
3,149534,169.0,GREAT WARM FULL APT LE HAUT MARAIS,entire_home,Paris,,48.86636,2.361844,4,2,1,1.0,False,False,True,True,False,1.0,0.4
4,164255,75.876209,Perfect place in Le Marais - Paris,entire_home,Paris,3e arrondissement,48.861398,2.364299,4,2,1,1.0,False,False,True,False,False,1.0,1.0


In [29]:
inner_merged_total

Unnamed: 0,listing_id,local_price,name,type,city,neighborhood,latitude,longitude,person_capacity,beds,bedrooms,bathrooms,is_rebookable,is_new_listing,is_fully_refundable,is_host_highly_rated,is_business_travel_ready,pricing_weekly_factor,pricing_monthly_factor
0,56093,170.000000,Beau duplex dans le Marais,entire_home,Paris,3e arrondissement,48.867284,2.358431,4,2,1,1.0,False,False,True,True,False,0.88,1.0
1,57207,49.952756,Belle Chambre pour court,private_room,Paris,Vaugirard,48.846184,2.304455,2,1,1,1.0,False,False,True,False,False,0.87,1.0
2,114543,107.374026,Charming 1bdr 55m¬≤ - Eiffel Tower,entire_home,Paris,,48.849530,2.290219,2,1,1,1.0,False,False,True,True,False,0.90,0.9
3,149534,169.000000,GREAT WARM FULL APT LE HAUT MARAIS,entire_home,Paris,,48.866360,2.361844,4,2,1,1.0,False,False,True,True,False,1.00,0.4
4,164255,75.876209,Perfect place in Le Marais - Paris,entire_home,Paris,3e arrondissement,48.861398,2.364299,4,2,1,1.0,False,False,True,False,False,1.00,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
994,28684174,725.175781,Chambre familiale vue jardin avec petit-d√©jeun...,private_room,Paris,Ternes,48.879223,2.292382,5,0,1,1.0,False,True,True,False,False,1.00,1.0
995,28709644,475.000000,LORD BYRON-SPACE& STYLE IN 8TH EME,entire_home,Paris,Champs-Elys√©es,48.872202,2.298349,4,2,1,1.0,False,True,True,False,False,1.00,1.0
996,28751412,117.000000,Malesherbes Monceau Monsen,entire_home,Paris,Monceau,48.880923,2.314568,2,1,0,1.0,False,True,True,False,False,1.00,1.0
997,28774896,156.397468,5 min to invalides and 10 min to eiffel tower,entire_home,Paris,Invalides - Ecole Militaire,48.852915,2.314519,2,1,1,1.0,False,True,True,False,False,1.00,1.0


In [30]:
data_merge=inner_merged_total
data_merge

Unnamed: 0,listing_id,local_price,name,type,city,neighborhood,latitude,longitude,person_capacity,beds,bedrooms,bathrooms,is_rebookable,is_new_listing,is_fully_refundable,is_host_highly_rated,is_business_travel_ready,pricing_weekly_factor,pricing_monthly_factor
0,56093,170.000000,Beau duplex dans le Marais,entire_home,Paris,3e arrondissement,48.867284,2.358431,4,2,1,1.0,False,False,True,True,False,0.88,1.0
1,57207,49.952756,Belle Chambre pour court,private_room,Paris,Vaugirard,48.846184,2.304455,2,1,1,1.0,False,False,True,False,False,0.87,1.0
2,114543,107.374026,Charming 1bdr 55m¬≤ - Eiffel Tower,entire_home,Paris,,48.849530,2.290219,2,1,1,1.0,False,False,True,True,False,0.90,0.9
3,149534,169.000000,GREAT WARM FULL APT LE HAUT MARAIS,entire_home,Paris,,48.866360,2.361844,4,2,1,1.0,False,False,True,True,False,1.00,0.4
4,164255,75.876209,Perfect place in Le Marais - Paris,entire_home,Paris,3e arrondissement,48.861398,2.364299,4,2,1,1.0,False,False,True,False,False,1.00,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
994,28684174,725.175781,Chambre familiale vue jardin avec petit-d√©jeun...,private_room,Paris,Ternes,48.879223,2.292382,5,0,1,1.0,False,True,True,False,False,1.00,1.0
995,28709644,475.000000,LORD BYRON-SPACE& STYLE IN 8TH EME,entire_home,Paris,Champs-Elys√©es,48.872202,2.298349,4,2,1,1.0,False,True,True,False,False,1.00,1.0
996,28751412,117.000000,Malesherbes Monceau Monsen,entire_home,Paris,Monceau,48.880923,2.314568,2,1,0,1.0,False,True,True,False,False,1.00,1.0
997,28774896,156.397468,5 min to invalides and 10 min to eiffel tower,entire_home,Paris,Invalides - Ecole Militaire,48.852915,2.314519,2,1,1,1.0,False,True,True,False,False,1.00,1.0


In [31]:
data_merge.dtypes

listing_id                    int64
local_price                 float64
name                         object
type                         object
city                         object
neighborhood                 object
latitude                    float64
longitude                   float64
person_capacity               int64
beds                          int64
bedrooms                      int64
bathrooms                   float64
is_rebookable                  bool
is_new_listing                 bool
is_fully_refundable            bool
is_host_highly_rated           bool
is_business_travel_ready       bool
pricing_weekly_factor       float64
pricing_monthly_factor      float64
dtype: object

In [32]:
#Ma=pd.merge(da,db[['use_id','platform','device']],on='use_id') #Juste les valeurs communs result dans le nouveau tableau
#Ma.head()

In [33]:
# Verifier s'il y a des doublons de ID dans datalisting
#duplicatas=dataprice.duplicated(keep=False,subset=['listing_id'])
#dataprice[duplicatas].sort_values('listing_id')


In [34]:
#d√©finir 2 variables de travail
#X := les features √† utiliser 
X=data_merge[['person_capacity','beds','bedrooms','bathrooms']] # Variables quantitatives qui contient des nombres 
# Si on veut utiliser des strings dans les columns on aura d'encodage
#Y := la target (prix)
y=data_merge['local_price']

In [35]:
X

Unnamed: 0,person_capacity,beds,bedrooms,bathrooms
0,4,2,1,1.0
1,2,1,1,1.0
2,2,1,1,1.0
3,4,2,1,1.0
4,4,2,1,1.0
...,...,...,...,...
994,5,0,1,1.0
995,4,2,1,1.0
996,2,1,0,1.0
997,2,1,1,1.0


In [36]:
y

0      170.000000
1       49.952756
2      107.374026
3      169.000000
4       75.876209
          ...    
994    725.175781
995    475.000000
996    117.000000
997    156.397468
998     49.184211
Name: local_price, Length: 999, dtype: float64

In [37]:
#construire l'ensemble de donn√©e prix 
#
#    INDICE 
# 
# r√©cup√©rer les prix des ID dans le dataset de prix 
# üöß il y a plusieurs prix dans le dataset üöß

En *Machine Learning*, on a l'habitude de couper l'ensemble de donn√©es en deux sous-ensembles :

- Un ensemble d'entra√Ænement (*train set*), sur lequel le mod√®le va √™tre calibr√©.
- Un ensemble de test (*test set*), qui ne sera pas utilis√© pendant le calibrage mais permettra de v√©rifier l'aptitude du mod√®le √† g√©n√©raliser sur de nouvelles observations inconnues.

En g√©n√©ral, on d√©coupe l'ensemble de donn√©es (*split*) en prenant $\alpha \%$ de l'ensemble pour entra√Ænement et $1-\alpha \%$ comme test. Dans la plus part des cas, on consid√®re que $\alpha=10,20 ou 30\%$.

In [38]:
#utiliser la m√©thode split de sklearn en splitant avec un alpha=30 et un random state=42 
#afficher la shape de vos donn√©es 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


In [39]:
X_train.shape, y_train.shape

((699, 4), (699,))

In [40]:
X_test.shape, y_test.shape

((300, 4), (300,))

## Entra√Ænement

Pour information, *scikit-learn* utilise le solveur OLS (Ordinary Least Squares) de *numpy*.

In [41]:
#cr√©er l'objet de r√©gression et entrainer le sur notre ensemble d'entra√Ænement
regr= LinearRegression()
model=regr.fit(X_train,y_train)

On affiche le vecteur des coefficients pour interpr√©ter rapidement le mod√®le.

In [42]:
#afficher les coefficients
#que remarquez vous ? 
model.coef_ , model.intercept_

(array([ 36.20879253, -26.20790472,  27.52192177,  95.59654916]),
 -46.697564474418016)

## Validation du mod√®le

### Le coefficient de d√©termination $R^2$

Par la suite, nous ferons l'hypoth√®se de gaussianit√© sur les bruits. Dans l'id√©e, nous aimerions obtenir une valeur num√©rique qui nous indique √† quel point la r√©gression lin√©aire a un sens sur nos donn√©es. Pour cela, introduisons les notations suivantes :

- $SCT=\|Y-\hat{y} \mathbf{1}\|^2$ est la somme des carr√©s totaux
- $SCE=\|\hat{Y}-\hat{y} \mathbf{1}\|^2$ est la somme des carr√©s expliqu√©s
- $SCR=\|\hat{\varepsilon}\|^2$ est la somme des carr√©s r√©siduels

L'id√©e est de d√©composer la somme des carr√©s totaux comme la somme des carr√©s que le mod√®le explique, en plus de la somme des carr√©s qui sont li√©s aux r√©sidus (et donc que le mod√®le ne peut pas expliquer). On voit donc ici l'int√©r√™t de calculer un coefficient √† partir du $SCE$. Puisque l'on a la relation suivante :

$$SCT=SCE+SCR \text{ alors } 1=\frac{SCE}{SCT}+\frac{SCR}{SCT}$$

Plus les r√©sidus sont petits (et donc la r√©gression est "bonne"), plus $SCR$ devient petit et donc $SCE$ devient grand. Le sch√©ma inverse s'op√®re de la m√™me fa√ßon. Dans le meilleur des cas, on obtient $SCR=0$ et donc $SCE=SCT$ d'o√π le premier membre vaut $1$. Dans le cas contraite, $SCE=0$ et automatiquement, le premier membre est nul. C'est ainsi que l'on d√©finit le coefficient de d√©termination $R^2$ comme 
$$R^2=\frac{SCE}{SCT}=1-\frac{SCR}{SCT}$$
Ainsi, $R^2 \in [0,1]$. Plus $R^2$ est proche de $1$, plus la r√©gression lin√©aire a du sens. Au contraire, si $R^2$ est proche de $0$, le mod√®le lin√©aire poss√®de un faible pouvoir explicatif.

In [43]:
#faire une prediction sur X
regr.predict(X_test)

array([ 134.22006884,  571.22728396,  122.63058679,  180.15517198,
         95.10866502,  339.48243544,   96.42268207, -306.69677656,
        122.63058679,  546.60797348,  196.3621889 ,   95.10866502,
        329.48154763,  168.84026713,  170.42886137,  242.57186924,
        196.3621889 ,  168.84026713,  329.48154763,  216.63854171,
        122.63058679,  122.63058679,  392.7903923 ,  122.63058679,
        122.63058679,  311.96051367,  168.84026713,   95.10866502,
        141.31834536,  122.63058679,   95.10866502,  132.6314746 ,
        141.31834536,  243.88588628,   95.10866502,  168.84026713,
         96.42268207,  291.95873806,  285.75260895,   95.10866502,
        122.63058679,  122.63058679,  216.63854171,  387.28071002,
         95.10866502,  122.63058679,  122.63058679,  122.63058679,
        158.83937932,  122.63058679,  216.63854171,  106.42356988,
        206.36307671,  255.74994553,  195.04817185,  323.27541853,
        158.83937932,  122.63058679,  466.52199441,  313.27453

In [44]:
#afficher l'erreur des moindres carr√©es sur l'ensemble d'entrainement ainsi que le R2
regr.score(X_test,y_test)

0.41298243967788906

## Bonus : Analyse de l'homosc√©dasticit√©

L'analyse de l'homosc√©dasticit√© est primordiale : c'est en particulier elle qui nous permet de v√©rifier, √† partir des r√©sidus, si les bruits v√©rifient bien l'hypoth√®se $(\mathcal{H})$. On calcule donc les **r√©sidus studentis√©s**.

$$t_i^*=\frac{\hat{\varepsilon}_i}{\hat{\sigma}_{(i)} \sqrt{1-h_{ii}}}$$
Avec $h_{ii}=\{X(X^\top X)^{-1} X^\top\}_{ii}=H_{ii}$ la matrice de projection sur l'hyperplan des variables. Plus pr√©cis√©ment, $H$ est la matrice qui projette $Y$ sur l'espace engendr√© par les variables, soit $\hat{Y}=HY$. De m√™me, on consid√®re $\hat{\sigma}_{(i)}$ l'estimateur de la variance du bruit en supprimant l'observation $i$ (par une m√©thode de validation crois√©e Leave-One-Out que nous ne d√©taillerons pas ici).

Dans ce cas, on peut montrer que les r√©sidus studentis√©s suivent une loi de Student √† $n-p-1$ degr√©s de libert√©.

In [45]:
#analyser le code ci-dessous 
import scipy
Y_pred = regr.predict(X_train)
n = X_train.shape[0]
p = 4
residuals = np.abs(y_train - Y_pred)
H = np.matmul(X_train, np.linalg.solve(np.dot(X_train.T, X_train), X_train.T))
std_hat = np.dot(residuals, residuals) / (n - p)
standart_residuals = np.asarray([residuals[i] / np.sqrt(std_hat * (1 - H[i, i])) for i in range(len(residuals))])
student_residuals = np.asarray([ standart_residuals[i] * np.sqrt((n - p - 1) / (n - p - standart_residuals[i]**2)) for i in range(n) ])
cook = np.asarray([ H[i, i] * student_residuals[i] / (X_train.shape[1] * (1 - H[i, i])) for i in range(n) ])

plt.figure(figsize=(20, 12))
plt.subplot(221)
plt.scatter(Y_pred, student_residuals, s=12, c="white", edgecolors="blue")
plt.plot([min(Y_pred), max(Y_pred)], [ scipy.stats.t.ppf(q=0.975, df=n-p-1), scipy.stats.t.ppf(q=0.975, df=n-p-1)], color="green", alpha=0.6, label="Quantile de Student")
plt.title("Analyse de l‚Äôhomosc√©dasticit√©")
plt.xlabel("Pr√©dictions $\hat{y}_i$")
plt.ylabel("R√©sidus studentis√©s $|t_i^*|$")
plt.legend()

ValueError: Shape of passed values is (699, 699), indices imply (699, 4)