# Modèle linéaire

Considérons la cas classique d'une fonction affine :

$$y=ax+b$$

Ici, $a$ et $b$ sont des réels. Ces deux nombres définissent entièrement la courbe et permet donc d'obtenir une relation **affine** entre $x$ et $y$. En statistique, cette relation est à la base des modèles dit **linéaires**, où une variable réponse se définit comme une somme de variables explicatives où chacune de ces dernières sont multipliés par un coefficient.


## Modèle linéaire simple

![](https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Linear_regression.svg/438px-Linear_regression.svg.png)

Dans le modèle linéaire simple (une seule variable explicative), on suppose que la variable réponse suit le modèle suivant :

$$y_i=\beta_0 + \beta_1 x_i + \varepsilon_i$$

On remarque la ressemblance avec la fonction affine présentée ci-dessus. La différence réside dans l'existence du terme aléatoire (appelé bruit) $\varepsilon_i$. Afin de considérer le modèle, il est nécessaire de se placer sous les hypothèses suivantes

$$(\mathcal{H}) : \left\{\begin{matrix}
\mathbb{E}[\varepsilon_i]=0\\ 
\text{Cov}(\varepsilon_i, \varepsilon_j)=\delta_{ij} \sigma^2
\end{matrix}\right.$$
Les différents éléments qui interviennent sont :

- $\beta_0$ : l'ordonnée à l'origine (nommée *intercept*)
- $\beta_1$ : le coefficient directeur
- $x_i$ : l'observation $i$
- $y_i$ : le $i$-ème prix
- $\varepsilon_i$ : le bruit aléatoire liée à la $i$-ème observation

La solution peut se calculer facilement via les formules fermées suivantes :

$$\hat{\beta}_1=\frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} \qquad \hat{\beta}_0 = \hat{y} - \hat{\beta}_1 \bar{x}$$

## Modèle linéaire multiple

Dans le cas multiple (pour $p$ variables explicatives), pour la $i$-ème observation, le modèle s'écrit :

$$y_i= \beta_0 + \sum_{j=1}^p \beta_j x_{ij} + \varepsilon_i$$

Ainsi, une observation $x_i$ n'est plus une valeur, mais un **vecteur** $(x_{i1}, \dots, x_{ip})$. Il est plus commode de regrouper ces prix $y_i$ et ces vecteurs d'observations $x_i$ dans des matrices :

$$Y=X \beta + \varepsilon$$

Sous les hypothèses équivalentes du modèle simple en plus grand dimension

$$(\mathcal{H}) : \left\{\begin{matrix}
\text{rank}(X)=p\\ 
\mathbb{E}[\varepsilon]=0 \text{ et }\text{Var}(\varepsilon)=\sigma^2 I_p
\end{matrix}\right.$$

Les différents éléments qui interviennent sont :

- $\beta$ : le vecteur directeur
- $X$ : la matrice des observations
- $Y$ : le vecteur de prix
- $\varepsilon$ : le vecteur de bruit

Avec $X=( \mathbf{1}, X_1, \dots, X_n)$, $Y=(y_1, \dots, y_n)^\top$ et $\varepsilon=(\varepsilon_1, \dots, \varepsilon_n)^\top$. La solution des MCO (Moindres Carrés Ordinaires) est alors :

$$\hat{\beta}= (X^\top X)^{-1} X^\top Y$$

Vous pouvez d'ailleurs faire la démonstration de votre coté ! Pour plus d'information mathématiques, je vous conseil le portail de wikipédia qui est très bien fait : [lien ici](https://fr.wikipedia.org/wiki/Portail:Probabilit%C3%A9s_et_statistiques)

# Implémenter une régression linéaire 


In [14]:
#importer vos librairies 
import pandas as pd 
import numpy as np 
from sklearn import linear_model 
from sklearn.metrics import mean_squared_error, r2_score

In [35]:
#charger les données 
#price_availability.csv
#listings_final.csv
#attention aux valeurs manquantes !!

data_price = pd.read_csv("../../data/price_availability.csv", sep=';')
data_listing_finals = pd.read_csv("../../data/listings_final.csv",sep=';')


In [22]:
data_price

Unnamed: 0,listing_id,day,created,available,local_currency,local_price,min_nights
0,9810829,2018-12-08,2018-09-27 06:14:10.000+0000,True,EUR,160,1
1,9810829,2018-12-08,2018-09-26 19:34:02.000+0000,True,EUR,160,1
2,20897010,2018-12-09,2018-09-27 10:38:57.000+0000,True,EUR,172,2
3,20897010,2018-12-09,2018-09-27 06:10:27.000+0000,True,EUR,172,2
4,20897010,2018-12-09,2018-09-26 19:30:25.000+0000,True,EUR,172,2
...,...,...,...,...,...,...,...
4748691,23608395,2018-09-06,2018-09-27 06:05:42.000+0000,False,EUR,24,1
4748692,23608395,2018-09-06,2018-09-26 19:31:32.000+0000,False,EUR,24,1
4748693,1447132,2018-12-27,2018-09-27 10:46:16.000+0000,False,EUR,125,3
4748694,1447132,2018-12-27,2018-09-27 06:07:36.000+0000,False,EUR,125,3


In [31]:
data_price.columns

Index(['listing_id', 'day', 'created', 'available', 'local_currency',
       'local_price', 'min_nights'],
      dtype='object')

In [25]:
data_listing_finals

Unnamed: 0.1,Unnamed: 0,listing_id,name,type,city,neighborhood,latitude,longitude,person_capacity,beds,bedrooms,bathrooms,is_rebookable,is_new_listing,is_fully_refundable,is_host_highly_rated,is_business_travel_ready,pricing_weekly_factor,pricing_monthly_factor
0,0,28581061,La maison Clery,private_room,Paris,2e arrondissement,48.869292,2.348335,1,1,1,2.0,False,True,True,False,False,1.00,1.00
1,1,661961,studio PARIS PLACE EDITH PIAF 75020,entire_home,Paris,,48.867284,2.403255,2,1,1,1.0,False,False,True,True,False,0.88,0.69
2,2,1261705,chambre privée à louer @ paris oberkampf,private_room,Paris,,48.867894,2.375897,1,1,1,1.0,False,False,True,True,False,1.00,1.00
3,3,1318834,Appartement au coeur du Marais,entire_home,Paris,République,48.870370,2.358510,3,2,2,1.0,False,False,True,False,False,0.82,0.48
4,4,1677091,Lovely & Quiet flat,entire_home,Paris,Buttes-Chaumont - Belleville,48.874149,2.373700,2,1,1,1.0,False,False,True,True,False,0.95,0.90
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,995,28335197,Studio cosy Jardin du Luxembourg,entire_home,Paris,Saint Germain des Prés - Odéon,48.848695,2.325857,2,1,0,1.0,False,True,True,False,False,0.79,1.00
996,996,28583013,Charmant 30m2 - Faubourg Saint Martin,entire_home,Paris,République,48.871623,2.358006,3,1,1,1.0,False,True,True,False,False,1.00,1.00
997,997,28628316,Cosy flat in the marais - Best area,entire_home,Paris,2e arrondissement,48.867434,2.351771,4,2,1,1.0,False,True,True,True,False,1.00,1.00
998,998,28792796,Appartement 3 chambres madeleine.,entire_home,Paris,Madeleine - Vendôme,48.870109,2.321475,6,4,2,1.5,False,True,True,False,False,1.00,1.00


## Données d'entrée

In [26]:
data_listing_finals.columns

Index(['Unnamed: 0', 'listing_id', 'name', 'type', 'city', 'neighborhood',
       'latitude', 'longitude', 'person_capacity', 'beds', 'bedrooms',
       'bathrooms', 'is_rebookable', 'is_new_listing', 'is_fully_refundable',
       'is_host_highly_rated', 'is_business_travel_ready',
       'pricing_weekly_factor', 'pricing_monthly_factor'],
      dtype='object')

In [27]:
data_price.columns

Index(['listing_id', 'day', 'created', 'available', 'local_currency',
       'local_price', 'min_nights'],
      dtype='object')

L'objectif ici est de charger les données pour créer les matrices $X$ et $Y$ du modèle linéaire. **Attention**, il n'est pas nécessaire de rajouter le vecteur colonne $\mathbf{1}$ en première colonne, car *scikit-learn* le fait automatiquement !

In [83]:
#définir vos variables de travail X et Y
y = data_price[["local_price","listing_id"]]
X = data_listing_finals[["person_capacity","beds","bedrooms","bathrooms","listing_id"]]
print(y)
# On fit le modele
#model = linear_model.LinearRegression()
#results = model.fit(X, y)

         local_price  listing_id
0                160     9810829
1                160     9810829
2                172    20897010
3                172    20897010
4                172    20897010
...              ...         ...
4748691           24    23608395
4748692           24    23608395
4748693          125     1447132
4748694          125     1447132
4748695          125     1447132

[4748696 rows x 2 columns]


In [135]:
#construire l'array des prix 
# grouper par prix et par moyenne
#y= data_price.groupby(['local_price']).mean()
np.array(y)
prix = data_price.groupby('listing_id').mean()

In [136]:
prix.columns

Index(['available', 'local_price', 'min_nights'], dtype='object')

In [142]:
#result = pd.merge(prix[['local_price']],y,on="listing_id")
#result = pd.concat([X,y],axis=1, join='inner')
    result= pd.merge(prix[['local_price']], data_listing_finals, on=["listing_id"])
    y = result[["local_price","listing_id"]]
    X = result[["person_capacity","beds","bedrooms","bathrooms","listing_id"]]

In [138]:
result


Unnamed: 0.1,listing_id,local_price,Unnamed: 0,name,type,city,neighborhood,latitude,longitude,person_capacity,beds,bedrooms,bathrooms,is_rebookable,is_new_listing,is_fully_refundable,is_host_highly_rated,is_business_travel_ready,pricing_weekly_factor,pricing_monthly_factor
0,56093,170.000000,12,Beau duplex dans le Marais,entire_home,Paris,3e arrondissement,48.867284,2.358431,4,2,1,1.0,False,False,True,True,False,0.88,1.0
1,57207,49.952756,13,Belle Chambre pour court,private_room,Paris,Vaugirard,48.846184,2.304455,2,1,1,1.0,False,False,True,False,False,0.87,1.0
2,114543,107.374026,19,Charming 1bdr 55m² - Eiffel Tower,entire_home,Paris,,48.849530,2.290219,2,1,1,1.0,False,False,True,True,False,0.90,0.9
3,149534,169.000000,9,GREAT WARM FULL APT LE HAUT MARAIS,entire_home,Paris,,48.866360,2.361844,4,2,1,1.0,False,False,True,True,False,1.00,0.4
4,164255,75.876209,28,Perfect place in Le Marais - Paris,entire_home,Paris,3e arrondissement,48.861398,2.364299,4,2,1,1.0,False,False,True,False,False,1.00,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
994,28684174,725.175781,662,Chambre familiale vue jardin avec petit-déjeun...,private_room,Paris,Ternes,48.879223,2.292382,5,0,1,1.0,False,True,True,False,False,1.00,1.0
995,28709644,475.000000,745,LORD BYRON-SPACE& STYLE IN 8TH EME,entire_home,Paris,Champs-Elysées,48.872202,2.298349,4,2,1,1.0,False,True,True,False,False,1.00,1.0
996,28751412,117.000000,88,Malesherbes Monceau Monsen,entire_home,Paris,Monceau,48.880923,2.314568,2,1,0,1.0,False,True,True,False,False,1.00,1.0
997,28774896,156.397468,159,5 min to invalides and 10 min to eiffel tower,entire_home,Paris,Invalides - Ecole Militaire,48.852915,2.314519,2,1,1,1.0,False,True,True,False,False,1.00,1.0


En *Machine Learning*, on a l'habitude de couper l'ensemble de données en deux sous-ensembles :

- Un ensemble d'entraînement (*train set*), sur lequel le modèle va être calibré.
- Un ensemble de test (*test set*), qui ne sera pas utilisé pendant le calibrage mais permettra de vérifier l'aptitude du modèle à généraliser sur de nouvelles observations inconnues.

En général, on découpe l'ensemble de données (*split*) en prenant $\alpha \%$ de l'ensemble pour entraînement et $1-\alpha \%$ comme test. Dans la plus part des cas, on considère que $\alpha=10,20\ ou \ 30\%$.

In [151]:
#utiliser la méthode split de sklearn en splitant avec un alpha=30 et un random state=42 
#afficher la shape de vos données 
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, test_size=0.30)

In [152]:
X_train, X_test, y_train, y_test


(     person_capacity  beds  bedrooms  bathrooms  listing_id
 728                4     2         1        1.0    23348731
 630                2     1         1        1.0    20926157
 394                6     4         3        1.5    13489341
 777                2     2         0        1.0    24515032
 598                2     1         1        1.0    20011166
 ..               ...   ...       ...        ...         ...
 106                1     1         1        1.0     1410564
 270                6     3         2        1.0     7039564
 860                4     2         2        1.0    26271706
 435                5     1         1        1.0    14956561
 102                2     1         1        1.0     1398893
 
 [699 rows x 5 columns],
      person_capacity  beds  bedrooms  bathrooms  listing_id
 453                1     1         1        1.5    15645282
 793                9     4         4        3.0    24766158
 209                2     1         1        1.0     44220

## Entraînement

Pour information, *scikit-learn* utilise le solveur OLS (Ordinary Least Squares) de *numpy*.

In [161]:
#créer l'objet de régression et entrainer le sur notre ensemble d'entraînement
model = linear_model.LinearRegression()
results = model.fit(X_train, y_train)
results
#linearRegressor.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [162]:
print(results.intercept_, results.coef_)

[-7.15041062e+01 -3.72529030e-09] [[ 3.51852299e+01 -2.55977464e+01  3.20352786e+01  9.13848525e+01
   1.71099728e-06]
 [-6.83507332e-10  1.42685064e-09  1.56808025e-10 -3.23619483e-10
   1.00000000e+00]]


On affiche le vecteur des coefficients pour interpréter rapidement le modèle.

In [7]:
#afficher les coefficients
#que remarquez vous ? 


Coefficients beta_j : 
 [2.47834609e-06 3.23451085e+01 1.43887639e+01 7.75318453e+01]
Coefficients INTERCEPT beta_0 : 
 -79.79953133672862


## Validation du modèle

### Le coefficient de détermination $R^2$

Par la suite, nous ferons l'hypothèse de gaussianité sur les bruits. Dans l'idée, nous aimerions obtenir une valeur numérique qui nous indique à quel point la régression linéaire a un sens sur nos données. Pour cela, introduisons les notations suivantes :

- $SCT=\|Y-\hat{y} \mathbf{1}\|^2$ est la somme des carrés totaux
- $SCE=\|\hat{Y}-\hat{y} \mathbf{1}\|^2$ est la somme des carrés expliqués
- $SCR=\|\hat{\varepsilon}\|^2$ est la somme des carrés résiduels

L'idée est de décomposer la somme des carrés totaux comme la somme des carrés que le modèle explique, en plus de la somme des carrés qui sont liés aux résidus (et donc que le modèle ne peut pas expliquer). On voit donc ici l'intérêt de calculer un coefficient à partir du $SCE$. Puisque l'on a la relation suivante :

$$SCT=SCE+SCR \text{ alors } 1=\frac{SCE}{SCT}+\frac{SCR}{SCT}$$

Plus les résidus sont petits (et donc la régression est "bonne"), plus $SCR$ devient petit et donc $SCE$ devient grand. Le schéma inverse s'opère de la même façon. Dans le meilleur des cas, on obtient $SCR=0$ et donc $SCE=SCT$ d'où le premier membre vaut $1$. Dans le cas contraite, $SCE=0$ et automatiquement, le premier membre est nul. C'est ainsi que l'on définit le coefficient de détermination $R^2$ comme 
$$R^2=\frac{SCE}{SCT}=1-\frac{SCR}{SCT}$$
Ainsi, $R^2 \in [0,1]$. Plus $R^2$ est proche de $1$, plus la régression linéaire a du sens. Au contraire, si $R^2$ est proche de $0$, le modèle linéaire possède un faible pouvoir explicatif.

In [8]:
#faire une prediction sur X


taille du vecteur Y_pred : 999 


In [9]:
#afficher l'erreur des moindres carrées sur l'ensemble d'entrainement ainsi que le R2
#que remarquez vous ? 

Mean squared error: 21320.77
R2 : 0.37
