# Modèle linéaire

Considérons la cas classique d'une fonction affine :

$$y=ax+b$$

Ici, $a$ et $b$ sont des réels. Ces deux nombres définissent entièrement la courbe et permet donc d'obtenir une relation **affine** entre $x$ et $y$. En statistique, cette relation est à la base des modèles dit **linéaires**, où une variable réponse se définit comme une somme de variables explicatives où chacune de ces dernières sont multipliés par un coefficient.


## Modèle linéaire simple

![](https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Linear_regression.svg/438px-Linear_regression.svg.png)

Dans le modèle linéaire simple (une seule variable explicative), on suppose que la variable réponse suit le modèle suivant :

$$y_i=\beta_0 + \beta_1 x_i + \varepsilon_i$$

On remarque la ressemblance avec la fonction affine présentée ci-dessus. La différence réside dans l'existence du terme aléatoire (appelé bruit) $\varepsilon_i$. Afin de considérer le modèle, il est nécessaire de se placer sous les hypothèses suivantes

$$(\mathcal{H}) : \left\{\begin{matrix}
\mathbb{E}[\varepsilon_i]=0\\ 
\text{Cov}(\varepsilon_i, \varepsilon_j)=\delta_{ij} \sigma^2
\end{matrix}\right.$$
Les différents éléments qui interviennent sont :

- $\beta_0$ : l'ordonnée à l'origine (nommée *intercept*)
- $\beta_1$ : le coefficient directeur
- $x_i$ : l'observation $i$
- $y_i$ : le $i$-ème prix
- $\varepsilon_i$ : le bruit aléatoire liée à la $i$-ème observation

La solution peut se calculer facilement via les formules fermées suivantes :

$$\hat{\beta}_1=\frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} \qquad \hat{\beta}_0 = \hat{y} - \hat{\beta}_1 \bar{x}$$

## Modèle linéaire multiple

Dans le cas multiple (pour $p$ variables explicatives), pour la $i$-ème observation, le modèle s'écrit :

$$y_i= \beta_0 + \sum_{j=1}^p \beta_j x_{ij} + \varepsilon_i$$

Ainsi, une observation $x_i$ n'est plus une valeur, mais un **vecteur** $(x_{i1}, \dots, x_{ip})$. Il est plus commode de regrouper ces prix $y_i$ et ces vecteurs d'observations $x_i$ dans des matrices :

$$Y=X \beta + \varepsilon$$

Sous les hypothèses équivalentes du modèle simple en plus grand dimension

$$(\mathcal{H}) : \left\{\begin{matrix}
\text{rank}(X)=p\\ 
\mathbb{E}[\varepsilon]=0 \text{ et }\text{Var}(\varepsilon)=\sigma^2 I_p
\end{matrix}\right.$$

Les différents éléments qui interviennent sont :

- $\beta$ : le vecteur directeur
- $X$ : la matrice des observations
- $Y$ : le vecteur de prix
- $\varepsilon$ : le vecteur de bruit

Avec $X=( \mathbf{1}, X_1, \dots, X_n)$, $Y=(y_1, \dots, y_n)^\top$ et $\varepsilon=(\varepsilon_1, \dots, \varepsilon_n)^\top$. La solution des MCO (Moindres Carrés Ordinaires) est alors :

$$\hat{\beta}= (X^\top X)^{-1} X^\top Y$$

Vous pouvez d'ailleurs faire la démonstration de votre coté ! Pour plus d'information mathématiques, je vous conseil le portail de wikipédia qui est très bien fait : [lien ici](https://fr.wikipedia.org/wiki/Portail:Probabilit%C3%A9s_et_statistiques)

# Implémenter une régression linéaire 


In [24]:
#importer vos librairies 
import pandas as pd 
import numpy as np 
import seaborn as s
from sklearn import linear_model 
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

In [11]:
#charger les données 
#price_availability.csv
df=pd.read_csv(r'C:\Users\u164539\doodle\cheers2019\data\price_availability.csv',sep=';')
df.info()
#listings_final.csv
dl=pd.read_csv(r'C:\Users\u164539\doodle\cheers2019\data\listings_final.csv',sep=';')
#attention aux valeurs manquantes !!
dl.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4748696 entries, 0 to 4748695
Data columns (total 7 columns):
listing_id        int64
day               object
created           object
available         bool
local_currency    object
local_price       int64
min_nights        int64
dtypes: bool(1), int64(3), object(3)
memory usage: 221.9+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 19 columns):
Unnamed: 0                  1000 non-null int64
listing_id                  1000 non-null int64
name                        1000 non-null object
type                        1000 non-null object
city                        1000 non-null object
neighborhood                935 non-null object
latitude                    1000 non-null float64
longitude                   1000 non-null float64
person_capacity             1000 non-null int64
beds                        1000 non-null int64
bedrooms                    1000 non-null int64
bathrooms       

In [15]:
df = df.groupby("listing_id").mean()
dfinal = pd.merge(df,dl, on = 'listing_id')
dfinal.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 999 entries, 0 to 998
Data columns (total 22 columns):
listing_id                  999 non-null int64
available                   999 non-null float64
local_price                 999 non-null float64
min_nights                  999 non-null float64
Unnamed: 0                  999 non-null int64
name                        999 non-null object
type                        999 non-null object
city                        999 non-null object
neighborhood                934 non-null object
latitude                    999 non-null float64
longitude                   999 non-null float64
person_capacity             999 non-null int64
beds                        999 non-null int64
bedrooms                    999 non-null int64
bathrooms                   999 non-null float64
is_rebookable               999 non-null bool
is_new_listing              999 non-null bool
is_fully_refundable         999 non-null bool
is_host_highly_rated        999 non-

## Données d'entrée

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 11749 entries, 5396 to 28851976
Data columns (total 3 columns):
available      11749 non-null float64
local_price    11749 non-null float64
min_nights     11749 non-null float64
dtypes: float64(3)
memory usage: 367.2 KB


L'objectif ici est de charger les données pour créer les matrices $X$ et $Y$ du modèle linéaire. **Attention**, il n'est pas nécessaire de rajouter le vecteur colonne $\mathbf{1}$ en première colonne, car *scikit-learn* le fait automatiquement !

In [29]:
listing = dl.groupby('listing_id').mean()
listing

Unnamed: 0_level_0,Unnamed: 0,latitude,longitude,person_capacity,beds,bedrooms,bathrooms,is_rebookable,is_new_listing,is_fully_refundable,is_host_highly_rated,is_business_travel_ready,pricing_weekly_factor,pricing_monthly_factor
listing_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
56093,12,48.867284,2.358431,4,2,1,1.0,False,False,True,True,False,0.88,1.0
57207,13,48.846184,2.304455,2,1,1,1.0,False,False,True,False,False,0.87,1.0
114543,19,48.849530,2.290219,2,1,1,1.0,False,False,True,True,False,0.90,0.9
149534,9,48.866360,2.361844,4,2,1,1.0,False,False,True,True,False,1.00,0.4
164255,28,48.861398,2.364299,4,2,1,1.0,False,False,True,False,False,1.00,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28684174,662,48.879223,2.292382,5,0,1,1.0,False,True,True,False,False,1.00,1.0
28709644,745,48.872202,2.298349,4,2,1,1.0,False,True,True,False,False,1.00,1.0
28751412,88,48.880923,2.314568,2,1,0,1.0,False,True,True,False,False,1.00,1.0
28774896,159,48.852915,2.314519,2,1,1,1.0,False,True,True,False,False,1.00,1.0


In [34]:
#définir vos variables de travail X et Y
X = np.array(f[['person_capacity', 'bedrooms', 'bathrooms']])
Y = np.array(f[['local_price']])
Y
X

array([[4. , 1. , 1. ],
       [2. , 1. , 1. ],
       [2. , 1. , 1. ],
       ...,
       [2. , 0. , 1. ],
       [2. , 1. , 1. ],
       [6. , 2. , 1.5]])

In [61]:
#construire l'array des prix
prix = df.groupby(['listing_id']).mean()
prix

Unnamed: 0_level_0,available,local_price,min_nights
listing_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5396,0.011494,102.363985,2.000000
7397,0.168297,110.107632,11.000000
9342,0.309198,396.863014,2.784736
10010,0.254593,136.154856,4.955381
10270,0.511688,105.779221,4.937662
...,...,...,...
28836096,0.082707,321.428571,1.022556
28838519,0.083333,54.483333,5.000000
28840013,0.743083,112.122530,2.000000
28846494,0.225564,168.037594,4.000000


In [63]:
f = pd.merge(prix[['local_price']], listing, on=['listing_id'])
f

Unnamed: 0_level_0,local_price,Unnamed: 0,latitude,longitude,person_capacity,beds,bedrooms,bathrooms,is_rebookable,is_new_listing,is_fully_refundable,is_host_highly_rated,is_business_travel_ready,pricing_weekly_factor,pricing_monthly_factor
listing_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
56093,170.000000,12,48.867284,2.358431,4,2,1,1.0,False,False,True,True,False,0.88,1.0
57207,49.952756,13,48.846184,2.304455,2,1,1,1.0,False,False,True,False,False,0.87,1.0
114543,107.374026,19,48.849530,2.290219,2,1,1,1.0,False,False,True,True,False,0.90,0.9
149534,169.000000,9,48.866360,2.361844,4,2,1,1.0,False,False,True,True,False,1.00,0.4
164255,75.876209,28,48.861398,2.364299,4,2,1,1.0,False,False,True,False,False,1.00,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28684174,725.175781,662,48.879223,2.292382,5,0,1,1.0,False,True,True,False,False,1.00,1.0
28709644,475.000000,745,48.872202,2.298349,4,2,1,1.0,False,True,True,False,False,1.00,1.0
28751412,117.000000,88,48.880923,2.314568,2,1,0,1.0,False,True,True,False,False,1.00,1.0
28774896,156.397468,159,48.852915,2.314519,2,1,1,1.0,False,True,True,False,False,1.00,1.0


En *Machine Learning*, on a l'habitude de couper l'ensemble de données en deux sous-ensembles :

- Un ensemble d'entraînement (*train set*), sur lequel le modèle va être calibré.
- Un ensemble de test (*test set*), qui ne sera pas utilisé pendant le calibrage mais permettra de vérifier l'aptitude du modèle à généraliser sur de nouvelles observations inconnues.

En général, on découpe l'ensemble de données (*split*) en prenant $\alpha \%$ de l'ensemble pour entraînement et $1-\alpha \%$ comme test. Dans la plus part des cas, on considère que $\alpha=10,20\ ou \ 30\%$.

In [44]:
#utiliser la méthode split de sklearn en splitant avec un alpha=30 et un random state=42 
#afficher la shape de vos données 
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.30, random_state=42)
Y_test

array([[  43.14368932],
       [1300.        ],
       [  57.88653846],
       [ 297.76315789],
       [  55.34933333],
       [ 600.        ],
       [  28.4947644 ],
       [  17.9766537 ],
       [  79.81038961],
       [ 250.19379845],
       [ 221.99738903],
       [ 114.95833333],
       [ 350.        ],
       [ 170.        ],
       [ 195.        ],
       [ 166.328125  ],
       [ 340.81007752],
       [  93.18393782],
       [ 160.02645503],
       [ 203.41755319],
       [ 146.57519789],
       [ 149.        ],
       [ 329.36832061],
       [ 182.30769231],
       [ 299.        ],
       [ 240.        ],
       [ 108.        ],
       [ 118.78473581],
       [ 250.        ],
       [  47.59585492],
       [ 126.32198953],
       [ 184.30628272],
       [  93.35248042],
       [ 176.37075718],
       [  59.        ],
       [ 148.76804124],
       [  30.        ],
       [ 425.        ],
       [ 226.89210526],
       [  71.01804124],
       [ 204.6342711 ],
       [  79.   

In [45]:
Y_test.shape

(300, 1)

In [46]:
Y_train.shape

(699, 1)

In [47]:
X_test.shape

(300, 3)

In [48]:
X_train.shape

(699, 3)

## Entraînement

Pour information, *scikit-learn* utilise le solveur OLS (Ordinary Least Squares) de *numpy*.

In [51]:
#créer l'objet de régression et entrainer le sur notre ensemble d'entraînement
reg = linear_model.LinearRegression().fit(X_train, Y_train)
reg

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

On affiche le vecteur des coefficients pour interpréter rapidement le modèle.

In [60]:
#afficher les coefficients
print("Coefficient beta_j :\n {} \n Coefficient INTERCEPT beta_0 :\n {}".format(reg.coef_,reg.intercept_))
#que remarquez vous ? 
#la data qui est plus importance c'est laquelle qui est lier au bathroom

Coefficient beta_j :
 [[29.22157692 14.61898054 86.34152526]] 
 Coefficient INTERCEPT beta_0 :
 [-46.48417235]


## Validation du modèle

### Le coefficient de détermination $R^2$

Par la suite, nous ferons l'hypothèse de gaussianité sur les bruits. Dans l'idée, nous aimerions obtenir une valeur numérique qui nous indique à quel point la régression linéaire a un sens sur nos données. Pour cela, introduisons les notations suivantes :

- $SCT=\|Y-\hat{y} \mathbf{1}\|^2$ est la somme des carrés totaux
- $SCE=\|\hat{Y}-\hat{y} \mathbf{1}\|^2$ est la somme des carrés expliqués
- $SCR=\|\hat{\varepsilon}\|^2$ est la somme des carrés résiduels

L'idée est de décomposer la somme des carrés totaux comme la somme des carrés que le modèle explique, en plus de la somme des carrés qui sont liés aux résidus (et donc que le modèle ne peut pas expliquer). On voit donc ici l'intérêt de calculer un coefficient à partir du $SCE$. Puisque l'on a la relation suivante :

$$SCT=SCE+SCR \text{ alors } 1=\frac{SCE}{SCT}+\frac{SCR}{SCT}$$

Plus les résidus sont petits (et donc la régression est "bonne"), plus $SCR$ devient petit et donc $SCE$ devient grand. Le schéma inverse s'opère de la même façon. Dans le meilleur des cas, on obtient $SCR=0$ et donc $SCE=SCT$ d'où le premier membre vaut $1$. Dans le cas contraite, $SCE=0$ et automatiquement, le premier membre est nul. C'est ainsi que l'on définit le coefficient de détermination $R^2$ comme 
$$R^2=\frac{SCE}{SCT}=1-\frac{SCR}{SCT}$$
Ainsi, $R^2 \in [0,1]$. Plus $R^2$ est proche de $1$, plus la régression linéaire a du sens. Au contraire, si $R^2$ est proche de $0$, le modèle linéaire possède un faible pouvoir explicatif.

In [53]:
#faire une prediction sur X
Y_pred = reg.predict(X_test)
Y_pred

array([[126.868673  ],
       [534.01051785],
       [112.91948729],
       [215.20319858],
       [ 98.30050675],
       [345.3852813 ],
       [112.91948729],
       [ 83.69791037],
       [112.91948729],
       [518.73812664],
       [185.98162166],
       [ 98.30050675],
       [316.16370438],
       [171.36264112],
       [156.09024991],
       [244.4247755 ],
       [185.98162166],
       [171.36264112],
       [316.16370438],
       [214.53340375],
       [112.91948729],
       [112.91948729],
       [433.70342272],
       [112.91948729],
       [112.91948729],
       [330.76630076],
       [171.36264112],
       [ 98.30050675],
       [156.74366058],
       [112.91948729],
       [ 98.30050675],
       [142.1410642 ],
       [156.74366058],
       [259.04375604],
       [ 98.30050675],
       [171.36264112],
       [112.91948729],
       [272.32314692],
       [330.76630076],
       [ 98.30050675],
       [112.91948729],
       [112.91948729],
       [214.53340375],
       [388

In [58]:
#afficher l'erreur des moindres carrées sur l'ensemble d'entrainement ainsi que le R2
e=mean_squared_error(Y_test, Y_pred)
e


21600.006742647594

In [57]:
R=r2_score(Y_test, Y_pred)
R

0.3772870887592449

In [None]:
#que remarquez vous ? 
# R^2<0.70 alors le modèle linéaire possède un faible pouvoir explicatif.