# Modèle linéaire

Considérons la cas classique d'une fonction affine :

$$y=ax+b$$

Ici, $a$ et $b$ sont des réels. Ces deux nombres définissent entièrement la courbe et permet donc d'obtenir une relation **affine** entre $x$ et $y$. En statistique, cette relation est à la base des modèles dit **linéaires**, où une variable réponse se définit comme une somme de variables explicatives où chacune de ces dernières sont multipliés par un coefficient.


## Modèle linéaire simple

![](https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Linear_regression.svg/438px-Linear_regression.svg.png)

Dans le modèle linéaire simple (une seule variable explicative), on suppose que la variable réponse suit le modèle suivant :

$$y_i=\beta_0 + \beta_1 x_i + \varepsilon_i$$

On remarque la ressemblance avec la fonction affine présentée ci-dessus. La différence réside dans l'existence du terme aléatoire (appelé bruit) $\varepsilon_i$. Afin de considérer le modèle, il est nécessaire de se placer sous les hypothèses suivantes

$$(\mathcal{H}) : \left\{\begin{matrix}
\mathbb{E}[\varepsilon_i]=0\\ 
\text{Cov}(\varepsilon_i, \varepsilon_j)=\delta_{ij} \sigma^2
\end{matrix}\right.$$
Les différents éléments qui interviennent sont :

- $\beta_0$ : l'ordonnée à l'origine (nommée *intercept*)
- $\beta_1$ : le coefficient directeur
- $x_i$ : l'observation $i$
- $y_i$ : le $i$-ème prix
- $\varepsilon_i$ : le bruit aléatoire liée à la $i$-ème observation

La solution peut se calculer facilement via les formules fermées suivantes :

$$\hat{\beta}_1=\frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} \qquad \hat{\beta}_0 = \hat{y} - \hat{\beta}_1 \bar{x}$$

## Modèle linéaire multiple

Dans le cas multiple (pour $p$ variables explicatives), pour la $i$-ème observation, le modèle s'écrit :

$$y_i= \beta_0 + \sum_{j=1}^p \beta_j x_{ij} + \varepsilon_i$$

Ainsi, une observation $x_i$ n'est plus une valeur, mais un **vecteur** $(x_{i1}, \dots, x_{ip})$. Il est plus commode de regrouper ces prix $y_i$ et ces vecteurs d'observations $x_i$ dans des matrices :

$$Y=X \beta + \varepsilon$$

Sous les hypothèses équivalentes du modèle simple en plus grand dimension

$$(\mathcal{H}) : \left\{\begin{matrix}
\text{rank}(X)=p\\ 
\mathbb{E}[\varepsilon]=0 \text{ et }\text{Var}(\varepsilon)=\sigma^2 I_p
\end{matrix}\right.$$

Les différents éléments qui interviennent sont :

- $\beta$ : le vecteur directeur
- $X$ : la matrice des observations
- $Y$ : le vecteur de prix
- $\varepsilon$ : le vecteur de bruit

Avec $X=( \mathbf{1}, X_1, \dots, X_n)$, $Y=(y_1, \dots, y_n)^\top$ et $\varepsilon=(\varepsilon_1, \dots, \varepsilon_n)^\top$. La solution des MCO (Moindres Carrés Ordinaires) est alors :

$$\hat{\beta}= (X^\top X)^{-1} X^\top Y$$

Vous pouvez d'ailleurs faire la démonstration de votre coté ! Pour plus d'information mathématiques, le portail de wikipédia qui est très bien fait : [lien ici](https://fr.wikipedia.org/wiki/Portail:Probabilit%C3%A9s_et_statistiques)

# Implémenter une régression linéaire 


In [29]:
#importer vos librairies 
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
#Cette commande signifie que tous les tracés seront désormais affichés dans le notebook
%matplotlib inline 

In [3]:
#charger les données 
#price_availability.csv
price_availability =  pd.read_csv('./data/price_availability.csv',sep=";")
#listings_final.csv
listings_final =  pd.read_csv('./data/listings_final.csv',sep=";")
#vérifier si tous les individus ont bien un prix 
price_availability.info()
listings_final.info()
print("nombre de d'individu avec le local_price null" ,price_availability["local_price"].isnull().sum(axis=0))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4748696 entries, 0 to 4748695
Data columns (total 7 columns):
 #   Column          Dtype 
---  ------          ----- 
 0   listing_id      int64 
 1   day             object
 2   created         object
 3   available       bool  
 4   local_currency  object
 5   local_price     int64 
 6   min_nights      int64 
dtypes: bool(1), int64(3), object(3)
memory usage: 221.9+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 19 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Unnamed: 0                1000 non-null   int64  
 1   listing_id                1000 non-null   int64  
 2   name                      1000 non-null   object 
 3   type                      1000 non-null   object 
 4   city                      1000 non-null   object 
 5   neighborhood              935 non-null    object 
 6   latitude                

In [4]:
#calculer la moyenne de local_price par listing_id
price_availability = price_availability.groupby(['listing_id']).mean()
price_availability.head()

Unnamed: 0_level_0,available,local_price,min_nights
listing_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5396,0.011494,102.363985,2.0
7397,0.168297,110.107632,11.0
9342,0.309198,396.863014,2.784736
10010,0.254593,136.154856,4.955381
10270,0.511688,105.779221,4.937662


In [5]:
#drop la colonne "Unnamed: 0"
listings_final = listings_final.drop(['Unnamed: 0',"name"],axis=1)

In [6]:

df = pd.merge(price_availability[['local_price']],
              listings_final,
             on="listing_id")
df.head()


Unnamed: 0,listing_id,local_price,type,city,neighborhood,latitude,longitude,person_capacity,beds,bedrooms,bathrooms,is_rebookable,is_new_listing,is_fully_refundable,is_host_highly_rated,is_business_travel_ready,pricing_weekly_factor,pricing_monthly_factor
0,56093,170.0,entire_home,Paris,3e arrondissement,48.867284,2.358431,4,2,1,1.0,False,False,True,True,False,0.88,1.0
1,57207,49.952756,private_room,Paris,Vaugirard,48.846184,2.304455,2,1,1,1.0,False,False,True,False,False,0.87,1.0
2,114543,107.374026,entire_home,Paris,,48.84953,2.290219,2,1,1,1.0,False,False,True,True,False,0.9,0.9
3,149534,169.0,entire_home,Paris,,48.86636,2.361844,4,2,1,1.0,False,False,True,True,False,1.0,0.4
4,164255,75.876209,entire_home,Paris,3e arrondissement,48.861398,2.364299,4,2,1,1.0,False,False,True,False,False,1.0,1.0


In [40]:
X = df[['bedrooms','person_capacity','bathrooms']]
Y = df[['local_price']]
Y['local_price'].min()

17.863723608445298

In [41]:

#utiliser la méthode split de sklearn en splitant avec un alpha=30 et un random state=42 
#zafficher la shape de vos données 
from sklearn.model_selection import train_test_split
#X, Y = train_test_split(new_frame, test_size=300, train_size=699, random_state=42, shuffle=True, stratify=None)
X_train, X_test, y_train, y_test = train_test_split( X, Y, test_size=0.3, random_state=42)



## Entraînement

Pour information, *scikit-learn* utilise le solveur OLS (Ordinary Least Squares) de *numpy*.

In [42]:
#créer l'objet de régression et entrainer le sur notre ensemble d'entraînement
model = LinearRegression().fit(X_train, y_train)
model

LinearRegression()

On affiche le vecteur des coefficients pour interpréter rapidement le modèle.

In [43]:
#afficher les coefficients
#que remarquez vous ? 
print('Coefficients beta_j : \n', model.coef_)
print('Coefficients INTERCEPT beta_0 : \n', model.intercept_)

Coefficients beta_j : 
 [[14.61898054 29.22157692 86.34152526]]
Coefficients INTERCEPT beta_0 : 
 [-46.48417235]


## Validation du modèle

### Le coefficient de détermination $R^2$

Par la suite, nous ferons l'hypothèse de gaussianité sur les bruits. Dans l'idée, nous aimerions obtenir une valeur numérique qui nous indique à quel point la régression linéaire a un sens sur nos données. Pour cela, introduisons les notations suivantes :

- $SCT=\|Y-\hat{y} \mathbf{1}\|^2$ est la somme des carrés totaux
- $SCE=\|\hat{Y}-\hat{y} \mathbf{1}\|^2$ est la somme des carrés expliqués
- $SCR=\|\hat{\varepsilon}\|^2$ est la somme des carrés résiduels

L'idée est de décomposer la somme des carrés totaux comme la somme des carrés que le modèle explique, en plus de la somme des carrés qui sont liés aux résidus (et donc que le modèle ne peut pas expliquer). On voit donc ici l'intérêt de calculer un coefficient à partir du $SCE$. Puisque l'on a la relation suivante :

$$SCT=SCE+SCR \text{ alors } 1=\frac{SCE}{SCT}+\frac{SCR}{SCT}$$

Plus les résidus sont petits (et donc la régression est "bonne"), plus $SCR$ devient petit et donc $SCE$ devient grand. Le schéma inverse s'opère de la même façon. Dans le meilleur des cas, on obtient $SCR=0$ et donc $SCE=SCT$ d'où le premier membre vaut $1$. Dans le cas contraite, $SCE=0$ et automatiquement, le premier membre est nul. C'est ainsi que l'on définit le coefficient de détermination $R^2$ comme 
$$R^2=\frac{SCE}{SCT}=1-\frac{SCR}{SCT}$$
Ainsi, $R^2 \in [0,1]$. Plus $R^2$ est proche de $1$, plus la régression linéaire a du sens. Au contraire, si $R^2$ est proche de $0$, le modèle linéaire possède un faible pouvoir explicatif.

In [44]:
model.score(X_train,y_train)

0.35581095538895413

In [39]:
#faire une prediction sur X
model.score(X_tra
model.predict(X_test)



array([[ 134.22006884],
       [ 571.22728396],
       [ 122.63058679],
       [ 180.15517198],
       [  95.10866502],
       [ 339.48243544],
       [  96.42268207],
       [-306.69677656],
       [ 122.63058679],
       [ 546.60797348],
       [ 196.3621889 ],
       [  95.10866502],
       [ 329.48154763],
       [ 168.84026713],
       [ 170.42886137],
       [ 242.57186924],
       [ 196.3621889 ],
       [ 168.84026713],
       [ 329.48154763],
       [ 216.63854171],
       [ 122.63058679],
       [ 122.63058679],
       [ 392.7903923 ],
       [ 122.63058679],
       [ 122.63058679],
       [ 311.96051367],
       [ 168.84026713],
       [  95.10866502],
       [ 141.31834536],
       [ 122.63058679],
       [  95.10866502],
       [ 132.6314746 ],
       [ 141.31834536],
       [ 243.88588628],
       [  95.10866502],
       [ 168.84026713],
       [  96.42268207],
       [ 291.95873806],
       [ 285.75260895],
       [  95.10866502],
       [ 122.63058679],
       [ 122.630

## Bonus : Analyse de l'homoscédasticité

L'analyse de l'homoscédasticité est primordiale : c'est en particulier elle qui nous permet de vérifier, à partir des résidus, si les bruits vérifient bien l'hypothèse $(\mathcal{H})$. On calcule donc les **résidus studentisés**.

$$t_i^*=\frac{\hat{\varepsilon}_i}{\hat{\sigma}_{(i)} \sqrt{1-h_{ii}}}$$
Avec $h_{ii}=\{X(X^\top X)^{-1} X^\top\}_{ii}=H_{ii}$ la matrice de projection sur l'hyperplan des variables. Plus précisément, $H$ est la matrice qui projette $Y$ sur l'espace engendré par les variables, soit $\hat{Y}=HY$. De même, on considère $\hat{\sigma}_{(i)}$ l'estimateur de la variance du bruit en supprimant l'observation $i$ (par une méthode de validation croisée Leave-One-Out que nous ne détaillerons pas ici).

Dans ce cas, on peut montrer que les résidus studentisés suivent une loi de Student à $n-p-1$ degrés de liberté.

In [30]:
#analyser le code ci-dessous 
import scipy
Y_pred = model.predict(X_train)
n = X_train.shape[0]
p = 4
residuals = np.abs(y_train - Y_pred)
H = np.matmul(X_train, np.linalg.solve(np.dot(X_train.T, X_train), X_train.T))
std_hat = np.dot(residuals, residuals) / (n - p)
standart_residuals = np.asarray([residuals[i] / np.sqrt(std_hat * (1 - H[i, i])) for i in range(len(residuals))])
student_residuals = np.asarray([ standart_residuals[i] * np.sqrt((n - p - 1) / (n - p - standart_residuals[i]**2)) for i in range(n) ])
cook = np.asarray([ H[i, i] * student_residuals[i] / (X_train.shape[1] * (1 - H[i, i])) for i in range(n) ])

plt.figure(figsize=(20, 12))
plt.subplot(221)
plt.scatter(Y_pred, student_residuals, s=12, c="white", edgecolors="blue")
plt.plot([min(Y_pred), max(Y_pred)], [ scipy.stats.t.ppf(q=0.975, df=n-p-1), scipy.stats.t.ppf(q=0.975, df=n-p-1)], color="green", alpha=0.6, label="Quantile de Student")
plt.title("Analyse de l’homoscédasticité")
plt.xlabel("Prédictions $\hat{y}_i$")
plt.ylabel("Résidus studentisés $|t_i^*|$")
plt.legend()

ValueError: shapes (699,1) and (699,1) not aligned: 1 (dim 1) != 699 (dim 0)