<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Le-prix-de-l'immobilier" data-toc-modified-id="Le-prix-de-l'immobilier-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Le prix de l'immobilier</a></span><ul class="toc-item"><li><span><a href="#Régression-linéaire-simple" data-toc-modified-id="Régression-linéaire-simple-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Régression linéaire simple</a></span></li><li><span><a href="#Régression-linéaire-multiple" data-toc-modified-id="Régression-linéaire-multiple-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Régression linéaire multiple</a></span></li><li><span><a href="#Termes-d'interaction" data-toc-modified-id="Termes-d'interaction-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Termes d'interaction</a></span></li><li><span><a href="#Transformations-non-linaires-des-prédicteurs" data-toc-modified-id="Transformations-non-linaires-des-prédicteurs-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Transformations non-linaires des prédicteurs</a></span></li></ul></li></ul></div>

In [None]:
import pandas as pd 
import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt
import seaborn as sns
#
from LinearRegression_in_Python_like_in_R import lm, summary, vif

La librairie `LinearRegression_in_Python_like_in_R` a été développée pour ce TP et vous permet d'utiliser *grosso modo* les mêmes méthodes qu'en R. Vous pourrez consulter avec intérêt le code source. 
Pour créer un modèle de régression linéaire, il vous suffit de faire des opérations similaires à
```
>> model = lm('response ~ predictor1 + predictor2)
```
Vous disposerez ensuite de méthodes pour obtenir le résultat et les performances `model.summary()` ou `summary(model)`, pour afficher les graphes de diagnostic `model.plot()`. 
Pour tracer des scatter plots, vous pourrez par exemple utiliser la méthode `sns.scatterplot()` de la librairie seaborn. 

In [None]:
%matplotlib inline

# Le prix de l'immobilier

On s'intéresse dans cette partie au prix de l'immobilier à Boston. Ces données sont fournies dansle fichier `Boston.csv` que vous pourrez charger à l'aide de `pd.read_csv()`. Vous pourrez ensuite obtenir la description de ce jeu de données en exécutant les trois lignes de code qui affichent le fichier markdown `Boston.md`. 

Chargez ces données, consultez l'aide. L'enjeu va être ici de prédire le prix de l'immobilier en fonction des paramètres disponibles. Pour cela, il va donc nous falloir construire un modèle le mieux adapté possible à cette tâche. Ce TP est issu du livre ISLR, page 109 et suivantes. 

In [None]:
# lecture du fichier csv dans un dataframe Boston
# ...

In [None]:
with open("Boston.md",'r') as f:
    boston_description = f.read()
from IPython.display import Markdown
Markdown(boston_description)

## Régression linéaire simple

Vous débuterez par une régression linéaire simple de `medv` (le prix moyen) en fonction de la pauvreté de la population environnante. Vous utiliserez la fonction `lm`. Afficher le résumé du modèle, par `summary(model)` ou `model.summary()`, et tracez les graphes de diagnostic. Que peut-on en déduire ?


In [None]:
# model1


Ces différents graphiques suggèrent une certaine non-linéarité dans la relation `medv~lstat`. Nous considèrerons cela plus attentivement dans la suite.  

L'intervalle de confiance pour les coefficients peut être obtenu avec la méthode `.conf_int()`. Regardez de quoi il s'agit. 

Prédire les prix pour lstat valant 5, 10 puis 15, ainsi que les intervalles à 5% correspondants. Pour les intervalles de confiance, vous utiliserez les commandes
```
res = model1.get_prediction(newdata)
res.summary_frame()
```

Une explication de la différence entre ces deux types d'intervalles [ici](http://stats.stackexchange.com/questions/16493/difference-between-confidence-intervals-and-prediction-intervals).

In [None]:
# newdata = ...


In [None]:
res = model1.get_prediction(newdata)
res.summary_frame()

In [None]:
import warnings
warnings.filterwarnings('ignore', category=FutureWarning)

Finalement, tracez le nuage de point et la droite de régression. Vous pourrez faire cela en utilisant la fonction `sns.lmplot`

## Régression linéaire multiple

Effectuer une régression linéaire multiple de `medv` en fonction de `lstat` et `age`. Examiner quelles sont les $p$-values associées aux deux prédicteurs. Effectuer ensuite une régression sur l'ensemble des prédicteurs (utiliser le fait que `lm('y ~ .')`effectue la régression de y sur l'ensemble des variables). Que deviennent les $p$-values des deux prédicteurs précédents ? Quelles sont les variables qui paraissent pertinentes ?

In [None]:
# model2 = ...


In [None]:
# model3 = ...


Examiner le VIF des différents *prédicteurs*. On vous a préparé une fonction `vif` que vous pouvez utiliser telle que. 
Il faut sans doute retirer la colonne `medv` du tableau à passer, car ce n'est pas un pédicteur, mais la réponse.

On peut donc supposer que les variables `age` et  `indus` sont inutiles. Effectuer une régression linéaire en supprimant d'abord `age`, puis  `age` et  `indus`. Surveillez les valeurs de R-squared et de Adjusted R-Squared. Utiliser le fait que `lm(y~ .-x)` effectue la régression sur `.` sauf `x`). 

In [None]:
# model4 

In [None]:
# model5 

## Termes d'interaction

Puisqu'on soupçonne qu'il y ait une non-linéarité dans le modèle (à partir de l'examen des résidus), commençons par tester si des termes d'interaction peuvent approrter quelque chose. La syntaxe `lstat:black` permet d'inclure un terme d'interaction entre
lstat et black. La syntaxe `lstat*age` inclue simultanément `lstat`, `age`,
et `lstat:age`. Examinez que deviennent les résultats en incluant un terme d'interaction en `lstat` et `age`, puis entre `crim` et `dist`. Ces approches, ou l'une d'entre elles, apportent-elles quelque chose ?

Il est possible de générer automatiquement des termes d'interaction par la syntaxe `(a+b+c)**2`  (`^2` en R), qui va générer les termes d'interaction `a:b`, `a:c`, et `b:c`. Appliquer cette technique pour faire la régression sur l'ensemble des variables, sauf `age`  et `indus` et en ajoutant les interaction entre `dis`, `crim`, `chas`, et `tax`.  Comment évoluent les performances du modèle ? Quelles sont les variables à retenir ?

Enfin, on peut aussi considérer l'ensemble des interactions possibles en effectuant un régression avec un terme `(.)**2`. Comment évoluent alors les R2 ? Quelles sont les variables à retenir ?

In [None]:
pd.options.display.max_rows = 999  # augmente le nombre de lignes affichées
 

## Transformations non-linaires des prédicteurs


Il est possible d'effectuer n'importe quelle transformation de chacun des prédicteurs. Etant donné un prédicteur $X$, on peut créer un nouveau prédicteur  $X^2$ en utilisant la fonction I(X\*\*2). On doit utiliser I() car \*\* est là pour les termes d'interaction... Utiliser ceci pour faire une régression de medv sur lstat et lstat**2. Comparer aux résultats sans le terme quadratique. 

On peut générer les prédicteurs correspondants aux différents termes d'un polynôme via la fonction `poly(x,n)`. Utiliser cette fonction pour effectuer une régression de `medv` vis-à-vis de `lstat` au degré 7, en construisant la formule comme la concaténaion de chaines de caractères. Quels paraissent être les coefficients importants ?

In [None]:
def poly(x,n):
    return '+'.join(['I('+x+'**'+str(k)+')' for k in range(1,n+1)])

Pour ajouter à la fois des termes polynomiaux et des termes d'interaction, en R vous pourriez utiliser la fonction polym. Pas d'équivalent simple en python, mais cela ne vous empèchera néanmoins pas de considérer une régression sur l'ensemble des variables, plus les carrés de `lstat` et `crim`, et le terme d'interaction. Quelles sont les variables à retenir ?