# Régression linéaire simple

On travaille pour commencer avec le jeu de données de hauteur/diamètres d'arbres.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics

1. Charger le jeu de données.

2. Effectuer une régression linéaire simple où `circ` est la variable explicative et `ht` la variable à expliquer. Stocker le résultat dans l'objet `reg`.

3. Calculer à présent les résidus de la régression dans une variable `eps` et les afficher en fonction de `circ`.

Les erreurs d'après le modèle sont indépendantes et ont toutes la même espérance de 0 et la même variance $σ^2$. Les résidus sont une prédiction des erreurs et devraient avoir les même propriétés. La variance ici n'est pas la même (épaisseur de la bande de points plus fine par endroits) et la moyenne semble fluctuer. Cependant, ces résidus sont plutôt satisfaisants.

## Deuxième modèle

4. La courbe de `ht` en fonction de `circ` n'est pas vraiment une droite. Quelle fonction simple de `circ` prendriez-vous plutôt comme variable explicative ? Implémenter le modèle correspondant dans une variable `reg2`, afficher les scatterplots des deux modèles, calculer les métriques de performance, et comparer avec `reg`.

# Régression linéaire multiple

On va travailler avec le jeu de données "California Housing".

In [None]:
import tarfile
import urllib.request
import os

url = "http://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.tgz"
filename = "cal_housing.tgz"
urllib.request.urlretrieve(url, filename)

with tarfile.open(filename) as tar:
    tar.extractall()

csv_path = "CaliforniaHousing/cal_housing.data"
column_names = [
    "longitude", "latitude", "housing_median_age", "total_rooms",
    "total_bedrooms", "population", "households", "median_income", "median_house_value"
]
data = pd.read_csv(csv_path, header=None, names=column_names)

Les colonnes du jeu de données sont les suivantes :

1. **longitude**, **latitude** : coordonnées du bloc de maisons.
2. **housing_median_age** : âge médian des maisons au sein du bloc.
3. **total_rooms** : nombre total de pièces dans le bloc.
4. **total_bedrooms** : nombre total de chambres dans le bloc.
5. **population** : nombre d'habitants dans le bloc.
6. **households** : nombre de foyer de résidence dans le bloc.
7. **median_income** : revenu médian par foyer dans le bloc (en $), divisé par 10000.
8. **median_house_value** : valeur médiane des maisons dans le bloc.

On cherche à prédire `median_house_value` en fonction des variables explicatives disponibles.

1. Définir le modèle de régression utilisant l'ensemble des variables explicatives disponibles, et l'ajuster aux données.

2. Afficher les résultats sur le jeu de données de test.

3. Calculer les métriques de performance suivantes : $r^2$, MAE et RMSE.

## Variabilité des estimations

On va estimer la distribution des paramètres sur $n=1000$ jeux de données différents afin de quantifier l'incertitude sur les coefficients de régression, et donc sur les prévisions.

4. Séparer le jeu de données `data` en 2 (`data_new` et `data_10`), en retirant 10 lignes au hasard.

4. Créer une matrice vide `beta` et répéter 1000 fois les étapes suivantes :

 * Tirer au hasard sans remise 80% des lignes dans le tableau `data_new`.

 * Sur ce tirage effectuer une régression linéaire.

 * Stocker les paramètres estimés dans `beta`.

5. Afficher les histogrammes pour les différents coefficients. Quelle est la variance de chacun ?

6. On veut à présent estimer l'incertitude sur les prédictions dans `data_10`. Refaire une boucle sur 1000 sous-jeux de données dans `data_new` et faire une prévision sur `data_10` avec le modèle correspondant. Stocker ces prévisions dans une matrice `y_pred`.

7. Afficher les histogrammes des prévisions pour chaque point de données dans `data_10`, avec une ligne verticale représentant la vraie mesure, et une autre représentant la prédiction du modèle unique de la question 1.