# Réduction d'une forêt aléatoire avec une régression Lasso

Le modèle Lasso permet de sélectionner des variables, une forêt aléatoire produit une prédiction comme étant la moyenne d'arbres de régression. Et si on mélangeait les deux ?

## Librairies

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Données

On va partir sur ce jeu de données [California](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html). Le but est de prédire le prix des appartements (variable *MedHouseVal* pour Median Value en unités 100 000$). Importer les données puis afficher l'objet dataset importé, notamment l'attribut `DESCR`.

In [2]:
from sklearn.datasets import fetch_california_housing
data = fetch_california_housing()
print(data.DESCR)

.. _california_housing_dataset:

California Housing dataset
--------------------------

**Data Set Characteristics:**

    :Number of Instances: 20640

    :Number of Attributes: 8 numeric, predictive attributes and the target

    :Attribute Information:
        - MedInc        median income in block group
        - HouseAge      median house age in block group
        - AveRooms      average number of rooms per household
        - AveBedrms     average number of bedrooms per household
        - Population    block group population
        - AveOccup      average number of household members
        - Latitude      block group latitude
        - Longitude     block group longitude

    :Missing Attribute Values: None

This dataset was obtained from the StatLib repository.
https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html

The target variable is the median house value for California districts,
expressed in hundreds of thousands of dollars ($100,000).

This dataset was derived

In [3]:
data

{'data': array([[   8.3252    ,   41.        ,    6.98412698, ...,    2.55555556,
           37.88      , -122.23      ],
        [   8.3014    ,   21.        ,    6.23813708, ...,    2.10984183,
           37.86      , -122.22      ],
        [   7.2574    ,   52.        ,    8.28813559, ...,    2.80225989,
           37.85      , -122.24      ],
        ...,
        [   1.7       ,   17.        ,    5.20554273, ...,    2.3256351 ,
           39.43      , -121.22      ],
        [   1.8672    ,   18.        ,    5.32951289, ...,    2.12320917,
           39.43      , -121.32      ],
        [   2.3886    ,   16.        ,    5.25471698, ...,    2.61698113,
           39.37      , -121.24      ]]),
 'target': array([4.526, 3.585, 3.521, ..., 0.923, 0.847, 0.894]),
 'frame': None,
 'target_names': ['MedHouseVal'],
 'feature_names': ['MedInc',
  'HouseAge',
  'AveRooms',
  'AveBedrms',
  'Population',
  'AveOccup',
  'Latitude',
  'Longitude'],
 'DESCR': '.. _california_housing_dataset:\n

## Analyse exploratoire et visualisation

Créer un dataframe à partir des données du jeu California puis procéder à l'étape de visualisation et d'analyse exploratoire. Regarder notamment les corrélations et afficher des graphiques des variables indépendantes fortement corrélées avec la variable dépendante.

## Préparation des différents datasets

Créer les différents jeux de données pour la modélisation : X, y puis X_train, X_test, y_train, y_test 

## Une forêt aléatoire

Caler une forêt aléatoire sur l'échantillon d'entraînement.

Comment récupérer le nombre d'arbres ? Comment récupérer les arbres eux-mêmes ?

Calculer le score du modèle. Choisir bien sûr une mesure adaptée à notre problème.

## Moyenne des prédictions des arbres

Vérifier que la forêt retourne bien la moyenne des prédictions des différents arbres en calculant cette moyenne "à la main". On pourra vérifier que le score du modèle est le même pour s'assurer qu'on obtient bien les mêmes prédictions.

## Pondération des arbres à l'aide d'une régression linéaire

La forêt aléatoire est une façon de créer de nouvelles variables, autant de variables que d'arbres dans la forêt. On peut donc utiliser ces nouveaux features pour caler une régression linéaire. À vous de jouer !

Calculer le score de ce nouveau modèle.

Répeter plusieurs fois les opérations précédentes afin de voir l'effet de l'aléatoire (notamment présent dans le découpage `train_test_split` et dans le `RandomForestRegressor`). Idéalement vous pouvez définir une fonction qui refait tout et l'exécuter directement.  
Qu'en conclure sur ce nouveau modèle ? Que dire du risque d'*overfitting* ?

Effectuer un diagrammes en barres des valeurs des coefficients de la régresion linéaire.

Caler une régression linéaire sur les variables initiales et mesurer son score pour comparer avec celui obtenu sur les features issus de la forêt aléatoire.

## Pour aller plus loin : sélection de variables

Une idée pour sélectionner les variables est d'utiliser la régularisation. On a vu que la régularisation $l_1$ ou encore [Lasso](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html) permet de sélectionner des variables en fixant certains coefficients à 0. On peut donc tenter d'améliorer la régression précédente en utilisant une régression Lasso pour réduire la forêt aléatoire sans perdre en performance. C'est quasiment le même code. À vous !

Regarder les coefficients pour savoir quels arbres ont finalement été conservés ou non (ou plutôt combien d'arbres ont été conservés).

Faire varier le paramètre `alpha` de la régression Lasso :
- avec un pas de 0.01 entre 0 et 1
- avec un pas de 0.1 entre 1 et 10

Puis tracer l'évolution de la performance et du nombre d'arbres conservés en fonction de alpha. 