# 👩‍💻 Activité 2 : entrainement de modèles de régression

<img src="https://cdn.pixabay.com/photo/2012/04/18/12/46/graph-36929_1280.png" alt="rubik" width="400"/>

#### [Pierre-Loic BAYART](https://www.linkedin.com/in/pierreloicbayart/) - Formation développeur d'applications spécialisation data analyst - Webforce3 - Grenoble Ecole de Management

### Code pour indiquer l'importance des notions traitées dans cette activité

- #### 🥇 : connaissance fondamentale pour l'analyse de données
- #### 🥈 : connaissance importante pour l'analyse de données
- #### 🥉 : connaissance moins importante pour l'analyse de données
> Si rien n'est indiqué, il s'agit de connaissances fondamentales pour l'analyse de données

## 🔍 Recherche d'informations

En recherchant sur le web, trouver les réponses aux questions suivantes :

### - Citer différents modèles simples de régression
___
- Régression linéaire
- Régression Ridge, Lasso et ElasticNet
- [Arbres de décision](https://scikit-learn.org/stable/modules/tree.html#regression)
- [K plus proches voisins](https://scikit-learn.org/stable/modules/neighbors.html#nearest-neighbors-regression)
- [Support Vector Regression (SVR)](https://scikit-learn.org/stable/modules/svm.html#regression)
- ...
___
### - Citer différents modèles ensemblistes de régression
___
- [Random Forest](https://scikit-learn.org/stable/modules/ensemble.html#forests-of-randomized-trees)
- [Gradient Boosting](https://scikit-learn.org/stable/modules/ensemble.html#gradient-tree-boosting)
- ...
___

## ✏️ Activités

- Récupérer les données pré-traitées du module `dvfprep`

In [1]:
import dvfprep
import pandas as pd

In [2]:
df = dvfprep.run()
df

Nombre de lignes supprimées : 0
Il n'y a pas de données manquantes dans le dataframe


Unnamed: 0,valeur_fonciere,surface_reelle_bati,nombre_pieces_principales,longitude,latitude,type_local,jour_semaine,jours_depuis_achat
0,229000.0,64.0,2.0,5.791164,45.139141,Appartement,4,339
4,151500.0,54.0,2.0,5.711105,45.181912,Appartement,1,342
6,62000.0,66.0,3.0,5.702079,45.144146,Appartement,0,343
7,110000.0,65.0,4.0,5.766423,45.183840,Appartement,4,339
9,157000.0,100.0,5.0,5.708358,45.173086,Appartement,0,336
...,...,...,...,...,...,...,...,...
5816,416901.0,150.0,4.0,5.615595,45.550246,Maison,2,166
5817,416901.0,48.0,3.0,5.615595,45.550246,Maison,2,166
5818,416901.0,150.0,4.0,5.615595,45.550246,Maison,2,166
5819,416901.0,48.0,3.0,5.615595,45.550246,Maison,2,166


- Vérifier qu'il n'y a **pas de données manquantes** dans le dataframe

In [3]:
df.isna().sum()

valeur_fonciere              0
surface_reelle_bati          0
nombre_pieces_principales    0
longitude                    0
latitude                     0
type_local                   0
jour_semaine                 0
jours_depuis_achat           0
dtype: int64

- Séparer la colonne de la **valeur cible "valeur_fonciere" (noté y)**, des **autres colonnes (notés X)**. Grâce à la fonction [sklearn.model_selection.train_test_split()](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html), mettre de côté le jeu de données de test avec **20% des données**

In [5]:
from sklearn.model_selection import train_test_split

In [6]:
X = df.drop("valeur_fonciere", axis=1)
y = df["valeur_fonciere"]

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(f"Shape X_train : {X_train.shape}")
print(f"Shape y_train : {y_train.shape}")
print(f"Shape X_test : {X_test.shape}")
print(f"Shape y_test : {y_test.shape}")

Shape X_train : (1517, 7)
Shape y_train : (1517,)
Shape X_test : (380, 7)
Shape y_test : (380,)


⚠️ A partir de maintenant, le jeu de **données de test ne doit plus être modifié**. Il servira à **évaluer le modèle après l'entrainement**

### 🗺️ Analyse exploratoire des données - Données aberrantes

- Analyser **statistiquement** et **graphiquement** de manière **univariée** les **données d'entrainement**. Conclure sur la présence de **données aberrantes**

In [None]:
# A COMPLETER

- Effectuer une **analyse bivariée graphique** grâce à la carte de chaleur (heatmap) des corrélations

In [None]:
# A COMPLETER

- Compléter la fonction Python suivante **`remove_0_room()`** pour qu'elle retourne le **dataframe** sans les données où la colonne "nombre_pieces_principales" vaut 0

In [None]:
# A COMPLETER

- Compléter la fonction Python suivante **`remove_outlier_price_m2()`** pour qu'elle retourne le **dataframe** dont le prix au mètre carré est compris entre 500€ et 12 000€

In [None]:
# A COMPLETER

- Compléter la fonction Python suivante **`remove_outlier_2_zscore()`** pour qu'elle retourne le **dataframe** dont le prix au mètre carré est compris entre -2 et +2 zscores

In [None]:
# A COMPLETER

### 👷 Création du pipeline de pré-traitement

- Créer une liste pour les **caractéristiques numériques** et une liste pour la **caractéristique catégorielle**

In [None]:
# A COMPLETER

- Créer un **pipeline de pré-traitement** avec une transformation de **RobustScaler()** sur les données **numériques** et une transformation de **OneHotEncoder()** sur les données **catégorielles**

> ℹ️ les fonctions suivantes peuvent être utiles :
> - [Column Transformer with Mixed Types](https://scikit-learn.org/stable/auto_examples/compose/plot_column_transformer_mixed_types.html)
> - [sklearn.compose.ColumnTransformer](https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html#sklearn.compose.ColumnTransformer)
> - [sklearn.preprocessing.RobustScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html)
> - [sklearn.preprocessing.OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)

In [None]:
# A COMPLETER

### 👷 Création du pipeline d'entrainement et évaluation du modèle

- Créer un pipeline **global** de **pré-traitement** et **d'entrainement** d'un modèle de **régression linéaire**

> ℹ️ les fonctions suivantes peuvent être utiles :
> - [sklearn.pipeline.Pipeline](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline)
> - [sklearn.linear_model.LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)

In [None]:
# A COMPLETER

- **Entrainer** le modèle grâce au **pipeline**. **Evaluer le modèle** grâce au jeu de **test**

In [None]:
# A COMPLETER

### 🧪 Test de différents modèles et optimisation des hyperparamètres

- Créer un pipeline avec un **arbre de décision** et **comparer** les résultats avec **la régression linéaire**

> ℹ️ les fonctions suivantes peuvent être utiles :
> - [sklearn.tree.DecisionTreeRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html)

In [None]:
# A COMPLETER

- Créer un pipeline avec un modèle de **random forest** et **comparer** les résultats avec les modèles précédents

> ℹ️ les fonctions suivantes peuvent être utiles :
> - [sklearn.ensemble.RandomForestRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html)

In [None]:
# A COMPLETER

- Effectuer une **recherche par grille (grid search)** sur le pipeline du modèle de **random forest**. Essayer différentes valeurs pour les paramètres "n_estimators" et "max_depth". Afficher le R2 maximum en validation croisée et les meilleurs hyperparamètres

> ℹ️ les fonctions suivantes peuvent être utiles :
> - [sklearn.ensemble.RandomForestRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html)
> - [Putting it all together](https://scikit-learn.org/stable/tutorial/statistical_inference/putting_together.html)
> - [sklearn.model_selection.GridSearchCV](sklearn.model_selection.GridSearchCV)

In [None]:
# A COMPLETER

- **comparer** les résultats du meilleur modèle avec les modèles précédents grâce au paramètre "best_estimator_"

In [None]:
# A COMPLETER

### 🚢 Exporter le modèle

- **Sauvegarder (serialiser) le meilleur pipeline** dans un fichier joblib grâce à la fonction `joblib.dump()`

> ℹ️ les fonctions suivantes peuvent être utiles :
> - [Model persistence](https://scikit-learn.org/stable/model_persistence.html)

In [None]:
# A COMPLETER

## 🚀 Pour aller plus loin

- [Regression Trees, Clearly Explained!!!](https://www.youtube.com/watch?v=g9c66TUylZ4&t=1s)
- [StatQuest: Random Forests Part 1 - Building, Using and Evaluating](https://www.youtube.com/watch?v=J4Wdy0Wc_xQ)

___
*👨‍🏫 [Pierre-Loic BAYART](https://www.linkedin.com/in/pierreloicbayart/) - Formation développeur d'applications spécialisation data analyst - Webforce3 - Grenoble Ecole de Management*
___
Source images d'illustration : Image par Clker-Free-Vector-Images de Pixabay