#  Forêts aléatoires !

À l’aide d’un algorithme d’apprentissage automatique plus sophistiqué.

## Introduction
Les **arbres de décision** vous laissent face à une décision difficile. Un arbre profond avec de nombreuses feuilles surajuste car chaque prédiction provient de données historiques de seulement quelques maisons à sa feuille. En revanche, un arbre superficiel avec peu de feuilles performe mal car il ne parvient pas à capturer suffisamment de distinctions dans les données brutes.

Même les techniques de modélisation les plus sophistiquées d'aujourd'hui font face à cette tension entre **sous-ajustement et surajustement**. Cependant, de nombreux modèles ont des idées astucieuses qui peuvent conduire à de meilleures performances. Nous allons examiner ***la forêt aléatoire (random forest)*** comme exemple.

La forêt aléatoire utilise de nombreux arbres et fait une prédiction en faisant la moyenne des prédictions de chaque arbre composant. Elle offre généralement une précision prédictive bien meilleure qu'un seul arbre de décision et fonctionne bien avec les paramètres par défaut. En poursuivant la modélisation, vous pouvez apprendre d'autres modèles avec des performances encore meilleures, mais beaucoup d'entre eux sont sensibles au choix des bons paramètres.

**Exemple**

Vous avez déjà vu le code pour charger les données plusieurs fois. À la fin du chargement des données, nous avons les variables suivantes :

- train_X
- val_X
- train_y
- val_y

Nous construisons un modèle de forêt aléatoire de manière similaire à la manière dont nous avons construit un arbre de décision dans scikit-learn - cette fois en utilisant la classe ***RandomForestRegressor*** au lieu de **DecisionTreeRegressor**.

In [10]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error

# Charger les données
melbourne_file_path = 'melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)

# Supprimer les lignes avec des valeurs manquantes
melbourne_data1 = melbourne_data.dropna(axis=0)

# Définir la cible et les features
y = melbourne_data1.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']
X = melbourne_data1[melbourne_features]


# Définir le modèle de forêt aléatoire avec un état aléatoire pour la reproductibilité
forest_model = RandomForestRegressor(random_state=1)

# Division des données (données entrainement et validation
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=0)

# Entraîner le modèle sur les données d'entraînement
forest_model.fit(train_X, train_y)

# Faire des prédictions sur les données de validation
melb_preds = forest_model.predict(val_X)

# Calculer et afficher l'erreur absolue moyenne
print(mean_absolute_error(val_y, melb_preds))

207190.6873773146


#### Conclusion
Il y a probablement encore des améliorations possibles, mais c'est une grande amélioration par rapport à l'erreur de l'arbre de décision le plus performant, qui était de 273 681,46. Il existe des paramètres qui vous permettent de modifier les performances de la forêt aléatoire de la même manière que nous avons ajusté la profondeur maximale de l'arbre de décision unique. Mais **l'un des meilleurs avantages des modèles de forêt aléatoire est qu'ils fonctionnent généralement de manière raisonnable même sans cet ajustement.**

