### Random Forests
Gli alberi decisionali lasciano una decisione difficile. Un albero profondo con molte foglie si adatterà in modo eccessivo perché ogni previsione proviene dai dati storici delle poche case che si trovano alla sua estremità. Ma un albero poco profondo con poche foglie avrà un rendimento scarso perché non riesce a cogliere altrettante distinzioni nei dati grezzi.

Anche le tecniche di modellazione più sofisticate di oggi devono affrontare questa tensione tra underfitting e overfitting. Tuttavia, molti modelli hanno idee intelligenti che possono portare a prestazioni migliori. Un esempio è la foresta casuale.

La foresta casuale utilizza molti alberi e fa una previsione calcolando la media delle previsioni di ciascun albero componente. In genere ha un'accuratezza predittiva molto migliore di un singolo albero decisionale e funziona bene con parametri predefiniti. Se si continua a modellare, si possono imparare altri modelli con prestazioni ancora migliori, ma molti di questi sono sensibili alla scelta dei parametri giusti.

### Esempio
Esempio
Il codice per caricare i dati è già stato visto alcune volte. Al termine del caricamento dei dati, abbiamo le seguenti variabili **train_X**, **val_X***, **train_y** e **val_y**.

In [1]:
import pandas as pd
    
# Load data
melbourne_file_path = 'D:/Users/Alessio/OneDrive/Python/Kaggle/Intro to Machine Learning/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
# Filter rows with missing values
melbourne_data = melbourne_data.dropna(axis=0)
# Choose target and features
y = melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]

from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
# The split is based on a random number generator. Supplying a numeric value to
# the random_state argument guarantees we get the same split every time we
# run this script.
train_X, val_X, train_y, val_y = train_test_split(X, y,random_state = 0)

Costruiamo un modello di foresta casuale in modo simile a come abbiamo costruito un albero decisionale in **scikit-learn**, questa volta usando la classe **RandomForestRegressor** invece di _DecisionTreeRegressor_.

In [2]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
melb_preds = forest_model.predict(val_X)
print(mean_absolute_error(val_y, melb_preds))

191669.7536453626


È probabile che ci sia spazio per ulteriori miglioramenti, ma si tratta di un grande miglioramento rispetto al miglior errore dell'albero decisionale, pari a 250.000. Esistono parametri che consentono di modificare le prestazioni della Foresta casuale, così come abbiamo modificato la profondità massima del singolo albero decisionale. Ma una delle caratteristiche migliori dei modelli Random Forest è che in genere funzionano discretamente anche senza questa regolazione.

## Esercizi


In [3]:
# Code you have previously used to load data
import pandas as pd
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor


# Path of the file to read
iowa_file_path = 'D:/Users/Alessio/OneDrive/Python/Kaggle/Intro to Machine Learning/train.csv'

home_data = pd.read_csv(iowa_file_path)
# Create target object and call it y
y = home_data.SalePrice
# Create X
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[features]

# Split into validation and training data
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)

# Specify Model
iowa_model = DecisionTreeRegressor(random_state=1)
# Fit Model
iowa_model.fit(train_X, train_y)

# Make validation predictions and calculate mean absolute error
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validation MAE when not specifying max_leaf_nodes: {:,.0f}".format(val_mae))

# Using best value for max_leaf_nodes
iowa_model = DecisionTreeRegressor(max_leaf_nodes=100, random_state=1)
iowa_model.fit(train_X, train_y)
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validation MAE for best value of max_leaf_nodes: {:,.0f}".format(val_mae))

Validation MAE when not specifying max_leaf_nodes: 29,653
Validation MAE for best value of max_leaf_nodes: 27,283


In [4]:
# Set up code checking
from learntools.core import binder
binder.bind(globals())
from learntools.machine_learning.ex6 import *
print("\nSetup complete")


Setup complete


### Domanda 1
Usare un Random Forest

In [5]:
from sklearn.ensemble import RandomForestRegressor

# Define the model. Set random_state to 1
rf_model = RandomForestRegressor()

# fit your model
rf_model.fit(train_X, train_y)

# Calculate the mean absolute error of your Random Forest model on the validation data
rf_val_predictions = rf_model.predict(val_X)
rf_val_mae = mean_absolute_error(rf_val_predictions, val_y)

print("Validation MAE for Random Forest Model: {}".format(rf_val_mae))

# Check your answer
step_1.check()

Validation MAE for Random Forest Model: 22253.04619830398


<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct</span>