## Model Validation

È necessario valutare quasi tutti i modelli che si costruiscono. Nella maggior parte delle applicazioni (anche se non in tutte), la misura della qualità del modello è l'accuratezza predittiva. In altre parole, le previsioni del modello si avvicinano a ciò che accade realmente.

Molte persone commettono un grosso errore quando misurano l'accuratezza predittiva. Fanno previsioni con i dati di addestramento e confrontano tali previsioni con i valori target dei dati di addestramento. Il problema di questo approccio e la sua soluzione si presenteranno tra poco, ma prima pensiamo a come fare.

Per prima cosa è necessario riassumere la qualità del modello in modo comprensibile. Se si confrontano i valori previsti e quelli effettivi di 10.000 case, è probabile che si trovi un mix di previsioni buone e cattive. Esaminare un elenco di 10.000 valori previsti ed effettivi sarebbe inutile. Dobbiamo riassumere tutto questo in un'unica metrica.

Esistono molte metriche per riassumere la qualità del modello, ma inizieremo con una chiamata **Errore Assoluto Medio** (detto anche Mean Absolute Error, **MAE**). Scomponiamo questa metrica partendo dall'ultima parola, errore.

L'errore di previsione per ogni casa è
$$ errore = actual - predicted $$
Quindi, se una casa costa 150.000 dollari e voi avete previsto che sarebbe costata 100.000 dollari, l'errore è di 50.000 dollari.

Con la metrica **MAE**, prendiamo il valore assoluto di ogni errore. Questo converte ogni errore in un numero positivo. Poi prendiamo la media di questi errori assoluti. Questa è la nostra misura della qualità del modello. In parole povere, si può dire che

_In media, le nostre previsioni sono sbagliate di circa X._

Per calcolare il MAE, abbiamo bisogno di un modello.

In [1]:
# Data Loading Code Hidden Here
import pandas as pd

# Load data
melbourne_file_path = 'D:/Users/Alessio//OneDrive/Python/Kaggle/Intro to Machine Learning/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
# Filter rows with missing price values
filtered_melbourne_data = melbourne_data.dropna(axis=0)
# Choose target and features
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]

from sklearn.tree import DecisionTreeRegressor
# Define model
melbourne_model = DecisionTreeRegressor()
# Fit model
melbourne_model.fit(X, y)

DecisionTreeRegressor()

Una volta ottenuto un modello, ecco come calcolare l'**errore assoluto medio, MAE**:

In [2]:
from sklearn.metrics import mean_absolute_error

predicted_home_prices = melbourne_model.predict(X) # predict()
mean_absolute_error(y, predicted_home_prices) # formula MAE

434.71594577146544

**Il problema dei punteggi nel campione**.

La misura appena calcolata può essere definita un punteggio nel sample. Abbiamo utilizzato un unico sample di case sia per costruire il modello che per valutarlo. Ecco perché questo è negativo.

Immaginate che, nel grande mercato immobiliare, il colore della porta non sia correlato al prezzo della casa.

Tuttavia, nel campione di dati utilizzato per costruire il modello, tutte le case con porte verdi erano molto costose. Il modello ha il compito di trovare modelli che prevedano i prezzi delle case, quindi vedrà questo modello e prevederà sempre prezzi elevati per le case con porte verdi.

Poiché questo modello è stato ricavato dai dati di addestramento, il modello apparirà accurato nei dati di addestramento.

Ma se questo schema non si mantiene quando il modello vede nuovi dati, il modello sarebbe molto impreciso quando viene utilizzato nella pratica.

Dal momento che il valore pratico dei modelli deriva dall'elaborazione di previsioni su nuovi dati, misuriamo le prestazioni su dati che non sono stati utilizzati per costruire il modello. Il modo più semplice per farlo è escludere alcuni dati dal processo di costruzione del modello e poi usarli per testare l'accuratezza del modello su dati che non ha mai visto prima. Questi dati sono chiamati **Validation Data**.

La libreria **scikit-learn** ha una funzione **train_test_split** per dividere i dati in due parti. Utilizzeremo una parte di questi dati come dati di addestramento per adattare il modello e utilizzeremo gli altri dati come dati di validazione per calcolare l'errore medio-assoluto.

In [3]:
from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
# The split is based on a random number generator. Supplying a numeric value to
# the random_state argument guarantees we get the same split every time we
# run this script.
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0) # train_test_split() per dividere i dati
                    # random_state = Controls the shuffling applied to the data before applying the split. 
                                        # Pass an int for reproducible output across multiple function calls.
# Define model
melbourne_model = DecisionTreeRegressor()
# Fit model
melbourne_model.fit(train_X, train_y) # fttta il modello

# get predicted prices on validation data
val_predictions = melbourne_model.predict(val_X) # predict()
print(mean_absolute_error(val_y, val_predictions)) #formula MAE

260561.22659780504


L'errore assoluto medio per i dati all'interno del campione era di circa 500 dollari. Al di fuori del campione è di oltre 250.000 dollari.

Questa è la differenza tra un modello quasi esattamente corretto e uno inutilizzabile per la maggior parte degli scopi pratici. Come punto di riferimento, il valore medio delle case nei dati di validazione è di 1,1 milioni di dollari. Quindi l'errore nei nuovi dati è circa un quarto del valore medio della casa.

Ci sono molti modi per migliorare questo modello, ad esempio sperimentando per trovare caratteristiche migliori o tipi di modelli diversi.

## Esercizi

In [4]:
# Code you have previously used to load data
import pandas as pd
from sklearn.tree import DecisionTreeRegressor

# Path of the file to read
iowa_file_path = 'D:/Users/Alessio//OneDrive/Python/Kaggle/Intro to Machine Learning/train.csv'

home_data = pd.read_csv(iowa_file_path)
y = home_data.SalePrice
feature_columns = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[feature_columns]

# Specify Model
iowa_model = DecisionTreeRegressor()
# Fit Model
iowa_model.fit(X, y)

print("First in-sample predictions:", iowa_model.predict(X.head()))
print("Actual target values for those homes:", y.head().tolist())

# Set up code checking
from learntools.core import binder
binder.bind(globals())
from learntools.machine_learning.ex4 import *
print("Setup Complete")

First in-sample predictions: [208500. 181500. 223500. 140000. 250000.]
Actual target values for those homes: [208500, 181500, 223500, 140000, 250000]
Setup Complete


### Domanda 1
Split your data.   
Usare la funzione train_test_split per dividere i dati.

Assegnategli l'argomento random_state=1, in modo che le funzioni di controllo sappiano cosa aspettarsi quando verificano il vostro codice.

Ricordiamo che le caratteristiche sono caricate nel DataFrame **X** e l'obiettivo è caricato in **y**.

In [5]:
# Import the train_test_split function and uncomment
from sklearn.model_selection import train_test_split

# fill in and uncomment
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 1) # train_test_split() per dividere i dati

# Check your answer
step_1.check()

<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct</span>

### Domanda 2
Specificare e adattare il modello.   
Creare un modello **DecisionTreeRegressor** e adattarlo ai dati pertinenti. Impostare nuovamente random_state a 1 quando si crea il modello.

In [7]:
# You imported DecisionTreeRegressor in your last exercise
# and that code has been copied to the setup code above. So, no need to
# import it again

# Specify the model
iowa_model = DecisionTreeRegressor(random_state=1)

# Fit iowa_model with the training data (train_X e train_y).
iowa_model.fit(train_X, train_y)

# Check your answer
step_2.check()

[186500. 184000. 130000.  92000. 164500. 220000. 335000. 144152. 215000.
 262000.]
[186500. 184000. 130000.  92000. 164500. 220000. 335000. 144152. 215000.
 262000.]


<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct</span>

### Domanda 3
Fai previsioni con i Validation Data.

In [8]:
# Predict with all validation observations
val_predictions = iowa_model.predict(val_X)

# Check your answer
step_3.check()

<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct</span>

verificare le previsioni e i valori effettivi dai dati di convalida.

In [14]:
# print the top few validation predictions
print(max(val_predictions))
# print the top few actual prices from validation data
print(max(iowa_model.predict(X)))

755000.0
755000.0


### Domanda 4

Calcola la Mean Absolute Error nei Validation Data

In [10]:
from sklearn.metrics import mean_absolute_error
val_mae = mean_absolute_error(val_y, val_predictions)

# uncomment following line to see the validation_mae
print(val_mae)

# Check your answer
step_4.check()

29652.931506849316


<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct</span>