## Alberi delle decisioni

Inizieremo con una panoramica sul funzionamento dei modelli di apprendimento automatico e sul loro utilizzo. Questo può sembrare elementare se avete già fatto modelli statistici o apprendimento automatico. Non preoccupatevi, presto passeremo alla costruzione di modelli potenti.

Il corso prevede la costruzione di modelli attraverso il seguente scenario:

Vostro cugino ha guadagnato milioni di dollari speculando sul settore immobiliare. Si è offerto di diventare socio d'affari con voi a causa del vostro interesse per la scienza dei dati. Lui fornirà i soldi e voi fornirete i modelli per prevedere il valore delle varie case.

Chiedete a vostro cugino come ha fatto a prevedere il valore degli immobili in passato e lui vi risponde che si tratta solo di intuizione. Ma più domande rivelano che ha identificato i modelli di prezzo delle case che ha visto in passato e li usa per fare previsioni sulle nuove case che sta considerando.

L'apprendimento automatico funziona allo stesso modo. Inizieremo con un modello chiamato **albero delle decisioni**. Esistono modelli più sofisticati che forniscono previsioni più accurate. Ma gli alberi decisionali sono facili da capire e sono la base per alcuni dei migliori modelli della scienza dei dati.

Per semplicità, inizieremo con **l'albero decisionale** più semplice possibile.

![image.png](attachment:image.png)

Divide le case in due sole categorie. Il prezzo previsto per ogni casa in esame è il prezzo medio storico delle case della stessa categoria.

Utilizziamo i dati per decidere come suddividere le case in due gruppi e poi per determinare il prezzo previsto per ciascun gruppo. Questa fase di cattura dei modelli dai dati si chiama adattamento o addestramento del modello. I dati utilizzati per adattare il modello sono chiamati dati di addestramento.

I dettagli relativi all'adattamento del modello (ad esempio, come suddividere i dati) sono abbastanza complessi da essere trattati in un secondo momento. Dopo che il modello è stato adattato, è possibile applicarlo a nuovi dati per prevedere i prezzi di altre case.

![image.png](attachment:image.png)

L'albero decisionale a sinistra (1st Decision Tree) ha probabilmente più senso, perché coglie la realtà che le case con più camere da letto tendono a essere vendute a prezzi più alti rispetto a quelle con meno camere da letto. Il più grande difetto di questo modello è che non coglie la maggior parte dei fattori che influenzano il prezzo delle case, come il numero di bagni, le dimensioni del lotto, la posizione, ecc.

È possibile catturare un maggior numero di fattori utilizzando un albero con più "spaccature". Questi alberi sono detti "più profondi". Un albero decisionale che consideri anche la dimensione totale del lotto di ogni casa potrebbe avere questo aspetto:

![image.png](attachment:image.png)

Si prevede il prezzo di una qualsiasi casa percorrendo l'albero decisionale, scegliendo sempre il percorso corrispondente alle caratteristiche della casa. Il prezzo previsto per la casa si trova in fondo all'albero. Il punto in basso in cui facciamo una previsione è chiamato foglia.

Le suddivisioni e i valori delle foglie saranno determinati dai dati, quindi è il momento di verificare i dati con cui si lavorerà.

## Dati

Il primo passo in qualsiasi progetto di apprendimento automatico è quello di familiarizzare con i dati. A tale scopo si utilizzerà la libreria **Pandas**. Pandas è lo strumento principale utilizzato dagli scienziati dei dati per esplorare e manipolare i dati. La maggior parte delle persone abbrevia pandas nel proprio codice come pd. Lo facciamo con il comando

In [1]:
import pandas as pd

La parte più importante della libreria Pandas è il **DataFrame**. DataFrame contiene il tipo di dati che si potrebbe considerare una tabella. È simile a un foglio di Excel o a una tabella di un database SQL.

Pandas dispone di metodi potenti per la maggior parte delle operazioni che si desidera eseguire con questo tipo di dati.

A titolo di esempio, esamineremo i dati relativi ai prezzi delle case a Melbourne, in Australia. Negli esercizi pratici, applicherete gli stessi processi a un nuovo set di dati, che contiene i prezzi delle case in Iowa.

I dati di esempio (Melbourne) si trovano nel percorso file ../input/melbourne-housing-snapshot/melb_data.csv.

Carichiamo ed esploriamo i dati con i seguenti comandi:

In [2]:
# save filepath to variable for easier access
melbourne_file_path = 'D:/Users/Alessio//OneDrive/Python/Kaggle/Intro to Machine Learning/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe() # simile a .head()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13518.0,13580.0,7130.0,8205.0,13580.0,13580.0,13580.0
mean,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.610075,558.416127,151.96765,1964.684217,-37.809203,144.995216,7454.417378
std,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.962634,3990.669241,541.014538,37.273762,0.07926,0.103916,4378.581772
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,93.0,1940.0,-37.856822,144.9296,4380.0
50%,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,174.0,1999.0,-37.7564,145.058305,10331.0
max,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


I risultati mostrano 8 numeri per ogni colonna del dataset originale. Il primo numero, il conteggio, mostra quante righe hanno valori non mancanti.

I valori mancanti sono dovuti a molte ragioni. Ad esempio, le dimensioni della seconda camera da letto non vengono rilevate quando si effettua un'indagine su una casa con una sola camera da letto. Torneremo sull'argomento dei dati mancanti.

Il secondo valore è la media, ovvero la media. Sotto di esso, std è la deviazione standard, che misura la dispersione numerica dei valori.

Per interpretare i valori minimo, 25%, 50%, 75% e massimo, immaginate di ordinare ogni colonna dal valore più basso a quello più alto. Il primo valore (il più piccolo) è il minimo. Se si percorre un quarto dell'elenco, si troverà un numero che è più grande del 25% dei valori e più piccolo del 75% dei valori. Questo è il valore del 25% (pronunciato "25° percentile"). Il 50° e il 75° percentile sono definiti in modo analogo e il massimo è il numero più grande.

## Esercizi

Questo esercizio mette alla prova la capacità di leggere un file di dati e di comprenderne le statistiche.

Negli esercizi successivi, si applicheranno tecniche per filtrare i dati, costruire un modello di apprendimento automatico e migliorare iterativamente il modello.

Gli esempi del corso utilizzano i dati di Melbourne. Per essere sicuri di poter applicare queste tecniche da soli, dovrete applicarle a un nuovo set di dati (con i prezzi delle case dell'Iowa).

Gli esercizi utilizzano un ambiente di codifica "notebook". Nel caso in cui non abbiate familiarità con i notebook, abbiamo un video introduttivo di 90 secondi.

In [3]:
# Set up code checking
from learntools.core import binder
binder.bind(globals())
from learntools.machine_learning.ex2 import *
print("Setup Complete")

Setup Complete


### Domanda 1

Leggere il file di dati Iowa in un DataFrame di Pandas chiamato home_data.

In [4]:
import pandas as pd

# Path of the file to read
iowa_file_path = 'D:/Users/Alessio//OneDrive/Python/Kaggle/Intro to Machine Learning/train.csv'

# Fill in the line below to read the file into a variable home_data
home_data = pd.read_csv(iowa_file_path)

# Call line below with no argument to check that you've loaded the data correctly
step_1.check()

<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct</span>

### Domanda 2
Utilizzate il comando **describe()** che avete imparato per visualizzare le statistiche di riepilogo dei dati. Quindi inserire le variabili per rispondere alle seguenti domande

In [5]:
home_data.describe() 

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
count,1460.0,1460.0,1201.0,1460.0,1460.0,1460.0,1460.0,1460.0,1452.0,1460.0,...,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0
mean,730.5,56.89726,70.049958,10516.828082,6.099315,5.575342,1971.267808,1984.865753,103.685262,443.639726,...,94.244521,46.660274,21.95411,3.409589,15.060959,2.758904,43.489041,6.321918,2007.815753,180921.19589
std,421.610009,42.300571,24.284752,9981.264932,1.382997,1.112799,30.202904,20.645407,181.066207,456.098091,...,125.338794,66.256028,61.119149,29.317331,55.757415,40.177307,496.123024,2.703626,1.328095,79442.502883
min,1.0,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,34900.0
25%,365.75,20.0,59.0,7553.5,5.0,5.0,1954.0,1967.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0,2007.0,129975.0
50%,730.5,50.0,69.0,9478.5,6.0,5.0,1973.0,1994.0,0.0,383.5,...,0.0,25.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,163000.0
75%,1095.25,70.0,80.0,11601.5,7.0,6.0,2000.0,2004.0,166.0,712.25,...,168.0,68.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,214000.0
max,1460.0,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,1600.0,5644.0,...,857.0,547.0,552.0,508.0,480.0,738.0,15500.0,12.0,2010.0,755000.0


In [16]:
# What is the average lot size (rounded to nearest integer)?
import numpy as np
avg_lot_size = round(np.mean(home_data.loc[:, 'LotArea']))
# Si può anche vedere diretto il valore in tabella

# As of today, how old is the newest home (current year - the date in which it was built)
newest_home_age = 2022 - max(home_data.loc[:, 'YearBuilt'])
# Si può anche vedere diretto il valore in tabella e sottrarlo ad oggi

# Checks your answers
step_2.check()

<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct</span>