### Selezionare i dati dal modello

Il vostro set di dati conteneva troppe variabili per poterlo gestire, o anche per poterlo stampare bene. Come si può ridurre questa quantità schiacciante di dati a qualcosa di comprensibile?

Inizieremo scegliendo alcune variabili in base alla nostra intuizione. 

Per scegliere le variabili/colonne, dobbiamo vedere un elenco di tutte le colonne del dataset. Questo si ottiene con la proprietà columns del DataFrame (la riga di codice in basso).

In [2]:
import pandas as pd

In [3]:
# save filepath to variable for easier access
melbourne_file_path = 'D:/Users/Alessio//OneDrive/Python/Kaggle/Intro to Machine Learning/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe() # simile a .head()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13518.0,13580.0,7130.0,8205.0,13580.0,13580.0,13580.0
mean,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.610075,558.416127,151.96765,1964.684217,-37.809203,144.995216,7454.417378
std,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.962634,3990.669241,541.014538,37.273762,0.07926,0.103916,4378.581772
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,93.0,1940.0,-37.856822,144.9296,4380.0
50%,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,174.0,1999.0,-37.7564,145.058305,10331.0
max,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


In [4]:
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [5]:
# The Melbourne data has some missing values (some houses for which some variables weren't recorded.)
# We'll learn to handle missing values in a later tutorial.  
# Your Iowa data doesn't have missing values in the columns you use. 
# So we will take the simplest option for now, and drop houses from our data. 
# Don't worry about this much for now, though the code is:

# dropna drops missing values (think of na as "not available")
melbourne_data = melbourne_data.dropna(axis=0)

### Selezionare i prediction Target

Esistono molti modi per selezionare un sottoinsieme di dati. Il corso Pandas li tratta in modo più approfondito, ma per ora ci concentreremo su due approcci.

1. La notazione a punti, che si usa per selezionare il "prediction target".
2. Selezione con un elenco di colonne, che si usa per selezionare le "features".

È possibile estrarre una variabile con la **dot-notation**. Questa singola colonna è memorizzata in una Serie, che è in pratica come un **DataFrame** con una sola colonna di dati.

Utilizzeremo la **dot-notation** per selezionare la colonna che vogliamo predire, chiamata **prediction target**. Per convenzione, il target di predizione è chiamato **y**. Quindi il codice necessario per salvare i prezzi delle case nei dati di Melbourne è:

In [6]:
y = melbourne_data.Price

### Scegliere le Features

Le colonne che vengono inserite nel nostro modello (e successivamente utilizzate per fare previsioni) sono chiamate **featuers**. Nel nostro caso, si tratta delle colonne utilizzate per determinare il prezzo della casa. A volte si utilizzano come features tutte le colonne tranne quella di destinazione. Altre volte sarà meglio utilizzare un numero minore di caratteristiche.

Per ora, costruiremo un modello con poche caratteristiche. Più avanti vedremo come iterare e confrontare i modelli costruiti con caratteristiche diverse.

Si selezionano più funzioni fornendo un elenco di nomi di colonne all'interno di parentesi. Ogni elemento dell'elenco deve essere una stringa (con le virgolette).

Per convenzione sono le **X**.

In [9]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [10]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


Il controllo visivo dei dati con questi comandi è una parte importante del lavoro di un data scientist. Spesso si trovano sorprese nel set di dati che meritano un'ulteriore ispezione.

### Costruzione del modello

Per creare i modelli si utilizzerà la libreria **scikit-learn**. In fase di codifica, questa libreria viene scritta come **sklearn**, come si vedrà nel codice di esempio. **Scikit-learn** è facilmente la libreria più popolare per la modellazione dei tipi di dati tipicamente memorizzati in **DataFrames**.

Le fasi di costruzione e utilizzo di un modello sono:

1. **Definire**: Che tipo di modello sarà? Un albero decisionale? Un altro tipo di modello? Vengono specificati anche altri parametri del tipo di modello.
2. **Adattamento**: Catturare i modelli dai dati forniti. Questo è il cuore della modellazione.
3. **Prevedere**: Proprio quello che sembra
4. **Valutare**: Determinare l'accuratezza delle previsioni del modello.

In [11]:
from sklearn.tree import DecisionTreeRegressor

# Define model. Specify a number for random_state to ensure same results each run
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model
melbourne_model.fit(X, y)

DecisionTreeRegressor(random_state=1)

Molti modelli di apprendimento automatico consentono una certa casualità nell'addestramento del modello. Specificando un numero per **random_state** si ottiene lo stesso risultato in ogni esecuzione. Questa è considerata una buona pratica. Si può usare qualsiasi numero e la qualità del modello non dipenderà in modo significativo dal valore scelto.

Ora abbiamo un modello adattato che possiamo usare per fare previsioni.

In pratica, vorrete fare previsioni per le nuove case che verranno immesse sul mercato piuttosto che per le case di cui abbiamo già i prezzi. Ma faremo delle previsioni per le prime righe dei dati di addestramento per vedere come funziona la funzione **predict**.

In [14]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("\n The predictions are:")
print(melbourne_model.predict(X.head())) # predict() fa la previsione per la casa 1-2-4-6-7 (totale 5)

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954

 The predictions are:
[1035000. 1465000. 1600000. 1876000. 1636000.]


## Esercizi

In [15]:
# Code you have previously used to load data
import pandas as pd

# Path of the file to read
iowa_file_path = 'D:/Users/Alessio//OneDrive/Python/Kaggle/Intro to Machine Learning/train.csv'

home_data = pd.read_csv(iowa_file_path)

# Set up code checking
from learntools.core import binder
binder.bind(globals())
from learntools.machine_learning.ex3 import *

print("Setup Complete")

Setup Complete


### Domanda 1

Specificare il target di previsione.  
Selezionare la variabile target, che corrisponde al prezzo di vendita. Salvate questa variabile in una nuova variabile chiamata y. Dovrete stampare un elenco delle colonne per trovare il nome della colonna che vi serve.

In [16]:
# print the list of columns in the dataset to find the name of the prediction target
home_data.columns

Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
       'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
       'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
       'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
       'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
       'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
       'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
       'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
       'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
       'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
       'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
       'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
       'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',
       'GarageCond', 'PavedDrive

In [18]:
y = home_data.SalePrice
y

0       208500
1       181500
2       223500
3       140000
4       250000
         ...  
1455    175000
1456    210000
1457    266500
1458    142125
1459    147500
Name: SalePrice, Length: 1460, dtype: int64

### Domanda 2
Crea X.  
Ora si creerà un DataFrame chiamato X contenente le caratteristiche predittive.  
Poiché si vogliono solo alcune colonne dei dati originali, si creerà prima un elenco con i nomi delle colonne che si vogliono in X.  
Nell'elenco verranno utilizzate solo le seguenti colonne (è possibile copiare e incollare l'intero elenco per risparmiare la digitazione, anche se sarà necessario aggiungere le virgolette):

LotArea  
YearBuilt  
1stFlrSF  
2ndFlrSF   
FullBath  
BedroomAbvGr  
TotRmsAbvGrd   
Dopo aver creato l'elenco delle caratteristiche, utilizzarlo per creare il DataFrame che verrà utilizzato per adattare il modello.

In [19]:
# Create the list of features below
feature_names = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']

# Select data corresponding to features in feature_names
X = home_data[feature_names]

# Check your answer
step_2.check()

<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct</span>

Prima di costruire un modello, dare una rapida occhiata a X per verificare che sia sensato.

In [24]:
# Review data
# print description or statistics from X
print('Descrizione: \n', X.describe())

# print the top few lines
print('\n Prime righe: \n', X.head())

Descrizione: 
              LotArea    YearBuilt     1stFlrSF     2ndFlrSF     FullBath  \
count    1460.000000  1460.000000  1460.000000  1460.000000  1460.000000   
mean    10516.828082  1971.267808  1162.626712   346.992466     1.565068   
std      9981.264932    30.202904   386.587738   436.528436     0.550916   
min      1300.000000  1872.000000   334.000000     0.000000     0.000000   
25%      7553.500000  1954.000000   882.000000     0.000000     1.000000   
50%      9478.500000  1973.000000  1087.000000     0.000000     2.000000   
75%     11601.500000  2000.000000  1391.250000   728.000000     2.000000   
max    215245.000000  2010.000000  4692.000000  2065.000000     3.000000   

       BedroomAbvGr  TotRmsAbvGrd  
count   1460.000000   1460.000000  
mean       2.866438      6.517808  
std        0.815778      1.625393  
min        0.000000      2.000000  
25%        2.000000      5.000000  
50%        3.000000      6.000000  
75%        3.000000      7.000000  
max        8

### Domanda 3
Specify and Fit Model   
Creare un DecisionTreeRegressor e salvarlo iowa_model. Assicurarsi di aver eseguito l'importazione da sklearn per eseguire questo comando.   
Quindi, adattare il modello appena creato utilizzando i dati in X e y salvati in precedenza.

In [25]:
from sklearn.tree import DecisionTreeRegressor

#specify the model. 
#For model reproducibility, set a numeric value for random_state when specifying the model
iowa_model = DecisionTreeRegressor(random_state=1)

# Fit model
iowa_model.fit(X, y)

# Check your answer
step_3.check()

<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct</span>

### Domanda 4
Effettuare le previsioni con il comando predict del modello utilizzando X come dati. Salvare i risultati in una variabile chiamata predictions.

In [28]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("\n The predictions are:")
predictions = iowa_model.predict(X) # predict()
print(predictions)

# Check your answer
step_4.check()

Making predictions for the following 5 houses:
   LotArea  YearBuilt  1stFlrSF  2ndFlrSF  FullBath  BedroomAbvGr  \
0     8450       2003       856       854         2             3   
1     9600       1976      1262         0         2             3   
2    11250       2001       920       866         2             3   
3     9550       1915       961       756         1             3   
4    14260       2000      1145      1053         2             4   

   TotRmsAbvGrd  
0             8  
1             6  
2             6  
3             7  
4             9  

 The predictions are:
[208500. 181500. 223500. ... 266500. 142125. 147500.]


<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct</span>