# Model Stacking #

In questo notebook sono usati i dataset su cui è stata operata la fase preliminare di __preparazione dei dati__, la __divisione__ in base alla contea e la __selezione delle feature__. <br>

È costruito un __metamodello__ che fa utilizzo di un dataset le cui feature sono le predizioni dei tre modelli costruiti, rispettivamente un __DecisionTreeRegressor__, un __AdaBoostRegressor__ e un __RandomForestRegressor__. <br>

Il metamodello è allenato è allenato con un __LinearRegressor__ sulle stesse instanze di train usate per generare le predizioni del nuovo dataset.

In [2]:
# Libraries
import pandas            as pd
import numpy             as np
import matplotlib.pyplot as plt
import warnings

from sklearn.metrics         import mean_squared_error
from sklearn.ensemble        import RandomForestRegressor
from sklearn.ensemble        import AdaBoostRegressor
from sklearn.tree            import DecisionTreeRegressor
from sklearn.linear_model    import LinearRegression 
## Lettura dei dati ##

warnings.filterwarnings('ignore')

## Lettura dei dati ##

In [3]:
# local file paths

dir_name = 'selezione'
region_names = np.array(['A', 'B', 'C'])

fp_Xtrain = []
fp_Xval   = []
fp_Xtest  = []
fp_ytrain = []
fp_yval   = []
fp_ytest  = []

for i in range(3):
    fp_Xtrain.append(dir_name + f'/X_train{region_names[i]}.csv')
    fp_Xval  .append(dir_name + f'/X_val{  region_names[i]}.csv')
    fp_Xtest .append(dir_name + f'/X_test{ region_names[i]}.csv')
    fp_ytrain.append(dir_name + f'/y_train{region_names[i]}.csv')
    fp_yval  .append(dir_name + f'/y_val{  region_names[i]}.csv')
    fp_ytest .append(dir_name + f'/y_test{ region_names[i]}.csv')

In [4]:
# Lettura dei dati

X_train = []
X_val   = []
X_test  = []
y_train = []
y_val   = []
y_test  = []

for i in range(3):
    X_train.append(pd.read_csv(fp_Xtrain[i], low_memory=False))
    X_val  .append(pd.read_csv(fp_Xval  [i], low_memory=False))        
    X_test .append(pd.read_csv(fp_Xtest [i], low_memory=False))
    y_train.append(pd.read_csv(fp_ytrain[i], low_memory=False))
    y_val  .append(pd.read_csv(fp_yval  [i], low_memory=False))        
    y_test .append(pd.read_csv(fp_ytest [i], low_memory=False))
    
X_train = np.array(X_train, dtype=object)
X_val   = np.array(X_val,   dtype=object)
X_test  = np.array(X_test,  dtype=object)
y_train = np.array(y_train, dtype=object)
y_val   = np.array(y_val,   dtype=object)
y_test  = np.array(y_test,  dtype=object)

In [5]:
def dimensionality(y=False):
    for i in range(3):
        print(f'X_train{region_names[i]}: {X_train[i].shape}')
        print(f'X_val{region_names[i]}:   {X_val  [i].shape}')
        print(f'X_test{region_names[i]}:  {X_test [i].shape}')
        if y:
            print(f'y_train{region_names[i]}: {y_train[i].shape}')
            print(f'y_val{region_names[i]}:   {y_val  [i].shape}')
            print(f'y_test{region_names[i]}:  {y_test [i].shape}')
            print()

In [6]:
dimensionality(y=True)

X_trainA: (26819, 55)
X_valA:   (9006, 55)
X_testA:  (9085, 55)
y_trainA: (26819, 1)
y_valA:   (9006, 1)
y_testA:  (9085, 1)

X_trainB: (8119, 32)
X_valB:   (2658, 32)
X_testB:  (2606, 32)
y_trainB: (8119, 1)
y_valB:   (2658, 1)
y_testB:  (2606, 1)

X_trainC: (64771, 33)
X_valC:   (21908, 33)
X_testC:  (21876, 33)
y_trainC: (64771, 1)
y_valC:   (21908, 1)
y_testC:  (21876, 1)



## Modelli precedentemente individuati ##

### Albero di decisione ###

In [7]:
dt_model = np.array([
    DecisionTreeRegressor(max_leaf_nodes = 10),
    DecisionTreeRegressor(max_leaf_nodes = 10),
    DecisionTreeRegressor(max_leaf_nodes = 10)
])

### Boosting ###

In [8]:
boost_model = np.array([
    AdaBoostRegressor(dt_model[0], n_estimators = 20),
    AdaBoostRegressor(dt_model[1], n_estimators = 20),
    AdaBoostRegressor(dt_model[2], n_estimators = 20)
])

### Foresta ###

In [9]:
rf_model = np.array([
    RandomForestRegressor(n_estimators = 850, n_jobs = -1),
    RandomForestRegressor(n_estimators = 700, n_jobs = -1),
    RandomForestRegressor(n_estimators = 700, n_jobs = -1)
])

<br>

In [10]:
models = np.array([
    dt_model,
    boost_model,
    rf_model
])

## Costruzione del Metamodello ## 

Costruzione di un dataset __Y__ cui ciascuna colonna contiene le __predizioni dei modelli selezionati per le istanze di Train__. Le colonne hanno il nome del tipo di modello usato.
L'operazione è usata per ottenere un dataset Y sia per il __Train__ che per il __Test__.

In [11]:
def gen_Y(X, y, models, col_names, index):
    Y = pd.DataFrame()
    for i in range(len(col_names)):
        models[i][index].fit(X[index], y[index])
        Y[col_names[i]] = models[i][index].predict(X[index])
    return Y

In [12]:
def gen_arrY(X, y, models, col_names):
    Y = []
    for i in range(len(X)):
        Y.append(gen_Y(X, y, models, col_names, i))
    Y = np.array(Y, dtype=object)
    return Y

In [13]:
col_names = ['DecisionTree', 'Boosting', 'RandomForest']

In [14]:
Y_train = gen_arrY(X_train, y_train, models, col_names)
Y_test  = gen_arrY(X_test,  y_test,  models, col_names)

In [15]:
Y_train[0].head(20)

Unnamed: 0,DecisionTree,Boosting,RandomForest
0,0.050485,0.266712,0.055412
1,0.007182,0.11334,0.025957
2,0.007182,0.056837,-0.006884
3,0.007182,0.032949,-0.019451
4,0.017906,0.095386,0.021818
5,0.007182,0.091944,0.023328
6,0.017906,0.201193,0.123257
7,0.007182,0.182836,-0.028503
8,0.017906,0.182836,0.026966
9,0.007182,0.071312,-0.00209


In [16]:
Y_test[0].head(20)

Unnamed: 0,DecisionTree,Boosting,RandomForest
0,0.00752,0.034881,0.019503
1,0.040975,0.659259,0.013394
2,0.00752,-0.88967,0.017264
3,0.00752,-0.02548,-0.05204
4,0.040975,-0.861412,0.002068
5,0.040975,0.921076,-0.021154
6,0.00752,-1.097865,-0.00032
7,0.00752,0.00769,-0.010995
8,0.011041,0.039852,-0.033108
9,0.00752,0.00769,-0.044424


In [17]:
def dimensionalityY():
    for i in range(3):
        print(region_names[i])
        print(f'X_train{region_names[i]}: {X_train[i].shape}')
        print(f'Y_train{region_names[i]}: {Y_train[i].shape}')
        print(f'y_train{region_names[i]}: {y_train[i].shape}')
        print()
        print(f'X_test{region_names[i]}: {X_test[i].shape}')
        print(f'Y_test{region_names[i]}: {Y_test[i].shape}')
        print(f'y_test{region_names[i]}: {y_test[i].shape}')
        print()

In [18]:
dimensionalityY()

A
X_trainA: (26819, 55)
Y_trainA: (26819, 3)
y_trainA: (26819, 1)

X_testA: (9085, 55)
Y_testA: (9085, 3)
y_testA: (9085, 1)

B
X_trainB: (8119, 32)
Y_trainB: (8119, 3)
y_trainB: (8119, 1)

X_testB: (2606, 32)
Y_testB: (2606, 3)
y_testB: (2606, 1)

C
X_trainC: (64771, 33)
Y_trainC: (64771, 3)
y_trainC: (64771, 1)

X_testC: (21876, 33)
Y_testC: (21876, 3)
y_testC: (21876, 1)



## Regressione Lineare ##

Modello di regressione lineare allenato sul nuovo dataset costruito con le predizioni per le __Y di train__ e le stesse __y di train__ su cui sono stati allenati i modelli. Le predizioni sono calcolate sulla base del nuovo dataset costruito con le predizioni per le __Y di test__.

In [19]:
def linear_regression_preds(Y_train, y_train, Y_test):
    preds = []
    for Y_trn, y_trn, Y_tst in zip(Y_train, y_train, Y_test):
        preds.append(
            LinearRegression(fit_intercept=True).fit(Y_trn, y_trn).predict(Y_tst)
        )
    preds = np.array(preds, dtype = object)
    return preds

In [20]:
y_preds = linear_regression_preds(Y_train, y_train, Y_test)

Sulla base del confronto tra predizioni e valori attesi calcolo l'errore.

In [21]:
def get_mse(y_trues, y_preds):
    mse = []
    for y_true, y_pred in zip(y_trues, y_preds):
        mse.append(mean_squared_error(y_true, y_pred))
    mse = np.array(mse, dtype = object)
    return mse

In [22]:
mse = get_mse(y_test, y_preds)

In [23]:
for i in range(3):
    print(region_names[i])
    print(mse[i])    
    print()    

A
0.0016997970728586968

B
0.0021310291641643032

C
0.0022809873002168383



Confronto con l'errore del modello banale

In [24]:
def mse_trivial(y_train, y):
        y_pred = np.repeat(y_train.mean(), len(y_train))
        return ((y_pred - y.reshape(-1,1))**2).mean()

In [25]:
for i in range(3):
    print(region_names[i])
    print(mse_trivial(y_test[i].values.ravel(), y_preds[i]))    
    print()  

A
0.027573668566548814

B
0.019152250649440997

C
0.027546206852880815



### Analisi dei risultati ###

Rispetto al modello banale gli errori del metamodello sono circa cieci volte più precise: seppur il modello non sia molto preciso, combinare le informazioni di più modelli sembra essere risultato vantaggioso.

## Migliori Predizioni ##

In [46]:
def best_prediction(X, y_trues, y_preds, index, nrow=10):
    err  = abs(y_trues[index] - y_preds[index])
    err  = err.values.ravel()
    args = err.argsort()
    for i in range(nrow):
        print(
            "Row : %d, logerror : %2.7f error: %2.7f" % (
                args[i],
                (y_trues[index].iloc[args[i]])['logerror'],
                err[args[i]]
            )
        )
    return X[index].iloc[args[:nrow]].transpose()

### Prima Contea 1286 ###

In [47]:
best_prediction(X_test, y_test, y_preds, 0, nrow=5)

Row : 4204, logerror : 0.0469000 error: 0.0000018
Row : 7126, logerror : -0.0182000 error: 0.0000019
Row : 7055, logerror : -0.0050000 error: 0.0000040
Row : 7353, logerror : 0.0198000 error: 0.0000044
Row : 4263, logerror : 0.0046090 error: 0.0000059


Unnamed: 0,4204,7126,7055,7353,4263
bathroomcnt,2.0,2.0,3.0,2.5,1.0
bedroomcnt,2.0,3.0,4.0,3.0,1.0
buildingqualitytypeid,7.0,7.0,7.0,7.0,7.0
calculatedbathnbr,2.0,2.0,3.0,2.5,1.0
calculatedfinishedsquarefeet,1274.0,1264.0,2127.0,1345.0,822.0
finishedsquarefeet12,1274.0,1264.0,2127.0,1345.0,822.0
fireplacecnt,0.0,0.0,0.0,0.0,0.0
latitude,33667400.0,33724430.0,33615720.0,33583390.0,33779000.0
longitude,117850500.0,118036600.0,117671800.0,117719600.0,117997000.0
lotsizesquarefeet,7205.0,6030.0,8710.0,2550.0,7205.0


Condiderazioni:
- il valore assoluto dei `logerror` è relativamente piccolo.
- le grandezza di 4 delle 5 case è simile come indicano `bedroomcnt`, `bathroomcnt` e `lotsizesquarefeet`. Una casa ha un numero contenuto di stanze e una superficie decisamente più piccola rispetto alle altre.
- tutte le case hanno lo stesso `buildingqualitytypeid` pari a 7
- tutte le case sono di città differenti, due appartengono alla stessa regione.
- tutte le case hanno lo stesso `rawcensustractandblock`.
- il `period_mean_price` è molto variabile, mentre la variabilità del `neighborhood_mean_price` è contenuta.
- tutte e cinque le case sono sprovviste di un impianto antincendio (`fireplacecnt` = 0) e sono sprovviste di piscina (`poolcnt` = 0).
- quattro case su cinque sono state assegnate nel 2015 (flag `assessmentyear_2015` accesso).
- tutte e cinque le case hanno il missing flag per `buildingqualitytypeid` e `unitcnt` acceso.
- per tutte e cinque le case i flag `heatingorsystemtypeid` sono sempre spenti (valori non presenti nel train oppure altre feature eliminate durante la selezione). 

### Seconda Contea 2061 ###

In [48]:
best_prediction(X_test, y_test, y_preds, 1, nrow=5)

Row : 1698, logerror : 0.0609842 error: 0.0000032
Row : 773, logerror : 0.1458000 error: 0.0000075
Row : 989, logerror : -0.0051408 error: 0.0000372
Row : 794, logerror : 0.0411000 error: 0.0000412
Row : 1794, logerror : -0.0243876 error: 0.0000658


Unnamed: 0,1698,773,989,794,1794
bathroomcnt,3.5,2.0,2.0,3.0,2.0
bedroomcnt,4.0,3.0,4.0,3.0,4.0
calculatedbathnbr,3.5,2.0,2.0,3.0,2.0
calculatedfinishedsquarefeet,3695.0,1858.0,1716.0,2030.0,2030.0
finishedsquarefeet12,3695.0,1858.0,1716.0,2030.0,2030.0
fireplacecnt,3.0,1.0,1.0,1.0,1.0
latitude,34187540.0,34177260.0,34178020.0,34251670.0,34218250.0
longitude,119231000.0,119207900.0,118949000.0,118767200.0,118881200.0
lotsizesquarefeet,6006.0,5227.0,9342.0,10653.0,8323.0
rawcensustractandblock,61110040.0,61110040.0,61110060.0,61110080.0,61110060.0


Condiderazioni:
- il valore assoluto dei `logerror` varia in un range relativamente contenuto.
- il numero di stanze è molto simile: `bedroomcnt` è pari a 3 o 4, `bathroomcnt` a 2 o 3, infatti `lotsizesquarefeet` è simile per quattro case, mentre per una quinta casa ha una superficie decisamente maggiore (infatti `living_area_prop` per questa casa è circa il doppio delle altre).
- la casa con molta superficie ha inoltre ben 3 impianti anticendio (`fireplacecnt`); le altre quattro ne hanno solo uno.
- tutte le case hanno lo stesso `rawcensustractandblock`.
- tutte le case sono di città e regioni differenti.
- tutte e cinque le case sono sprovviste di piscina (`poolcnt` = 0).
- quattro case su cinque sono state assegnate nel 2015 (flag `assessmentyear_2015` accesso).
- quattro delle cinque case hanno `propertylandusetypeid` pari a 261.

### Terza Contea 3101 ###

In [50]:
best_prediction(X_test, y_test, y_preds, 2, nrow=5)

Row : 3725, logerror : -0.1831224 error: 0.0000005
Row : 15384, logerror : -0.0273226 error: 0.0000042
Row : 17022, logerror : 0.0357668 error: 0.0000042
Row : 8248, logerror : 0.0070000 error: 0.0000094
Row : 8436, logerror : -0.0790000 error: 0.0000123


Unnamed: 0,3725,15384,17022,8248,8436
bathroomcnt,2.0,1.0,1.0,3.0,2.0
bedroomcnt,3.0,2.0,2.0,3.0,2.0
buildingqualitytypeid,6.0,5.0,4.0,4.0,7.0
calculatedbathnbr,2.0,1.0,1.0,3.0,2.0
calculatedfinishedsquarefeet,1690.0,964.0,1113.0,2443.0,980.0
finishedsquarefeet12,1690.0,964.0,1113.0,2443.0,980.0
latitude,34159070.0,34180920.0,34035010.0,34573940.0,34402900.0
longitude,118315400.0,118558500.0,118153000.0,118007700.0,118464000.0
lotsizesquarefeet,7418.0,21776.0,5450.0,7138.0,78027.0
rawcensustractandblock,60373120.0,60371390.0,60375300.0,60379110.0,60379200.0


Condiderazioni:
- il valore assoluto dei `logerror` varia in un range relativamente molto piccolo.
- ci sono case un po' più piccole e un po' più grandi: il `bedroomcnt` e `bathroomcnt` variano tra 1 e 4, ciò si riflette in `finishedsquarefeet12`.
- `calculatedfinishedsquarefeet` e `finishedsquarefeet12` per tutte  e cinque le case hanno lo stesso valore.
- tre case sono state costruite prima degli anni '50 come evidenzia `yearbuilt`.
- tutte le case sono di città e regioni differenti.
- tre case hanno `heatingorsystemtypeid` pari a 2, le altre due a 7.
- quattro case su cinque hanno `propertycountylandusecode` pari a 100.
- tutte e cinque le case hanno un `propertyzoningdesc` non frequente.

## Peggiori Predizoini ##

In [52]:
def worst_prediction(X, y_trues, y_preds, index, nrow=10):
    err  = abs(y_trues[index] - y_preds[index])
    err  = err.values.ravel()
    args = err.argsort()[::-1]
    for i in range(nrow):
        print(
            "Row : %d, logerror : %2.7f error: %2.7f" % (
                args[i],
                (y_trues[index].iloc[args[i]])['logerror'],
                err[args[i]]
            )
        )
    return X[index].iloc[args[:nrow]].transpose()

### Prima Contea 1286 ###

In [53]:
worst_prediction(X_test, y_test, y_preds, 0, nrow=5)

Row : 1481, logerror : 2.4656840 error: 0.7085885
Row : 6773, logerror : 2.0550000 error: 0.6617327
Row : 7731, logerror : -0.1984006 error: 0.6601608
Row : 7107, logerror : -0.0694000 error: 0.5384818
Row : 6451, logerror : 2.3224013 error: 0.5320029


Unnamed: 0,1481,6773,7731,7107,6451
bathroomcnt,2.5,0.0,0.0,2.5,1.0
bedroomcnt,4.0,0.0,0.0,3.0,4.0
buildingqualitytypeid,7.0,7.0,7.0,7.0,7.0
calculatedbathnbr,2.5,2.0,2.0,2.5,1.0
calculatedfinishedsquarefeet,2186.0,1547.0,1547.0,1454.0,1764.0
finishedsquarefeet12,2186.0,1524.0,1524.0,1454.0,1764.0
fireplacecnt,0.0,0.0,0.0,0.0,0.0
latitude,33695930.0,33673180.0,33630020.0,33748110.0,33662060.0
longitude,117901100.0,117657700.0,117582800.0,117963100.0,117999800.0
lotsizesquarefeet,6750.0,7205.0,80148.0,2000.0,5551.0


Condiderazioni:
- il valore assoluto dei `logerror` è positivo e piccolo per tre predizioni, negativo e piccolo per le altre due.
- ci sono due case il cui `bedroomcnt` e `bathroomcnt` è pari a 0, il che è alquanto improbabile. Può essere sintomo di un dataset mal compilato o di un tipo di informazione mancante non interita come Nan.
- nessuna casa ha un impianto anticendio (`fireplacecnt` pari a 0)
- fatta eccezione per una casa venduta l'8 Gennaio, `int_transactiondate` suggerisce che le altre quattro siano state vendute nei mesi finali dell'anno.
- una casa ha una piscina (bit di `poolcnt` acceso).
- tutte le case sono di città e regioni differenti.
- tutte e cinque le case hanno il missing flag per buildingqualitytypeid e unitcnt acceso.
- per nessuna casa ho informazione su `heatingorsystemtypeid` (non presente in train o eliminato dalla feature selection)
- quattro case su cinque hanno `propertylandusetypeid` pari a 261 e quattro su cinque `propertycountylandusecode` pari a 122.

### Seconda Contea 2061 ###

In [56]:
worst_prediction(X_test, y_test, y_preds, 1, nrow=5)

Row : 1085, logerror : -0.0336000 error: 0.6240503
Row : 56, logerror : 2.3300000 error: 0.5950939
Row : 1393, logerror : 2.1773627 error: 0.5317995
Row : 1845, logerror : -2.2381122 error: 0.4723513
Row : 2238, logerror : 1.3631378 error: 0.4209428


Unnamed: 0,1085,56,1393,1845,2238
bathroomcnt,2.0,2.0,2.0,1.0,2.5
bedroomcnt,3.0,3.0,5.0,3.0,2.0
calculatedbathnbr,2.0,2.0,2.0,1.0,2.5
calculatedfinishedsquarefeet,1160.0,1696.0,1860.0,1759.0,1240.0
finishedsquarefeet12,1160.0,1696.0,1860.0,1759.0,1240.0
fireplacecnt,0.0,1.0,1.0,1.0,1.0
latitude,34258520.0,34269060.0,34228590.0,34182040.0,34177320.0
longitude,118769400.0,118800700.0,119191900.0,119174200.0,118785900.0
lotsizesquarefeet,7000.0,8257.0,6534.0,6000.0,7205.0
rawcensustractandblock,61110080.0,61110080.0,61110030.0,61110040.0,61110080.0


Condiderazioni:
- per tre istante il valore assoluto del `logerror` è molto grande.
- il numero di stanze è molto simile: `bedroomcnt` è pari a 2 o 3 (una casa ha ben 5 camere da letto) , `bathroomcnt` a 1 o 2, infatti `lotsizesquarefeet` è simile.
- quattro case su cinque hanno un impianto anticendio (`fireplacecnt`).
- ci sono due coppie di case della stessa città.
- quattro case su cinque sono state costruite tra gli anni '60 e '70.
- due case sono state vendute il 7 gennaio.
- tutte e cinque le case sono sprovviste di piscina (`poolcnt` = 0).
- quattro delle cinque case hanno `propertylandusetypeid` pari a 261.

### Terza Contea 3101 ###

In [55]:
worst_prediction(X_test, y_test, y_preds, 2, nrow=5)

Row : 5889, logerror : 2.2370694 error: 1.0158254
Row : 8793, logerror : 2.6198761 error: 1.0031500
Row : 12840, logerror : 0.6217000 error: 0.9122410
Row : 18706, logerror : -2.1756961 error: 0.7333424
Row : 2702, logerror : -1.3240000 error: 0.6130974


Unnamed: 0,5889,8793,12840,18706,2702
bathroomcnt,7.0,6.0,2.0,2.0,2.0
bedroomcnt,11.0,12.0,3.0,1.0,4.0
buildingqualitytypeid,8.0,5.0,7.0,8.0,4.0
calculatedbathnbr,7.0,6.0,2.0,2.0,2.0
calculatedfinishedsquarefeet,6111.0,8469.0,1202.0,1678.0,1232.0
finishedsquarefeet12,6111.0,8469.0,1202.0,1678.0,1232.0
latitude,34162210.0,34072330.0,34025720.0,34038570.0,34042550.0
longitude,118500500.0,118298800.0,118383500.0,118655300.0,118908200.0
lotsizesquarefeet,7205.0,7205.0,5402.0,22968.0,86607.0
rawcensustractandblock,60371400.0,60372110.0,60377020.0,60378000.0,60378000.0


Condiderazioni:
- il valore assoluto dei `logerror` è per tre case molto alto.
- due case sono decisamente molto grandi: `bahroomcnt` e `bedroomcnt` indicano che una casa ha 7 bagni e 11 camere da letto, l'altra 6 bagni e 12 camere. Anche `calculatedfinishedsquarefeet` è di conseguenza molto grande.
- `calculatedfinishedsquarefeet` e `finishedsquarefeet12` per tutte  e cinque le case hanno lo stesso valore.
- la prima casa è stata costruita nel '50, la seconda addirittura nel 1909.
- due coppie di case sono della stessa città.
- due case hanno `heatingorsystemtypeid` pari a 2, le altre tre a 7.
- quattro su cinque case hanno un `propertyzoningdesc` non frequente e `propertycountylandusecode` pari a 100.