In [None]:
# Libraries
import math 
import re
import pandas as pd
import numpy  as np
import matplotlib.pyplot as plt

from sklearn                 import tree
from sklearn.tree            import DecisionTreeRegressor
from sklearn.metrics         import mean_squared_error
from sklearn.metrics         import accuracy_score
from sklearn.preprocessing   import OneHotEncoder
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.utils           import resample
from sklearn.ensemble        import RandomForestRegressor

from datetime import datetime as dt

In [None]:
# local file paths
fp_properties2016 = "datasets/properties_2016.csv"
fp_properties2017 = "datasets/properties_2017.csv"
fp_train2016      =   "datasets/train_2016_v2.csv"
fp_train2017      =      "datasets/train_2017.csv"

In [None]:
# Lettura dei dati
df_properties2016 = pd.read_csv(fp_properties2016, low_memory=False)
df_train2016      = pd.read_csv(fp_train2016,      low_memory=False)
df_properties2017 = pd.read_csv(fp_properties2017, low_memory=False)
df_train2017      = pd.read_csv(fp_train2017,      low_memory=False)

In [None]:
# Print utilities
def print_all(df):
    pd.set_option('max_columns', df.shape[0])
    pd.set_option('max_rows',    df.shape[1])
def undo_print_all():
    pd.set_option('max_columns', None)
    pd.set_option('max_rows',    None)

In [None]:
# Dimensionalità
print(f'Properites 2016 {df_properties2016.shape}')
print(f'     Train 2016 {     df_train2016.shape}')
print(f'Properites 2017 {df_properties2017.shape}')
print(f'     Train 2017 {     df_train2017.shape}')

Non dispongono del log-error di ogni casa, ma solo di quelle che sono state vendute. <br>
Seleziono solo l'insieme di case di cui ho a disposizione il log-error.

Unione in un unico dataset: matengo le sole case di cui conosco il log-error <br>
Se una casa ha più log-error, la colonna è copiata e abbinata a ciascuna data di vendita

In [None]:
# Right-join
df_2016 = pd.merge(df_properties2016, df_train2016, how='right', left_on=['parcelid'], right_on=['parcelid'])
df_2017 = pd.merge(df_properties2017, df_train2017, how='right', left_on=['parcelid'], right_on=['parcelid'])

In [None]:
print(f'Properites 2016 {df_2016.shape}')
print(f'Properites 2017 {df_2017.shape}')

Case vendute sia nel 2016 che nel 2017:

In [None]:
sum(~(df_2017.loc[:,'parcelid'].isin(df_2016.loc[:,'parcelid'])))

È importante tener presente che qualche migliaio di casa già venduta nel 2016 è stata venduta anche nel 2017

In [None]:
df_2017[(df_2017.loc[:,'parcelid'].isin(df_2016.loc[:,'parcelid']))].loc[:,'parcelid'].value_counts()

La casa 12478591 è stata venduta due volte nel 2017 e almeno una volta nel 2016

In [None]:
pd.concat([df_2016.loc[df_2016['parcelid'] == 12478591],\
           df_2017.loc[df_2017['parcelid'] == 12478591]]).transpose()

In [None]:
pd.concat([df_2016.loc[df_2016['parcelid'] == 12478591],\
           df_2017.loc[df_2017['parcelid'] == 12478591]])\
        .loc[:,['buildingqualitytypeid', 'structuretaxvaluedollarcnt', 'landtaxvaluedollarcnt', 'transactiondate', 'logerror']]

- __buildingqualitytypeid__ :  Overall assessment of condition of the building from best (lowest) to worst (highest)
- __structuretaxvaluedollarcnt__ : The assessed value of the built structure on the parcel
- __landtaxvaluedollarcnt__ : The assessed value of the land area of the parcel


In [None]:
df_2016.head()

In [None]:
df_2017.head()

# Train, Validation e Test #

In [None]:
names = list(df_2016.columns)
names.remove('logerror')
print(names)
print(len(names))

In [None]:
# Divisione in train, validation e test
val_test_treshold = math.floor((len(df_2017) / 2)) # dimension of split betweween validation and test in df_2017
train      = df_2016
validation = df_2017.iloc[:val_test_treshold]
test       = df_2017.iloc[val_test_treshold:]

In [None]:
# Divisione in X e y
train.loc[:,'logerror']

In [None]:
def split_X_y(df, Xnames, yname):
    X = df.loc[:,Xnames]
    y = df.loc[:,yname]
    return X, y

X_train, y_train = split_X_y(train,      names, 'logerror')
X_val,     y_val = split_X_y(validation, names, 'logerror')
X_test,  y_test  = split_X_y(test,       names, 'logerror')

In [None]:
# Dimensionalità
def dimensionality(y=False):
    print(f'X_train {  X_train.shape}')
    print(f'X_val   {    X_val.shape}')
    print(f'X_test  {   X_test.shape}')
    if y:
        print(f'y_train { y_train.shape}')
        print(f'y_val   {   y_val.shape}')
        print(f'y_test  {  y_test.shape}')

In [None]:
dimensionality(y=True)

# Preparazione dei dati #

## Rimozione colonne con alta percentuale di Nan ##

In [None]:
# Given the dataframe and the name of the column returns the column
def get_col(df, colName):
    return df.loc[:, colName]

# Given a column returns Nan-count and Nan-percentage
def get_col_nan_info(col):
    count = col.isna().sum()
    tot = len(col)
    perc = count/tot
    return count, perc

# Given the df and a treshold returns a list of column names with Nan-percentage greater or equal the treshold
def get_cols_over_nan_percentage(df, treshold):
    names = df.columns
    overPercentage = []
    for name in names:
        col = get_col(df, name)
        _ , perc = get_col_nan_info(col)
        # print(f'{name}: {perc})')
        if perc > treshold:
            overPercentage.append(name)
    return overPercentage

In [None]:
col_to_delete = get_cols_over_nan_percentage(X_train, 0.6)

for o in col_to_delete:
    print(f'{o} : {get_col_nan_info(get_col(X_train, o))}')
print(f'Length: {len(col_to_delete)}')

In [None]:
def remove_column(df, col_names):
    return df.drop(col_names, axis=1, inplace=True)

In [None]:
for df in [X_train, X_val, X_test]:
    df = remove_column(df, col_to_delete)

In [None]:
dimensionality()

## Rimozione righe con molti Nan ##

In [None]:
# Given the dataframe and the index of the row returns the row
def get_row(df, index):
    return df.loc[index, :]

# Given a row returns Nan-count and Nan-percentage
def get_row_nan_info(row):
    count = row.isna().sum()
    tot = len(row)
    perc = count/tot
    return count, perc

# Given the df and a treshold returns a list of row ids with Nan-percentage greater or equal the treshold
def get_rows_over_nan_percentage(df, treshold):
    overPercentage_indexes = []
    for i in df.index:
        row = get_row(df, i)
        _ , perc = get_row_nan_info(row)
        if perc > treshold:
            overPercentage_indexes.append(i)
    return overPercentage_indexes

In [None]:
def drop_fullnan_rows(df, dfy, treshold):
    indexes = get_rows_over_nan_percentage(df, treshold)
    return df.drop(indexes, axis=0, inplace=True), dfy.drop(indexes, axis=0, inplace=True)

In [None]:
dimensionality(y=True)

In [None]:
for X, y in [[X_train, y_train], [X_val, y_val], [X_test, y_test]]:
    X, y = drop_fullnan_rows(X, y, 0.5)

In [None]:
dimensionality(y=True)

Ho rimosso qualche decina di righe con prevalenza Nan dalle istanze di __Validation__ e __Test__

## Conversione di valor non numerici ##

In [None]:
X_train.info()

In [None]:
def get_not_numeric_cols(df):
    
    def is_numeric(value):
        return value != np.int64 and\
               value != np.float64
    
    not_numeric = []
    for k, v in dict(df.dtypes).items():
        if(is_numeric(v)):
            not_numeric.append(k)
    return not_numeric

In [None]:
not_numeric = get_not_numeric_cols(X_train)
print(not_numeric)

Ho tre valori non numerici

In [None]:
# propertycountylandusecode
values = get_col(X_train, 'propertycountylandusecode')
print(f'Values:\n{values.unique()      }\n')
print(f'Occurcences:\n{values.value_counts()}')

In [None]:
values = get_col(X_train, 'propertyzoningdesc')
print(f'Values:\n{values.unique()      }\n')
print(f'Occurcences:\n{values.value_counts()}')

Per queste due feature mantengo solo le dieci più frequenti: <br>
Copro comunque l'informazione sulla maggioranza della popalazione, senza far esplodere il numero di colonne con il one-hot encoding.

In [None]:
def get_frequent(df, col_name, important):
    col = get_col(df, col_name)
    names = list(col.value_counts().to_dict().keys())[:important]
    return names

def set_other(df, col_name, important, dfs):
    frequent = get_frequent(df, col_name, important)
    for d in dfs:
        d.loc[:,col_name][~d.loc[:,col_name].isin(frequent)] = 'rare'
    

In [None]:
set_other(X_train, 'propertycountylandusecode', 5, [X_train, X_val, X_test])
set_other(X_train, 'propertyzoningdesc',        5, [X_train, X_val, X_test])

Verifico se ho settatto correttamente l'etichetta *rare*

In [None]:
values = get_col(X_train, 'propertycountylandusecode')
print(f'Values:\n{values.unique()      }\n')
print(f'Occurcences:\n{values.value_counts()}')

L'operazione sembra essere avvenuta correttamente :)

In [None]:
# transactiondate
values = get_col(X_train, 'transactiondate')
print(f'Values:\n{values.unique()      }\n')
print(f'Occurcences:\n{values.value_counts()}')

Trasformo i dati come informazioni sulla data dal 1 Gennaio di quell'anno

In [None]:
def date_to_int(df, start):
     
    def string_to_date(date_str):
        return dt.strptime(date_str.replace('-', '/'), '%Y/%m/%d')
        
    start = string_to_date(start)
    df.loc[:,'int_transactiondate'] = ((pd.to_datetime(df.loc[:,'transactiondate'], format='%Y/%m/%d')))
    df.loc[:,'int_transactiondate'] = (df.loc[:,'int_transactiondate'] - start).astype('timedelta64[D]')
    df.drop('transactiondate', inplace=True, axis=1)
    return df

In [None]:
X_train = date_to_int(X_train, start = '2016-01-01')
X_val   = date_to_int(X_val,   start = '2017-01-01')
X_test  = date_to_int(X_test,  start = '2017-01-01')

In [None]:
X_train.info()

## Valori discreti ##

In [None]:
def get_discrete(df, treshold):
    discretes = []
    for col_name in df.columns:
        values_count = len(get_col(df,col_name).unique())
        if values_count < treshold:
            discretes.append(col_name)
    return discretes

def discrete_info(df, discretes):
    for discrete in discretes:
        values = get_col(df, discrete).unique()
        print(f'{discrete}\n{values} ({len(values)})\n')

In [None]:
discrete_info(X_train, get_discrete(X_train, 30))

In [None]:
# Valori discreti: cateogirci e ordinali
categorical = ['fips', 'heatingorsystemtypeid', 'propertycountylandusecode', 'propertylandusetypeid', 'propertyzoningdesc', 'regionidcounty']
ordinal = ['bathroomcnt', 'bedroomcnt', 'buildingqualitytypeid', 'calculatedbathnbr', 'fullbathcnt', 'roomcnt', 'unitcnt']

In [None]:
# Droppo assessmentyear
for df in [X_train, X_val, X_test]:
    df = remove_column(df, 'assessmentyear')

In [None]:
# Valori continui: numerici:
numeric = list(set(X_train.columns) - set(categorical + ordinal) - {'parcelid'})

In [None]:
X_train[numeric].info()

In [None]:
dimensionality()

In [None]:
len(numeric) + len(categorical) + len(ordinal) + 1

In [None]:
def dim_check():
    return X_train.shape[1] == len(numeric) + len(categorical) + len(ordinal) + 1

In [None]:
dim_check()

In [None]:
print(f'Numeric:\n{numeric} ({len(numeric)})\n')
print(f'Categorical:\n{categorical} ({len(categorical)})\n')
print(f'Ordinal:\n{ordinal} ({len(ordinal)})\n')

# Correlazioni #

In [None]:
print_all(X_train)
X_train.corr()

In [None]:
undo_print_all()

Nel modello sembrano esserci delle alte correlazioni, ad esempio tutti le feature che sembrano riguardare il numero di stanze e la grandezza della casa sembrano intevitabilmente correlate: al crescescere della grandezza della casa crescerà anche il numero di stanze che saranno distribuite in maniera pressochè omogenea tra le varia tipologie di stanza

In [None]:
def get_correlated(df, col_name, treshold):
    row = df.corr().loc[:, col_name]
    list_ = list(row[abs(row)>treshold].to_dict().keys())
    list_.remove(col_name)
    return list_

Controllo __finishedsquarefeet12__: Finished living area

In [None]:
print(get_correlated(X_train, 'finishedsquarefeet12', 0.5))

Come previsto, la grandezza della casa è formente correlata con il numero di stanze. Il numero di stanze è un'informazione ridontante che potrei eliminare.

Dalla descrizione ho che:
- __bathroomcnt__:                   Number of bathrooms in home including fractional bathrooms
- __bedroomcnt__:                    Number of bedrooms in home 
- __calculatedbathnbr__ :            Number of bathrooms in home including fractional bathroom
- __calculatedfinishedsquarefeet__:  Calculated total finished living area of the home 
- __fullbathcnt__:                   Number of full bathrooms (sink, shower + bathtub, and toilet) present in home





In [None]:
related_to_squarefeet = ['bathroomcnt', 'bedroomcnt', 'calculatedbathnbr', 'calculatedfinishedsquarefeet', 'fullbathcnt']

In [None]:
for df in [X_train, X_val, X_test]:
    df = remove_column(df, related_to_squarefeet)

In [None]:
dimensionality()

In [None]:
def remove_from_categories(columns):
    for to_delete in columns:
        if to_delete in categorical:
            categorical.remove(to_delete)
        if to_delete in ordinal:
            ordinal.remove(to_delete)
        if to_delete in numeric:
            numeric.remove(to_delete)

In [None]:
remove_from_categories(related_to_squarefeet)

In [None]:
dim_check()

Noto anche che questa variabile è fortemente correlata con l'informazione legata alle tasse: è logico pensare che tanto più una casa sia grande, tanto più le tasse da pagare siano alte

Studio __taxamount__: The total property tax assessed for that assessment year


In [None]:
print(get_correlated(X_train, 'taxamount', 0.5))

Legati alle tasse:
- __structuretaxvaluedollarcnt__: The assessed value of the built structure on the parcel
- __taxvaluedollarcnt__: The total tax assessed value of the parcel
- __landtaxvaluedollarcnt__: The assessed value of the land area of the parcel
   

Avendo queste quattro colonne una relazione, potrei pensare di riassumere l'informazione in due principali colonne: una per la tassa media e una per la tassa proporzionale al terreno

In [None]:
def add_tax_info(df):
    df['tax_ratio'] = df['taxvaluedollarcnt'] / df['taxamount']
    df['tax_prop'] = df['structuretaxvaluedollarcnt'] / df['landtaxvaluedollarcnt']
    if 'tax_ratio' not in numeric:
        numeric.append('tax_ratio')
    if 'tax_prop' not in numeric:
        numeric.append('tax_prop')
    return df

In [None]:
tax_columns = ['taxamount', 'taxvaluedollarcnt', 'structuretaxvaluedollarcnt',  'landtaxvaluedollarcnt']

In [None]:
for df in [X_train, X_val, X_test]:
    df = add_tax_info(df)
    df = remove_column(df, tax_columns)

In [None]:
remove_from_categories(tax_columns)

In [None]:
dim_check()

## Missing Values: numerici e ordinali ##

Controllo la percentuale di missing value in questi tipi di dati per controllare se è sensato inserire le missing-flags

In [None]:
for cn in numeric+ordinal:
    col = get_col(X_train, cn)
    _, perc = get_col_nan_info(col)
    print(f'{cn}: {perc}')

I missing value hanno una bassissima percentaule, scelgo di non usare i missing-flag, fatta eccezione per unitcnt. <br>
Uso il missing flag per unitcnt

In [None]:
def add_missing_flag(df, col_name):
    df[col_name+'na_flag'] = df.loc[:,col_name].isna().astype(int)

In [None]:
#for df in [X_train, X_val, X_test]:
#    df = add_missing_flag(df, 'unitcnt')

In [None]:
X_train['unitcnt_na_flag'] = X_train.loc[:,'unitcnt'].isna().astype(int)
X_val['unitcnt_na_flag']   =   X_val.loc[:,'unitcnt'].isna().astype(int)
X_test['unitcnt_na_flag']  =  X_test.loc[:,'unitcnt'].isna().astype(int)

In [None]:
dimensionality()

In [None]:
def fill_nan_with_mean(df, col_names):   
    for col_name in col_names:
        df[col_name] = df[col_name].fillna(get_col(df, col_name).median())
    return df

In [None]:
undo_print_all()

In [None]:
X_train.head()

In [None]:
X_train = fill_nan_with_mean(X_train, numeric+ordinal)
X_val   = fill_nan_with_mean(  X_val, numeric+ordinal)
X_test  = fill_nan_with_mean( X_test, numeric+ordinal)

In [None]:
X_train[numeric + ordinal].info()

## One-hot encoding delle variabili categoriali ##

In [None]:
categorical

In [None]:
def one_hot_encoding(df_fit, col_names, dfs):
    oh = OneHotEncoder(sparse=False, handle_unknown='ignore')
    oh.fit(df_fit[col_names])
    for df in dfs:
        encoded = oh.transform(df[col_names])
        for i, col in enumerate(oh.get_feature_names(col_names)):
            df[col] = encoded[:,i]
        df.drop(col_names, axis=1, inplace=True)

In [None]:
one_hot_encoding(X_train, categorical, [X_train, X_val, X_test])

In [None]:
dimensionality()

Rimuovo colonne che codficano i Nan per One-Hot-Encoding: mantengo righe di soli zeri

In [None]:
nan_column = list(filter(re.compile("^.*_nan$").match, list(X_train.columns)))
print(nan_column)

In [None]:
for df in [X_train, X_val, X_test]:
    df = remove_column(df, nan_column)

In [None]:
dimensionality()

## Operazioni preliminari al modello ##

Ora che ho mantenuto la corrispondenza di riga tra X e y è doveroso rimuovere il ParcelId: è un identificatore della riga e non un informazione utile all'algoritmo.

In [None]:
for df in [X_train, X_val, X_test]:
    df = remove_column(df, ['parcelid'])

In [None]:
dimensionality()

# Riassuntino dei dati #

In [None]:
X_train.head()

In [None]:
X_val.head()

In [None]:
X_test.head()

In [None]:
y_train.head()

In [None]:
y_val.head()

In [None]:
y_test.head()

# Costruzione DecisionTreeRegressor #

Uso validation per trovare il corretto numero di foglie

In [None]:
def validation(X_train, y_train, X_val, y_val):
    
    def get_dec_tree_reg(max_leaf):
        dt = DecisionTreeRegressor(max_leaf_nodes=max_leaf)
        dt.fit(X_train,y_train)
        return dt
    
    def get_train_val_mse(model):
        return mean_squared_error(y_true=y_train, y_pred=model.predict(X_train)),\
               mean_squared_error(y_true=y_val,   y_pred=model.predict(X_val))
    
    start =   2
    end   = 100
    
    model_start = get_dec_tree_reg(start)
    
    _, best_mse = get_train_val_mse(model_start)
    
    best_leaves = start
    best_model  = model_start
    
    errors = []
    
    for max_leaves in range(start, end):
    
        model = get_dec_tree_reg(max_leaves)
        train_mse, val_mse = get_train_val_mse(model)

        errors.append(f'Leaves: {max_leaves} (Train MSE: {train_mse} - Val MSE: {val_mse})')

        if(val_mse < best_mse):
            best_mse = val_mse
            best_leaves = max_leaves
            best_model = model
            
    return model, best_leaves, errors       
    

In [None]:
model, leaves, errors = validation(X_train, y_train, X_val, y_val)

In [None]:
errors

In [None]:
leaves

In [None]:
mean_squared_error(y_true=y_test,   y_pred=model.predict(X_test))

In [None]:
model.score(X_test, y_test)

# Random Forest #

In [None]:
Fallisci grazie

In [None]:
rf = RandomForestRegressor(n_estimators=20)

In [None]:
rf.fit(X_train, y_train)