In [7]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import random as rand
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import GradientBoostingClassifier, AdaBoostClassifier, RandomForestClassifier
import make_province

import xgboost as xgb
from xgboost import XGBClassifier



def get_percent_full(col_name, df):
    return len(df[df[col_name].isnull()][col_name])/len(df[col_name]) * 100.0

def get_uniques(col_name, df):
    return df[col_name].unique()


province_df = make_province.generate_province_data().drop(columns="regione", axis=1)
ins_df = pd.read_csv("/datasets/extr.csv", index_col=0)

ins_df = ins_df.merge(province_df, how="left", left_on="PROVINCIA", right_on="id_provincia" ).drop(columns=["id_provincia"], axis=1)
    
print(ins_df.head())

# colonne utilizzate dal dataset istat
added_cols = ['tot_incidenti',
'km_totali', 'km_autostrada', 'km_urbani', 'parco_veicolare',
'popolazione_residente', 'pil_totale', 'pil_pro_capite']




# assegnazione di nan agli zeri privi di significato
ins_df["POTENZA"].replace(to_replace=0, value=np.nan, inplace=True)
ins_df["VALORE"].replace(to_replace=0, value=np.nan, inplace=True)
ins_df["CILINDRATA"].replace(to_replace=0, value=np.nan, inplace=True)

# visualizzazione delle percentuali di valori assenti
#for col_name in ins_df.columns.to_list():
#    print(col_name, " : ", get_percent_full(col_name, ins_df))


# valorizzazione dei campi assenti con la media per una certa feature
ins_df["POTENZA"].fillna(ins_df["POTENZA"].mean(), inplace=True  )
ins_df["CILINDRATA"].fillna(ins_df["CILINDRATA"].mean(), inplace=True  )
ins_df["VALORE"].fillna(ins_df["VALORE"].mean(), inplace=True  )
ins_df["STATOCIVILE"].fillna("NON_SPECIFICATO", inplace=True  )



# elementi della stessa categoria raggruppati sotto un' unica classe, in questo caso le chiavi sono mappate sui nuovi valori
stato_mapping = { "NUBILE" : "CELIBE",
                    "CONIUGATA" : "CONIUGATO",
                    "VEDOVA" : "VEDOVO",
                    "DIVORZIATA" : "DIVORZIATO",
                    "SEPARATA" : "SEPARATO"}

# rimpiazzamento dei campi con data chiave col valore corrispondente
ins_df["STATOCIVILE"].replace(to_replace=stato_mapping, inplace=True)


for added_col  in added_cols:
    ins_df[added_col].fillna(ins_df[added_col].mean(), inplace=True  )



#for col_name in ins_df.columns.to_list():
#    print(col_name, " : ", get_percent_full(col_name, ins_df))

    
# test delle performance degli algoritmi a seguito dell' eliminazione di una o piu delle seguenti colonne
#ins_df.drop(columns="VALORE", axis=1, inplace=True)
#ins_df.drop(columns="STATOCIVILE", axis=1, inplace=True)
#ins_df.drop(columns="ANTIFURTO", axis=1, inplace=True)
    
continuous_columns = ["ETACONTRAENTE", "ETAVEICOLO", "POTENZA", "CILINDRATA", "VALORE"] + added_cols
categorical_columns = [ "COMUNE",  "PROVINCIA", "SESSO", "CAP",
                           "ANTIFURTO",
                       "ALIMENTAZIONE", "STATOCIVILE" ]

classes = ["RC", "INC", "FUR", "ESP", "CRI", "EVN", "INF", "ASS", "TUT" ]

# standardizzazione feature a valori continui
std = StandardScaler() 
ins_df[continuous_columns] = std.fit_transform(ins_df[continuous_columns])

# one hot encoding delle colonne categoriche specificate
ins_df = pd.get_dummies(ins_df, columns=categorical_columns )

X = ins_df.drop(columns=classes, axis=1)

to_predict = ["INC", "FUR", "ESP", "CRI", "EVN", "INF", "ASS", "TUT" ]

# valutazione delle prestazioni dell' algoritmo per ciascuna colonna
for col_to_predict in to_predict:
    
    y = ins_df[col_to_predict]


    x_train, x_test, y_train, y_test = train_test_split(X, y, train_size=0.8)
    '''
    model = xgb.XGBClassifier(max_depth=4, n_estimators=2000, learning_rate=0.01, random_state=42)
    '''
    '''
    model = GradientBoostingClassifier(loss="deviance",
                                    learning_rate=0.04, n_estimators=1000,
                                    min_samples_split=2,
                                    min_samples_leaf=1,
                                    max_depth=3,
                                    random_state=42)
    
    '''
    #'''
    model = DecisionTreeClassifier(criterion="entropy",
                                   max_depth=7)
    #'''
    '''
    eoe_dtree = DecisionTreeClassifier(criterion="entropy",
                                   max_depth=6)
    model = AdaBoostClassifier(base_estimator= eoe_dtree,
                        n_estimators=200,
                        learning_rate=0.05,
                        random_state=42)
    '''
    '''
    model = RandomForestClassifier(bootstrap=True, criterion="entropy", max_depth=10,
                                max_features="sqrt", min_samples_leaf=1, min_samples_split=10,
                                n_estimators=1000, n_jobs=-1, random_state=42)
    '''
    model.fit(x_train, y_train)
    accuracy = model.score(x_test, y_test)
    print("accuracy : ", accuracy)
   


   ETACONTRAENTE COMUNE PROVINCIA SESSO STATOCIVILE    CAP  ETAVEICOLO  \
0             49   D612        FI     M         NaN  50100           0   
1             45   F257        MO     M         NaN  41100           1   
2             53   D612        FI     F         NaN  50100           8   
3             27   D611        PC     F         NaN  29017           3   
4             52   D612        FI     M         NaN  50100           4   

   POTENZA  CILINDRATA  VALORE  ... ASS TUT  tot_incidenti    km_totali  \
0      110        1968   30400  ...   0   0         5272.0  14563.04400   
1       51        1242    7700  ...   0   1         2818.0  17271.77914   
2       50         998       0  ...   1   0         5272.0  14563.04400   
3      110        1968       0  ...   1   0          988.0  10514.14454   
4       51        1229       0  ...   1   1         5272.0  14563.04400   

   km_autostrada   km_urbani  parco_veicolare  popolazione_residente  \
0      417.89079  4724.35127    