# GENERAL COMMANDS

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import time

from sklearn import preprocessing

from sklearn.preprocessing import Normalizer
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest, RFE

#classification
from sklearn.svm import SVC
from sklearn.svm import LinearSVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB

#regression
from sklearn.svm import LinearSVR
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge #least squares
from sklearn.linear_model import Lasso
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import RandomForestRegressor

from sklearn.metrics import confusion_matrix, classificiation_report, accuracy_score, plot_confusion_matrix
from sklearn.model_selection import cross_val_score, train_test_split

%matplotlib inline

In [None]:
data = pd.read_csv('weather.csv', sep=';')

DATA VISUALIZATION

In [None]:
# Count instances
data.shape

In [None]:
# List of columns names
data.columns

In [None]:
# Dataset description
data.describe()

In [None]:
# Show dtype for each column
data.dtypes

In [None]:
# Info about dataset
data.info

In [None]:
# Check for nan values
data[data.isna().any(axis=1)]

In [None]:
# Check for all zeros columns
data.columns[(data == 0).all()]

In [None]:
# Dataset bilanciato 50:50
data.groupby('y').size().plot(kind='bar')
plt.show()

In [None]:
# Visualize one column distribution
data.groupby('age').size().plot()
plt.show()

In [None]:
# Features histogram
data.hist(figsize(12,12))
plt.show()

In [None]:
# Counting rows for each unique value (feature)
data.groupby('Location').size()

In [None]:
# plotting with multi indexing - groupby su più chiavi

toplot = data.groupby(['marital', 'y']).size().unstack()
toplot.plot()

plt.show()

In [None]:
# NBB
# plotting tha same things as before, but a graph for each first key
toplot = data.groupby(['marital', 'y']).size()

for i in toplot.index.levels[0]:
    toplot.loc[i].plot(kind='bar', title=i)
    plt.show()

In [None]:
# per capire se una classe influisce su quella di predizione ---- y è quella di predizione
toplot = dataset.groupby(['marital', 'y']).size()
total = dataset.groupby('y').size()
# automaticamente posso dividere per ogni indice
(toplot / total).unstack().plot(kind='bar')
plt.show()

In [None]:
# plottare la media di una coppia di feature
toplot = dataset.groupby(['sex','G3']).size()# do .unstack() after, so we can divide by index
total = dataset.groupby('sex').size()

(toplot / total).unstack().plot(kind='bar')
plt.show()

In [None]:
# plot multiple curve on same graph
padri.plot(label='padri')
madri.plot(label='madri')
plt.xlabel('education')
plt.legend()
plt.show()

In [None]:
# per identificare una picco in un istogramma su una feature
data['satisfaction_level'].hist(bins=100) # guardo istogramma per vedere numero di istanze
data.groupby('satisfaction_level').size() # associo valore ad istanze
data[data['satisfaction_level'] <= 0.11] # seleziono istanze
# confronto con dati normali con describe()

In [None]:
# media e mediana di una feature
data['satisfaction_level'].describe()

# usare describe per confrontare due dataset / colonne

In [None]:
hum = data[['Month', 'Location', 'Humidity9am', 'Humidity3pm']]
# per ogni coppia citta mese calcolo le temperature minime e massime calcolate al mattino e al pome
hum_max = hum.groupby(['Location', 'Month']).max()
hum_min = hum.groupby(['Location', 'Month']).min()
# qui cerco la massima/minima tra le due ----> mi fornisce quella giornaliera
hum_max = hum_max.max(axis=1)
hum_min = hum_min.min(axis=1)

DATA TRANSFORMATION

In [None]:
# how to create a copy of a dataset
datanew = dataset.copy()

In [None]:
# drop rows with nan instances
data = data.dropna() # axis=1 drop columns
# fillna valuese
data = data.fillna(0)

In [None]:
# drop columns
data = data.drop([coltoremove], axis=1)
# drop rows
dataset_n = dataset_n.drop(toremove.index)

In [None]:
#come si aggiungono colonne in modo idiomatico --- NB - viene messa alla fine

# new attributo escursione termica
data['escursione'] = data['MaxTemp'] - data['MinTemp']

# in alternativa va bene anche 
tmp = pd.DataFrame(data['MaxTemp'] - data['MinTemp'], columns=['escursione'])

#metto la colonna all'inizio -- si potrebbe anche concatenare (data[:, -1:],data[:, :-1])
data = tmp.join(data)


In [None]:
# rimpiazzare valori nominali con numeri
data = data.replace(['Yes', 'No'],[1,0])
# same ----> data.replace({'yes':1, 'no':0})

#rimpiazzo solo una colonna
cities = data['Location'].unique()
data['Location'] = data['Location'].replace(cities, np.arange(len(cities)))

In [None]:
# scegliere solo un subset di colonne da rimpiazzare
data.columns[data.dtypes == 'object']

In [None]:
# rimpiazzo tutte le colonne con valori numerici
for col in tomap.columns:
    uniquev = tomap[col].unique()
    tomap.loc[:, col] = tomap.loc[:, col].replace(uniquev, np.arange(len(uniquev))) # loc non è necessario ma non da warning

In [None]:
# always check values after
data.dtypes
# if some values still not int
data['Location'].unique()

In [None]:
# dummies features su TUTTO il dataset ------ NB : ignora i valori float!!!!!! BUONO!
# NON IMPORTA SE I VALORI SONO STRINGHE ------ NON SERVE CONVERTIRE LE FEATURE IN NUMERI
data_dummy = pd.get_dummies(data)

In [None]:
# creare un nuovo dataframe con dummies features solo su determinate colonne

new_data = data_numeric.copy()

todummy = 'age_new' # colonne da dummizzare could be data.dtypes == 'object'
dummies = pd.get_dummies(data_numeric[todummy])

new_data = new_data.drop(todummy, axis=1)
new_data = new_data.join(dummies)

In [None]:
# creare nuovi dataset
# new datasets from orginal dataset
cloudP = datini[datini['Cloud3pm'] < 0]
cloudT = datini[-(datini['Cloud3pm'] < 0)] # the sign - revert a boolean series

In [None]:
# ricevere dati numeri da dataframe
data_numeric = data._get_numeric_data()

In [None]:
# database basato solo su alcune colonne
data_color = data.loc[:, [0,3,9,14,15,17,20]]

In [None]:
# eventuale renaming delle colonne
data_color = data_color.rename(columns={0:'p',
                                        3:'c1',
                                        9:'c2',
                                        14:'c3',
                                        15:'c4',
                                        17:'c5',
                                        20:'c6'})

# se voglio rinominare tutte le colonne in con una lista
data_color.columns = ['p', 'c1', 'c2',...]

DATASET BALANCE

In [None]:
# balance a data with resampling
# bigger rules or intermidiate value
from sklearn.utils import resample

bigger = data_air[data_air['SIZE']==1] 
smaller = data_air[data_air['SIZE']==3]

# bilanciamo le classi 
smaller = resample(smaller, replace=True, n_samples=5000) # can be also n_samples=len(bigger)
bigger = resample(bigger, replace=True, n_samples=5000) # non cessary if previous n_samples = len(bigger)

data_bal = pd.concat([bigger, smaller])
data_bal.groupby('SIZE').size()

DATA PREPARATION

NB posso spezzare i dati in mquesto modo se non mi è stata fornita nessuna specifica

In [None]:
# nel caso la colonna di classificazione non sia in fondo possiamo usare questa notazione
X = data.drop('Cloud3pm', axis=1)
y = data['Cloud3pm']

In [None]:
# dividere il dataset in un N intervalli 
# ---> ritorna array contenente indice di appartenenza ad un bin
interval = pd.cut(data_numeric['age'], bins=3, labels=False) 

In [None]:
# nel caso dobbiamo dividere per ogni classe di size
# NBBBB-----> automaticamente con train_test_split() prendendo i valori a random
# ----------> le proprietà dovrebbero rimane quasi rispettate (ma non sarà perfetto)

index1 = data_bal['SIZE'] == 1
index3 = data_bal['SIZE'] == 3
index5 = data_bal['SIZE'] == 5

X_1 = data_bal[index1].drop('SIZE', axis=1)
y_1 = data_bal.loc[index1, 'SIZE']

X_3 = data_bal[index3].drop('SIZE', axis=1)
y_3 = data_bal.loc[index3, 'SIZE']

X_5 = data_bal[index5].drop('SIZE', axis=1)
y_5 = data_bal.loc[index5, 'SIZE']

In [None]:
# andiamo poi ad unire le classi
fraction = 0.25

X_1train, X_1test, y_1train, y_1test = train_test_split(X_1, y_1, test_size=fraction)
X_3train, X_3test, y_3train, y_3test = train_test_split(X_3, y_3, test_size=fraction)
X_5train, X_5test, y_5train, y_5test = train_test_split(X_5, y_5, test_size=fraction)

X_train = pd.concat([X_5train, X_3train, X_1train])
X_test = pd.concat([X_5test, X_3test, X_1test])

y_train = pd.concat([y_5train, y_3train, y_1train])
y_test = pd.concat([y_5test, y_3test, y_1test])

In [None]:
fraction = 0.2

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=fraction)

In [None]:
# convert y to ndarray -----> solo se fatto senza train_test_split()

y_train = np.ravel(y_train)
y = np.ravel(y)

# EXAM QUESTIONS

## EXAM 1

#### Dividere i valori assunti dalla variabile AGE in 10 gruppi. Verificare se per ogni gruppo sono presenti un numero simile di pazienti rispetto la classe da predire. Verificare inoltre la distribuzione della classe da predire rispetto al genere (SEX).

In [None]:
# Copio per evitare inconvenienti
ds_binnedage = dataset.copy()
# Divido la colonna AGE tramite pd.cut()
ds_binnedage['AGE'] = pd.cut(ds_binnedage['AGE'],10)
# Controllo la divisione
ds_binnedage['AGE'].value_counts()
# Plotto la distribuzuibe
(ds_binnedage.groupby(['AGE','SOURCE']).size().unstack().plot.bar()
# Distribuzione classe ripsetto ad una colonna
 dataset.groupby(['SEX','SOURCE']).size().unstack().plot.bar()
 # Se vogliamo normalizzare
 (dataset.groupby(['SEX','SOURCE']).size()/dataset.groupby(['SEX']).size()).unstack().plot.bar()

#### Verificare se è vero che le donne si ammalano meno degli uomini. Rappresentare graficamente se possibile quanto emerge dai dati.(punti 2)

In [None]:
# Lo abbiamo già verificato tramite l'ultimo plot, ci basta dunque togliere il 
# plotting per avere le percentuali
(dataset.groupby(['SEX','SOURCE']).size()/dataset.groupby(['SEX']).size()).unstack()

#### Realizzare una pivot_table in cui rappresentare come si comporta la classe da predire rispetto i 10 gruppi di AGE (sulle righe), e il SEX (sulle colonne)

In [None]:
# Per realizzare una pivot dobbiamo indicare cosa vogliamo in verticale e cosa
# in orizzontale, in particolare ci interessa vedere la classe da preddire 
# quindi specifichiamo ['SOURCE']
ds_binnedage.pivot_table(index='AGE',columns='SEX')['SOURCE']

#### Si vuole predire il valore di SOURCE sulla base degli attributi presenti nel dataset. Ricaricare il dataset originale, rendere gli attributi numerici, e dividerlo in modo che 2/3 degli elementi siano contenuti in un nuovo dataset “train” e 1/3 nel dataset “test”. Allenare il train con il modello Decision Tree e valutare l’accuracy ottenuta calcolata sia sul dataset train sia sul dataset test. Confrontare i risultati ottenuti con quelli ottenuti con una predizione basata sul modello Logistic Regression (ignorare eventuali warning). Effettuare alcune considerazioni sui risultati ottenuti, tenendo in considerazione anche l’analisi della confusion matrix e la predizione effettuata da un dummy classifier.

In [None]:
# Dobbiamo rendere gli attributi numerici, in questo caso solamente 'SEX'
# richiede modifiche, possiamo fare in questo modo dato che il dataset si
# presenta in un certo modo
ds['SEX'] = ds['SEX'].replace({'F': 0, 'M': 1})

# Una soluzione diversa può essere quella di utilizzare il LabelEncoder di 
# sklearn
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit(ds['SEX'])
ds['SEX'] = le.transform(ds['SEX'])

In [None]:
#eventuale comando per ignorare i warnings
#import warnings
#warnings.filterwarnings('ignore')

In [None]:
# Quando si tratta di classificazione dobbiamo sempre guardare quale sia la
# classe da predirre e seprararla dal dataset (in questo caso 'SOURCE')
X = ds.drop(columns='SOURCE')
y = ds['SOURCE']

In [None]:
# Classification pipeline
X_train, X_test, y_train, y_test =train_test_split(X,y,
                                                   train_size = 2/3,
                                                   test_size=1/3,
                                                   random_state=0,
                                                   stratify=ds['SOURCE'])

modeldt = DecisionTreeClassifier()
modellr = LogisticRegression()
model_dummy = DummyClassifier(strategy = 'prior')

print("\nVALUTAZIONE MODELLO: DECISION TREE ")

modeldt.fit(X_train,y_train)

print("\nRisultati su train")
predict = modeldt.predict(X_train)

plot_confusion_matrix(modeldt, X_train, y_train, normalize='true')  
plt.show() 
print("\nAccuracy train:", accuracy_score(y_train, predict),"\n")

print("\nRisultati su test")
predict = modeldt.predict(X_test)

plot_confusion_matrix(modeldt, X_test, y_test, normalize='true')  
plt.show() 
print("\nAccuracy test:", accuracy_score(y_test, predict),"\n")


print("\nVALUTAZIONE MODELLO: LOGISTIC REGRESSION ")

modellr.fit(X_train,y_train)

print("\nRisultati su train")
predict = modellr.predict(X_train)

plot_confusion_matrix(modellr, X_train, y_train, normalize='true')  
plt.show() 
print("\nAccuracy train:", accuracy_score(y_train, predict),"\n")

print("\nRisultati su test")
predict = modellr.predict(X_test)

plot_confusion_matrix(modellr, X_test, y_test, normalize='true')  
plt.show() 
print("\nAccuracy test:", accuracy_score(y_test, predict),"\n")


print("\nVALUTAZIONE MODELLO: DUMMY CLASSIFIER ")

model_dummy.fit(X_train,y_train)

print("\nRisultati su train")
predict = model_dummy.predict(X_train)

plot_confusion_matrix(model_dummy, X_train, y_train, normalize='true')  
plt.show() 
print("\nAccuracy train:", accuracy_score(y_train, predict),"\n")

print("\nRisultati su test")
predict = model_dummy.predict(X_test)

plot_confusion_matrix(model_dummy, X_test, y_test, normalize='true')  
plt.show() 
print("\nAccuracy test:", accuracy_score(y_test, predict),"\n")


In [None]:
# Se ci viene chiesta la cross fold validation
num_fold = 10

modeldt = DecisionTreeClassifier()
modellr = LogisticRegression()
model_dummy = DummyClassifier(strategy = 'prior')

print("\nVALUTAZIONE MODELLO: DECISION TREE ")

modeldt.fit(X_train,y_train)

cv_results = cross_val_score(modeldt, X, y, cv=num_fold, scoring='accuracy')
print("Accuracy: %0.2f (+/- %0.2f)" % (cv_results.mean(), cv_results.std() * 2))


print("\nVALUTAZIONE MODELLO: LOGISTIC REGRESSION ")

modellr.fit(X_train,y_train)

cv_results = cross_val_score(modellr, X, y, cv=num_fold, scoring='accuracy')
print("Accuracy: %0.2f (+/- %0.2f)" % (cv_results.mean(), cv_results.std() * 2))


print("\nVALUTAZIONE MODELLO: DUMMY CLASSIFIER ")

model_dummy.fit(X_train,y_train)

cv_results = cross_val_score(model_dummy, X, y, cv=num_fold, scoring='accuracy')
print("Accuracy: %0.2f (+/- %0.2f)" % (cv_results.mean(), cv_results.std() * 2))

#### Trovare i parametri migliori del classificatore decision tree. Agire sui parametri criterion, max_features e min_samples_split. Verificare se l’accuratezza che si ottiene con la nuova configurazione supera quella standard ottenuta al punto 1

In [None]:
# Per trovare i parametri migliori dobbiamo utilizzare il GridSearch
tuned_parameters = [{'max_features': ['auto', 'sqrt', 'log2'],
                     'criterion': ['gini', 'entropy'], 
                    'min_samples_split': [2,3,4,5,10]
                     }]

scores = ['accuracy']

for score in scores:
    print("# Tuning hyper-parameters for %s" % score)
    print()

    clf = GridSearchCV(modelGS, tuned_parameters, cv=num_fold,
                       scoring= score)
    clf.fit(X_train, y_train)

    print("Best parameters set found on development set:")
    print()
    print(clf.best_params_)
    print()
    print("Grid scores on development set:")
    print()
    means = clf.cv_results_['mean_test_score']
    stds = clf.cv_results_['std_test_score']
    for mean, std, params in zip(means, stds, clf.cv_results_['params']):
        print("%0.3f (+/-%0.03f) for %r"
              % (mean, std * 2, params))
    print()

    print("Detailed classification report:")
    print()
    print("The model is trained on the full development set.")
    print("The scores are computed on the full evaluation set.")
    print()
    y_true, y_pred = y_test, clf.predict(X_test)
    print(classification_report(y_true, y_pred))

plot_confusion_matrix(clf, X_test, y_test, normalize='true')  
plt.show() 
print("\nAccuracy test:", accuracy_score(y_test, predict),"\n")

#### Introdurre una discretizzazione degli attributi AGE e THROMBOCYTE, e utilizzare la funzione MaxAbsScaler (oppure MinMax) per scalare i valori del dataset tra 0 e 1 e confrontare se l’accuratezza ottenuta con il Decision Tree Classifier e con la Logistic Regression migliora 

In [None]:
# Discretizzazione di N attributi
to_bins=['AGE','THROMBOCYTE']

col_transformers = ColumnTransformer(transformers=[('binning', KBinsDiscretizer(encode='onehot'), to_bins)],
                                      remainder='passthrough')

preprocessing = Pipeline(steps=[('col_transformers', col_transformers),
                                ('maxAbs', MaxAbsScaler())])

modeldt = DecisionTreeClassifier(criterion ='gini', max_features = 'sqrt', min_samples_split = 10)
modellr = LogisticRegression()

my_pipelinedt = Pipeline(steps=[('preprocessing', preprocessing),
                              ('model', modeldt)])

my_pipelinelr = Pipeline(steps=[('preprocessing', preprocessing),
                              ('model', modellr)])


print("\nVALUTAZIONE MODELLO: DECISION TREE ")

my_pipelinedt.fit(X_train,y_train)

cv_results = cross_val_score(my_pipelinedt, X, y, cv=num_fold, scoring='accuracy')
print("Accuracy: %0.2f (+/- %0.2f)" % (cv_results.mean(), cv_results.std() * 2))

plot_confusion_matrix(my_pipelinedt, X_test, y_test, normalize='true')  
plt.show() 

print("\nVALUTAZIONE MODELLO: LOGISTIC REGRESSION ")

my_pipelinelr.fit(X_train,y_train)

cv_results = cross_val_score(my_pipelinelr, X, y, cv=num_fold, scoring='accuracy')
print("Accuracy: %0.2f (+/- %0.2f)" % (cv_results.mean(), cv_results.std() * 2))

plot_confusion_matrix(my_pipelinelr, X_test, y_test, normalize='true')  
plt.show() 

#### Creare una pipeline in cui il valore di AGE sia discretizzato in 4 intervalli, il valore di THROMBOCYTE sia discretizzato in 10 intervalli e poi il dataset venga ricondotto a valori nell’intervallo (0,1) e normalizzato con la funzione Normalizer. Si applichi poi un modello DecisionTree.

In [None]:
# Pipeline di questo esame
col_transformers = ColumnTransformer(transformers=[('bins_age', KBinsDiscretizer(n_bins=4,encode='onehot'), ['AGE']),
                                                   ('bins_THROMBOCYTE', KBinsDiscretizer(n_bins=10,encode='onehot'), ['THROMBOCYTE'])],
                                      remainder='passthrough')

preprocessing = Pipeline(steps=[('col_transformers', col_transformers),
                                ('minmax', MinMaxScaler(feature_range=(0, 1))),
                                ('normalizer',Normalizer())])

modeldt = DecisionTreeClassifier(criterion ='gini', max_features = 'sqrt', min_samples_split = 10)

my_pipelinedt = Pipeline(steps=[('preprocessing', preprocessing),
                              ('model', modeldt)])


print("\nVALUTAZIONE MODELLO: DECISION TREE ")

my_pipelinedt.fit(X_train,y_train)

cv_results = cross_val_score(my_pipelinedt, X, y, cv=num_fold, scoring='accuracy')
print("Accuracy: %0.2f (+/- %0.2f)" % (cv_results.mean(), cv_results.std() * 2))

plot_confusion_matrix(my_pipelinedt, X_test, y_test, normalize='true')  
plt.show() 

#### Applicare una funzione per l’ottimizzazione dei parametri (sia al DecisionTree sia alla regressione lineare, su parametri a piacere o dell’algoritmo o della normalizzazione) e verificare se l’accuratezza migliora.

In [None]:
#PIPELINE DECISION TREE
col_transformers = ColumnTransformer(transformers=[('bins_age', KBinsDiscretizer(n_bins=4,encode='onehot'), ['AGE']),
                                                   ('bins_THROMBOCYTE', KBinsDiscretizer(n_bins=10,encode='onehot'), ['THROMBOCYTE'])],
                                      remainder='passthrough')

preprocessing = Pipeline(steps=[('col_transformers', col_transformers),
                                ('minmax', MinMaxScaler(feature_range=(0, 1))),
                                ('normalizer',Normalizer())])

modeldt = DecisionTreeClassifier()

my_pipelinedt = Pipeline(steps=[('preprocessing', preprocessing),
                              ('modeldt', modeldt)])

parameters = {
    'modeldt__max_features': ['auto', 'sqrt'],
    'modeldt__min_samples_split': [5,10],
    'preprocessing__col_transformers__bins_age__n_bins': [4,10],
    'preprocessing__col_transformers__bins_THROMBOCYTE__n_bins': [8,10],
    'preprocessing__normalizer__norm':['l1','l2']
}

gs_clf = GridSearchCV(my_pipelinedt, parameters,  cv=5, n_jobs=-1)
gs_clf.fit(X_train, y_train)

gs_clf.best_params_

print("\n",gs_clf.best_params_)

my_pipelinedt.set_params(**gs_clf.best_params_)
# Preprocessing of training data, fit model 
my_pipelinedt.fit(X_train, y_train)

# Preprocessing of validation data, get predictions
preds = my_pipelinedt.predict(X_test)

# Evaluate the model
score = accuracy_score(y_test, preds)
print('\nAccuracy Score on test:', score)
print("\nConfusion Matrix:\n", confusion_matrix(y_test, preds))

In [None]:
# PIPELINE REGRESSOR
col_transformers = ColumnTransformer(transformers=[('bins_age', KBinsDiscretizer(n_bins=4,encode='onehot'), ['AGE']),
                                                   ('bins_THROMBOCYTE', KBinsDiscretizer(n_bins=10,encode='onehot'), ['THROMBOCYTE'])],
                                      remainder='passthrough')

preprocessing = Pipeline(steps=[('col_transformers', col_transformers),
                                ('minmax', MinMaxScaler(feature_range=(0, 1))),
                                ('normalizer',Normalizer())])

modelreg = LinearRegression()

my_pipelinereg = Pipeline(steps=[('preprocessing', preprocessing),
                              ('modelreg', modelreg)])

parameters = {
    'modelreg__fit_intercept': ['False', 'True'],
    'preprocessing__col_transformers__bins_age__n_bins': [4,10],
    'preprocessing__col_transformers__bins_THROMBOCYTE__n_bins': [8,10],
    'preprocessing__normalizer__norm':['l1','l2']
}

gs_clf = GridSearchCV(my_pipelinereg, parameters,  cv=5, n_jobs=-1)
gs_clf.fit(X_train, y_train)

gs_clf.best_params_

print("\n",gs_clf.best_params_)

my_pipelinereg.set_params(**gs_clf.best_params_)
# Preprocessing of training data, fit model 
my_pipelinereg.fit(X_train, y_train)

# Preprocessing of validation data, get predictions
np.round(np.clip(my_pipelinereg.predict(X_test), 0,1))

# Evaluate the model
score = accuracy_score(y_test, preds)
print('\nAccuracy Score on test:', score)

## EXAM 2

#### Le rilevazioni con pressione e umidità uguale a 0 sono irreali. Quante sono queste rilevazioni? Eliminarle dal dataset

In [None]:
# Trovo le righe con queste condizioni
df[np.logical_or(df.pressure == 0, df.humidity == 0)].shape[0]

# E le elimino
index = df[np.logical_or(df.pressure == 0, df.humidity == 0)].index
data = df.drop(index)

#### Analizzare la temperatura massima rilevata. Valutare se la distribuzione dei valori assume un andamento simile a una gaussiana. Considerare poi le rilevazioni che si collocano all’interno del 5% delle temperature più alte. Le città sono equamente presenti in quella fascia di rilevazioni? Come è il tempo complessivo nei giorni in cui la temperatura massima è in quella fascia per ogni città?

In [None]:
# Isolo l'attributo che mi viene chiesto e ne plotto la distribuzione
max_t = data.temp_max
sns.distplot(max_t, color='k')

In [None]:
# Per considerare le rilevazioni in una certa percentuale
top_5t = data[max_t >= max_t.quantile(0.95)]
top_5t.groupby('city_name').size()

In [None]:
# La terza domanda chiede lo stato di una colonna in funzione di un'altra
top_5t.groupby(['city_name', 'weather_main']).size().unstack().plot.bar()
# Importante quando vogliamo plottare più cose dopo un groupby sempre mettere 
# unstack() altrimenti avrò molte più colonne sul grafico

#### Utilizzare la funzione Normalizer per normalizzare i valori del dataset e confrontare se l’accuratezza ottenuta con il Decision Tree Classifier migliora 

In [None]:
from sklearn.preprocessing import Normalizer

X = dataset.drop(columns='weather_main')
y = dataset['weather_main']

normaliz = Normalizer()
X_norm = normaliz.fit_transform(X)

model = DecisionTreeClassifier()

cv_results = cross_val_score(model, X_norm, y, cv=10, scoring='accuracy')
print("Results:\n",cv_results,"\nMean Accuracy:",cv_results.mean(), "\nAccuracy STD: ",cv_results.std())

#### Creare una pipeline con trasformatori PCA (si scelgano 5 attributi) e poi Normalizer. Si usi come modello il Decision Tree Classifier (punti 2) [2 punti ulteriori se gli attributi della PCA sono aggiunti agli attributi del dataset]

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.preprocessing import FunctionTransformer
from sklearn.preprocessing import Normalizer
from sklearn.decomposition import PCA


X = dataset.drop(columns='weather_main')
y = dataset['weather_main']


pca = PCA(n_components=5)

def identity_func(X):
  return X

# Il function transformer serve per aggiungere al dataset originale
combined = FeatureUnion([("pca", pca),('passtrough',FunctionTransformer(identity_func,validate=False))])
#creo 5 colonne con pca unite al dataset originale, tramite una funzione identità con FunctionTransformer

norm = Normalizer()

model = DecisionTreeClassifier()

# Bundle preprocessing and modeling code in a pipeline
my_pipeline = Pipeline(steps=[('combined', combined),
                              ('normalizer',norm),
                              ('model', model)
                             ], verbose = True)

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=1/3,
                                                    train_size=2/3 ,
                                                    stratify=dataset['weather_main'],
                                                    random_state=0)

# Preprocessing of training data, fit model 
my_pipeline.fit(X_train, y_train)

# Preprocessing of validation data, get predictions
preds = my_pipeline.predict(X_test)

# Evaluate the model on test
score = accuracy_score(y_test, preds)
print('\nAccuracy Score:', score,"\n")

plot_confusion_matrix(my_pipeline, X_test, y_test, normalize='true')
plt.show() 

# Evaluate the model on train
preds = my_pipeline.predict(X_train)

score = accuracy_score(y_train, preds)
print('\nAccuracy Score:', score,"\n")

plot_confusion_matrix(my_pipeline, X_train, y_train, normalize='true')
plt.show()

#### Utilizzare la funzione di gridSearchCV sulla pipeline per modificare il numero di attributi selezionati dalla PCA e alcuni parametri a piacere del classificatore. Verificare se l’accuratezza che si ottiene con la nuova configurazione supera quella standard ottenuta al punto 1

In [None]:
X = dataset.drop(columns='weather_main')
y = dataset['weather_main']


pca = PCA(n_components=5)

def identity_func(X):
  return X

combined = FeatureUnion([("pca", pca),('passtrough',FunctionTransformer(identity_func,validate=False))])
#creo 5 colonne con pca unite al dataset originale, tramite una funzione identità con FunctionTransformer

norm = Normalizer()

model = DecisionTreeClassifier()

# Bundle preprocessing and modeling code in a pipeline
my_pipeline = Pipeline(steps=[('combined', combined),
                              ('normalizer',norm),
                              ('model', model)
                             ], verbose = True)

from sklearn.model_selection import GridSearchCV

# Parto dal nome dell'oggetto 'combined', proseguo a quale pezzo della pipeline 'pca'
# infine specifico quale parametro voglio cercare di ottimizzare
parameters = {
    'combined__pca__n_components':[2,3,5],
    'model__max_features': ['auto', 'sqrt', 'log2'],
    'model__max_depth': [4,6,10],
}

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=1/3,
                                                    train_size=2/3 ,
                                                    stratify=dataset['weather_main'],
                                                    random_state=0)

gs_clf = GridSearchCV(my_pipeline, parameters,  cv=5, n_jobs=-1)
gs_clf.fit(X_train, y_train)

gs_clf.best_params_

my_pipeline.set_params(**gs_clf.best_params_)
# Preprocessing of training data, fit model 
my_pipeline.fit(X_train, y_train)

# Preprocessing of validation data, get predictions
preds = my_pipeline.predict(X_test)

# Evaluate the model on test
score = accuracy_score(y_test, preds)
print('Accuracy Score on test:', score)

# Evaluate the model train
score = accuracy_score(y_train, my_pipeline.predict(X_train))
print('Accuracy Score on train:', score)

# Parametri migliori scelti
print(gs_clf.best_params_)

# Evaluate the model on test
score = accuracy_score(y_test, preds)
print('\nAccuracy Score:', score,"\n")

plot_confusion_matrix(my_pipeline, X_test, y_test, normalize='true')
plt.show() 

# Evaluate the model on train
preds = my_pipeline.predict(X_train)

score = accuracy_score(y_train, preds)
print('\nAccuracy Score:', score,"\n")

plot_confusion_matrix(my_pipeline, X_train, y_train, normalize='true')
plt.show()

## EXAM 3

#### Creare una pipeline in cui il valore di ram sia discretizzato in 4 intervalli, il valore di battery_power sia discretizzato in 10 intervalli e poi il dataset venga ricondotto a valori nell’intervallo (0,1) e normalizzato con la funzione Normalizer. Si applichi poi un modello DecisionTree.

In [None]:
# Selezioni quali sono le colonne che non devono essere toccate
# Includo ovviamente anche la variabile da predirre
untransformed_cols = []
for col in df.columns:
  if col not in ['ram', 'battery_power', 'price_range']:
    untransformed_cols.append(col)

col_transformers = ColumnTransformer(transformers=[('ram', KBinsDiscretizer(n_bins=4, encode='ordinal'), ['ram']),
                                                   ('batt_pw', KBinsDiscretizer(n_bins=10, encode='ordinal'), ['battery_power']),
                                                   ('others', 'passthrough', untransformed_cols)])

# Da qui applico gli step come da consegna
preprocessing = Pipeline(steps=[('col_transformers', col_transformers),
                                ('maxAbs', MaxAbsScaler()),
                                ('normalizer', Normalizer())])

model = DecisionTreeClassifier()

# Creo una seconda pipeline contente anche il modello
my_pipeline = Pipeline(steps=[('preprocessing', preprocessing),
                              ('model', model)])

X = df.drop(columns='price_range')
y = df['price_range']

# Splitto e fitto la pipeline
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=1/4,random_state=0)
my_pipeline.fit(X_train,y_train)

# Matrice di confusione ed accuracy sul test set

predict = my_pipeline.predict(X_test)

print("Test Set Results")
print("Confusion Matrix:\n", confusion_matrix(y_test, predict))
plot_confusion_matrix(my_pipeline, X_test, y_test, normalize='true')
plt.show() 
print("\nAccuracy:", accuracy_score(y_test, predict),"\n")

# Matrice di confusione ed accuracy sul train set

predict = my_pipeline.predict(X_train)

print("Train Set Results")
print("Confusion Matrix:\n", confusion_matrix(y_train, predict))
plot_confusion_matrix(my_pipeline, X_train, y_train, normalize='true')
plt.show() 
print("\nAccuracy:", accuracy_score(y_train, predict),"\n")