# Úkol č. 2 - předzpracování dat a binární klasifikace (do 10. listopadu)

  * Cílem thoto úkolu je vyzkoušet si naučit prediktivní model pro binární klasifikaci.
  * Budete se muset vypořádat s příznaky, které jsou různých typů a které bude třeba nějakým způsobem převést do číselné reprezentace.
    
> **Úkoly jsou zadány tak, aby Vám daly prostor pro invenci. Vymyslet _jak přesně_ budete úkol řešit, je důležitou součástí zadání a originalita či nápaditost bude také hodnocena!**

## Zdroj dat

Budeme se zabývat predikcí přežití pasažérů Titaniku.
K dispozici máte trénovací data v souboru **data.csv** a data na vyhodnocení v souboru **evaluation.csv**.

#### Seznam příznaků:
* survived - zda přežil, 0 = Ne, 1 = Ano, **vysvětlovaná proměnná**, kterou chcete predikovat
* pclass - Třída lodního lístku, 1 = první, 2 = druhá, 3 = třetí
* name - jméno
* sex - pohlaví
* age - věk v letech
* sibsp	- počet sourozenců / manželů, manželek na palubě
* parch - počet rodičů / dětí na palubě
* ticket - číslo lodního lístku
* fare - cena lodního lístku
* cabin	- číslo kajuty
* embarked	- místo nalodění, C = Cherbourg, Q = Queenstown, S = Southampton
* home.dest - Bydliště/Cíl

## Pokyny k vypracování

**Základní body zadání**, za jejichž (poctivé) vypracování získáte **8 bodů**:
  * V Jupyter notebooku načtěte data ze souboru **data.csv**. Vhodným způsobem si je rozdělte na trénovací, testovací a případně i validační množinu (preferujeme ale použití cross-validation).
  * Projděte si jednotlivé příznaky a transformujte je do vhodné podoby pro použití ve vybraném klasifikačním modelu.
  * Podle potřeby si můžete vytvářet nové příznaky (na základě existujících), například tedy můžete vytvořit příznak měřící délku jména. Některé příznaky můžete také úplně zahodit.
  * Nějakým způsobem se vypořádejte s chybějícími hodnotami.
  * Následně si vyberte vhodný klasifikační model z přednášek. Najděte vhodné hyperparametry a určete jeho přesnost (accuracy) na trénovací množině. Také určete jeho přesnost na testovací/vaidační množině.
  * Načtěte vyhodnocovací data ze souboru **evaluation.csv**. Napočítejte predikce pro tyto data (vysvětlovaná proměnná v nich již není). Vytvořte **results.csv** soubor, ve kterém tyto predikce uložíte do dvou sloupců: ID, predikce přežití. Tento soubor nahrajte do repozitáře.

**Další body zadání** za případné další body  (můžete si vybrat, maximum bodů za úkol je každopádně 12 bodů):
  * (až +4 body) Aplikujte všechny klasifikační modely z přednášek a určete (na základě přesnosti na validační množině), který je nejlepší. Přesnost tohoto nejlepšího modelu odhadněte pomocí testovací množiny. K predikcím na vyhodnocovacích datech využijte tento model.
  * (až +4 body) Zkuste použít nějaké (alespoň dvě) netriviální metody doplňování chybějících hodnot u věku. Zaměřte na vliv těchto metod na přesnost predikce výsledného modelu. K predikcím na vyhodnocovacích datech využijte ten přístup, který Vám vyjde jako nejlepší.

## Poznámky k odevzdání

  * Řiďte se pokyny ze stránky https://courses.fit.cvut.cz/BI-VZD/homeworks/index.html.
  * Odevzdejte nejen Jupyter Notebook, ale i _csv_ soubor(y) s predikcemi pro vyhodnocovací data.
  * Opravující Vám může umožnit úkol dodělat či opravit a získat tak další body. **První verze je ale důležitá a bude-li odbytá, budete za to penalizováni**

In [10]:
### odtud už je to Vaše

import math
import pandas as pd
import numpy as np
import string

from sklearn.model_selection import ParameterGrid
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
import sklearn.metrics as metrics

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LogisticRegression 

In [81]:
# funkce

def edit_oddil(val):
    if type(val) != float:
        return val[:1]
    else: 
        return np.nan
    
def encode_categories(df, mappers, dummies=False):
    le = LabelEncoder()
    for col in df.select_dtypes('object').columns:
        if col not in mappers and df[col].nunique() < 30:
            df[col] = df[col].fillna('NaN')
            df[col] = le.fit_transform(df[col])
            if dummies:
                prefix = 'd_' + col
                df = pd.concat([df.drop(columns=[col]), pd.get_dummies(df[col], prefix=prefix)], axis=1)
        elif col in mappers:
            df[col] = df[col].replace(mappers[col])
        elif df[col].nunique() > 30:
            df = df.drop(columns=[col])
    return df    

def replace_nans(df, cols_nan):
    for col in cols_nan:
        d1 = df[df[col].isnull()]
        d2 = df[df[col].notnull()]
        
        y = d2[col]
        x = d2.drop(columns=cols_nan)
        x2 = d1.drop(columns=cols_nan)

        if df[col].dtype == 'float64':
            model = KNeighborsRegressor(n_neighbors=5)
        else:
            model = KNeighborsClassifier(n_neighbors=5)
        
        model.fit(x,y)
        y2 = model.predict(x2)
        
        df[col][df[col].isnull()] = y2  
    return df

def cross_val(x, y, folds, model, dummies = False):
    score = 0
    np.random.seed(seed=654) 
    
    if not dummies:
            x = x.loc[:, x.nunique() > 2]   
            
    fold_idx = np.random.randint(folds, size=x.shape[0])
    
    for fold in range(folds):
        xtr = x[ fold_idx != fold ]
        xval   = x[ fold_idx == fold ]
        ytr = y[ fold_idx != fold ]
        yval   = y[ fold_idx == fold ]        

        model.fit(xtr, ytr)
        score += metrics.accuracy_score(ytr, model.predict(xtr))
        
    return score/folds

def normalization(xtrain,xtest):
    one_val_cols = xtrain.loc[:,xtrain.max(axis=0) - xtrain.min(axis=0) == 0].columns 
    xtrain.drop(columns=one_val_cols, inplace=True)
    xtest.drop(columns=one_val_cols, inplace=True)
    
    xtrain = (xtrain - xtrain.min(axis=0)) / (xtrain.max(axis=0) - xtrain.min(axis=0))
    xtest = (xtest - xtrain.min(axis=0)) / (xtest.max(axis=0) - xtrain.min(axis=0))
    
    return xtrain,xtest

In [47]:
# načíst a upravit data 

data = pd.read_csv('data.csv')
# rozlisit nominalni a ordinalni neciselne priznaky a prevest je na ciselne
data['oddil'] = data['cabin'].apply(edit_oddil)

n = data['home.dest'].str.rsplit(',',1,expand=True)
data['home.dest'] = n[1]

n = data['name'].str.rsplit(',',1,expand=True)[1].str.split('.',1,expand=True)
data['osloveni'] = n[0]

to_drop = ['cabin','name','ticket','ID','fare']
data = data.drop(columns=to_drop,axis=1)
# display(data['oddil'].unique())

mappers = {}
mappers['oddil'] = {ch: n for n, ch in enumerate(string.ascii_uppercase)}

# label encoding zpusob predzpracovani
data = encode_categories(data,mappers,True)

# odstraneni Nan hodnot pomoci knn predikce
cols_nan = data.loc[:,data.isnull().sum() > 0].columns
data = replace_nans(data,cols_nan)
data[['age','oddil']] = data[['age','oddil']].astype(int)

display(data)



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,survived,pclass,age,sibsp,parch,oddil,d_sex_0,d_sex_1,d_embarked_0,d_embarked_1,...,d_osloveni_7,d_osloveni_8,d_osloveni_9,d_osloveni_10,d_osloveni_11,d_osloveni_12,d_osloveni_13,d_osloveni_14,d_osloveni_15,d_osloveni_16
0,1,3,22,0,0,5,1,0,0,0,...,0,0,1,0,0,0,0,0,0,0
1,0,3,31,0,0,4,0,1,0,0,...,0,0,0,0,0,1,0,0,0,0
2,1,1,19,1,0,1,1,0,1,0,...,0,0,0,0,0,0,1,0,0,0
3,0,3,25,0,0,4,0,1,1,0,...,0,0,0,0,0,1,0,0,0,0
4,0,3,31,0,0,4,0,1,0,0,...,0,0,0,0,0,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,1,1,48,1,1,1,1,0,1,0,...,0,0,0,0,0,0,1,0,0,0
996,1,2,3,1,2,1,1,0,1,0,...,0,0,1,0,0,0,0,0,0,0
997,1,3,19,0,0,4,1,0,0,0,...,0,0,1,0,0,0,0,0,0,0
998,1,3,32,0,0,4,0,1,0,0,...,0,0,0,0,0,1,0,0,0,0


In [48]:
# rozdel data na testovaci a trenovaci sadu

ydata = data['survived']
xdata = data.loc[:, data.columns != 'survived']

rd_seed = 333
xtrain, xtest, ytrain, ytest = train_test_split(xdata, ydata, test_size=0.25, random_state=rd_seed)

In [49]:
# jednoduchy model stromu

param_grid = {
    "max_depth": range(5,100)
}

# cross validation
param_comb = ParameterGrid(param_grid)
val_acc = 0
for params in param_comb:
    dt = DecisionTreeClassifier(**params)
    score = cross_val(xtrain.copy(), ytrain, 10, dt, True)
    if val_acc < score:
        opt_params_dt = params
        val_acc = score
print(opt_params_dt)

dt = DecisionTreeClassifier(**opt_params_dt)
dt.fit(xtrain,ytrain)
print('accuracy on train data: ' +str(metrics.accuracy_score(ytrain, dt.predict(xtrain))))
print('accuracy on test data: ' +str(metrics.accuracy_score(ytest, dt.predict(xtest))))

acc_dt = metrics.accuracy_score(ytest, dt.predict(xtest))

{'max_depth': 18}
accuracy on train data: 0.9506666666666667
accuracy on test data: 0.796


In [50]:
# Bagging: nahodne lesy

param_grid = {
    "n_estimators": range(1,100,5),
    "max_depth": range(1,10)
}

# cross validation
param_comb = ParameterGrid(param_grid)
val_acc = 0
for params in param_comb:
    rfc = RandomForestClassifier(**params,random_state=0)
    score = cross_val(xtrain.copy(), ytrain, 10, rfc, True)
    if val_acc < score:
        opt_params_rfc = params
        val_acc = score
print(opt_params_rfc)

# create forest
rfc = RandomForestClassifier(**opt_params_rfc)
rfc.fit(xtrain, ytrain)
print('accuracy on train data: ' +str(metrics.accuracy_score(ytrain, rfc.predict(xtrain))))
print('accuracy on test data: ' +str(metrics.accuracy_score(ytest, rfc.predict(xtest))))

acc_rfc = metrics.accuracy_score(ytest, rfc.predict(xtest))

{'max_depth': 9, 'n_estimators': 76}
accuracy on train data: 0.9013333333333333
accuracy on test data: 0.82


In [51]:
# Boosting: AdaBoost

param_grid = {
    'n_estimators': range(1,100,5),
    'learning_rate': [0.01, 0.05, 0.1, 0.3, 0.5, 1]
}

# cross validation
param_comb = ParameterGrid(param_grid)
val_acc = 0
for params in param_comb:
    ada = AdaBoostClassifier(**params)
    score = cross_val(xtrain.copy(), ytrain, 10, ada, True)
    if val_acc < score:
        opt_params_ada = params
        val_acc = score
print(opt_params_ada)

# create ada
ada = AdaBoostClassifier(**opt_params_ada)
ada.fit(xtrain, ytrain)
print('accuracy on train data: ' +str(metrics.accuracy_score(ytrain, ada.predict(xtrain))))
print('accuracy on test data: ' +str(metrics.accuracy_score(ytest, ada.predict(xtest))))

acc_ada = metrics.accuracy_score(ytest, ada.predict(xtest))

{'learning_rate': 1, 'n_estimators': 96}
accuracy on train data: 0.8306666666666667
accuracy on test data: 0.804


In [52]:
# KNN

param_grid = {
    'n_neighbors' : range(1,20),
    'p': range(1,5),
    'weights': ['uniform', 'distance']
}

#cross validation
param_comb = ParameterGrid(param_grid)

val_acc = 0
for params in param_comb:
    knn = KNeighborsClassifier(**params)
    score = cross_val(xtrain.copy(), ytrain, 12, knn, True)
    if val_acc < score:
        opt_params_knn = params
        val_acc = score
print(opt_params_knn)


# create KNN
knn = KNeighborsClassifier(**opt_params_knn)
knn.fit(xtrain,ytrain)
print('accuracy on train data: ' +str(metrics.accuracy_score(ytrain, knn.predict(xtrain))))
print('accuracy on test data: ' +str(metrics.accuracy_score(ytest, knn.predict(xtest))))

acc_knn = metrics.accuracy_score(ytest, knn.predict(xtest))

{'n_neighbors': 7, 'p': 1, 'weights': 'distance'}
accuracy on train data: 0.952
accuracy on test data: 0.816


In [53]:
# logisticka regrese

lgr = LogisticRegression(solver='newton-cg')
lgr.fit(xtrain,ytrain)

print('accuracy on train data: ' +str(metrics.accuracy_score(ytrain, lgr.predict(xtrain))))
print('accuracy on test data: ' +str(metrics.accuracy_score(ytest, lgr.predict(xtest))))
      
acc_lgr = metrics.accuracy_score(ytest, lgr.predict(xtest))

accuracy on train data: 0.8213333333333334
accuracy on test data: 0.824


In [99]:
# evaluation data to test model

test_data = pd.read_csv('evaluation.csv')

# uprav data stejnym zpusobem jako predchozi
test_data['oddil'] = test_data['cabin'].apply(edit_oddil)

n = test_data['home.dest'].str.rsplit(',',1,expand=True)[1]
test_data['home.dest'] = n[1]

n = test_data['name'].str.rsplit(',',1,expand=True)[1].str.split('.',1,expand=True)
test_data['osloveni'] = n[0]

to_drop = ['cabin','name','ticket','ID','fare','home.dest']
test_data = test_data.drop(columns=to_drop)

test_data = encode_categories(test_data.copy(),mappers,True)

cols_nan = test_data.loc[:,test_data.isnull().sum() > 0].columns
test_data = replace_nans(test_data.copy(),cols_nan)
test_data[['age','oddil']] = test_data[['age','oddil']].astype(int)

to_add = [item for item in data.columns.drop('survived') if item not in test_data.columns]
test_data[to_add] = pd.DataFrame(0, index=range(data.shape[0]), columns=to_add)

# vyber nejlepsi model
print(acc_dt)
print(acc_rfc)
print(acc_ada)
print(acc_knn)
print(acc_lgr)
# decission tree ma nejlepsi presnost

ypred = lgr.predict(test_data)
result = pd.DataFrame(columns=['ID','Survived'])
result.ID = test_data.ID
result.Survived = ypred
result.to_csv('results.csv',index= False)

0.796
0.82
0.804
0.816
0.824


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


AttributeError: 'DataFrame' object has no attribute 'ID'