# Úkol č. 2 - předzpracování dat a binární klasifikace (do 9. listopadu 23:59)

  * V rámci tohoto úkolu se musíte vypořádat s příznaky, které jsou různých typů.
  * Před tím, než na nich postavíte predikční model, je třeba je nějakým způsobem převést do číselné reprezentace.
    
> **Úkoly jsou zadány tak, aby Vám daly prostor pro invenci. Vymyslet _jak přesně_ budete úkol řešit, je důležitou součástí zadání a originalita či nápaditost bude také hodnocena!**

## Zdroj dat

Budeme se zabývat predikcí přežití pasažérů Titaniku.
K dispozici máte trénovací data v souboru **data.csv** a data na vyhodnocení v souboru **evaluation.csv**.

#### Seznam příznaků:
* survived - zda přežil, 0 = Ne, 1 = Ano, **vysvětlovaná proměnná**, kterou chcete predikovat
* pclass - Třída lodního lístku, 1 = první, 2 = druhá, 3 = třetí
* name - jméno
* sex - pohlaví
* age - věk v letech
* sibsp	- počet sourozenců / manželů, manželek na palubě
* parch - počet rodičů / dětí na palubě
* ticket - číslo lodního lístku
* fare - cena lodního lístku
* cabin	- číslo kajuty
* embarked	- místo nalodění, C = Cherbourg, Q = Queenstown, S = Southampton
* home.dest - Bydliště/Cíl

## Pokyny k vypracování

**Základní body zadání**, za jejichž (poctivé) vypracování získáte **8 bodů**:
  * V Jupyter notebooku načtěte data ze souboru **data.csv**. Vhodným způsobem si je rozdělte na podmnožiny vhodné k trénování modelu.
  * Projděte si jednotlivé příznaky a transformujte je do vhodné podoby pro použití ve vybraném klasifikačním modelu.
  * Podle potřeby si můžete vytvářet nové příznaky (na základě existujících), například tedy můžete vytvořit příznak měřící délku jména. Některé příznaky můžete také úplně zahodit.
  * Nějakým způsobem se vypořádejte s chybějícími hodnotami.
  * Následně si vyberte vhodný klasifikační model z přednášek. Najděte vhodné hyperparametry a určete jeho přesnost (accuracy) na trénovací množině. Také určete jeho přesnost na testovací množině.
  * Načtěte vyhodnocovací data ze souboru **evaluation.csv**. Napočítejte predikce pro tyto data (vysvětlovaná proměnná v nich již není). Vytvořte **results.csv** soubor, ve kterém tyto predikce uložíte do dvou sloupců: ID, predikce přežití. Tento soubor nahrajte do repozitáře.
  * Ukázka prvních řádků souboru *results.csv*:
  
```
ID,survived
1000,0
1001,1
...
```

**Další body zadání** za případné další body  (můžete si vybrat, maximum bodů za úkol je každopádně 12 bodů):
  * (až +4 body) Aplikujte všechny klasifikační modely z přednášek a určete (na základě přesnosti na validační množině), který je nejlepší. Přesnost tohoto nejlepšího modelu odhadněte pomocí křížové validace. K predikcím na vyhodnocovacích datech využijte tento model.
  * (až +4 body) Zkuste použít nějaké (alespoň dvě) netriviální metody doplňování chybějících hodnot u věku. Zaměřte na vliv těchto metod na přesnost predikce výsledného modelu. K predikcím na vyhodnocovacích datech využijte ten přístup, který Vám vyjde jako nejlepší.

## Poznámky k odevzdání

  * Řiďte se pokyny ze stránky https://courses.fit.cvut.cz/BI-VZD/homeworks/index.html.
  * Odevzdejte nejen Jupyter Notebook, ale i _csv_ soubor s predikcemi pro vyhodnocovací data (`results.csv`).
  * Opravující Vám může umožnit úkol dodělat či opravit a získat tak další body. První verze je ale důležitá a bude-li odbytá, budete za to penalizováni**

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split, KFold

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.neighbors import KNeighborsClassifier


import sklearn.metrics as metrics
from sklearn.model_selection import ParameterGrid

random_seed = 727

In [2]:
def encode_categories(df, mappers, dummies=False):
    label_encoder = LabelEncoder()
    for col in df.select_dtypes('object').columns:
        if col not in mappers:
            df[col] = df[col].fillna('NaN')
            df[col] = label_encoder.fit_transform(df[col])
            if dummies:
                df = pd.concat([
                    df.drop(columns=[col]), pd.get_dummies(df[col], prefix=('d_' + col))
                ], axis=1)
        elif col in mappers:
            df[col] = df[col].replace(mappers[col])
    return df

def preprocess(data):
    #data['name'] = data['name'].apply(lambda x: len(x))
    #data = data.rename(columns = {'name':'nameLen'})
    data = data.drop(columns = ['ticket', 'name', 'home.dest'])
    #-----------------------------------------
    #data['ticket'] = data['ticket'].apply(lambda x: 1 if x != 'NaN' else 0) 
    #-----------------------------------------
    data['sex'] = data['sex'].replace({'male': 0, 'female':1})
    #-----------------------------------------
    data['age'] = data['age'].fillna(-1).astype('int64')
    #-----------------------------------------
    data['cabin'] = data['cabin'].fillna('-1')
    #-----------------------------------------
    data['fare'] = data['fare'].fillna(0).apply(lambda x: x*10000).astype('int64')
    #-----------------------------------------
    data['embarked'] = data['embarked'].fillna(0).replace({'S' : 1, 'C':2, 'Q' : 3})
    data = encode_categories(data, {}, dummies=False)
    return data

In [3]:
data = pd.read_csv("data.csv")
evaluation = pd.read_csv("evaluation.csv")

data = preprocess(data).drop(columns = ['ID'])
                  
evaluation = preprocess(evaluation)
#-----------------------------------------
display(data.head())
display(evaluation.head())

display(data.isnull().any().any())
data.info()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,cabin,embarked
0,1,3,0,19,0,0,80500,0,1
1,1,2,1,40,0,0,130000,0,1
2,0,3,1,18,0,0,67500,0,3
3,0,3,0,-1,1,9,695500,0,1
4,0,3,1,30,0,0,86625,0,1


Unnamed: 0,ID,pclass,sex,age,sibsp,parch,fare,cabin,embarked
0,1000,2,1,24,2,1,270000,0,1
1,1001,2,1,25,1,1,300000,0,1
2,1002,2,0,38,1,0,210000,0,1
3,1003,3,1,19,1,0,161000,0,1
4,1004,2,1,60,1,0,260000,0,1


False

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   survived  1000 non-null   int64
 1   pclass    1000 non-null   int64
 2   sex       1000 non-null   int64
 3   age       1000 non-null   int64
 4   sibsp     1000 non-null   int64
 5   parch     1000 non-null   int64
 6   fare      1000 non-null   int64
 7   cabin     1000 non-null   int64
 8   embarked  1000 non-null   int64
dtypes: int64(9)
memory usage: 70.4 KB


In [4]:
#split 90+10
X_rest, X_test, y_rest, y_test = train_test_split(
    data.drop(columns=['survived']), data['survived'], test_size=0.1, random_state=random_seed
)

#split 90 -> 0.7*90 + 0.3*90
X_train, X_val, y_train, y_val = train_test_split(
    X_rest, y_rest, test_size=0.3, random_state=random_seed
)

#  63    27    10
#train + val + test

In [5]:
param_grid = {
    'max_depth': range(1,101), 
    'criterion': ['entropy', 'gini']
}
param_comb = ParameterGrid(param_grid)

val_acc = []
train_acc = []
for params in param_comb:
    dt = DecisionTreeClassifier(max_depth=params['max_depth'], criterion=params['criterion']).fit(X_train, y_train)
    train_acc.append(metrics.accuracy_score(y_train, dt.predict(X_train)))
    val_acc.append(metrics.accuracy_score(y_val, dt.predict(X_val)))

best_params = param_comb[np.argmax(val_acc)]
print(best_params)
bestVal = '{0:.6f}'.format(val_acc[np.argmax(val_acc)])
bestTrain = '{0:.6f}'.format(train_acc[np.argmax(val_acc)])
print('best validation accuracy =',bestVal , 'with training accuracy =', bestTrain)

{'max_depth': 3, 'criterion': 'entropy'}
best validation accuracy = 0.740741 with training accuracy = 0.807937


In [6]:
dt = DecisionTreeClassifier(**best_params).fit(X_train, y_train)
print('testing accuracy with best params =', '{0:.6f}'.format(metrics.accuracy_score(y_test, dt.predict(X_test))))

testing accuracy with best params = 0.810000


In [7]:
res = dt.predict(evaluation.drop(columns = ['ID']))
resDF = pd.DataFrame(list(zip(evaluation['ID'], res)), 
               columns =['ID', 'survived'])
resDF.to_csv(r'result.csv', index=False)

In [8]:
def transformData(method, x1, x2):
    if method.__name__ != 'KNeighborsClassifier':
        return x1, x2
    
    scaler = MinMaxScaler()
    x3 = scaler.fit_transform(x1)
    x4 = scaler.transform(x2)
    return x3, x4
    

classifiers = [(DecisionTreeClassifier, {'max_depth': range(1,101), 'criterion': ['entropy', 'gini']}),
               (RandomForestClassifier, {'n_estimators': range(1, 100, 5), 'max_depth': range(1, 5)}),
               (AdaBoostClassifier,  {'n_estimators': range(1,100,5), 'learning_rate': [0.01, 0.05, 0.1, 0.3, 0.5, 1]}),
               (KNeighborsClassifier, {'n_neighbors' : range(2, 100)})]

In [9]:
bestMethod = ('', '', -1)

for method, p in classifiers:
    param_comb = ParameterGrid(p)
    
    train_x, val_x = transformData(method, X_train, X_val)
    
    val_acc = []
    for param in param_comb:
        dt = method(**param).fit(train_x, y_train)
        val_acc.append(metrics.accuracy_score(dt.predict(val_x), y_val))
        
    print('used', method.__name__)
    best_params = param_comb[np.argmax(val_acc)]
    print(best_params)
    bestVal = val_acc[np.argmax(val_acc)]
    print('best validation accuracy =', '{0:.6f}'.format(bestVal))
    print('----------------------------')
    
    if bestVal > bestMethod[2]:
        bestMethod = (method, best_params, bestVal)
        
print('best was', bestMethod[0].__name__, 'with', bestMethod[1])

train_x, text_x = transformData(bestMethod[0], X_train, X_test)

dt = bestMethod[0](** bestMethod[1]).fit(train_x, y_train)
print('accuracy on test data:', metrics.accuracy_score(dt.predict(text_x), y_test) )

used DecisionTreeClassifier
{'max_depth': 3, 'criterion': 'entropy'}
best validation accuracy = 0.740741
----------------------------
used RandomForestClassifier
{'n_estimators': 11, 'max_depth': 4}
best validation accuracy = 0.762963
----------------------------
used AdaBoostClassifier
{'n_estimators': 16, 'learning_rate': 1}
best validation accuracy = 0.740741
----------------------------
used KNeighborsClassifier
{'n_neighbors': 10}
best validation accuracy = 0.762963
----------------------------
best was RandomForestClassifier with {'n_estimators': 11, 'max_depth': 4}
accuracy on test data: 0.79


In [10]:
bestMethod = ('', '', -1)
n_splits = 5

for method, p in classifiers:
    param_comb = ParameterGrid(p)
    
    train_x, val_x = transformData(method, X_train, X_val)
    
    err = []
    val_acc = []
    for param in param_comb:
        comb_err = []
        
        #X_rest, y_rest,   X_test y_test available
        for train, val in KFold(n_splits=n_splits).split(X_rest.index):
            train_x = X_rest[X_rest.index.isin(train)].drop(columns=drop_cols)
            train_y = X_rest[X_rest.index.isin(train)][target_col]
            val_x = X_rest[X_rest.index.isin(val)].drop(columns=drop_cols)
            val_y = X_rest[X_rest.index.isin(val)][target_col]
        
        dt = method(**param).fit(train_x, y_train)
        val_acc.append(metrics.accuracy_score(dt.predict(val_x), y_val))
        
    print('used', method.__name__)
    best_params = param_comb[np.argmax(val_acc)]
    print(best_params)
    bestVal = val_acc[np.argmax(val_acc)]
    print('best validation accuracy =', '{0:.6f}'.format(bestVal))
    print('----------------------------')
    
    if bestVal > bestMethod[2]:
        bestMethod = (method, best_params, bestVal)
        
print('best was', bestMethod[0].__name__, 'with', bestMethod[1])

train_x, text_x = transformData(bestMethod[0], X_train, X_test)

dt = bestMethod[0](** bestMethod[1]).fit(train_x, y_train)
print('accuracy on test data:', metrics.accuracy_score(dt.predict(text_x), y_test) )

used DecisionTreeClassifier
{'max_depth': 3, 'criterion': 'entropy'}
best validation accuracy = 0.740741
----------------------------
used RandomForestClassifier
{'n_estimators': 11, 'max_depth': 4}
best validation accuracy = 0.774074
----------------------------
used AdaBoostClassifier
{'n_estimators': 16, 'learning_rate': 1}
best validation accuracy = 0.740741
----------------------------
used KNeighborsClassifier
{'n_neighbors': 10}
best validation accuracy = 0.762963
----------------------------
best was RandomForestClassifier with {'n_estimators': 11, 'max_depth': 4}
accuracy on test data: 0.78
