# Úkol č. 2 - předzpracování dat a binární klasifikace (do 9. listopadu 23:59)

  * V rámci tohoto úkolu se musíte vypořádat s příznaky, které jsou různých typů.
  * Před tím, než na nich postavíte predikční model, je třeba je nějakým způsobem převést do číselné reprezentace.
    
> **Úkoly jsou zadány tak, aby Vám daly prostor pro invenci. Vymyslet _jak přesně_ budete úkol řešit, je důležitou součástí zadání a originalita či nápaditost bude také hodnocena!**

## Zdroj dat

Budeme se zabývat predikcí přežití pasažérů Titaniku.
K dispozici máte trénovací data v souboru **data.csv** a data na vyhodnocení v souboru **evaluation.csv**.

#### Seznam příznaků:
* survived - zda přežil, 0 = Ne, 1 = Ano, **vysvětlovaná proměnná**, kterou chcete predikovat
* pclass - Třída lodního lístku, 1 = první, 2 = druhá, 3 = třetí
* name - jméno
* sex - pohlaví
* age - věk v letech
* sibsp	- počet sourozenců / manželů, manželek na palubě
* parch - počet rodičů / dětí na palubě
* ticket - číslo lodního lístku
* fare - cena lodního lístku
* cabin	- číslo kajuty
* embarked	- místo nalodění, C = Cherbourg, Q = Queenstown, S = Southampton
* home.dest - Bydliště/Cíl

## Pokyny k vypracování

**Základní body zadání**, za jejichž (poctivé) vypracování získáte **8 bodů**:
  * V Jupyter notebooku načtěte data ze souboru **data.csv**. Vhodným způsobem si je rozdělte na podmnožiny vhodné k trénování modelu.
  * Projděte si jednotlivé příznaky a transformujte je do vhodné podoby pro použití ve vybraném klasifikačním modelu.
  * Podle potřeby si můžete vytvářet nové příznaky (na základě existujících), například tedy můžete vytvořit příznak měřící délku jména. Některé příznaky můžete také úplně zahodit.
  * Nějakým způsobem se vypořádejte s chybějícími hodnotami.
  * Následně si vyberte vhodný klasifikační model z přednášek. Najděte vhodné hyperparametry a určete jeho přesnost (accuracy) na trénovací množině. Také určete jeho přesnost na testovací množině.
  * Načtěte vyhodnocovací data ze souboru **evaluation.csv**. Napočítejte predikce pro tyto data (vysvětlovaná proměnná v nich již není). Vytvořte **results.csv** soubor, ve kterém tyto predikce uložíte do dvou sloupců: ID, predikce přežití. Tento soubor nahrajte do repozitáře.
  * Ukázka prvních řádků souboru *results.csv*:
  
```
ID,survived
1000,0
1001,1
...
```

**Další body zadání** za případné další body  (můžete si vybrat, maximum bodů za úkol je každopádně 12 bodů):
  * (až +4 body) Aplikujte všechny klasifikační modely z přednášek a určete (na základě přesnosti na validační množině), který je nejlepší. Přesnost tohoto nejlepšího modelu odhadněte pomocí křížové validace. K predikcím na vyhodnocovacích datech využijte tento model.
  * (až +4 body) Zkuste použít nějaké (alespoň dvě) netriviální metody doplňování chybějících hodnot u věku. Zaměřte na vliv těchto metod na přesnost predikce výsledného modelu. K predikcím na vyhodnocovacích datech využijte ten přístup, který Vám vyjde jako nejlepší.

## Poznámky k odevzdání

  * Řiďte se pokyny ze stránky https://courses.fit.cvut.cz/BI-VZD/homeworks/index.html.
  * Odevzdejte nejen Jupyter Notebook, ale i _csv_ soubor s predikcemi pro vyhodnocovací data (`results.csv`).
  * Opravující Vám může umožnit úkol dodělat či opravit a získat tak další body. První verze je ale důležitá a bude-li odbytá, budete za to penalizováni**

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split, KFold
from sklearn.impute import KNNImputer

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.neighbors import KNeighborsClassifier


import sklearn.metrics as metrics
from sklearn.model_selection import ParameterGrid

random_seed = 727

funkce pro predpracovani dat
* nejake sloupce jsem odstranil uplne (name, ticket, home dest) ty jsem povazoval za nepodstatne v predikci preziti
* age jsem trivialne doplnil jako -1, lze pouzit zde KNN nebo prumerem veku
* cabin jsem nahrail 1 pokud osoba ma kajutu, 0 pokud nema
* fare z typu double na int jednoduchym vynasobenim
* dle googlu se nejdrive zastavilo v Southampton, pote Cherbourg a nakonec Queenstown, proto takove poradi, ostatni (NaN jsou -1)

In [2]:
def preprocess(data):
    #data['name'] = data['name'].apply(lambda x: len(x))
    #data = data.rename(columns = {'name':'nameLen'})
    
    #data['ticket'] = data['ticket'].fillna(-1).apply(lambda x: 1 if x != -1 else 0) #has or doesnt have ticket
    
    data = data.drop(columns = ['ticket', 'name', 'home.dest'])
    #-----------------------------------------
    data['sex'] = data['sex'].replace({'male': 0, 'female':1})
    #-----------------------------------------
    data['cabin'] = data['cabin'].fillna(-1).apply(lambda x: 1 if x != -1 else 0) #has or doesnt have a cabin
    #-----------------------------------------
    data['fare'] = data['fare'].fillna(0).apply(lambda x: x*10000).astype('int64')
    #-----------------------------------------
    data['embarked'] = data['embarked'].fillna(0).replace({'S' : 1, 'C':2, 'Q' : 3})
    
    return data

nacteni a predpracovani data, dle vypisu jsou vsechny sloupce typu int a zadna bunka uz neobsahuje null

In [3]:
data = pd.read_csv("data.csv")
evaluation = pd.read_csv("evaluation.csv")

data = preprocess(data.drop(columns = ['ID']))
                  
evaluation = preprocess(evaluation)

#-----------------------------------------
#data['age'] = data['age'].fillna(-1).astype('int64')

imputer = KNNImputer(n_neighbors=5, weights='distance')
data = pd.DataFrame(imputer.fit_transform(data),index=data.index, columns=data.columns)
evaluation = pd.DataFrame( imputer.transform(evaluation),index=evaluation.index, columns=evaluation.columns)


for col in data.select_dtypes('float64').columns:
    data[col] = data[col].astype('int64')
    
for col in evaluation.select_dtypes('float64').columns:
    evaluation[col] = evaluation[col].astype('int64')

#-----------------------------------------
display(data.head())
display(evaluation.head())

print('null datas?: ', data.isnull().any().any())
data.info()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,cabin,embarked
0,1,3,0,19,0,0,80500,0,1
1,1,2,1,40,0,0,130000,0,1
2,0,3,1,18,0,0,67500,0,3
3,0,3,0,27,1,9,695500,0,1
4,0,3,1,30,0,0,86625,0,1


Unnamed: 0,ID,pclass,sex,age,sibsp,parch,fare,cabin,embarked
0,1000,2,1,24,2,1,270000,0,1
1,1001,2,1,25,1,1,300000,0,1
2,1002,2,0,38,1,0,210000,0,1
3,1003,3,1,19,1,0,161000,0,1
4,1004,2,1,60,1,0,260000,0,1


null datas?:  False
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   survived  1000 non-null   int64
 1   pclass    1000 non-null   int64
 2   sex       1000 non-null   int64
 3   age       1000 non-null   int64
 4   sibsp     1000 non-null   int64
 5   parch     1000 non-null   int64
 6   fare      1000 non-null   int64
 7   cabin     1000 non-null   int64
 8   embarked  1000 non-null   int64
dtypes: int64(9)
memory usage: 70.4 KB


In [4]:
#split 90+10
X_rest, X_test, y_rest, y_test = train_test_split(
    data.drop(columns=['survived']), data['survived'], test_size=0.1, random_state=random_seed
)

#split 90 -> 0.7*90 + 0.3*90
X_train, X_val, y_train, y_val = train_test_split(
    X_rest, y_rest, test_size=0.3, random_state=random_seed
)

#  63    27    10
#train + val + test

k predikci preziti jsem pouzil 4 metody, kazda metoda jeste je spojena s hyperparametry

In [5]:
def transformData(method, x1, x2):
    if method.__name__ != 'KNeighborsClassifier':
        return x1, x2
    
    scaler = MinMaxScaler()
    x3 = scaler.fit_transform(x1)
    x4 = scaler.transform(x2)
    return x3, x4

classifiers = [(DecisionTreeClassifier, {'max_depth': range(1,101), 'criterion': ['entropy', 'gini']}),
               (RandomForestClassifier, {'n_estimators': range(1, 100, 5), 'max_depth': range(1, 5)}),
               (AdaBoostClassifier,  {'n_estimators': range(1,100,5), 'learning_rate': [0.01, 0.05, 0.1, 0.3, 0.5, 1]}),
               (KNeighborsClassifier, {'n_neighbors' : range(2, 100)})]

zde je jen jednoduche pouziti validacni mnoziny k zjisteni nejlepsiho modelu, nize jsem validoval modely pomoci krizove validace

* jako vysledek metody s urcitym hyperparametrem beru prumer
* nalezeni vhodneho hyperparametru pomoci maxarg

In [6]:
#train + test
#train split using KFold for cross validation

bestMethod = ('', '', -1)
n_splits = 5
    
tmp_x = X_rest.assign(Survived= y_rest)

for method, p in classifiers:
    param_comb = ParameterGrid(p)
    
    val_acc = []
    
    for param in param_comb:
        val_p = []
        for train, val in KFold(n_splits=n_splits).split(tmp_x.index):
            
            train_x = tmp_x[tmp_x.index.isin(train)].drop(columns=['Survived'])
            train_y = tmp_x[tmp_x.index.isin(train)]['Survived']
            
            val_x = tmp_x[tmp_x.index.isin(val)].drop(columns=['Survived'])
            val_y = tmp_x[tmp_x.index.isin(val)]['Survived']
        
            train_x, val_x = transformData(method, train_x, val_x)
        
            dt = method(**param).fit(train_x, train_y)
            val_p.append(metrics.accuracy_score(dt.predict(val_x), val_y))
            
        val_acc.append(np.mean(val_p))
        
    print('used', method.__name__)
    best_params = param_comb[np.argmax(val_acc)]
    print(best_params)
    bestVal = val_acc[np.argmax(val_acc)]
    print('mean validation accuracy =', '{0:.6f}'.format(bestVal))
    
    print('----------------------------')
    
    if bestVal > bestMethod[2]:
        bestMethod = (method, best_params, bestVal)
        
print('best was', bestMethod[0].__name__, 'with', bestMethod[1])

train_x, text_x = transformData(bestMethod[0], X_rest, X_test)

dt = bestMethod[0](** bestMethod[1]).fit(train_x, y_rest)
print('accuracy on test data:', metrics.accuracy_score(dt.predict(text_x), y_test) )

used DecisionTreeClassifier
{'max_depth': 3, 'criterion': 'gini'}
mean validation accuracy = 0.804910
----------------------------
used RandomForestClassifier
{'n_estimators': 51, 'max_depth': 4}
mean validation accuracy = 0.804124
----------------------------
used AdaBoostClassifier
{'n_estimators': 81, 'learning_rate': 0.1}
mean validation accuracy = 0.788918
----------------------------
used KNeighborsClassifier
{'n_neighbors': 4}
mean validation accuracy = 0.804124
----------------------------
best was DecisionTreeClassifier with {'max_depth': 3, 'criterion': 'gini'}
accuracy on test data: 0.85


* pouziti bestMethod z predchoziho testu k predikci
* data je jeste treba znormalizovat pokud byl pouzit KNN

In [7]:
train_x, result = transformData(bestMethod[0], X_rest, evaluation.drop(columns = ['ID']))
res = bestMethod[0](** bestMethod[1]).fit(train_x, y_rest).predict(result)

resDF = pd.DataFrame(list(zip(evaluation['ID'], res)), 
               columns =['ID', 'survived'])
resDF.to_csv(r'result.csv', index=False)