# Úkol č. 2 - předzpracování dat a binární klasifikace (do 10. listopadu)

  * Cílem thoto úkolu je vyzkoušet si naučit prediktivní model pro binární klasifikaci.
  * Budete se muset vypořádat s příznaky, které jsou různých typů a které bude třeba nějakým způsobem převést do číselné reprezentace.
    
> **Úkoly jsou zadány tak, aby Vám daly prostor pro invenci. Vymyslet _jak přesně_ budete úkol řešit, je důležitou součástí zadání a originalita či nápaditost bude také hodnocena!**

## Zdroj dat

Budeme se zabývat predikcí přežití pasažérů Titaniku.
K dispozici máte trénovací data v souboru **data.csv** a data na vyhodnocení v souboru **evaluation.csv**.

#### Seznam příznaků:
* survived - zda přežil, 0 = Ne, 1 = Ano, **vysvětlovaná proměnná**, kterou chcete predikovat
* pclass - Třída lodního lístku, 1 = první, 2 = druhá, 3 = třetí
* name - jméno
* sex - pohlaví
* age - věk v letech
* sibsp	- počet sourozenců / manželů, manželek na palubě
* parch - počet rodičů / dětí na palubě
* ticket - číslo lodního lístku
* fare - cena lodního lístku
* cabin	- číslo kajuty
* embarked	- místo nalodění, C = Cherbourg, Q = Queenstown, S = Southampton
* home.dest - Bydliště/Cíl

## Pokyny k vypracování

**Základní body zadání**, za jejichž (poctivé) vypracování získáte **8 bodů**:
  * V Jupyter notebooku načtěte data ze souboru **data.csv**. Vhodným způsobem si je rozdělte na trénovací, testovací a případně i validační množinu (preferujeme ale použití cross-validation).
  * Projděte si jednotlivé příznaky a transformujte je do vhodné podoby pro použití ve vybraném klasifikačním modelu.
  * Podle potřeby si můžete vytvářet nové příznaky (na základě existujících), například tedy můžete vytvořit příznak měřící délku jména. Některé příznaky můžete také úplně zahodit.
  * Nějakým způsobem se vypořádejte s chybějícími hodnotami.
  * Následně si vyberte vhodný klasifikační model z přednášek. Najděte vhodné hyperparametry a určete jeho přesnost (accuracy) na trénovací množině. Také určete jeho přesnost na testovací/vaidační množině.
  * Načtěte vyhodnocovací data ze souboru **evaluation.csv**. Napočítejte predikce pro tyto data (vysvětlovaná proměnná v nich již není). Vytvořte **results.csv** soubor, ve kterém tyto predikce uložíte do dvou sloupců: ID, predikce přežití. Tento soubor nahrajte do repozitáře.

**Další body zadání** za případné další body  (můžete si vybrat, maximum bodů za úkol je každopádně 12 bodů):
  * (až +4 body) Aplikujte všechny klasifikační modely z přednášek a určete (na základě přesnosti na validační množině), který je nejlepší. Přesnost tohoto nejlepšího modelu odhadněte pomocí testovací množiny. K predikcím na vyhodnocovacích datech využijte tento model.
  * (až +4 body) Zkuste použít nějaké (alespoň dvě) netriviální metody doplňování chybějících hodnot u věku. Zaměřte na vliv těchto metod na přesnost predikce výsledného modelu. K predikcím na vyhodnocovacích datech využijte ten přístup, který Vám vyjde jako nejlepší.

## Poznámky k odevzdání

  * Řiďte se pokyny ze stránky https://courses.fit.cvut.cz/BI-VZD/homeworks/index.html.
  * Odevzdejte nejen Jupyter Notebook, ale i _csv_ soubor(y) s predikcemi pro vyhodnocovací data.
  * Opravující Vám může umožnit úkol dodělat či opravit a získat tak další body. **První verze je ale důležitá a bude-li odbytá, budete za to penalizováni**

In [1]:
import math
import pandas as pd
import numpy as np
import seaborn as sns
import sklearn.metrics as metrics
from sklearn.model_selection import ParameterGrid
import matplotlib.pyplot as plt
import matplotlib
from sklearn.model_selection import train_test_split
from copy import deepcopy
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import cross_validate
from sklearn.neighbors import KNeighborsClassifier

%matplotlib inline

import warnings

In [2]:
def basic_data_adjusments(data):
    df = data.drop(columns=["name"])
    df["sex"].replace(['male','female'],[True,False],inplace=True)
    # první písmena kabiny převede na čísla, kde žádná hodnota je 0 a poté postupně G - A se převede na 1 - 7
    cabin_level = {
        "1": "G",
        "2": "F",
        "3": "E",
        "4": "D",
        "5": "C",
        "6": "B", 
        "7": "A"
    }
    df['cabin'] = np.where(df['cabin'].isnull(), '0', df['cabin'])
    for index, value  in cabin_level.items():
       df['cabin'] = np.where(df['cabin'].str.contains(value), index, df['cabin'])
    df["cabin"] = df["cabin"].replace(['^[H-Z]'], [1], regex = True)
    df['cabin'] = pd.to_numeric(df['cabin'])
    return df

In [3]:
# řádky s nekompletní hodnotou ve sloupcích fare a embarked vyhodím, protože 3 z 1000 je poměrně málo
def drop_incomplete_rows(data):
    df = data.loc[data.fare.notnull()]
    df = df.loc[data.embarked.notnull()]
    home_dest_unique = df.loc[data["home.dest"].notnull()].nunique()
    return df

In [4]:
# změna 'home.dest' na sloupce fromUSA a notFromUSA, odhad podle regext '.*, ..$' napr 'Ireland New York, NY'
def home_dest_solution(data):
    df = data.replace(to_replace ='.*, ..$', value = 'USA', regex = True) 
    home_dest_column = df["home.dest"]
    home_dest_column = home_dest_column.replace(['.+[^U][^S][^A]$', '.*'], [1, 0], regex = True)
    home_dest_column = home_dest_column.replace(np.nan, 0)
    home_dest_column
    df["notFromUSA"] = home_dest_column
    df["home.dest"] = df["home.dest"].replace(['USA$', '.*'], [1, 0], regex = True)
    df["home.dest"] = df["home.dest"].replace(np.nan, 0)
    df.rename(columns = {'home.dest': 'fromUSA'}, inplace=True)
    df['notFromUSA'] = pd.to_numeric(df['notFromUSA'], downcast='integer')
    df['fromUSA'] = pd.to_numeric(df['fromUSA'], downcast='integer')
    df["age"] = df["age"].replace(np.nan, df['age'].median())
    return df

In [5]:
def embarked_solution(data):
    df = data.drop(columns = 'ticket')
    df.rename(columns = {'embarked': 'embarked S'}, inplace=True)
    df['embarked C'] = df['embarked S'].replace(['C', '.'], [1, 0], regex = True)
    df['embarked Q'] = df['embarked S'].replace(['Q', '.'], [1, 0], regex = True)
    df['embarked S'] = df['embarked S'].replace(['S', '.'], [1, 0], regex = True)
    return df

In [6]:
def split_data_CV(Xdata, ydata, ratio=0.25, rd_seed=5656):
    '''
        rozdělí pouze na trenovací a testovací, slouží k použití cross validace
    '''
    Xtrain, Xtest, ytrain, ytest = train_test_split(Xdata, ydata, test_size=0.25, random_state=rd_seed) 
    return Xtrain, Xtest, ytrain, ytest

In [7]:
def data_adjusment(data):
    '''
        upravení dat
    '''
    data = basic_data_adjusments(data)
    data = drop_incomplete_rows(data)
    data = home_dest_solution(data)
    data = embarked_solution(data)
    return data

In [8]:
data = pd.read_csv('data.csv')
data = data_adjusment(data)

In [9]:
def learn_forest(Xtrain, ytrain, number_of_cv):
    param_grid_forest = {
        'n_estimators': range(4,40,2),
        'max_depth': range(3,8),
        'criterion': ['gini', 'entropy']
    }
    param_comb = ParameterGrid(param_grid_forest)
    val_acc_forest = []
    for params in param_comb:
        params['random_state'] = random_state
        dt = RandomForestClassifier(**params)
        scores = cross_validate(dt, Xtrain, ytrain, cv=number_of_cv)
        val_acc_forest.append(np.average(scores['test_score']))
    best_params = param_comb[np.argmax(val_acc_forest)]
    print(best_params)
    print("Nejlepší přesnost po cross validaci lesu", max(val_acc_forest))
    return {'best_params': best_params, 'val_acc': max(val_acc_forest), 'type': 'forest'}

In [10]:
def learn_tree(Xtrain, ytrain, number_of_cv):
    param_grid_tree = {
        'max_depth': range(2,20), 
        'criterion': ['entropy', 'gini'],
        'splitter': ['best', 'random']
    }
    param_comb = ParameterGrid(param_grid_tree)    
    val_acc_tree = []

    for params in param_comb:
        params['random_state'] = random_state
        dt = DecisionTreeClassifier(**params)
        scores = cross_validate(dt, Xtrain, ytrain, cv=number_of_cv)
        val_acc_tree.append(np.average(scores['test_score']))  

    best_params = param_comb[np.argmax(val_acc_tree)]
    print(best_params)
    print("Nejlepší přesnost po cross validaci stromu", max(val_acc_tree))
    return {'best_params': best_params, 'val_acc': max(val_acc_tree), 'type': 'tree'}

In [11]:
def learn_ada(Xtrain, ytrain, number_of_cv):
    param_grid_ada = {
        'n_estimators': range(10,50,1),
        'learning_rate': [0.8, 1.2, 1.5, 1.7]
    }
    param_comb = ParameterGrid(param_grid_ada)    
    val_acc_ada = []

    for params in param_comb:
        params['random_state'] = random_state
        dt = AdaBoostClassifier(**params)
        scores = cross_validate(dt, Xtrain, ytrain, cv=number_of_cv)
        val_acc_ada.append(np.average(scores['test_score']))

    best_params = param_comb[np.argmax(val_acc_ada)]
    print(best_params)
    print("Nejlepší přesnost po cross validaci ada-boostu", max(val_acc_ada))
    return {'best_params': best_params, 'val_acc': max(val_acc_ada), 'type': 'ada'}

In [12]:
def learn_knn(Xtrain, ytrain, number_of_cv):
    param_grid_knn = {
        'n_neighbors': range(4,20,1),
        'weights': ['uniform', 'distance'],
        'leaf_size': range(10, 71, 10),
        'p': range(1, 3)
    }
    param_comb = ParameterGrid(param_grid_knn)    
    val_acc_knn = []
    for params in param_comb:
        dt = KNeighborsClassifier(**params)
        scores = cross_validate(dt, Xtrain, ytrain, cv=number_of_cv)
        val_acc_knn.append(np.average(scores['test_score']))  

    best_params = param_comb[np.argmax(val_acc_knn)]
    print(best_params)
    print("Nejlepší přesnost po cross validaci kNN", max(val_acc_knn))
    return {'best_params': best_params, 'val_acc': max(val_acc_knn), 'type': 'knn'}

In [13]:
def cross_validation(Xtrain, ytrain, number_of_cv = 4):
    results = []
    results.append(learn_forest(Xtrain, ytrain, number_of_cv))
    results.append(learn_tree(Xtrain, ytrain, number_of_cv))
    results.append(learn_ada(Xtrain, ytrain, number_of_cv))
    results.append(learn_knn(Xtrain, ytrain, number_of_cv))
    scores = []
    for item in results:
        scores.append(item['val_acc'])
    return results[np.argmax(scores)]

In [14]:
Xtrain, Xtest, ytrain, ytest = split_data_CV(data.drop(columns=['survived']), data.survived)
random_state = 365412
number_of_cv = 5
# learn_forest(Xtrain, ytrain, number_of_cv)
best_result = cross_validation(Xtrain, ytrain, number_of_cv)
best_result

{'n_estimators': 32, 'max_depth': 5, 'criterion': 'gini'}
Nejlepší přesnost po cross validaci lesu 0.8246055380239122
{'splitter': 'random', 'max_depth': 3, 'criterion': 'gini'}
Nejlepší přesnost po cross validaci stromu 0.8206320280901374
{'n_estimators': 27, 'learning_rate': 1.5}
Nejlepší přesnost po cross validaci ada-boostu 0.8098582159207076
{'weights': 'distance', 'p': 1, 'n_neighbors': 13, 'leaf_size': 10}
Nejlepší přesnost po cross validaci kNN 0.6505355793590826


{'best_params': {'n_estimators': 32, 'max_depth': 5, 'criterion': 'gini'},
 'val_acc': 0.8246055380239122,
 'type': 'forest'}

In [15]:
best_params = best_result['best_params']
dt = None
if best_result['type'] == 'forest':
    best_params['random_state'] = random_state
    dt = RandomForestClassifier(**best_params)
elif best_result['type'] == 'tree':
    best_params['random_state'] = random_state
    dt = DecisionTreeClassifier(**best_params)
elif best_result['type'] == 'ada':
    best_params['random_state'] = random_state
    dt = AdaBoostClassifier(**best_params)
else:
    dt = KNeighborsClassifier(**best_params)
    
dt.fit(Xtrain, ytrain)
print("Přesnost na testovací množině dat je", metrics.accuracy_score(ytest, dt.predict(Xtest)))

Přesnost na testovací množině dat je 0.792


In [16]:
test_data = pd.read_csv("evaluation.csv")
test_data = data_adjusment(test_data)
a = dt.predict(test_data)
df = pd.DataFrame()
df["ID"] = test_data["ID"]
df["prediction"] = a
df.to_csv("result.csv", index=False)

In [17]:
df2 = pd.read_csv("result.csv")
df2

Unnamed: 0,ID,prediction
0,1000,0
1,1001,0
2,1002,0
3,1003,0
4,1004,0
5,1005,0
6,1006,1
7,1007,0
8,1008,0
9,1009,0
