# Úkol č. 2 - předzpracování dat a binární klasifikace (do 10. listopadu)

  * Cílem thoto úkolu je vyzkoušet si naučit prediktivní model pro binární klasifikaci.
  * Budete se muset vypořádat s příznaky, které jsou různých typů a které bude třeba nějakým způsobem převést do číselné reprezentace.
    
> **Úkoly jsou zadány tak, aby Vám daly prostor pro invenci. Vymyslet _jak přesně_ budete úkol řešit, je důležitou součástí zadání a originalita či nápaditost bude také hodnocena!**

## Zdroj dat

Budeme se zabývat predikcí přežití pasažérů Titaniku.
K dispozici máte trénovací data v souboru **data.csv** a data na vyhodnocení v souboru **evaluation.csv**.

#### Seznam příznaků:
* survived - zda přežil, 0 = Ne, 1 = Ano, **vysvětlovaná proměnná**, kterou chcete predikovat
* pclass - Třída lodního lístku, 1 = první, 2 = druhá, 3 = třetí
* name - jméno
* sex - pohlaví
* age - věk v letech
* sibsp	- počet sourozenců / manželů, manželek na palubě
* parch - počet rodičů / dětí na palubě
* ticket - číslo lodního lístku
* fare - cena lodního lístku
* cabin	- číslo kajuty
* embarked	- místo nalodění, C = Cherbourg, Q = Queenstown, S = Southampton
* home.dest - Bydliště/Cíl

## Pokyny k vypracování

**Základní body zadání**, za jejichž (poctivé) vypracování získáte **8 bodů**:
  * V Jupyter notebooku načtěte data ze souboru **data.csv**. Vhodným způsobem si je rozdělte na trénovací, testovací a případně i validační množinu (preferujeme ale použití cross-validation).
  * Projděte si jednotlivé příznaky a transformujte je do vhodné podoby pro použití ve vybraném klasifikačním modelu.
  * Podle potřeby si můžete vytvářet nové příznaky (na základě existujících), například tedy můžete vytvořit příznak měřící délku jména. Některé příznaky můžete také úplně zahodit.
  * Nějakým způsobem se vypořádejte s chybějícími hodnotami.
  * Následně si vyberte vhodný klasifikační model z přednášek. Najděte vhodné hyperparametry a určete jeho přesnost (accuracy) na trénovací množině. Také určete jeho přesnost na testovací/vaidační množině.
  * Načtěte vyhodnocovací data ze souboru **evaluation.csv**. Napočítejte predikce pro tyto data (vysvětlovaná proměnná v nich již není). Vytvořte **results.csv** soubor, ve kterém tyto predikce uložíte do dvou sloupců: ID, predikce přežití. Tento soubor nahrajte do repozitáře.

**Další body zadání** za případné další body  (můžete si vybrat, maximum bodů za úkol je každopádně 12 bodů):
  * (až +4 body) Aplikujte všechny klasifikační modely z přednášek a určete (na základě přesnosti na validační množině), který je nejlepší. Přesnost tohoto nejlepšího modelu odhadněte pomocí testovací množiny. K predikcím na vyhodnocovacích datech využijte tento model.
  * (až +4 body) Zkuste použít nějaké (alespoň dvě) netriviální metody doplňování chybějících hodnot u věku. Zaměřte na vliv těchto metod na přesnost predikce výsledného modelu. K predikcím na vyhodnocovacích datech využijte ten přístup, který Vám vyjde jako nejlepší.

## Poznámky k odevzdání

  * Řiďte se pokyny ze stránky https://courses.fit.cvut.cz/BI-VZD/homeworks/index.html.
  * Odevzdejte nejen Jupyter Notebook, ale i _csv_ soubor(y) s predikcemi pro vyhodnocovací data.
  * Opravující Vám může umožnit úkol dodělat či opravit a získat tak další body. **První verze je ale důležitá a bude-li odbytá, budete za to penalizováni**

In [6]:
import math
import pandas as pd
import numpy as np
import seaborn as sns
import sklearn.metrics as metrics
from sklearn.model_selection import ParameterGrid
import matplotlib.pyplot as plt
import matplotlib
from copy import deepcopy
%matplotlib inline

import warnings

In [81]:
data = pd.read_csv('data.csv')
df = data.drop(columns=["name"])
df["sex"].replace(['male','female'],[True,False],inplace=True)
# první písmena kabiny převede na čísla, kde žádná hodnota je 0 a poté postupně G - A se převede na 1 - 7
cabin_level = {
    "1": "G",
    "2": "F",
    "3": "E",
    "4": "D",
    "5": "C",
    "6": "B", 
    "7": "A"
}
df['cabin'] = np.where(df['cabin'].isnull(), '0', df['cabin'])
for index, value  in cabin_level.items():
   df['cabin'] = np.where(df['cabin'].str.contains(value), index, df['cabin'])
df['cabin'] = pd.to_numeric(df['cabin'])
df.info()

df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 12 columns):
ID           1000 non-null int64
survived     1000 non-null int64
pclass       1000 non-null int64
sex          1000 non-null bool
age          799 non-null float64
sibsp        1000 non-null int64
parch        1000 non-null int64
ticket       1000 non-null object
fare         999 non-null float64
cabin        1000 non-null int64
embarked     998 non-null object
home.dest    565 non-null object
dtypes: bool(1), float64(2), int64(6), object(3)
memory usage: 87.0+ KB


Unnamed: 0,ID,survived,pclass,sex,age,sibsp,parch,ticket,fare,cabin,embarked,home.dest
0,0,1,3,False,22.0,0,0,347081,7.7500,0,S,
1,1,0,3,True,,0,0,330877,8.4583,0,Q,
2,2,1,1,False,19.0,1,0,11967,91.0792,6,C,"Dowagiac, MI"
3,3,0,3,True,25.0,0,0,2672,7.2250,0,C,
4,4,0,3,True,,0,0,368573,7.7500,0,Q,"Ireland New York, NY"
5,5,0,1,True,27.0,0,2,113503,211.5000,5,C,"Elkins Park, PA"
6,6,1,1,False,24.0,3,2,19950,263.0000,5,S,"Winnipeg, MB"
7,7,1,3,False,,1,0,386525,16.1000,0,S,"Liverpool, England Bedford, OH"
8,8,0,3,True,61.0,0,0,345364,6.2375,0,S,
9,9,0,3,True,8.0,4,1,382652,29.1250,0,Q,
