**POZNÁMKA: Tento notebook je určený pre platformu Google Colab. Je však možné ho spustiť (možno s drobnými úpravami) aj ako štandardný Jupyter notebook.** 



In [None]:
#@title -- Installation of Packages -- { display-mode: "form" }
import sys
!{sys.executable} -m pip install git+https://github.com/michalgregor/class_utils.git

In [None]:
#@title -- Import of Necessary Packages -- { display-mode: "form" }
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OrdinalEncoder
from sklearn.impute import SimpleImputer

from sklearn.compose import make_column_transformer
from sklearn.pipeline import make_pipeline
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

In [None]:
#@title -- Downloading Data -- { display-mode: "form" }
DATA_HOME = "https://github.com/michalgregor/ml_notebooks/blob/main/data/{}?raw=1"

from class_utils.download import download_file_maybe_extract
download_file_maybe_extract(DATA_HOME.format("adult_income.zip"), directory="data/adult_income")

# also create a directory for storing any outputs
import os
os.makedirs("output", exist_ok=True)

## Pipelines a KNN: Adult Income Dataset

Ako praktický príklad na precvičenie predspracovania dát a použitia metódy KNN využijeme dátovú množinu [Adult Income Dataset](https://archive.ics.uci.edu/ml/datasets/adult), ktorá obsahuje údaje zo sčítania obyvateľstva a cieľom je na základe nich predikovať, či má daná osoba príjem vyšší alebo nižší než 50 000 dolárov.

Ako zvyčajne, zobrazíme si najprv opis dátovej množiny.



In [None]:
with open("data/adult_income/adult.names", "r") as file:
    print("".join(file.readlines()))

Začneme načítaním dátovej množiny z CSV súborov. Dátová množina je už rozdelená na tréningovú a testovaciu časť – načítame preto každú osobitne. *V testovacích dátach je na konci posledného stĺpca z nejakého dôvodu zvyšná bodka. Kvôli kompatibilite s tréningovou množinou ju hneď po načítaní odstránime.* 



In [None]:
df_train = pd.read_csv("data/adult_income/adult.data",
                       header=None)
df_test = pd.read_csv("data/adult_income/adult.test",
                      header=None, skiprows=1)

df_test[14] = df_test[14].apply(lambda x: x[:-1])
df_train.head()

---
### Úloha 1: Selekcia stĺpcov

**Prvou úlohou bude – podobne ako v predchádzajúcom príklade – vybrať, ktoré stĺpce použijeme ako vstupy a určiť, či obsahujú numerické alebo kategorické dáta.**  Požadované výstupy sú v poslednom stĺpci.

---


In [None]:
categorical_inputs = [           ]  # ----

numeric_inputs = [               ]  # ----

output = 14

---
### Úloha 2: Zostavenie pipeline

**Dalším krokom je zostavenie pipeline na predspracovanie dát. Na tomto mieste môžete použiť pipeline z predchádzajúceho príkladu.**  Požadované výstupy sa predspracujú pomocou transformátora `OrdinalEncoder`.

---


In [None]:
input_preproc = make_column_transformer(
    
    
    
    # ----


    

In [None]:
output_enc = OrdinalEncoder()

### Predspracovanie dát

Pomocou vyššie vytvorených transformátorov predspracujeme dáta.



In [None]:
X_train = input_preproc.fit_transform(df_train)
Y_train = output_enc.fit_transform(df_train[[output]]).reshape(-1)

**Nezabudnite, že pri predspracovaní testovacích dát používame už len metódu `transform`, nie `fit_transform`.** 



In [None]:
X_test = input_preproc.transform(df_test)
Y_test = output_enc.transform(df_test[[output]]).reshape(-1)

### Tréning modelu

Kód na tréning modelu preberáme z predchádzajúceho príkladu bezo zmeny.



In [None]:
model = KNeighborsClassifier(n_neighbors=5)
model.fit(X_train, Y_train)

### Testovanie modelu

Kód na testovanie modelu preberáme tiež z predchádzajúceho príkladu bezo zmeny.



In [None]:
y_test = model.predict(X_test)

In [None]:
cm = pd.crosstab(Y_test, y_test,
                 rownames=['actual'],
                 colnames=['predicted'])
print(cm)

In [None]:
acc = accuracy_score(Y_test, y_test)
print("Accuracy = {}".format(acc))