<h2>DATA PREPROCESSING - PREDSPRACOVANIE DÁT</h2>

Zo stránky https://www.superdatascience.com/machine-learning/ stiahneme súbor <strong>Machine Learning A-Z (Codes and Datasets).zip</strong> a nájdeme v ňom súbor Data.csv v sekcii <em>Part 1: Data Preprocessing - Python</em>.

Z tohto archívu nás zatiaľ zaujíma súbor <strong>Data.csv</strong>, nájdeme v ňom teda tento súbor. Dáme ho do priečinka, kde sa nachádza aj tento notebook (ipynb súbor). Budú teda v tom istom priečinku.

Ak by sme otvorili tento súbor, vidíme náš dataset:<br /><img src="http://mvi.mechatronika.cool/sites/default/files/obrazky/obrazok_cv3_1.png" />

<strong>Závislou premennou</strong> je v tomto prípade <em>Purchased</em>, teda informácia, či ľudia so spomenutými údajmi si zakúpili sledovaný výrobok. Údaje človeka sú <strong>nezávislou premennou</strong>.

Prvou úlohou bude príprava templatu pre data preprocessing, ktorý budeme používať pri všetkých metódach strojového učenia. (Niekedy budú treba vhodné úpravy – podľa typu použitého algoritmu pre strojové učenie.) Data preprocessing pozostáva napríklad z doplnenia chýbajúcich hodnôt, nakoľko sami vidíme, že v tabuľke niektoré chýbajú. V praxi sa takéto prípady vyskytujú často.

In [None]:
# Data Preprocessing

# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

Spustíme vyššie uvedený fragment kódu, pričom podobne vždy treba postupovať aj pri ďalších bodoch (teda spustiť kód, keď čítame daný bod). Mriežka označuje komentár. Numpy je knižnica pre numerické operácie, Matplotlib najmä pre kreslenie grafov a Pandas pre načítavanie súborov.

Načítame dataset a môžeme si ho aj zobraziť pomocou <em>print</em>:

In [None]:
# Importing the dataset
dataset = pd.read_csv('Data.csv')

In [None]:
print (dataset)

Ďalej spustíme kód:

In [None]:
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [None]:
print (X)
print (y)

Do premennej X sme si uložili všetky údaje okrem posledného stĺpca, keďže ide o závislú premennú. Túto závislú premennú sme uložili do premennej y. Notácia s dvojbodkami funguje podobne ako v Matlabe, aj keď v Pythone sú oproti Matlabu isté rozdiely v indexácii polí – viď. prednáška.

Pridáme kód na doplnenie chýbajúcich hodnôt, keďže vidíme, že v dvoch stĺpcoch (<em>Age</em> a <em>Salary</em>) chýbajú hodnoty:

In [None]:
# Taking care of missing data
from sklearn.impute import SimpleImputer
imputer = SimpleImputer (missing_values = np.nan, strategy = 'mean')
imputer.fit(X[:, 1:3])
X[:, 1:3] = imputer.transform(X[:,1:3])

Objekt imputer nám bude slúžiť ako operátor na dopĺňanie chýbajúcich hodnôt podľa zvolenej stratégie, ktorú sme si nastavili. V tomto prípade ide o mean, čiže sa zoberie priemer hodnôt. Konkrétne priemer zo stĺpca. Nastavenie imputeru si môžeme prečítať tu: https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html 

Ďalej kód uvedený vyššie nahradí chýbajúce hodnoty priemerom v stĺpcoch 1 a 2. Notácia „1 až 3“ znamená v Pythone „1 až 2 – vrátane“. Toto si môžeme zobraziť napríklad pomocou printu.

In [None]:
print (X)

Vidíme, že niektoré vstupné údaje (krajina) nie sú numerické (nazvime ich kvantitatívne), ale <strong>kategorického</strong> charakteru. Potrebujeme ich teda takýmto spôsobom spracovať. Mohli by sme to urobiť tak, že budeme jednotlivé krajiny reprezentovať číslom (teda Francúzsko bude napríklad 1, Španielsko 2, atď.). Na toto sa používa <em>LabelEncoder</em>. Môže však nastať problém, že niektoré metódy strojového učenia toto pochopia tak, že budú tieto hodnoty vnímať ako numerické (Španielsko je viac ako Francúzsko, keďže má vyššie číslo).

Aby sme tomuto zamedzili, využijeme teda metódu <strong>One-Hot Encoding</strong>, pričom výstup bude vyzerať takto:<br /><img src="http://mvi.mechatronika.cool/sites/default/files/obrazky/obrazok_cv3_2.png" />

Spustíme kód:

In [None]:
# Encoding categorical data
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')
X = np.array(ct.fit_transform(X)) 

Vidíme, že pri tvorbe objektu <strong>ColumnTransformer</strong> sme špecifikovali stĺpec 0, čo znamená, že chceme transformovať prvý stĺpec, čo je u nás stĺpec s krajinami. Ostatné stĺpce chceme nechať tak (<strong>remainder='passthrough'</strong>). Zobrazíme dataset pomocou príkazu print:

In [None]:
print (X)

Kategorické sú aj dáta v premennej <strong>y</strong> (<em>kúpil / nekúpil výrobok</em>), takže pridáme nasledovný kód, pričom tu nám stačí <strong>LabelEncoder</strong>:

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder ()
y = le.fit_transform(y)

Ďalej potrebujeme dáta rozdeliť na <em>trénovacie</em> a <em>testovacie</em>. Ako testovacie dáta použijeme 20% množiny. Spustíme kód:

In [None]:
# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 1)

Zobrazíme si všetky vytvorené množiny dát:

In [None]:
print (X_train)

In [None]:
print (X_test)

In [None]:
print (y_train)

In [None]:
print (y_test)

Pri niektorých algoritmoch strojového učenia je treba urobiť aj úpravu mierky príznakov – <strong>Feature Scaling</strong>. Vidíme totiž, že plat a vek sú hodnoty v úplne iných rádoch. Príslušný kód je:

In [None]:
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train[:, 3:] = sc_X.fit_transform(X_train[:, 3:])
X_test[:, 3:] = sc_X.transform(X_test[:, 3:]);

Týmto sme dokončili náš template pre data preprocessing, ktorý budeme používať. Súbor si dôkladne uložíme. Pokračujeme v cvičení s časťou LINEÁRNA REGRESIA.