#Klasifikace kosatců

Cílem klasifikační úlohy je rozlišit tři druhy kosatců pouze na základě rozměrů jejich okvětních a kališních lístků. 

![Sepal vs. Petal](https://github.com/mlcollege/ai-academy/blob/main/07-klasifikace/img/iris.png?raw=1)

Data set Iris (anglicky kosatec) je v komunitě machine learning specialistů velmi známý, a proto je již přímo součástí knihovny ScikitLearn.


In [None]:
from sklearn import datasets
iris = datasets.load_iris()
print(iris.data[:10])

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]


Každý řádek proměnné _iris.data_ představuje jednu rostlinu a každý sloupeček jeden ze vstupních atributů, které budou použity pro klasifikaci. Jejich význam je následující: 

In [None]:
print(iris.feature_names)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


V proměnné _iris.target_ jsou uloženy třídy (druhy kostaců), odpovídající jednotlivým rostlinám z proměnné _iris.data_. Třídy jsou kódovány indexy 0, 1 a 2.

In [None]:
print(iris.target)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


Jejich význam je možné zjistit zde:

In [None]:
print(iris.target_names)

['setosa' 'versicolor' 'virginica']


Tak jako v předchozích příkladech si data rozdělíme na trénovací a testovací část.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=5)
print('Velikost trenovaci casti: {}'.format(len(X_train)))
print('Velikost testovaci casti: {}'.format(len(X_test)))

Velikost trenovaci casti: 120
Velikost testovaci casti: 30


## Předzpracování dat

Před trénováním modelu je vhodné data normalizovat tak, aby měl každý vstupní atribut v trénovacích datech střední hodnotu 0 a směrodatnou odchylku 1. Tento způsob normalizace se nazývá standardizace a výrazně urychluje trénování u algoritmů založených na gradientních metodách (včetně prosté lineární nebo logistické regrese). Ke standardizaci ve ScikitLearn je možné použít nástroj [StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html). 

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train)
print(scaler.transform(X_train)[:10,:])

[[-0.88140924  0.7143396  -1.23427138 -1.26819767]
 [-0.40389633 -1.69108967  0.17471421  0.16749781]
 [-0.16513988 -1.03506351 -0.10708291 -0.22405551]
 [-0.52327456  1.37036577 -1.23427138 -1.26819767]
 [ 1.38677706  0.27698883  0.56923018  0.29801558]
 [-1.00078746  0.49566421 -1.2906308  -1.26819767]
 [-1.00078746  0.93301499 -1.17791196 -0.74612659]
 [ 2.22242464 -0.16036195  1.35826211  1.47267551]
 [-1.00078746  0.93301499 -1.34699023 -1.1376799 ]
 [ 0.6705077   0.27698883  0.90738672  1.47267551]]


In [None]:
print(scaler.transform(X_train)[:,0].mean())
print(scaler.transform(X_train)[:,0].std())

-2.67193674593121e-15
1.0000000000000002


## Trénování a predikce

Stejně jako v případě regrese nejprve vytvoříme instanci klasifikátoru a natrénujeme model, který je poté možné použít pro klasifikaci testovacích nebo úplně nových příkladů. Vzhledem k tomu, že chceme data nejdříve standardizovat a poté klasifikovat, můžeme využít nástroje [Pipeline](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html). Pomocí Pipeline můžeme ve ScikitLearn jednoduše řetězit různé metody práce s daty.  

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

model = Pipeline([('std', StandardScaler()),
                  ('lr', LogisticRegression())])

model.fit(X_train, y_train)


Pipeline(memory=None,
         steps=[('std',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('lr',
                 LogisticRegression(C=1.0, class_weight=None, dual=False,
                                    fit_intercept=True, intercept_scaling=1,
                                    l1_ratio=None, max_iter=100,
                                    multi_class='auto', n_jobs=None,
                                    penalty='l2', random_state=None,
                                    solver='lbfgs', tol=0.0001, verbose=0,
                                    warm_start=False))],
         verbose=False)

Na závěr vyhodnotíme kvalitu predikce. 

In [None]:
from sklearn import metrics
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)

print ("Celkova spravnost klasifikace pro testovaci data: {:.2f}".format(accuracy_score(y_test, y_pred)))
print ()
print(metrics.classification_report(y_test, y_pred))


Celkova spravnost klasifikace pro testovaci data: 0.90

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         8
           1       0.83      0.91      0.87        11
           2       0.90      0.82      0.86        11

    accuracy                           0.90        30
   macro avg       0.91      0.91      0.91        30
weighted avg       0.90      0.90      0.90        30

