# Kosatce

Datovou sadu s daty o kosetcích (Iris) představil britský statistik a biolog Ronald Fisher ve svém článku z roku 1936 o využití mnohonásobných měření v taxonomických problémech. Někdy se mu říká Andersonův kosatcový datový soubor, protože Edgar Anderson shromáždil data k měření morfologické variace květin kosatce tří souvisejících druhů. Datová sada obsahuje 50 vzorků od každého ze tří druhů kosatce (Iris Setosa, Iris virginica a Iris versicolor). Od každého vzorku byly změřeny čtyři vlastnosti: délka a šířka kališních lístků a korunních lístků, v centimetrech.

Tato datová sada se stala typickým testovacím případem pro mnoho statistických klasifikačních technik v strojovém učení, jako jsou například podpůrné vektorové stroje.


In [14]:
import pandas
import matplotlib.pyplot as plt

from sklearn.metrics import (
    accuracy_score,
    confusion_matrix,
    ConfusionMatrixDisplay,
    f1_score,
    precision_score,
    recall_score,
)
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVC

In [15]:
data = pandas.read_csv("IRIS.csv")
data.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa



Využij algoritmy `KNeighborsClassifier` a `SVC` ke klasifikaci každého vzorku do jednoho ze tří druhů kosance.

Postup je stejný jako v lekci:

- Rozděl data na vstupní a výstupní proměnné. 


In [16]:
X = data.drop(columns=["species"])
y = data["species"]

- Využij `GridSearchCV` k nalezení nejlepšího parametru pro `KNeighborsClassifier` (počet sousedů) a `SVC` (strategie)

- Dále vyzkoušej, jestli by nebylo zajímavé převést data do více dimenzí. 

Porovnej výsledek lineárního kernelu (`kernel="linear"`) s kernelem (`kernel="rbf"`). 

Můžeš vyzkoušet obě strategie, tj. budeš mít ve slovníku `params` dva klíče a každý z klíčů bude mít seznam dvou možných hodnot. 

Jaká dvojice parametrů má nejlepší hodnotu metriky `accuracy`?


In [17]:
model_1 = SVC()
params_1 = {"kernel": ["linear", "rbf"], "decision_function_shape": ["ovo", "ovr"]}

clf_1 = GridSearchCV(model_1, params_1, scoring="accuracy")
clf_1.fit(X, y)

print(clf_1.best_params_)
print(round(clf_1.best_score_, 2))

{'decision_function_shape': 'ovo', 'kernel': 'linear'}
0.98


In [18]:
model_1 = KNeighborsClassifier()
params_1 = {"n_neighbors": range(1, 31, 2)}

clf_1 = GridSearchCV(model_1, params_1, scoring="accuracy")
clf_1.fit(X, y)

print(clf_1.best_params_)
print(round(clf_1.best_score_, 2))

{'n_neighbors': 7}
0.98


In [19]:
# Binary classification models like logistic regression and SVM do not support multi-class classification natively and require meta-strategies.
# The One-vs-Rest strategy splits a multi-class classification into one binary classification problem per class.
# The One-vs-One strategy splits a multi-class classification into one binary classification problem per each pair of classes.

- https://scikit-learn.org/stable/auto_examples/svm/plot_iris_svc.html

- https://medium.com/analytics-vidhya/implementing-different-kernels-of-svc-algorithm-on-the-iris-dataset-90908e55048a