# Cvičení

## Kosatce

Vrať se k práci s data o kosatcích v souboru [IRIS.csv](IRIS.csv). Tentokrát zkus, jak dobře dokážou algoritmy pracovat se všemi třemi druhy kosatců. Využij algoritmy `KNeighborsClassifier` a `SVC` ke klasifikaci každého vzorku do jednoho ze tří druhů kosatce.

Postup je stejný jako v lekci:

- Rozděl data na vstupní a výstupní proměnné. 
- Využij cyklus k nalezení nejlepšího parametru pro `KNeighborsClassifier` (počet sousedů) a `SVC` (strategie)
- Dále vyzkoušej, jestli by nebylo zajímavé převést data do více dimenzí. Porovnej výsledek lineárního kernelu (`kernel="linear"`) s kernelem (`kernel="rbf"`). Jaká dvojice parametrů má nejlepší hodnotu metriky `accuracy`?

In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier

# Načtení dat z CSV souboru
data = pd.read_csv("IRIS.csv")
# Rozdělení dat na vstupní (X) a cílové (y) proměnné
X = data.drop(columns=["species"])
y = data["species"]

# Rozdělení dat na trénovací a testovací sadu (30% dat je testovací sada)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Standardizace vstupních proměnných
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Iterace přes různé hodnoty počtu sousedů (k) pro K Nearest Neighbors
k = range(1, 30)
accuracy_list = []
for n in k:
    # Vytvoření klasifikátoru KNN s n sousedy
    clf = KNeighborsClassifier(n_neighbors=n)
    # Trénování modelu na trénovacích datech
    clf.fit(X_train, y_train)
    # Predikce na testovacích datech
    y_pred = clf.predict(X_test)
    # Výpočet přesnosti predikce
    accuracy = accuracy_score(y_test, y_pred)
    # Uložení hodnoty k a příslušné přesnosti
    accuracy_list.append([n, accuracy])

# Vytvoření dataframe s hodnotami k a jejich přesností
accuracy_df = pd.DataFrame(accuracy_list, columns=["n", "accuracy"])
# Seřazení výsledků podle přesnosti v sestupném pořadí
accuracy_df.sort_values("accuracy", ascending=False)

Unnamed: 0,n,accuracy
14,15,1.0
20,21,1.0
18,19,1.0
21,22,1.0
16,17,1.0
15,16,1.0
22,23,1.0
13,14,1.0
12,13,1.0
11,12,1.0


In [7]:
# Definování jader a strategií rozhodování pro Support Vector Classifier (SVC)
kernels = ["linear", "rbf"]
strategies = ["ovo", "ovr"]

# Seznam pro ukládání výsledků každé kombinace jádra a strategie
results = []
# Cyklus pro každou kombinaci jádra a strategie
for kernel in kernels:
    for strategy in strategies:
        # Vytvoření modelu SVC s daným jádrem a strategií
        clf = SVC(kernel=kernel, decision_function_shape=strategy, random_state=42)
        # Trénování modelu na trénovací sadě
        clf.fit(X_train, y_train)
        # Predikce na testovací sadě
        y_pred = clf.predict(X_test)
        # Výpočet přesnosti predikce
        accuracy = accuracy_score(y_test, y_pred)
        # Uložení výsledků do seznamu
        results.append([kernel, strategy, accuracy])

# Vytvoření DataFrame pro lepší přehlednost výsledků
results_df = pd.DataFrame(results, columns=["Kernel", "Strategy", "Accuracy"])
# Seřazení výsledků podle přesnosti v sestupném pořadí
results_df = results_df.sort_values("Accuracy", ascending=False)

# Výpis výsledků
results_df

Unnamed: 0,Kernel,Strategy,Accuracy
2,rbf,ovo,1.0
3,rbf,ovr,1.0
0,linear,ovo,0.977778
1,linear,ovr,0.977778
