# Cvičení: Clustering
Zdroj: [Jiří Pešík. *Python pro data science.*](https://github.com/pesikj/PythonProDataScience)
(upraveno)

## Vzorky vína

Pracuj se souborem [wine-regions.csv](data/wine-regions.csv). Každý záznam obsahuje informace o vzorku vína. Všechny vzorky pocházejí z jednoho regionu v Itálii, ale v datech se nachází několik různých odrůd. Naší úlohou bude data uspořádat do shluků, které by mohly odpovídat odrůdám.

- Projdi kroky připravené níže a přesvědč se, že každému z nich v rámci možností rozumíš. Podle grafu odhadni vhodný počet shluků (pro urychlení vynecháme vhodnější odhad pomocí metriky *inertia*) a ten použij pro natrénování modelu K-means.

In [1]:
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.manifold import TSNE
from sklearn.preprocessing import StandardScaler

In [None]:
# Načtení dat
X = pd.read_csv("wine-regions.csv")
X.head()

In [None]:
# Normalizace dat
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Zobrazení výsledku normalizace
# (provizorně převedeme na DataFrame pro přehlednější zobrazení)
pd.DataFrame(X).head()

In [None]:
# Redukce dimenzí na dvě
# (Původní data mají 13 sloupců, tzn. 13 dimenzí)

# Příprava metody TSNE
# (TSNE: T-distributed Stochastic Neighbor Embedding)
tsne = TSNE(n_components=2, random_state=42)

# Aplikace připraveného TSNE modelu na data
X = tsne.fit_transform(X)

# Zobrazení výsledku redukce dimenzionality
# (provizorně převedeme na DataFrame pro přehlednější zobrazení)
pd.DataFrame(X).head()

In [None]:
# Zobrazení upravených dat
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.title("Plotted data, reduced to 2 dimensions")

In [None]:
# VLASTNÍ ŘEŠENÍ: Zde doplň své dva řádky kódu pro inicializaci modelu 
# a pro predikci příslušnosti do jednoho z clusterů.
# Výsledek predikce ulož to proměnné "labels".

In [None]:
# Vykreslení bodů (barva podle příslušnosti ke clusteru)
plt.scatter(X[:, 0], X[:, 1], c=labels, s=50, cmap="Accent")
# ... parametr s nastavuje velikost bodu
# ... parametr cmap nastavuje "colormap" - výběr barviček zde: https://matplotlib.org/stable/tutorials/colors/colormaps.html

# Vykreslení centroidů každého clusteru
centers = model.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c="red", marker="P", s=200, alpha=0.5)
# ... parametr alpha nastavuje průhlednost
# ... parametr marker nastavuje tvar značky
plt.title("Clustered data")