### Wstęp do Uczenia Maszynowego 
##### Laboratorium 12

In [None]:
# !pip install clustering-benchmarks

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import time
import os
os.environ["OMP_NUM_THREADS"] = '1'


from sklearn.cluster import KMeans

import clustbench

### Wróćmy do początku naszych zajęć...


<img src="../lab01/tematy.png" alt="drawing" width="800">

W uczeniu maszynowym pracujemy ze zbiorem danych $\mathbf{D}= (X, Y)$.

  - $X$ to **macierz cech** (zmiennych niezależnych) o wymiarze $n \times p$ ($n$ próbek, $p$ cech).
  - $Y$ to **wektor zmiennej docelowej** (etykieta, wynik, który chcemy przewidzieć) o wymiarze $n$.

#### Do tej pory zajmowaliśmy się uczeniem nadzorowanym...

>**Uczenie nadzorowane (Supervised Learning):** Jeżeli wartość $Y$ jest znana w zbiorze treningowym (czyli mamy dane wejściowe **i** poprawne odpowiedzi). Chcemy, aby model nauczył się mapowania $X \rightarrow Y$.

#### Czas na uczenie nienadzorowane...

> **Uczenie nienadzorowane (Unsupervised Learning):** Jeżeli nie znamy wartości $Y$ (brakuje nam etykiet). Celem jest  znalezienie ukrytych wzorców i struktury w samych danych $X$ (np. grupowanie danych w skupienia).

### $k$-średnich *($k$-means)*

Algorytm k-średnich (k-means) to jedna z najpopularniejszych metod uczenia nienadzorowanego, służąca do grupowania danych. Jej celem jest podział zbioru punktów na $k$ rozłącznych grup tak, aby punkty wewnątrz grupy były do siebie jak najbardziej podobne.

Algorytm dąży do zminimalizowania sumy kwadratów odległości między punktami a środkami ich grup (centroidami). Formalnie nazywamy to minimalizacją wariancji wewnątrzklastrowej. Dla danego zbioru obserwacji $(x_1, x_2, \dots, x_n)$, gdzie każdy punkt jest wektorem w przestrzeni $\mathbb{R}^d$, algorytm dzieli dane na $k$ zestawów $S = \{S_1, S_2, \dots, S_k\}$ tak, aby zminimalizować funkcję celu (sumę kwadratów błędów - SSE):

$$SSE = \sum_{i=1}^{k} \sum_{x \in S_i} \|x - \mu_i\|^2$$

Gdzie:

$k$ to liczba skupień.

$S_i$ to zbiór punktów należących do $i$-tego skupienia.

$\mu_i$ to centroid (średnia arytmetyczna) punktów w skupieniu $S_i$:

$$\mu_i = \frac{1}{|S_i|} \sum_{x \in S_i} x$$

### Jak działa algorytm?
1) *Ustalamy liczbę skupień*
2) *Ustalamy wstępne środki skupień*
3) *Obliczamy odległości obiektów (obserwacji) od środków skupień*
4) Przypisujemy obiekty do skupień
5) Ustalamy nowe środki skupień
6) Wykonujemy kroki 3), 4), 5) do czasu, aż warunek zatrzymania zostanie spełniony

<img src="centroids_iterations.webp"  width="600"/>

[*K-Means Clustering in Python: A Practical Guide*](https://realpython.com/k-means-clustering-python/)

### Dane

In [None]:
np.random.seed(0)
X = np.random.standard_normal((50, 2))
X[:25,0] += 3
X[:25,1] -= 4

### Zadanie 1
---
Przygotuj model k-średnich dla liczby skupień równej 2.
Użyj funkcji `KMeans()`. Przedstaw na wykresie przydział obserwacji do utworzonych skupień.

### Zadanie 2
---
Przygotuj model $k$-średnich dla k = 3. Narysuj wykres pokazujący przynależność obserwacji do utworzonych skupień oraz zaznacz wyznaczone centroidy.

### Zadanie 3
---
Za co jest odpowiedzialny parametr `n_init`? Porównaj model dla `n_init = 1` oraz `n_init = 20` używając `.interia_` oraz czas wykonania.


#### W jaki sposób są wybierane początkowe centroidy?

 K-średnich (K-Means) może tworzyć błędne klastry z powodu słabej inicjalizacji. Aby to naprawić, wprowadzono `K-Means++`. 
 
 Ulepsza on sposób wybierania początkowych centroidów, dzięki czemu skupienia stają się bardziej stabilna i dokładna. 
 
 > K-Means++ to ulepszona wersja algorytmu K-średnich. Zamiast wybierać wszystkie centroidy losowo, wybiera on pierwszy środek losowo, a następnie dobiera pozostałe w odpowiednich odstępach. 
 
 Zapewnia to:
 - Lepszą separację skupień.
 - Szybszą zbieżność algorytmu.
 - Bardziej spójne wyniki w porównaniu do standardowego K-średnich.
 
Algorytm wykonuje następujące kroki:

Pierwszy środek: Wybierz pierwszy środek skupienia losowo (rozkład jednostajny) spośród punktów danych.

Kolejne środki: Oblicz odległość każdego punktu danych do jego najbliższego, już istniejącego środka. Wybierz kolejny środek z prawdopodobieństwem proporcjonalnym do kwadratu tej odległości. Punkty oddalone od istniejących środków mają większą szansę na zostanie wybranymi.

### Zadanie 4
---
Porównaj model $k$-means dla k = 3 z różnymi ustawieniami hiperparametru `init`. Porównaj wartość `.interia_` oraz czas wykonania.

### Jak wybrać optymalne $k$?

### Zadanie 5
---
Rozważ $k$ z przedziału `range(1, 11)`, przyygotuj dla zadanego $k$ model i wylicz SSE. Przedstaw rezultaty na wykresie.

Czy metoda k-średnich poradzi sobie z takim zbiorem danych?

In [None]:
# Pobieranie danych WUT - windows
data_url = "https://github.com/gagolews/clustering-data-v1/raw/v1.1.0"
wut_windows = clustbench.load_dataset("wut", "windows", url=data_url)

df = pd.DataFrame(wut_windows.data, columns=["V1", "V2"])
df["Klasa"] = wut_windows.labels[0]  

# Wykres 
sns.scatterplot(data=df, x="V1", y="V2", hue="Klasa", palette="viridis")
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left', borderaxespad=0.)
plt.tight_layout()
plt.show()