# Uczenie Maszynowe - ćwiczenia 8

## Klasteryzacja 

Klasteryzacja to technika uczenia maszynowego bez nadzoru, używana do grupowania podobnych punktów danych w klastry na podstawie ich cech. W przeciwieństwie do uczenia nadzorowanego, klasteryzacja nie opiera się na danych z oznaczeniami.

Przykładowe zastosowania klasteryzacji:
    
    Segmentacja klientów
    
    Segmentacja obrazów
    
    Kategoryzacja dokumentów
    
    Wykrywanie anomalii
    
## Kompletny przykład klasteryzacji

Najpierw importy:

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import seaborn as sns
sns.set_style("whitegrid")

Wygenerujmy przykładowe dane do klasteryzacji (możesz zmodyfikować parametry i sprawdzić jak zmienią się dane)

In [None]:
from sklearn.datasets import make_blobs
X, y_true = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

Obejrzyjmy jak wyglądają te dane:

In [None]:
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.title("Data Points")
plt.show()

Zastosujmy prosty model klasteryzacji K-Means (modele znajdziesz tutaj: https://scikit-learn.org/stable/api/sklearn.cluster.html)

In [None]:
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)

Pozyskajmy etykiety obiektów

In [None]:
y_kmeans = kmeans.predict(X)

Zobaczmy wyniki:

In [None]:
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')

## Zadanie 1

Wykorzystaj generowany zbiór danych (pseudolosowy, więc zawsze stały) by dokonać klasteryzacji. 

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.cluster import KMeans

# 1. Generowanie zbioru danych
X, klasy = make_moons(n_samples=300, noise=.12, random_state=42)

# 2. Wizualizacja danych
plt.scatter(X[:, 0], X[:, 1], s=30)
plt.title("Wygenerowany zbiór danych")
plt.xlabel("Cecha 1")
plt.ylabel("Cecha 2")
plt.show()

# 3. Wizualizacja prawdziwego podziału
plt.scatter(X[:, 0], X[:, 1], s=30, c=klasy, cmap='viridis')
plt.title("Prawdziwy podział")
plt.xlabel("Cecha 1")
plt.ylabel("Cecha 2")
plt.show()


# 4. Klasteryzacja przy pomocy KMeans

# 5. Wizualizacja wyników
# Rysowanie danych
plt.scatter(X[:, 0], X[:, 1], c=clusters, cmap="viridis", s=30)

# Rysowanie centroidów
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], c="red", marker="x", s=100, label="Centroidy")

plt.title("Wynik klasteryzacji KMeans z tłem")
plt.xlabel("Cecha 1")
plt.ylabel("Cecha 2")
plt.legend()
plt.show()

## Zadanie 2

Spróbuj zmienić model na model DBSCAN (https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html). Dobierz odpowiednie parametry - jak to wpłynęło na wyniki?

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.cluster import DBSCAN

# 1. Generowanie zbioru danych
X, klasy = make_moons(n_samples=300, noise=.12, random_state=42)

# 2. Wizualizacja prawdziwego podziału
plt.scatter(X[:, 0], X[:, 1], s=30, c=klasy, cmap='viridis')
plt.title("Prawdziwy podział")
plt.xlabel("Cecha 1")
plt.ylabel("Cecha 2")
plt.show()

# 3. Klasteryzacja przy pomocy DBSCAN
# kod tutaj

# 4. Wizualizacja wyników
# Rysowanie danych
plt.scatter(X[:, 0], X[:, 1], c=clusters, cmap="viridis", s=30)

plt.title("Wynik klasteryzacji DBSCAN")
plt.xlabel("Cecha 1")
plt.ylabel("Cecha 2")
plt.legend()
plt.show()
plt.show()

## Zadanie 3

Normalizacja zmiennych jest w klasteryzacji niezwykle istotna. Dokonaj normalizacji zmiennych i powtórz proces uczenia. Jak wypłynęło to na wyniki?

In [None]:
from sklearn.preprocessing import StandardScaler

# 1. Generowanie zbioru danych
X, klasy = make_moons(n_samples=300, noise=.12, random_state=42)

# Standaryzacja danych

# Klasteryzacja po standaryzacji

# Wizualizacja
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=clusters_dbscan, cmap="viridis", s=30)
plt.title("Klasteryzacja po standaryzacji")
plt.xlabel("Standaryzowana cecha 1")
plt.ylabel("Standaryzowana cecha 2")
plt.legend()
plt.show()
