## Wczytanie bibliotek

In [20]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import make_blobs, make_moons, load_iris, make_swiss_roll
from sklearn.model_selection import train_test_split

%matplotlib inline

# Grupowanie k-średnich

### Przykład 1: jednorodne grupy z rozkładu normalnego

Dla danych jednorodne grupy z rozkładu normalnego wykonaj grupowanie k-średnich dla k=3 i 
przedstaw wyniki na wykresie. Na wykres nanieś także środki znalezionych klastrów.
Sprawdź jak dane zostaną pogrupowane dla k=2 i k=5. 

In [5]:
rng = np.random.default_rng(seed = 7)
X = np.vstack([rng.multivariate_normal([0, 0], [[1,0], [0,1]], 50),
                         rng.multivariate_normal([3,8], [[1,0], [0,1]], 50),
                         rng.multivariate_normal([6,4], [[1,0], [0,1]], 50)])

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

### Ćwiczenie 1: jednorodne grupy z rozkładu normalnego 2

Wygeneruj poniższe dane i wykonaj grupowanie k-średnich. Zwizualizuj wyniki.

In [7]:
rng = np.random.default_rng(seed = 7)
X = np.vstack([rng.multivariate_normal([0, 0], [[1,0], [0,1]], 30),
                         rng.multivariate_normal([-5,-5], [[1,0], [0,1]], 30),
                         rng.multivariate_normal([5,5], [[1,0], [0,1]], 30),
                         rng.multivariate_normal([4,-2], [[1,0], [0,1]], 30)])

### Przykład 2: skalowanie danych

Wygeneruj poniższe dane i wykonaj grupowanie k-średnich. Zwizualizuj wyniki.

In [8]:
rng = np.random.default_rng(seed = 7)
X = np.vstack([rng.multivariate_normal([0, 0], [[1,0], [0,300]], 30),
                         rng.multivariate_normal([-8,-8], [[1,0], [0,200]], 30)])

### Ćwiczenie 2: awarie k-średnich

Dla danych X1 i X2 wykonaj skalowanie i grupowanie k-średnich dla odpowiedniej liczby grup. Zwizualizuj wyniki. Dlaczego algorytm k-średnich nie poradził sobie z grupowaniem?

In [15]:
noisy_moons = make_moons(n_samples = 500, noise = 0.05)
varied_normal = make_blobs(n_samples = 500, cluster_std = [1.0, 2.5, 0.5], random_state = 170)
X1 = noisy_moons[0]
X2 = varied_normal[0]

Obejrzyj inne przykładowe zbiory danych i sprawdź jak radzi sobie z nimi algorytm k-średnich (MiniBatch Kmeans). 

https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html

## Wybór k w k-średnich

### Przykład 3: Irysy

Dla danych Irysy znajdź liczbę klastrów i wykonaj grupowanie k-średnich. Zwizualizuj wyniki.

https://en.wikipedia.org/wiki/Iris_flower_data_set

https://www.math.umd.edu/~petersd/666/html/iris_pca.html

In [17]:
iris = load_iris()

### Ćwiczenie 3: jednorodne grupy z rozkładu normalnego

Dla danych Irysy znajdź liczbę klastrów i wykonaj grupowanie k-średnich. Zwizualizuj wyniki.

In [18]:
rng = np.random.default_rng(seed = 7)
X = np.vstack([rng.multivariate_normal([0, 0], [[1,0], [0,1]], 50),
                         rng.multivariate_normal([3,8], [[1,0], [0,1]], 50),
                         rng.multivariate_normal([6,4], [[1,0], [0,1]], 50)])

### Przykład 4: grupowanie k-średnich jako dekompozycja

Interesujące podobieństwo k-średnich i np. PCA. PCA ma przedstawić punkty jako sumę składników maksymalizującą wariancję. 
Algorytm k-średnich próbuje przedstawić punkty jako centrum klastra. 

W tym przykładzie przekształcimy dane make moons za pomocą klasteryzacji k-średnich 
tak żeby prosty klasyfikator liniowy
(regresja logistyczna) lepiej separował klasy.

In [21]:
X, y = make_moons(n_samples = 300, noise = 0.15, random_state = 7)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify = y, random_state = 7)

### Ćwiczenie 4: dekompozycja k-średnich poprawia działanie regresji logistycznej 
Zbuduj modele regresji logistycznej na danych oryginalnych oraz na nowym zbiorze z przykładu 4. Porównaj
dokładność modeli za pomocą fcji score na danych treningowych i testowych.

## Grupowanie aglomeracyjne

### Przykład 1: ilustracja działania algorytmu

In [22]:
X = np.array([[1,1], [1,2.5], [2,2], [4,4], [5,2], [5.5,4.5], [6,2], [6,4]])

https://docs.scipy.org/doc/scipy/reference/generated/scipy.cluster.hierarchy.linkage.html

https://docs.scipy.org/doc/scipy/reference/generated/scipy.cluster.hierarchy.fcluster.html

### Ćwiczenie 1: przykłady ilustrujące metody przeliczania odległości

Dla wygenerowanych danych wykonaj klasteryzację hierarchiczną dla metod Single, Complete, Average i Ward. 
Narysuj wyniki grupowań i porównaj wyniki. Pamiętaj o skalowaniu danych!

In [25]:
X1 = make_blobs(n_samples=[50, 20], n_features=2, centers=[[2,2], [7,2]], cluster_std=[.75,.4], random_state = 7)[0]

In [26]:
X2 = np.vstack([make_blobs(n_samples=[50, 20], n_features=2, centers=[[2,2], [7,2]], cluster_std=[.75,.4], random_state = 7)[0],
              np.vstack([np.linspace(2,7,10), np.ones(10)*2]).T])

In [27]:
noisy_moons = make_moons(n_samples = 500, noise=0.05)
varied_normal = make_blobs(n_samples = 500, cluster_std=[1.0, 2.5, 0.5], random_state = 170)
X3 = noisy_moons[0]
X4 = varied_normal[0]

https://scikit-learn.org/stable/auto_examples/cluster/plot_linkage_comparison.html

### Ćwiczenie 2: Irysy

Dla danych Irysy wykonaj klasteryzację hierarchiczną dla metod Single, Complete, Average i Ward. 
Wybierz liczbę klastrów, narysuj wyniki grupowań i porównaj wyniki. Pamiętaj o skalowaniu danych!

In [28]:
iris = load_iris()

### Przykład 2: Grupowanie z ograniczeniami

Przykład pokazuje jak wprowadzenie ograniczeń na połączenia obserwacji w klastry może wpływać na wynik grupowania.

In [29]:
X = make_swiss_roll(1500, noise = .05)[0]
# odchudzanie rolki
X[:, 1] *= 0.5

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html

## DBSCAN

### Przykład 1: małe dane blobs

Dla wygenerowanych danych wykonaj grupowanie DBSCAN.

In [30]:
X = make_blobs(random_state = 0, n_samples = 12)[0]

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html

### Przykład 1 c.d.: zależność algorytmu od parametrów min_samples i eps

Dla min_samples = [2, 3, 5] oraz eps = [1, 1.5, 2, 3] wykonaj klasteryzację DBSCAN, narysuj wyniki na wykresach i przeanalizuj wpływ parametrów na działanie algorytmu.

### Ćwiczenie 1: dane noisy moons i varied normal

Dla poniższych zbiorów danych noisy moons i varied normal wykonaj klastrowanie DBSCAN i zwizualizuj wyniki. Użyj różnych parametrów min_samples i eps i porównaj wyniki. Pamiętaj o skalowaniu danych!

In [33]:
noisy_moons = make_moons(n_samples = 500, noise=0.05)
varied_normal = make_blobs(n_samples = 500, cluster_std=[1.0, 2.5, 0.5], random_state = 170)
X1 = noisy_moons[0]
X2 = varied_normal[0]

### Przykład 2: metoda wyboru eps

Wybierz parametr eps dla danych varied normal za pomocą wykresu łokcia dla odległości do
k najbliższych sąsiadów.

### Ćwiczenie 2: Irysy

Dla danych Irysy wykonaj grupowanie DBSCAN i dobierz parametry modelu. Przedstaw wyniki na wykresie.

https://scikit-learn.org/stable/modules/clustering.html

## Źródła:

Hastie, Trevor, et al. The elements of statistical learning: data mining, inference, and prediction. Vol. 2. New York: springer, 2009.

Muller, Andreas, et al. Machine learning, Python i data science, Wprowadzenie. Helion, 2021.

http://www.sefidian.com/2020/12/18/how-to-determine-epsilon-and-minpts-parameters-of-dbscan-clustering/

https://www.learndatasci.com/glossary/hierarchical-clustering/

https://towardsdatascience.com/understanding-the-concept-of-hierarchical-clustering-technique-c6e8243758ec

https://jakevdp.github.io/PythonDataScienceHandbook/05.11-k-means.html

https://pbiecek.github.io/NaPrzelajDataMiningR/part-3.html#part_31
