## Grupowanie hierarchiczne

Z użyciem biblioteki scipy

### Import bibliotek

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

sns.set(font_scale=1.2)

### Wygenerowanie danych

In [None]:
from sklearn.datasets import make_blobs

# 10 punktów, dwa skupiska
data = make_blobs(n_samples=10, centers=2, cluster_std=1.0, center_box=(-8.0, 8.0), random_state=42)[0]
df = pd.DataFrame(data, columns=['x1', 'x2'])
df.head()

### Wizualizacja danych

In [None]:
plt.figure(figsize=(14, 7))
plt.scatter(data[:,0], data[:,1])

for label, x, y in zip(range(10), data[:, 0], data[:, 1]):
    plt.annotate(label, xy=(x, y), xytext=(-3, 3), textcoords='offset points', ha='right', va='bottom')
plt.title('Grupowanie hierarchiczne')
plt.show()

### Grupowanie

In [None]:
from scipy.cluster.hierarchy import linkage

# przeprowadzenie grupowania hierarchicznego
z = linkage(data)  # domyslnie metric='euclidean', method='single'
# The input y may be either a 1-D condensed distance matrix or a 2-D array of observation vectors.

print(type(z))
print(z)  
# macierz z o wymiarach (n-1) x 4
# W i-tej iteracji: 
#   - klastry z[i,0], z[i,1] są łączone żeby utworzyć n+i klaster
#   - odległość pomiędzy klasterem z[i,0] i z[i, 1] to z[i,2]
#   - z[i, 3] reprezentuje liczbę próbek w klastrze n+i

### Wizualizacja (dendogram)

In [None]:
from scipy.cluster.hierarchy import dendrogram

plt.figure(figsize=(14, 7))
dendrogram(linked, orientation='top', distance_sort='descending', show_leaf_counts=True)
plt.title('Grupowanie hierarchiczne - dendrogram')
plt.show()

### Popatrzmy na inne estymatory odległości międzyklastrowej

#### Complete

In [None]:
z = linkage(data, method='complete')

plt.figure(figsize=(14, 7))
dendrogram(linked, orientation='top', distance_sort='descending', show_leaf_counts=True)
plt.title('Grupowanie hierarchiczne - dendrogram (complete)')
plt.show()

#### Average

In [None]:
z = linkage(data, method='average')

plt.figure(figsize=(14, 7))
dendrogram(linked, orientation='top', distance_sort='descending', show_leaf_counts=True)
plt.title('Grupowanie hierarchiczne - dendrogram (Average)')
plt.show()

#### Centroid

In [None]:
z = linkage(data, method='centroid')

plt.figure(figsize=(14, 7))
dendrogram(linked, orientation='top', distance_sort='descending', show_leaf_counts=True)
plt.title('Grupowanie hierarchiczne - dendrogram (Centroid)')
plt.show()

#### Median

In [None]:
z = linkage(data, method='median')

plt.figure(figsize=(14, 7))
dendrogram(linked, orientation='top', distance_sort='descending', show_leaf_counts=True)
plt.title('Grupowanie hierarchiczne - dendrogram (Median)')
plt.show()

#### Ward

In [None]:
z = linkage(data, method='complete')

plt.figure(figsize=(14, 7))
dendrogram(linked, orientation='top', distance_sort='descending', show_leaf_counts=True)
plt.title('Grupowanie hierarchiczne - dendrogram (Ward)')
plt.show()

Drzewo można obracać

In [None]:
# zmiana orientacji dendogramu
plt.figure(figsize=(14, 7))
dendrogram(z, orientation='right', labels=range(1, 11), distance_sort='descending', show_leaf_counts=True)
plt.title('Grupowanie hierarchiczne - dendrogram')
plt.show()