### Kod naszego algorytmu Hierarchical Clustering, który buduje pewną hierarchizacje klastów. Każdy punkt danych jest we własnym klastrze. Potem ten klaster szuka najbliższego klastra i łączy w jeden nowy klaster. Wedy przesuwamy się w góre w hierarchizacji aż do momentu jak połączą się w jeden klaster

In [17]:
import numpy as np
    
class HierarchicalClustering:
    def __init__(self, n_clusters):
        self.n_clusters = n_clusters
        self.clusters = []
        self.labels = None

    def fit(self, X):
        # Dane jako klastry
        self.clusters = [[i] for i in range(len(X))]

        # Pętla, która będzie się robiła do momentu wystarczającej liczby klastrów
        while len(self.clusters) > self.n_clusters:
            # Szukanie najbliższych klastrów
            min_dist = math.inf
            min_pair = None
            for i in range(len(self.clusters)):
                for j in range(i+1, len(self.clusters)):
                    dist = self._distance(X, self.clusters[i], self.clusters[j])
                    if dist < min_dist:
                        min_dist = dist
                        min_pair = (i, j)

            # Łączenie najbliższych klastrów
            c1, c2 = min_pair
            self.clusters[c1] = self.clusters[c1] + self.clusters[c2]
            self.clusters.pop(c2)

        # Przydzielanie indeksów do przykładów
        self.labels = np.zeros(len(X))
        for i, cluster in enumerate(self.clusters):
            for j in cluster:
                  self.labels[j] = i

    def _distance(self, X, c1, c2):
        # Obliczenie średniej odległości pomiędzy punktami w klastrach
        sum_dist = 0
        for i in c1:
            for j in c2:
                sum_dist += np.linalg.norm(X[i] - X[j])
        return sum_dist / (len(c1) * len(c2))

### Losujemy dane od 0 do 1 z 40 wierszami i 3 kolumny

In [3]:
import math
# Wygenerowane dane
X = np.random.rand(40, 3)

### Implementacja naszego kodu i algorytmu z Sickit-learn 

In [15]:
# Definiujemy klastrowanie i dopasowujemy je do danych
model = HierarchicalClustering(n_clusters=3)
model.fit(X)

# Predykcje do każdego klastera
predictions = model.labels

print(X)
print("Mój algorytm:", predictions)

from sklearn.cluster import AgglomerativeClustering

cluster = AgglomerativeClustering(n_clusters=3, affinity='euclidean', linkage='ward')
KF = cluster.fit_predict(X)
print("Sklearn:",KF)

[[0.30012944 0.57037159 0.6948424 ]
 [0.41468487 0.70623346 0.31380339]
 [0.5180493  0.09584303 0.85350267]
 [0.54166236 0.70694636 0.41773935]
 [0.53943068 0.05447993 0.79918779]
 [0.21163633 0.58113717 0.23073058]
 [0.31878301 0.93583844 0.89189002]
 [0.42469463 0.00889065 0.83619916]
 [0.48640871 0.98270821 0.25586293]
 [0.61741475 0.44802296 0.92612791]
 [0.94713173 0.02236342 0.77849365]
 [0.11672432 0.17579245 0.50416544]
 [0.57331367 0.44463314 0.98343801]
 [0.17319065 0.60175415 0.30870708]
 [0.71730414 0.72169211 0.4653075 ]
 [0.70591083 0.25333918 0.26068117]
 [0.46125714 0.1332618  0.36467304]
 [0.82481158 0.59217128 0.20926089]
 [0.54593158 0.09745452 0.74288778]
 [0.29962075 0.59722616 0.15472488]
 [0.52892375 0.61910117 0.22588448]
 [0.46579911 0.3664035  0.59925898]
 [0.22044563 0.90590866 0.84606142]
 [0.29255397 0.88657504 0.54978125]
 [0.80561369 0.9593339  0.04104502]
 [0.00876149 0.87364798 0.28852457]
 [0.00361869 0.02373978 0.7407956 ]
 [0.13613743 0.23226465 0.79

### Porównanie
### Aby porównać używamy silhoutte_score, które daje nam współczynnik wynik od -1 do 1, który oznacza jak dobrze są oddzielone klastry. 
### Liczba blisko -1 oznacza, że dane w klastrze są w złym miejscu i właściwie mogłyby być w kompletnie innym klastrze.
### Liczba blisko 1 oznacza, że dane w klastrze są w dobrym miejscu i wszystkie dane są w dobrej grupie.
### Liczba blisko 0 oznacza, że niektóre dane są dobrze oddzielone, tylko że klastry są tak podobne, że pare danych mogłyby być klastrze obok


In [10]:
from sklearn.metrics import silhouette_score
from sklearn import metrics

HierarchicalClustering_label = predictions
print(HierarchicalClustering_label)

KF_label = KF
print(KF_label)

agg_silhouette_score1 = silhouette_score(X, KF_label)
agg_silhouette_score2 = silhouette_score(X, HierarchicalClustering_label)
print("Silhouette score algorytmu z Sickit-learn:",agg_silhouette_score1)
print("Silhouette score mojego algorytmu:",agg_silhouette_score2)

[0. 1. 0. 1. 0. 1. 1. 0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 1. 1. 0. 1. 1.
 1. 1. 0. 0. 1. 2. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1.]
[2 0 1 0 1 0 2 1 0 2 1 1 2 0 0 1 1 0 1 0 0 2 2 0 0 0 1 1 2 0 1 2 1 2 0 0 1
 2 1 0]
Silhouette score algorytmu z Sickit-learn: 0.28616324002298515
Silhouette score mojego algorytmu: 0.22897444745408216


### Wniosek
### Silhouette score algorytmu z Sickit-learn: 0.28616324002298515
### Silhouette score mojego algorytmu: 0.22897444745408216

### Silhoutte score wyszedł blisko zera w takim razie oznacza oba algorytmy z Sickit-learna i mojego algorytmu nie działają najgorzej, ale przez to że dane są do siebie dość podobno to klastry mogą na siebie nachodzić