In [14]:
import numpy as np
import pandas as pd
from sklearn.datasets import make_blobs
from scipy.spatial.distance import cosine

In [18]:
class MyAgglomerative:
    def __init__(self, n_clusters=3,  metric='euclidean'):
        self.n_clusters = n_clusters
        self.metric = metric

    def __str__(self):
        # Формируем строку с параметрами экземпляра
        params = vars(self)
        params_str = ', '.join(f"{key}={value}" for key, value in params.items())
        return f"MyAgglomerative class: {params_str}"
    
    def fit_predict(self, X):
        #Выполняет агломеративную кластеризацию и возвращает номера кластеров
        # Инициализация кластеров
        clusters = [[i] for i in range(len(X))]
        labels = np.zeros(len(X), dtype=int)

        # Пока количество кластеров больше желаемого
        while len(clusters) > self.n_clusters:
            # Находим два ближайших кластера
            min_distance = float('inf')
            closest_pair = (0, 0)

            for i in range(len(clusters)):
                for j in range(i + 1, len(clusters)):
                    distance = self._calculate_distance(X.iloc[clusters[i]], X.iloc[clusters[j]])
                    if distance < min_distance:
                        min_distance = distance
                        closest_pair = (i, j)

            # Объединяем два ближайших кластера
            i, j = closest_pair
            clusters[i] = clusters[i] + clusters[j]
            del clusters[j]

        # Присваиваем метки кластерам
        for cluster_id, cluster in enumerate(clusters):
            for index in cluster:
                labels[index] = cluster_id

        return labels #Список номеров кластеров


       # Вычисляем расстояния между всеми точками в двух кластерах    
    def _calculate_distance(self, cluster1, cluster2):
        # В зависимости от метрики вызываем соответствующий расчет
        if self.metric == 'euclidean':
            return self._euclidean_distance(cluster1, cluster2)
        elif self.metric == 'chebyshev':
            return self._chebyshev_distance(cluster1, cluster2)
        elif self.metric == 'manhattan':
            return self._manhattan_distance(cluster1, cluster2)
        elif self.metric == 'cosine':
            return self._cosine_distance(cluster1, cluster2)
        else:
            raise ValueError(f"Unknown metric: {self.metric}")

    def _euclidean_distance(self, cluster1, cluster2):
        # Евклидово расстояние
        distances = np.linalg.norm(cluster1.values[:, np.newaxis] - cluster2.values, axis=2)
        return np.mean(distances)

    def _chebyshev_distance(self, cluster1, cluster2):
        # Расстояние Чебышёва
        distances = np.max(np.abs(cluster1.values[:, np.newaxis] - cluster2.values), axis=2)
        return np.mean(distances)

    def _manhattan_distance(self, cluster1, cluster2):
        # Манхэттенское расстояние
        distances = np.sum(np.abs(cluster1.values[:, np.newaxis] - cluster2.values), axis=2)
        return np.mean(distances)

    def _cosine_distance(self, cluster1, cluster2):
        # Косинусное расстояние
        distances = [cosine(v1, v2) for v1, v2 in zip(cluster1.values, cluster2.values)]
        return np.mean(distances)

In [None]:
#Тест метрик
X, y = make_blobs(n_samples=20, centers=3, random_state=42)

# Преобразуем в DataFrame для удобства
X_df = pd.DataFrame(X, columns=['Feature 1', 'Feature 2'])

# Пример 1: Используем Евклидово расстояние
agg_clust_euclidean = MyAgglomerative(n_clusters=3, metric='euclidean')
labels_euclidean = agg_clust_euclidean.fit_predict(X_df)
print(f"Метки кластеров (Евклидово): {labels_euclidean}")

# Пример 2: Используем Манхэттенское расстояние
agg_clust_manhattan = MyAgglomerative(n_clusters=3, metric='manhattan')
labels_manhattan = agg_clust_manhattan.fit_predict(X_df)
print(f"Метки кластеров (Манхэттенское): {labels_manhattan}")

# Пример 3: Используем Косинусное расстояние
agg_clust_cosine = MyAgglomerative(n_clusters=3, metric='cosine')
labels_cosine = agg_clust_cosine.fit_predict(X_df)
print(f"Метки кластеров (Косинусное): {labels_cosine}")

# Пример 4: Используем Расстояние Чебышёва
agg_clust_chebyshev = MyAgglomerative(n_clusters=3, metric='chebyshev')
labels_chebyshev = agg_clust_chebyshev.fit_predict(X_df)
print(f"Метки кластеров (Чебышёв): {labels_chebyshev}")

Метки кластеров (Евклидово): [0 0 0 0 1 2 0 1 1 1 2 1 2 0 2 0 2 2 1 1]
Метки кластеров (Манхэттенское): [0 0 0 0 1 2 0 1 1 1 2 1 2 0 2 0 2 2 1 1]
Метки кластеров (Косинусное): [0 0 0 0 1 2 0 1 1 1 2 1 2 0 2 0 2 2 1 1]
Метки кластеров (Чебышёв): [0 0 0 0 1 2 0 1 1 1 2 1 2 0 2 0 2 2 1 1]


In [12]:
# Тест обучения-предсказания
X, y = make_blobs(n_samples=20, centers=3, random_state=42)

# Преобразуем в DataFrame для удобства
X_df = pd.DataFrame(X, columns=['Feature 1', 'Feature 2'])

# Создаем экземпляр класса
agg_clust = MyAgglomerative(n_clusters=3)

# Применяем кластеризацию
labels = agg_clust.fit_predict(X_df)

# Выводим метки кластеров для каждой точки
print(labels)

[0 0 0 0 1 2 0 1 1 1 2 1 2 0 2 0 2 2 1 1]


In [2]:
# Тест класса
# Создание экземпляров класса с различными параметрами
model1 = MyAgglomerative()
model2 = MyAgglomerative(n_clusters=5)

print(model1) 
print(model2)  

MyAgglomerative class: n_clusters=3
MyAgglomerative class: n_clusters=5
