In [1]:
import pickle
import numpy as np

# данные получены с помощью функции make_classification 
with open('clustering.pkl', 'rb') as f:
    data_clustering = pickle.load(f)

X = np.array(data_clustering['X'])
Y = np.array(data_clustering['Y'])

In [2]:
import numpy as np
from scipy.spatial import distance
from sklearn.metrics.pairwise import euclidean_distances
from matplotlib import pyplot as plt

In [3]:
def random_centroids_selection(X, n, k):
    """инициализируем рандомом центы кластеров """
    result = []
    random_selection = np.random.randint(0, n, size=k)
    for obj_id in random_selection:
        result.append(X[obj_id, :])
    return result

In [16]:
def eval_weight_evolution(centroid_objects_prev, centroid_objects, k):
    """Вычисляем, как сдвинулись центры за один шаг алгоритма"""
    result =[]
    for i in range(0, k):
        dist = distance.euclidean(
            centroid_objects_prev[i],
            centroid_objects[i]
        )
        result.append(dist)
    return result

In [22]:
def eval_cluster_labels(X, centroids_objects):
    "Вычисляем метски кластеров"
    cluster_distances = euclidean_distances(X, centroids_objects)
    cluster_labels = cluster_distances.argmin(axis=1)
    return cluster_labels

In [25]:
def eval_centroids(X, k, cluster_labels):
    """Вычисляем центры кластеров"""
    result = []
    for i in range(k):
        new_centroid = X[cluster_labels==i].mean(axis=0)
        result.append(new_centroid)
    return result

In [33]:
def k_means(X: np.array, k: int=2, eps: float=0.001, num_iteration: int=10):
    """Алгоритм К-средних
    
    :param X: обучающая выборка
    :param k: количество кластеров
    """
    centroids, cluster_labels = None, None
    try:
        n, m = X.shape
    except ValueError:
        print('Передан некорреткный обьект X')
    #инициализируем рандомом центы кластеров
    centroid_objects_prev = [np.zeros(m) for i in range(k)]
    centroid_objects = random_centroids_selection(X, n, k)
    weight_evolution = eval_weight_evolution(centroid_objects_prev, centroid_objects, k)
    step = 0
    while step < num_iteration and sum(weight_evolution[i] > eps for i in range(k))!=0:
        centroid_objects_prev = centroid_objects.copy()
        #вычислям метки кластеров
        cluster_labels = eval_cluster_labels(X, centroid_objects)
        #вычисляем центроиды кластеров
        centroid_objects = eval_centroids(X , k, cluster_labels)
        #на сколько сместились класетра
        weight_evolution = eval_weight_evolution(centroid_objects_prev, centroid_objects, k)
        print("шаг %s, смещение кластеров: %s" % (step, weight_evolution))
        step +=1
    return np.vstack(centroid_objects), cluster_labels
   
    
centroids, cluster_labels = k_means(X, k=2, num_iteration=10)
centroids, cluster_labels

шаг 0, смещение кластеров: [1.3150571893846092, 1.2102466781255072]
шаг 1, смещение кластеров: [0.13473260834943032, 0.10882783424953058]
шаг 2, смещение кластеров: [0.11776033260556205, 0.10228748178660481]
шаг 3, смещение кластеров: [0.029085835298650255, 0.028656380274091592]
шаг 4, смещение кластеров: [0.0, 0.0]


(array([[ 0.41719201,  0.84745995],
        [-0.35492612, -0.65797643]]),
 array([0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0,
        1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1,
        0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1,
        0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1,
        1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1], dtype=int64))