In [110]:
import numpy as np

# следует реализовать данный вид инициализации
# без нее тесты скорее всего не пройдут
def k_plus_plus(X: np.ndarray, k: int, random_state: int = 27) -> np.ndarray:
    """Инициализация центроидов алгоритмом k-means++.

    :param X: исходная выборка
    :param k: количество кластеров
    :return: набор центроидов в одном np.array
    """
    n = len(X)
    centroids = []
    x_start_ind = np.random.randint(0, n)
    x_start = X[x_start_ind]
    centroids.append(x_start)
    distances = [np.inf for i in range(n)]
    for _ in range(k - 1):
        for i in range(n):
            for j in range(len(centroids)):
                cur_distance = calculate_distance(X[i], centroids[j])
                if cur_distance < distances[i]:
                    distances[i] = cur_distance
        sum_distances = np.sum(distances)
        probs = [d / sum_distances for d in distances]
        segments = [0]
        k = 0
        for p in probs:
            next_border = k + p
            segments.append(next_border)
            k += p
        r = np.random.random()
        for i in range(len(segments) - 1):
            if r >= segments[i] and r < segments[i + 1]:
                next_ind = i
                break
        centroids.append(X[next_ind])
    return np.array(centroids)

def calculate_distance(x1, x2):
    # норма евклида без корня - корень извлекать необязательно, так как порядок не поменяется
    return np.sum((x2 - x1)**2)
def calculate_distance_sqrt(x1, x2):
    # норма евклида без корня - корень извлекать необязательно, так как порядок не поменяется
    return np.sqrt(np.sum((x2 - x1)**2))
    

class KMeans:
    def __init__(self, n_clusters=8, tol=0.0001, max_iter=300, random_state=None):
        self.n_clusters = n_clusters
        self.tol = tol
        self.max_iter = max_iter
        self.random_state = random_state

    def fit(self, X):
        np.random.seed(self.random_state)

        n_samples = X.shape[0]
        n_features = X.shape[1]

        # инициализируем центры кластеров
        # centers.shape = (n_clusters, n_features)
        centers = k_plus_plus(X, self.n_clusters)

        for n_iter in range(self.max_iter):
            # считаем расстояние от точек из X до центроидов
            distances = []
            for i in range(n_samples):
                distances_for_one_x = []
                for j in range(self.n_clusters):
                    cur_distance = calculate_distance(X[i], centers[j])
                    distances_for_one_x.append(cur_distance)
                distances.append(distances_for_one_x)
            # определяем метки как индекс ближайшего для каждой точки центроида  
            labels = np.argmin(distances, axis=1)

            old_centers = centers.copy()
            for c in range(self.n_clusters):
                # пересчитываем центроид 
                # новый центроид есть среднее точек X с меткой рассматриваемого центроида
                inds = [ind for ind, label in enumerate(labels) if label == c]
                centers[c, :] = X[inds].mean(axis=0)

            # записываем условие сходимости
            # норма Фробениуса разности центров кластеров двух последовательных итераций < tol
            if np.linalg.norm(old_centers - centers) < self.tol:
                break

        # cчитаем инерцию
        # сумма квадратов расстояний от точек до их ближайших центров кластеров
        inertia = np.sum([calculate_distance_sqrt(X[i], labels[i]) for i, val in enumerate(X)])

        self.cluster_centers_ = centers
        self.labels_ = labels
        self.inertia_ = inertia
        self.n_iter_ = n_iter
        return self


    def predict(self, X):
        # определяем метку для каждого элемента X на основании обученных центров кластеров 
        distances = []
        for i in range(len(X)):
            distances_for_one_x = []
            for j in range(self.n_clusters):
                cur_distance = calculate_distance(X[i], self.cluster_centers_[j])
                distances_for_one_x.append(cur_distance)
            distances.append(distances_for_one_x)
        # определяем метки как индекс ближайшего для каждой точки центроида  
        labels = np.argmin(distances, axis=1)
        return labels

    def fit_predict(self, X):
        return self.fit(X).labels_


def read_input():
    n1, n2, k = 6, 2, 2

    read_line = lambda x: list(map(float, x.split()))
    X_train = np.array([[1, 2],
                       [1, 4],
                       [1, 0],
                       [10, 2],
                       [10, 4],
                       [10, 0]
                       ])
    X_test = np.array([[0, 0],
                     [12, 3]])

    return X_train, X_test, k

def solution():
    X_train, X_test, k = read_input()
    kmeans = KMeans(n_clusters=k, tol=1e-8, random_state=27)
    kmeans.fit(X_train)
    train_labels = kmeans.labels_
    test_labels = kmeans.predict(X_test)

    print(' '.join(map(str, train_labels)))
    print(' '.join(map(str, test_labels)))

solution()

1 1 1 0 0 0
1 0


In [19]:
np.random.randint(100)

83

In [20]:
X__ = np.array([[1, 2],
                       [1, 4],
                       [1, 0],
                       [10, 2],
                       [10, 4],
                       [10, 0]
                       ])
X__[1]

array([1, 4])

In [61]:
a= np.array([[1, 4, 2],
        [1, 2, 2,],
        [4, 2, 5]])
np.argmin(a, axis=1)

array([0, 0, 1], dtype=int64)

In [55]:
a = np.array([1, 2, 3, 2, 2, 3])
b = [el == 2 for el in a]
b

[False, True, False, True, True, False]

In [63]:
d = [0, 2]
a[d].mean(axis=1)

array([2.33333333, 3.66666667])

In [64]:
a

array([[1, 4, 2],
       [1, 2, 2],
       [4, 2, 5]])