# Lab14

---

## Task

Построить кластеризации (для одинаковых N и k), используя несколько разных «расстояний» и разные начальные центры (например, рандомные, крайние (≈ max/min по координатам, первые в списке, т.п.)

Результат — на рисунке (точки разных кластеров изобразить разными цветами; отметить центры кластеров). Т.е. в итоге — не менее 4-х рисунков. Выводить также количество итераций, потребовавшихся для стабилизации кластеров в каждом из случаев.

# Solution

---

In [None]:
import numpy as np
import scipy.linalg as la

import matplotlib.pyplot as plt

### Clustering implementation

In [None]:
def euclidian(a, b):
    return np.sum(np.abs(a - b), axis=1)

def manhattan(a, b):
    return np.sum(np.abs(a - b), axis=1)

def clustering(points, centers, metric):
    if metric == "manhattan":
        return np.array([np.argmin(manhattan(x,centers)) for x in points])
    elif metric == "euclidian":
        return np.array([np.argmin(euclidian(x,centers)) for x in points])
    else:
        raise ValueError("Wrong metric")

def compute_centers(points, clusters):
    ans = []
    for i in np.unique(clusters):
        cluster = points[clusters == i] 
        if cluster is not None:
            ans.append(np.mean(cluster, axis = 0))
    return np.array(ans)

def kmeans(points, centers, metric="euclid", max_iter=100):
    iter = 0
    
    while iter < max_iter:
        clusters = clustering(points, centers, metric)
        centers = compute_centers(points, clusters)

        iter +=1

        if all(clusters == clustering(points, centers, metric)):
            return clusters, centers, iter

### Points generators

In [None]:
def generate_random_points(low, high, size):
    return np.random.uniform(low, high, size)

def generate_leftmost_centers(points, k):
    return [points[i] for i in range(k)]

def generate_random_centers(points, k):
    return points[np.random.choice(len(points),k)]

## Experimental reseach

In [None]:
def experiment(points, _centers, metric):
    _, axes = plt.subplots(1, 2, figsize=(13, 13))
    
    for i in range(2):
        clusters, centers, iterations = kmeans(points, _centers[i], metric)
        
        axes[i].scatter(points[:,0], points[:,1], c=clusters)
        axes[i].scatter(centers[:,0], centers[:,1], c="blue", s=30, marker="X")
        axes[i].set_title(f"Metric: {metric}, Iterations: {iterations}")

In [None]:
k = 4
points = generate_random_points(-40, 40, (80, 2))
centers = generate_leftmost_centers(points, k), generate_random_centers(points, k)

experiment(points, centers, "manhattan")
experiment(points, centers, "euclidian")