# k-Means

In diesem Notebook wird ein einfacher Cluster-Algorithmus implementiert - das sogenannte k-Means-Verfahren.

Gegeben ist dabei ein Datensatz mit zweidimensionalen Datenpunkten:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

data = np.load('dataset.npy')
plt.plot(data[:,0], data[:,1], '.')


Mit dem k-Means-Algorithmus sollen jetzt drei Punkte (Cluster-Zentren) gefunden werden, die die Daten sinnvoll in Gruppen einteilt.

Der Algorithmus beginnt dabei mit drei zufälligen Punkten, berechnet dann, welche Datenpunkte durch diese 3 Zentren zusammengefasst werden (die Cluster), und berechnet aus diesen Clustern neue Mittelpunkte.

Dieses Verfahren wiederholt man dann mit den neuen Mittelpunkten als Startwerte. Nach wenigen Iterationen erhält dadurch immer bessere Cluster-Zentren.

In [None]:
solution = np.array([[ 0.04698695,  2.97358542], [-0.18842837, -0.20000093], [ 1.91783699,  0.08388299]])
plt.plot(data[:,0], data[:,1], '.')
plt.plot(solution[:,0], solution[:,1], 'o')

Implementieren Sie nacheinander die folgenden Funktionen - dabei sind jeweils Tests gegeben, so dass Sie nach jeder Teilaufgabe prüfen können, ob die Funktion korrekt implementiert ist.

In [None]:
def calculate_distances(X, C):
    """
    Eingabe: 
    X - Eine Liste von Datenpunkten, Shape (n, 2)
    C - eine Liste von Cluster-Zentren, Shape (m, 2)
    
    (n = Anzahl Datenpunkte, m Anzahl Cluster)
    
    Ausgabe: 
    
    Ein Array der Shape (n, m), welches die jeweiligen Abstände von den Datenpunkten
    zu den Cluster-Zentren enthält
    """

    n = X.shape[0]
    m = C.shape[0]
    
    distances = np.zeros((n,m))    
    
    for i in range(n):
        for j in range(m):
            distances[i, j] = np.sqrt(np.sum((X[i] - C[j])**2))
    
    # oder vektorisiert:
    # distances = np.sqrt(((C - X[:, np.newaxis])**2).sum(axis=2))
    
    
    assert(distances.shape == (n, m))
    
    return distances


# zum Testen - dieser Aufruf sollte funktionieren
# assert(np.allclose(
#     calculate_distances(
#         np.array([[0,0], [0,1], [1,0], [1,1]]),
#         np.array([[0,0], [1,1]])
#     ),
#     np.array([[0., 1.41421356], [1., 1.], [1., 1.], [1.41421356, 0.]])
# ))

In [None]:
def find_best_clusters(distances):
    """
    Eingabe: 
    distances - eine Tabelle der Shape (n,m) mit den Abständen von n Datenpunkten zu m Clustern
    
    Ausgabe:
    Ein Array mit der Shape (n, ), welches zu jedem Datenpunkt den Index des nächsten Clusters enthält
    
    Tipp:
    numpy.argmin
    """

    return np.argmin(distances,axis=1)

# zum Testen - dieser Aufruf sollte funktionieren
# assert(
#     np.allclose(
#         find_best_clusters(np.array([[0., 1.41421356], [1., 1.], [1., 1.], [1.41421356, 0.]])),
#         np.array([0,0,0,1])
#     )
# )

In [None]:
def calculate_new_centers(X, classes, m):
    """
    Eingabe:
    
    X       - Eine Liste von Datenpunkten, Shape (n, 2)
    classes - Ein Array mit der Shape (n, ), welches zu jedem Datenpunkt den Index (zwischen 0 und m) 
              des nächsten Clusters enthält
    m       - Anzahl der Clusterzentren
    
    Ausgabe:
    
    Ein Array der Shape (m, 2), welches die Mittelpunkte der Datenpunkte enthält, 
    die zum gleichen Cluster gehören.
    """
    return np.array([X[classes==m].mean(axis=0) for m in range(m)])

# zum Testen - dieser Aufruf sollte funktionieren
# assert(
#     np.allclose(
#         calculate_new_centers(np.array([[0,0], [0,1], [1,0], [1,1]]), np.array([0,0,0,1]), 2),
#         np.array([[0.33333333, 0.33333333], [1., 1. ]])
#     )
# )


In [None]:
C = np.random.rand(3,2)

assert(C.shape == (3,2))

for i in range(10):
    plt.figure()
    plt.plot(data[:,0], data[:,1], '.')
    plt.plot(C[:,0], C[:,1], 'o')

    distances = calculate_distances(data, C)
    classes = find_best_clusters(distances)
    
    C = calculate_new_centers(data, classes, 3)
    
print("Beste Clusterzentren:")
print(C)


