# Clustering mit Lösungen
In diesem Jupyter Notebook sollen Methoden des unüberwachten maschinellen Lernens betrachtet werden, um Cluster in Datenpunkten zu finden. Zu diesen Zählen der K-Means-Algorithmus, sowie der DBSCAN-Algorithmus.

## Vorbereitungen
Auch in diesem Jupyter Notebook werden die Pakete ``numpy`` und ``matplotlib.pyplot`` verwendet.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

## K-Means

### Visuelle Analyse

Zunächst sollen die Daten aus dem Datensatz ``clustering_data01.dat`` untersucht werden. Darin sind $x$- und $y$-Koordinaten von Datenpunkten in zwei Spalten eingetragen.

__Aufgabe__: Lade den besagten Datensatz und trage diesen auf. Wie viele Cluster liegen in den Daten vor? Was wären geeigente Wahlen zum Initialiseren der Cluster Mittelpunkte? Warum kann auf dieses Problem k-Means angewandt werden?

In [None]:
# Laden der Daten
x, y = np.loadtxt("clustering_data01.dat", unpack = True)

# Auftragen der Daten in einem Streudiagramm
plt.scatter(x, y, color = 'k')

# Schön machen des Diagramm
plt.axis('equal')
plt.grid(True, linestyle = '--')

__Dikussion__: Es scheinen zwei Cluster vorzuliegen. Eines davon wirkt um den Punkt $(-1, -0.25)$ zentriert zu sein, während das andere um den Punkt $(1, 0.25)$ herum zentriert ist. Da beide Cluster eine nahezu kreisförmige Struktur aufweisen, ist eine der Grundvoraussetzungen für k-Means erfüllt.

### Bestimmen von Clusterzugehörigkeit und -mittelpunkten

In der Vorlesung haben wir diskutiert, dass zu jedem Cluster $C_a$ ein Clustermittelpunkt $\vec{c}_a$ gehört. Ein Datenpunkt $\vec{x}_i$ wird dann dem Cluster zugeordnet, dessen Clustermittelpunkt er am nächsten liegt. Ziel ist es, dass Riskio
$$\hat{R} = \frac{1}{N}\sum\limits_{a = 1}^k\sum\limits_{\vec{x}_i\in C_a}|\vec{x}_i-\vec{c}_a|^2$$
zu minimieren. Die Lage der Clustermittelpunkte kann aus der Clusterzugehörigkeit der vorliegenden Datenpunkte mit
$${\vec{c}}_a = \frac{1}{|C_a|}\sum\limits_{\vec{x}_i\in C_a}\vec{x}_i$$
ermittelt werden.

__Aufgabe__: Vervollständige das untenstehende Code-Gerüst zum Ermitteln der Clusterzugehörigkeit. Bestimme auch das Riskio für diese Konfiguration. Initialisere die Clustermittelpunkten mit passenden Werten. Plotte Dein Ergebnis und prüfe so, ob das Ergebnis zu Deiner Erwartung passt.

In [None]:
# Funktion zum Bestimmen des Abstandes zu einem vorgegebenen Mittelpunkt
def betrag(x, y, c):
    return np.sqrt((x-c[0])**2+(y-c[1])**2)

In [None]:
# Initiale Lage der Mittelpunkte (Liste von x, y Paaren der Mittelpunkte)
c = np.array([[1, .25], [-1, -.25]])

# Anzahl der vorliegenden Datenpunkte
N = len(x)

# Zuordnung eines Punktes zu den Clustern 0 bzw. 1 wird durch einen Array mit Einträgen 0 bzw. 1 angegeben. 
index = np.zeros(N)

# Initialisere das Risiko
R0 = 0

# Bestimmen der Clusterzugehörigkeit
for n in range(N):
    dist1 = betrag(x[n], y[n], c[0]) 
    dist2 = betrag(x[n], y[n], c[1])
    if dist1 < dist2:
        index[n] = 0
        R0 += dist1**2
    else:
        index[n] = 1
        R0 += dist2**2

# Ausgeben des Risikos
print(f'Das Risiko ist durch {R0/N:.2f} gegeben.')
            
# Auftragen der Datenpunkte mit farblicher Marierung durch index
plt.scatter(x, y, c = index, cmap = 'seismic')

# Auftragen der Clustermittelpunkte
plt.plot(*c[0], marker = 'X', color = 'magenta', markersize = 10)
plt.plot(*c[1], marker = 'X', color = 'cyan', markersize = 10)

# Plot ausgeben
plt.axis('equal')
plt.show()

__Diskussion__: Die gefundenen Clusterzugehörigkeiten stimmen mit der augenscheinlichen Annahme überein.

### Situation bei ungünstiger Initialisierung

Da es unpraktisch ist, Datensätze zuerst von Menschen in Augenschein nehmen zu lassen, sind gute Clustermittelpunkte für die Initialisierung nicht von vorne herein bekannt. Zu diesem Zweck soll die gleiche Situation mit einer schlechten Initialiserung untersucht werden.

__Aufgabe__: Verwende den Code der vorherigen Aufgabe, um die Clusterzugehörigkeit für die initialen Mittelpunkte $\vec{c}_0 = (0,1)$ und $\vec{c}_1 = (0,-1)$ zu finden. Trage die Datenpunkte farblich markiert auf und diskutiere das Ergebnis. Trage dazu auch die verwendeten initialen Clustermittelpunkte auf. Was fällt für die verwendeten Clustermittelpunkte im Bezug zur Clusterzugehörigkeit auf?

In [None]:
# Initiale Lage der Mittelpunkte (Liste von x, y Paaren der Mittelpunkte)
c = np.array([[0, 1], [0, -1]])

# Anzahl der vorliegenden Datenpunkte
N = len(x)

# Zuordnung eines Punktes zu den Clustern 0 bzw. 1 wird durch einen Array mit Einträgen 0 bzw. 1 angegeben. 
index = np.zeros(N)

# Initialisere das Risiko
R0 = 0

# Bestimmen der Clusterzugehörigkeit
for n in range(N):
    dist1 = betrag(x[n], y[n], c[0]) 
    dist2 = betrag(x[n], y[n], c[1])
    if dist1 < dist2:
        index[n] = 0
        R0 += dist1**2
    else:
        index[n] = 1
        R0 += dist2**2

# Ausgeben des Risikos
print(f'Das Risiko ist durch {R0/N:.2f} gegeben.')
            
# Auftragen der Datenpunkte mit farblicher Marierung durch index
plt.scatter(x, y, c = index, cmap = 'seismic')

# Auftragen der Clustermittelpunkte
plt.plot(*c[0], marker = 'X', color = 'magenta', markersize = 10)
plt.plot(*c[1], marker = 'X', color = 'cyan', markersize = 10)

# Plot ausgeben
plt.axis('equal')
plt.show()

__Diskussion__: Die gefundenen Cluster stimmen offensichtlich nicht mit den tatsächlichen Clustern überein. Tatsächlich lässt sich aber auch erkennen, dass die verwendeten Clustermittelpunkte nicht mit den augenscheinlichen Mittelpunkten der gefundenen Clusterzugehörigkeit übereinstimmen. Im nächsten Schritt des k-Means-Algorithmus werden sich also Clusterzugehörigkeiten verschieben. Ein weitere Unterschied zu der vorherigen Ausführung liegt im Risiko. Dieses fällt hier wesentlich höher (etwa Faktor 10) aus.

__Aufgabe__: Verwende das untenstehende Code-Gerüst, um die neuen Clustermittelpunkte und -zugehörigkeiten zu bestimmen. Trage deine Ergebnisse auf und diskutiere diese hinsichtlich der Clusterzugehörigkeit und der Lage der verwendeten Mittelpunkte. Wie ändert sich das Risiko?

In [None]:
# Berechne neue Mittelpunkte
N2 = np.sum(index)    # ist index = 1, so gehört der Punkt zu c2
N1 = N-N2    # alle anderen Punkte gehören zu c1

# Ermittle die Koordinaten der neuen Datenpunkte (verwendet die Komponentenweise Vektormultiplikation mit x bzw. y und index)
x_c1 = np.sum((1-index)*x)/N1    
y_c1 = np.sum((1-index)*y)/N1
x_c2 = np.sum(index*x)/N2
y_c2 = np.sum(index*y)/N2

c = np.array([[x_c1, y_c1], [x_c2, y_c2]])


# Initialisiere das Risiko
R1 = 0

# Bestimme die Clusterzugehörigkeit
for n in range(N):
    dist1 = betrag(x[n], y[n], c[0]) 
    dist2 = betrag(x[n], y[n], c[1])
    if dist1 < dist2:
        index[n] = 0
        R1 += dist1**2
    else:
        index[n] = 1
        R1 += dist2**2

print(f'Das Risiko ist durch {R1/N:.2f} gegeben.')
             
# Auftragen der Daten
plt.scatter(x, y, c = index, cmap = 'seismic')

# Auftragen der verwendeten Mittelpunkte
plt.plot(*c[0], marker = 'X', color = 'magenta', markersize = 10)
plt.plot(*c[1], marker = 'X', color = 'cyan', markersize = 10)

plt.axis('equal')
plt.show()

__Diskussion__: Die Datenpunkte wurden jetzt alle den richtigen Clustern zugeordnet. Das Risiko ist gesunken. Die Clustermittelpunkte stimmen jedoch noch nicht mit den augenscheinlichen überein. Die relative Änderung des Risikos ist durch `-86.48 %` gegben. Es ist mit `0.22` jedoch immer noch höher als das minimale Risiko von `0.13`.

__Aufgabe__: Verwende den Code der vorherigen Aufgabe und wiederholen den Prozess so lange, bis sich das Risko nicht mehr ändert. Trage jedes Mal die Clusterzugehörigkeit und die verwendeten Clustermittelpunkte auf.

In [None]:
# Berechne neue Mittelpunkte
N2 = np.sum(index)    # ist index = 1, so gehört der Punkt zu c2
N1 = N-N2    # alle anderen Punkte gehören zu c1

# Ermittle die Koordinaten der neuen Datenpunkte (verwendet die Komponentenweise Vektormultiplikation mit x bzw. y und index)
x_c1 = np.sum((1-index)*x)/N1    
y_c1 = np.sum((1-index)*y)/N1
x_c2 = np.sum(index*x)/N2
y_c2 = np.sum(index*y)/N2

c = np.array([[x_c1, y_c1], [x_c2, y_c2]])


# Initialisiere das Risiko
R2 = 0

# Bestimme die Clusterzugehörigkeit
for n in range(N):
    dist1 = betrag(x[n], y[n], c[0]) 
    dist2 = betrag(x[n], y[n], c[1])
    if dist1 < dist2:
        index[n] = 0
        R2 += dist1**2
    else:
        index[n] = 1
        R2 += dist2**2

print(f'Das Risiko ist durch {R2/N:.2f} gegeben. Die relative Änderung ist durch {(R2-R1)/R1*100:.2f} % gegeben')
             
# Auftragen der Daten
plt.scatter(x, y, c = index, cmap = 'seismic')

# Auftragen der verwendeten Mittelpunkte
plt.plot(*c[0], marker = 'X', color = 'magenta', markersize = 10)
plt.plot(*c[1], marker = 'X', color = 'cyan', markersize = 10)

plt.axis('equal')
plt.show()

In [None]:
# Berechne neue Mittelpunkte
N2 = np.sum(index)    # ist index = 1, so gehört der Punkt zu c2
N1 = N-N2    # alle anderen Punkte gehören zu c1

# Ermittle die Koordinaten der neuen Datenpunkte (verwendet die Komponentenweise Vektormultiplikation mit x bzw. y und index)
x_c1 = np.sum((1-index)*x)/N1    
y_c1 = np.sum((1-index)*y)/N1
x_c2 = np.sum(index*x)/N2
y_c2 = np.sum(index*y)/N2

c = np.array([[x_c1, y_c1], [x_c2, y_c2]])


# Initialisiere das Risiko
R3 = 0

# Bestimme die Clusterzugehörigkeit
for n in range(N):
    dist1 = betrag(x[n], y[n], c[0]) 
    dist2 = betrag(x[n], y[n], c[1])
    if dist1 < dist2:
        index[n] = 0
        R3 += dist1**2
    else:
        index[n] = 1
        R3 += dist2**2

print(f'Das Risiko ist durch {R3/N:.2f} gegeben. Die relative Änderung ist durch {(R3-R2)/R2*100:.2f} % gegeben')
             
# Auftragen der Daten
plt.scatter(x, y, c = index, cmap = 'seismic')

# Auftragen der verwendeten Mittelpunkte
plt.plot(*c[0], marker = 'X', color = 'magenta', markersize = 10)
plt.plot(*c[1], marker = 'X', color = 'cyan', markersize = 10)

plt.axis('equal')
plt.show()

### Die k-Means-Methode

Anstatt die selben Code-Zeilen immer wieder von Hand zu implementieren, bietet es sich an, eine passende Methode zu schreiben, welche die einzelnen Schritte so lange wiederhohlt, bis sich das Risiko nicht mehr ändert.

__Aufgabe__: Vervollständige das untenstehnde Code-Gerüst um den k-Means Algorithmus als eine Methode zu implementieren. Wende diesen dann auf den vorliegenden Datensatz an und prüfe, ob sich das richtige Ergebnis einstellt.

In [None]:
def kMeans(k, x, y, c_init, thres = 0.01):
    # k - die Anzahl der Cluster
    # x - die x-Werte eines 2d Datensatzes
    # y - die y-Werte eines 2d Datensatzes
    # c_init - die initialisierten Werte für die Clustermittelpunkte
    # thres - der prozentteil unter den die relative Änderung des Risikos fallen muss, damit der Algorithmus terminiert
    
    # Konsistenzprüfungen
    if len(x)!=len(y):
        print('Ein Fehler ist aufgetreten: x und y passen nicht zusammen!')
        return
        
    if k!=np.shape(c_init)[0]:
        print('Ein Fehler ist aufgetreten: k und c passen nicht zusammen!')
        return
    
    # Initialisieren eines Arrays für die Clustermittelpunkte
    c = c_init.astype(dtype = float) # Wenn integer arrays eingegeben werden, kann dies zu Problemen führen, deshalb der typecast
    
    # Anzahl der Datenpunkte
    N = len(x)
    
    # Initialisiere das Riskio
    Rt = 0
    
    # Betsimmen der Clusterzugehörigkeit
    index = np.zeros(N, dtype = int)
    
    for n in range(N):
        dist = np.zeros(k)
        for i in range(k):
            dist[i] = betrag(x[n], y[n], c[i]) 
        index[n] = np.argmin(dist)
        Rt += dist[index[n]]**2
                
    # Anlegen eines Arrays mit dem Risiko
    R = np.array([Rt/N])
    
    # Initialisieren eines relativen Fehlers für R auf 100 %
    delR = 1
        
    # Iterativen Prozess starten
    while abs(delR) > thres:
        # Zähle die Elemente in jedem Cluster  
        cN = np.zeros(k, dtype = int)
        for i in range(k):
            # Der Befehl np.count_nonzero(array) zählt, wie viele Elemente nicht Null sind
            # Wird ein array mit einem bestimmten Wert verglichen, z.B. array == 3, wird überall dort, wo der array dem Wert 
            # entspricht eine Eins eingetragen, überall sonst eine Null
            cN[i] = np.count_nonzero(index == i)
        
        # Bestimme die neuen Clustermittelpunkte
        for i in range(k):
            c[i][0] = np.sum((index==i)*x)/cN[i]
            c[i][1] = np.sum((index==i)*y)/cN[i]
           
        
        # Initialisiere das Riskio
        Rt = 0
    
        # Betsimmen der Clusterzugehörigkeit    
        for n in range(N):
            dist = np.zeros(k)
            for i in range(k):
                dist[i] = betrag(x[n], y[n], c[i]) 
            index[n] = np.argmin(dist)
            Rt += dist[index[n]]**2
        
        # Erweitern des Arrays mit Risiko
        R = np.append(R, Rt/n)
    
        # Bestimmen des relativen Fehlers für R
        Nt = len(R)
        delR = (R[Nt-1]-R[Nt-2])/R[Nt-1]
        
    # Gebe die Clusterzugehörigkeit, die Clustermittelpunkte und das Risiko zurück
    return index, c, R  

#### Anwenden der Methode auf das obige Beispiel

In [None]:
# Laden der Daten
x, y = np.loadtxt("clustering_data01.dat", unpack = True)

# Initialisieren der Clustermittelpunkte
c_init = np.array([[0, 1.], [0, -1.]])

# Anwenden der Methode
index, c, R = kMeans(2, x, y, c_init)

# Ausgeben des Risikos
print(R)

# Auftragen der Daten
plt.scatter(x, y, c = index, cmap = 'seismic')

# Auftragen der gefundenen Mittelpunkte
plt.plot(*c[0], marker = 'X', color = 'magenta', markersize = 10)
plt.plot(*c[1], marker = 'X', color = 'cyan', markersize = 10)

plt.axis('equal')
plt.show()

## DBSCAN
In der Vorlesung haben wir auch darüber gesprochen, dass Cluster durch die DBSCAN-Methode ermittelt werden können. Wir wollen dazu weiterhin den Datensatz ``clustering_data01.dat`` betrachten. 

Die DBSCAN-Methode verfügt über zwei Hyperparameter:
* `eps` gibt den Radius der betrachteten Epsilon-Umgebung an
* `NPts` gibt die Mindestanzahl an Punkten an, die in einer Epsilon-Umgebung vorhanden sein müssen, damit es sich beim Mittelpunkt der Umgebung um ein Kernelement handelt.

Es bietet sich zur Implementierung folgende Idee an: Die Datenpunkte liegen in Form von Arrays `x` und `y` der Länge `N` vor. Das bedeutet, die Datenpunkte können über ihren Index `n` (startend bei `0`) eindeutig identifiziert werden. Es werden zwei zusätzliche Arrays `part_of_cluster` und `visited` angelegt. 
* In `part_of_cluster` wird ein Index, welcher das Cluster identifiziert (startend bei `1`) an der entsprechenden Stelle des Datenpunktes festgelegt. Ist der Datenpunkt `37` also Teil des Clusters `7`, so würde die Abfrage `part_of_cluster[37]` das Ergebnis `7` ergeben. Wird der Wert `-1` hinterlegt, so handelt es sich um Rauschen.
* In `visited` wird hinterlegt, ob ein Datenpunkt bereits besucht wurde. Es sollen nur die Einträge `0` und `1` betrachtet werden, wobei `0` nicht besucht und `1` besucht bedeutet. Bereits besuchte Datenpunkte wurden einem Cluster hinzugefügt und müssen daher nicht weiter betrachtet werden.



__Aufgabe__: Vervollständige das unten stehende Code-Gerüst, um die DBSCAN-Methode für die Datenpunkte des Datensatzes `clustering_data01.dat` ausführen zu können. Ermittle passende Werte für die Hyperparameter `eps` und `NPts`, um die zwei gleichen Cluster wie bei der k-Means Methode zu erhalten.

In [None]:
# Laden der Daten und Auslesen der Anzahl an Datenpunkten
x, y = np.loadtxt("clustering_data01.dat", unpack = True)
N = len(x)

# Festlegen der Hyperparameter
NPts = 5
eps = .45

# Array zum Festhalten, welche Punkte besucht wurden
visited = np.zeros(N, dtype = int)

# Array, der die Zugehörigkeit zu den Clustern festhält, die Cluster werden durch Integer Werte festgehalten
part_of_cluster = np.zeros(N, dtype = int)

# Methode um räumlichen Abstand zwischen zwei Punkten zu ermitteln
def abstand(n, m):
    return np.sqrt((x[n]-x[m])**2+(y[n]-y[m])**2)

# Methode um Liste mit allen Punkten in der eps-Umgebung eines Punktes zu erhalten
def regionQuery(n):
    # Liste in der alle Indices der Punkte in der eps-Umgebung aufgeführt werden
    index = np.array([], dtype = int)
    for m in range(N):
        if abstand(n, m) < eps:
            index = np.append(index, m)
    return index

# Methode, die ein Cluster c um die epsilon Umgebung eines Punktes und die daraus resultierende verknüpfte Nachbarschaft erweitert
def expandCluster(n, Nachbarschaft, c):
    
    # Punkt n muss als Element des Clusters c markiert werden
    part_of_cluster[n] = c
    
    # Alle Punkte der Nachbarschaft von n müssen besucht werden. Dazu werden diese über den Index k angesteuert
    k = 0
    while k < len(Nachbarschaft):
        
        # Der Index eines Elements der Nachbarschaft im Datensatz muss ermittelt werden
        m = Nachbarschaft[k]
        
        if visited[m] == 0 :
            # Markier Punkt m als besucht
            visited[m] = 1
            # Bestimme Nachbarschaft um m
            Nachbarschaft_neu = regionQuery(m)
            # Falls m ein Kernelement ist, muss die Nachbarschaft um die eps-Umgebung von m erweitert werden.
            if len(Nachbarschaft_neu) >= NPts:
                # der Befehl np.unique(array) entfernt doppelte Elemente
                Nachbarschaft = np.unique(np.append(Nachbarschaft, Nachbarschaft_neu))
                
                # Da die Nachbarschaft upgedated wurde, muss sie neu durchgegangen werden
                k = 0
                
        # m muss dem Cluster hinzugefügt werden, falls dies nicht schon geschehen ist 
        if part_of_cluster[m]<=0:
            part_of_cluster[m] = c
        k += 1
            

# DBSCAN_Methode

# Setze Cluster-Index auf Null, bei neuen Clustern wird dieser zuerst erhöht, so dass die eigentlichen CLuster bei 1 beginnen
c = 0
for n in range(N):
    if visited[n]==0:
        
        # Markiere Punkt als besucht
        visited[n] = 1
        
        # Bestimmen der Nachbarschaft um Punkt n
        Nachbarschaft = regionQuery(n)
        
        # Feststellen, ob Punkt Kernelement ist
        if len(Nachbarschaft) < NPts:
            # n ist kein Kernelement und wird als Rauschen markiert
            part_of_cluster[n] = -1
        else:
            # n ist ein Kernelement und markiert damit den Startpunkt eines neuen Clusters
            c += 1
            # Das Cluster c muss um das Element n und seine verknüpfte Nachbarschaft erweitert werden
            expandCluster(n, Nachbarschaft, c)

# Auftragen der Daten
plt.scatter(x, y, c = part_of_cluster, cmap = 'tab10')

plt.axis('equal')
plt.show()

__Diskussion__: Mit den Hyperparametern `eps = 0.45` und `NPts = 5` ergeben sich die beiden Cluster von zuvor.

### Die DBSCAN-Methode


Auch beim DBSCAN-Algorithmus ist es wünschenswert, eine Methode zu formulieren, die auf beliebige zwei dimensionale Datensätze angewendet werden kann.

__Aufgabe__: Verwende das untenstehende Code-Gerüst, um den DBSCAN-Algorithmus als eine Methode zu implementieren und wende diese auf den obigen Datensatz an.

In [None]:
# Methode um den Abstand zweier Datenpunkte zu ermitteln
def abstand(n, m, x, y):
    return np.sqrt((x[n]-x[m])**2+(y[n]-y[m])**2)

In [None]:
# Methode um die eps-Umgebung eines Datenpunktes zu erhalten
def regionQuery(n, eps, x, y):
    # Liste in der alle Indices der Punkte in der eps-Umgebung aufgeführt werden
    index = np.array([], dtype = int)
    for m in range(N):
        if abstand(n, m, x, y) < eps:
            index = np.append(index, m)
    return index

In [None]:
# Methode, die ein Cluster c um die epsilon Umgebung eines Punktes und die daraus resultierende verknüpfte Nachbarschaft erweitert
def expandCluster(n, Nachbarschaft, c, x, y, part_of_cluster, visited, eps, NPts):
    
    # Punkt n muss als Element des Clusters c markiert werden
    part_of_cluster[n] = c
    
    # Alle Punkte der Nachbarschaft von n müssen besucht werden. Dazu werden diese über den Index k angesteuert
    k = 0
    while k < len(Nachbarschaft):
        
        # Der Index eines Elements der Nachbarschaft im Datensatz muss ermittelt werden
        m = Nachbarschaft[k]
        
        if visited[m] == 0 :
            # Markier Punkt m als besucht
            visited[m] = 1
            # Bestimme Nachbarschaft um m
            Nachbarschaft_neu = regionQuery(m, eps, x, y)
            # Falls m ein Kernelement ist, muss die Nachbarschaft um die eps-Umgebung von m erweitert werden.
            if len(Nachbarschaft_neu) >= NPts:
                # der Befehl np.unique(array) entfernt doppelte Elemente
                Nachbarschaft = np.unique(np.append(Nachbarschaft, Nachbarschaft_neu))
                
                # Da die Nachbarschaft upgedated wurde, muss sie neu durchgegangen werden
                k = 0
                
        # m muss dem Cluster hinzugefügt werden, falls dies nicht schon geschehen ist 
        if part_of_cluster[m]<=0:
            part_of_cluster[m] = c
        k += 1

In [None]:
# DBSCAN-Methode
def DBSCAN(x, y, eps = 0.5, NPts = 5):
    
    # Konsistenzprüfung
    if len(x)!=len(y):
        print('Ein Fehler ist aufgetreten, x passt nicht zu y')
        return
    
    # Bestimme Anzahl der Datenpunkte
    N = len(x)
    
    # Array zum festhalten, welche Punkte besucht wurden
    visited = np.zeros(N, dtype = int)

    # Array, der die Zugehörigkeit zu den Clustern festhält, die Cluster werden durch integer Werte festgehalten
    part_of_cluster = np.zeros(N, dtype = int)
    
    # Setze Cluster-Index auf Null, bei neuen Clustern wird dieser zuerst erhöht, so dass die eigentlichen CLuster bei 1 beginnen
    c = 0
    for n in range(N):
        if visited[n]==0:
        
            # Markiere Punkt als besucht
            visited[n] = 1
        
            # Bestimmen der Nachbarschaft um Punkt n
            Nachbarschaft = regionQuery(n, eps, x, y)
        
            # Feststellen, ob Punkt Kernelement ist
            if len(Nachbarschaft) < NPts:
                # n ist kein Kernelement und wird als Rauschen markiert
                part_of_cluster[n] = -1
            else:
                # n ist ein Kernelement und markiert damit den Startpunkt eines neuen Clusters
                c += 1
                # Das Cluster c muss um das Element n und seine verknüpfte Nachbarschaft erweitert werden
                expandCluster(n, Nachbarschaft, c, x, y, part_of_cluster, visited, eps, NPts)
            
    # Gib part_of_cluster zurück
    return part_of_cluster

#### Anwenden auf Datensatz

In [None]:
# Laden der Daten
x, y = np.loadtxt("clustering_data01.dat", unpack = True)

# Ausführen der DBSCAN-Methode
cluster = DBSCAN(x, y, eps = 0.45, NPts = 5)

# Auftragen der Ergebnisse
plt.scatter(x, y, c = part_of_cluster, cmap = 'tab10')

plt.axis('equal')
plt.show()

## Clustering bei elliptischen Datenwolken
Im Datensatz ``clustering_data02.dat`` sind Datenpunkte in der $xy$-Ebene aufgetragen, die keine kugelförmigen Wolken darstellen. 

### Visuelle Vorbewertung

__Aufgabe__: Trage die Daten auf und bewerte, wie viele Cluster vorhanden sein sollten.

In [None]:
# Laden der Daten
x, y = np.loadtxt("clustering_data02.dat", unpack = True)

# Auftragen der Daten
plt.scatter(x, y, color = 'k', cmap = 'seismic')

plt.axis('equal')
plt.show()

__Diskussion__: Es sind zwei Cluster zu sehen, die wie zwei parallel angeordnete Striche aussehen. Es könnte eine jeweils elliptische Verteilung zu grunde liegen.

### Ermitteln der Cluster mit k-Means vs. DBSCAN

__Aufgabe__: Wende die k-Means-Methode, sowie die DBSCAN-Methode an, um Cluster zu bestimmen. Gibt es für jede Methode geeignete Hyperparameter, mit denen sich die visuell erkennbaren Cluster ergeben?

#### k-Means

In [None]:
# Laden der Daten
x, y = np.loadtxt("clustering_data02.dat", unpack = True)

# Initialisieren der Clustermittelpunkte
c_init = np.array([[-1., 0], [1., 0]])
#c_init = np.random.rand(2, 2)

# Anwenden der Methode
index, c, R = kMeans(2, x, y, c_init)

# Auftragen der Daten
plt.scatter(x, y, c = index, cmap = 'seismic')

# Auftragen der gefundenen Mittelpunkte
plt.plot(*c[0], marker = 'X', color = 'magenta', markersize = 10)
plt.plot(*c[1], marker = 'X', color = 'cyan', markersize = 10)

plt.axis('equal')
plt.show()

__Diskussion von k-Means__: Selbst mit zufälligen Initialisierungen von `c_init` gibt es keine Startkonfiguration unter der sich die zwei offensichtlichen Cluster ergeben. Es bleiben immer der obere Punkt im linken Cluster und der untere Punkt im rechten Cluster falsch zugeordnet. Der Grund liegt darin, dass die Grundannahme kugelförmiger Cluster hier nicht gegeben ist.

#### DBSCAN

In [None]:
# Laden der Daten
x, y = np.loadtxt("clustering_data02.dat", unpack = True)

# Ausführen der DBSCAN-Methode
cluster = DBSCAN(x, y, eps = 1.4, NPts = 4)

# Auftragen der Ergebnisse
plt.scatter(x, y, c = cluster, cmap = 'tab10')

plt.axis('equal')
plt.show()

__Diskussion von DBSCAN__: Mit den Hyperparametern `eps = 1.4` und `NPts = 4` werden die beiden Cluster richtig erkannt. DBSCAN benötigt keine Annahme über die Form der Cluster, wie bei k-Means. Außerdem muss die Anzahl der Cluster nicht von vorne herein bekannt sein.