## Praktische Aufgaben – Blatt 3

In [None]:
import numpy as np
import matplotlib.pyplot as plt

import numpy.typing as npt
from typing import List

Im Folgenden laden wir einen klassischen, aber veränderten Datensatz.

Die Daten findet ihr in `data`. Die erste Dimension (Zeilen) enthält alle Samples und die zweite (Spalten) die vier Merkmale. Die Klasse für jedes der 105 Samples findet ihr in `target`.

In [None]:
dataset = np.loadtxt("Dataset.csv", delimiter=',', skiprows=1)
np.random.shuffle(dataset)

data = dataset[:, :-1]
target = dataset[:, -1]
print(data.shape, np.unique(target))

**Achtung**: In diesem Übungsblatt nutzen wir alle drei Klassen, nicht wie in Blatt2 nur die ersten beiden.

### Aufgabe 1: k-Means
Die folgenden Aufgaben befassen sich mit VL 09 Teil 2 und Teil 3

**1.** Implementiert den k-Means Algorithmus, indem ihr in der folgenden Klasse die drei Funktionen `distance`, `fit` und `predict` vervollständigt:
- `distance` berechnet die euklidische Distanz zwischen `sample` und `center`.
_Erinnerung_: $eukl = \sqrt{(x2_0 - x1_0)^2 + ... + (x2 - x1_n)^2}$.
- `predict` findet für jedes Sample dasjenige Clusterzentrum, das ihm am nächsten ist und ordnet das Sample dem entsprechenden Cluster zu.
- Und `fit` findet basierend auf `predict`'s Zuordnungen die besten Cluster durch iteratives Minimieren der Distanzen zwischen Samples und Clusterzentren.

`X` sind übrigens Daten mit den Dimensionen $m \times n$, wobei $m$ Samples und $n$ Merkmale sind.

Nutzt außer `numpy` keine weiteren Pakete.

_Hinweis_: den Algorithmus findet ihr in VL 09, Teil 2, Folie 6.

In [None]:
class K_Means ():
    def __init__ (self, k: int, n_iterations: int = 2) -> None:
        self.k = k
        self.n_iterations = n_iterations
    
    def distance(self, sample: npt.NDArray, center: npt.NDArray) -> float:
        """Berechnung der euklidischen Distanz zwischen sample und center"""  
        
        # YOUR CODE HERE
        raise NotImplementedError()
        
        return 0.0
    
    def fit(self, X: npt.NDArray) -> None:
        """ Berechnung der besten Cluster durch iterative
        Minimierung der Distanz jedes Samples zu seinem Clusterzentrum
        """
        
        # Initialisierung der Zentren durch Ziehen eines zufälligen Samples
        self.centers = np.random.default_rng().choice(X, size=self.k, replace=False)
         
        for _ in range(self.n_iterations):
            
            # Zuordnung jedes Samples zum Cluster mit geringster Entfernung
            clusters = self.predict(X)
            
            # Berechnung neuer Zentren: Durchschnitt aller Samples in einem Cluster
            self.centers = []
            
            # YOUR CODE HERE
            raise NotImplementedError()
    
    def predict(self, X: npt.NDArray) -> List[int]:
        """ Zuweisung jedes Samples zu dem Cluster (0..k-1), 
        dessen Zentrum dem Sample am nächsten ist.
        """

        # YOUR CODE HERE
        raise NotImplementedError()
        
        return []

Hier einige Sanity checks, ob eure k-Means Klasse das tut, was sie tun sollte...

In [None]:
k_means = K_Means(k=2, n_iterations=1)

# Einfacher Distanz Test
assert k_means.distance(np.array([1, 1]), np.array([2, 1])) == 1.0

# Einfacher Cluster Test
test_data = np.array([[1, 1], [2, 2]])
k_means.fit(test_data)
assert k_means.predict(test_data) in [[0, 1], [1, 0]]

**2.** Trainiert nun eure K-Means Klasse mit den gegebenen Daten (`data`). Sollte es Probleme bei der Implementierung gegeben haben, könnt ihr hier den K-Means aus SKlearn nutzen (https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html).

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

**3.** Clustert die Daten, plottet die Samples mithilfe einer geeigneten Methode und färbt die Samples gemäß Ihres Clusterings ein.

In [None]:
cluster_pred = []

# YOUR CODE HERE
raise NotImplementedError()

**4.** Führt das Training, Clustering und Plotten mehrfach aus. Die Cluster wechseln immer wieder durch, woran liegt dies?


**5.** Was erwartet ihr, wenn ihr `k!=3` oder `n_iterations=1` wählt?


### Aufgabe 2: Gaussverteilungen

Im Folgenden wollen wir nun basierend auf unserem k-Means-Clustering Gaussverteilungen trainieren. 
Dies ist angelehnt an die GMM-Initalisierung mithilfe von k-Means. Grundsätzlich ist k-Means aber für das Training von Gaussverteilungen nicht nötig, da diese eine eindeutige Lösung haben.

**1.** In der folgenden Berechnung für die Wahrscheinlichkeit eines Samples einer Gaussverteilung hat sich ein Fehler eingeschlichen.
Korrigiert diesen (siehe VL 10, Teil 2).

In [None]:
def gaussian_pdf(x, mu=0, variance=1):
    return 1/(variance) * np.exp(-1/(2 * variance) * (x)**2)

# YOUR CODE HERE
raise NotImplementedError()

Zum Vergleich: der folgende Code entspricht der grünen Verteilung auf Folie 6.

In [None]:
x = np.arange(-5, 5, 0.01)
y = [gaussian_pdf(t, mu=-2, variance=0.5) for t in x]
plt.plot(x, y)

# Euer Ergebnis wird automatisch getestet.

**2.** Berechnet nun für jedes eurer oben bestimmten Cluster Mittelwert `mu` und Varianz `var` auf dem dritten(!) Merkmal (also `feature = 2`) und speichert diese.

_Hinweis_: Wir verwenden hier nur eine Dimension um die Gaussverteilungen nicht zu sehr zu verkomplizieren. In der realen Welt sind dies jedoch meist mehrdimensionale Vektoren.

In [None]:
feature = 2

parameters = [(0, 1)] # tuples with (mu, variance)

# YOUR CODE HERE
raise NotImplementedError()

In [None]:
# Euer Ergebnis wird automatisch getestet.

**3.** Plottet die drei Gaussverteilungen. Fügt außerdem das dritte Merkmal der Datenpunkte in den Plot ein. 

_Hinweise_: Die Farben zwischen Gaussverteilung und Daten müssen nicht übereinstimmen. Um die Datenpunkte einzufügen, könnt ihr für y-Werte Nullen verwenden.

In [None]:
x = np.arange(-1, 7, 0.01)

# YOUR CODE HERE
raise NotImplementedError()

**Vergleichsplot**

![cluster.png](cluster.png)

**4.** Berechnet für alle drei Gaussverteilungen die Wahrscheinlichkeit, dass das erste Sample aus dieser Verteilung kommt.

In [None]:
sample = data[0, feature]
probabilities = []

# YOUR CODE HERE
raise NotImplementedError()

print(probabilities)

In [None]:
# Euer Ergebnis wird automatisch getestet.

**5.** Wenn ihr die Wahrscheinlichkeiten aufsummiert, kommt nicht eins heraus. Warum?


**6.** Wir wollen nun einen einfachen Klassifikator bauen. Wir betrachten dafür wieder nur das dritte(!) Merkmal. Berechnet für jedes Sample in den Daten die wahrscheinlichste Gaussverteilung.

_Hinweis_: Falls ihr ChatGPT nutzt, validiert den Code und passt ihn an, sodass er effizienter ist.

In [None]:
target_prediction = []

# YOUR CODE HERE
raise NotImplementedError()

In [None]:
print(
    'Train Accuracy:',
    np.count_nonzero(np.array(cluster_pred) == np.array(target_prediction)) / len(cluster_pred)
)

In [None]:
# Euer Ergebnis wird automatisch getestet.

**7.** Obwohl wir die selben Daten klassifizieren, mit denen wir trainiert haben, ist die Akkuratheit ziemlich schlecht.  
1. Woran könnte das liegen? Nennt 2 Gründe.  
2. Was sagt die Akkuratheit aus, wenn wir auf den exakt selben Daten trainiern und klassifizieren?
