<a href="https://colab.research.google.com/github/InSuLaTi0N/Informatik/blob/master/unsupervised_learning_solution.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Version: 2022.01.20

---



# Intelligente Systeme - Übung Unsupervised Learning

# Aufgabe 1 - Überblick

Ordnen Sie die in der Vorlesung diskutierten Verfahren den grünen Boxen A-D zu.


## Lösung


![Flow chart](https://docs.google.com/uc?id=1hquNDJeSSfKupgJrPAt_z7PBpRC_6Dj_)

# Aufgabe 2 - k-means Clustering I


Gegeben ist ein Datensatz mit sechs Datenpunkten und vier verschiedenen Initialisierungen für ein "2-means clustering". 

Welche Endkonfiguration ergibt sich bei den verschiedenen Initialisierungen für die Lage der Clusterzentren und für die Zugehörigkeit der Datenpunkte zu den Clustern? Verwenden Sie für Ihre Berechnungen die euklidische Distanz.

Die Koordinaten der Beispieldaten sind gegeben durch: 

$$Examples = \{(0.0, 0.0), (0.0, 1.0), (0.0, 2.0), (2.0, 0.0), (2.0, 1.0), (2.0, 2.0)\}$$


**(1)** Die erste Konfiguration der Cluster ist gegeben durch: 
$${(x_i, y_i)}_i = \{(1.1, 0.5), (2.1, 2.0)\} $$
<img src="https://docs.google.com/uc?id=19SLR30rN0T0eDeCXAQJC3iWhw3QYLOFw" width=400>

**(2)** Die zweite Konfiguration der Cluster ist gegeben durch: 
$${(x_i, y_i)}_i = \{(1.0, 1.0), (1.9, 2.0)\} $$
<img src="https://docs.google.com/uc?id=1jtrHSTAFv0J1HfKNVPncsJNKxxJWCy1e" width=400>

**(3)** Die dritte Konfiguration der Cluster ist gegeben durch: 
$${(x_i, y_i)}_i = \{(0.1, 2.0), (2.1, 2.0)\} $$
<img src="https://docs.google.com/uc?id=1XvWChupwixj-FkLPyR2G-ACJltvlTjdK" width=400>

**(4)** Die vierte Konfiguration der Cluster ist gegeben durch: 
$${(x_i, y_i)}_i = \{(2.1, 1.0), (2.1, 2.0)\} $$
<img src="https://docs.google.com/uc?id=136-hRU2XiJm2a_2ANzvCYVz1iIU63uf4" width=400>



## Lösung
**(1)** Erste End-Konfiguration: 
  - Zentren bei $(0.0, 1.0)$ und $(2.0, 1.0)$
  - Datenpunkte mit $x=0$ gehören zu Zentrum $(0.0, 1.0)$
  - Datenpunkte mit $x=2$ gehören zu Zentrum $(2.0, 1.0)$

**(2)** Zweite End-Konfiguration:
  - gleich zur ersten End-Konfiguration

**(3)** Dritte End-Konfiguration: 
  - gleich zur ersten End-Konfiguration

**(4)** Vierte End-Konfiguration:
  - Zentren bei $(1.0, 0.5)$ und $(1.0, 2.0)$
  - Datenpunkte $\{(0.0, 0.0), (0.0, 1.0), (2.0, 0.0), (2.0, 1.0)\}$ gehören zu Zentrum $(1.0, 0.5)$
  - Datenpunkte $\{(0.0, 2.0), (2.0, 2.0)\}$ gehören zu Zentrum $(1.0, 2.0)$

Der folgende Code gibt für jede Iteration die Cluster sowie die für das Clustering genutzen Zentren aus. So können die Zwischenschritte zur Lösung überprüft werden.

In [None]:
from collections import defaultdict
import math
import matplotlib.pyplot as plt


data = [(0.0,0.0),(0.0,1.0),(0.0,2.0),(2.0,0.0),(2.0,1.0),(2.0,2.0)]

def distance(xy1,xy2): # returns Euklidian distance
  (x1,y1),(x2,y2) = xy1,xy2
  return math.sqrt(math.pow(x1-x2,2)+math.pow(y1-y2,2))

def closest(xys,xy1): # returns the index of the closest point
  return min(range(len(xys)), key=lambda i: distance(xy1,xys[i]))

def center(xys): # returns the average x and y
  return tuple([sum(l)/len(l) for l in zip(*xys)])

k = 2 # number of clusters
centers = [(1.1,0.5),(2.1,2.0)] # ENTER START CONFIGURATION HERE
clusters=defaultdict(list)

#################################
#
# Main loop
#
# Repeat assignment of nodes
# to nearest center and 
# recalculate centers
#
#################################
for steps in range(5): # adjust the number of iterations as needed
  clusters=defaultdict(list)
  for xy in data:
    nearest_center = closest(centers,xy)
    clusters[nearest_center].append(xy)
  print(f"Centers: {centers}")
  print(f"Resulting clusters: {dict(clusters)}")
  print("Calculating new centers...\n")
  centers = [center(clusters[oldCenter]) for oldCenter in clusters]

print(f"Final centers: {centers}")
#################################
#
# Plot the resulting clustering
# with mathplotlib. 
# Try to make it nicer with seaborn!
#
#################################
x,y,col=[],[],[]
for c in clusters:
  for xy in clusters[c]:
    x.append(xy[0])
    y.append(xy[1])
    col.append(c)
plt.scatter(x, y, c=col)
plt.show()

# Aufgabe 3 - k-means Clustering II


Vervollständigen Sie die unten stehende k-means-Impementierung und probieren Sie verschiedene Werte für die Anzahl der Cluster (k) aus. Welches k scheint die Beispiel-Daten gut zu klassifizieren und bietet sich deshalb an?

Sie können den Code auch nutzen, um andere Datenpunkte oder abweichende Initiallisierungen der Cluster-Zentren zu testen.

## Lösung

Für k=3 erhalten wir intuitiv nachvollziehbare Cluster für die Beispieldaten:

In [None]:
from collections import defaultdict
import matplotlib.pyplot as plt


data = [(6.,20.), (8.,15.), (3.,4.), (1.,1.), (21.,19.),(5.,4.),(25.,29.)]

def distance(xy1,xy2): # returns Manhattan distance
  (x1,y1),(x2,y2) = xy1,xy2
  return abs(x1-x2)+abs(y1-y2)

def closest(xys,xy1): # returns the index of the closest point
  return min(range(len(xys)), key=lambda i: distance(xy1,xys[i]))

def center(xys): # returns the average x and y
  return tuple([sum(l)/len(l) for l in zip(*xys)])

k = 3 # number of clusters
centers = data[:k] # first k points are initial cluster centers
clusters=defaultdict(list)

#################################
#
# Main loop
#
# Repeat assignment of nodes
# to nearest center and 
# recalculate centers
#
#################################
for steps in range(10):
  clusters=defaultdict(list)
  for xy in data:
    nearest_center = closest(centers,xy)
    clusters[nearest_center].append(xy)
  centers = [center(clusters[oldCenter]) for oldCenter in clusters]

#################################
#
# Plot the resulting clustering
# with mathplotlib. 
# Try to make it nicer with seaborn!
#
#################################
x,y,col=[],[],[]
for center in clusters:
  for xy in clusters[center]:
    x.append(xy[0])
    y.append(xy[1])
    col.append(center)
plt.scatter(x, y, c=col)
plt.show()

# Aufgabe 4 - Hierarchical clustering
Gegeben ist die folgende Distanzenmatrix:

<img src="https://drive.google.com/uc?id=1dVgAn8fvWFrpr-zvbzzzCMD1W3uqhWmq" width="300"  />

**(1)** Führen Sie hierarchisches Clustering mit *Single Linkage* zur Bestimmung neuer Distanzen durch. Zeichnen Sie den resultierenden Baum und beschriften Sie die Zweige entsprechend. 

**(2)** Führen Sie hierarchisches Clustering mit *Complete Linkage* zu bestimmtung neuer Distanzen durch. Zeichnen Sie den resultierenden Baum und beschriften Sie die Zweige entsprechend. 

**(3)** Vergleichen Sie die vorherigen Ergebnisse. Ergibt sich daraus ein unterschiedliches Clustering?

**(4)** *Single Linkage* und *Complete Linkage* sind nicht die einzigen Möglichkeiten, die Sie in der Vorlesung gelernt haben, um beim Clustern neue Distanzen zu bestimmen.
Fassen Sie die **vier** gelernten Linkage Methoden zusammen.

## Lösung


**(1)** Single Linkage

<img src="https://drive.google.com/uc?id=1sNRbkIyCAUGBKXHf5skloQAMBHmrT06w" width="700"  />


**(2)** Complete Linkage

<img src="https://drive.google.com/uc?id=12BGPDCoPHAtSfK_1zqjIjWMN97CSaOeF" width="700"  />


**(3)** Vergleich

Obwohl das Clustering mit zwei verschiedenen Linkage Methoden gelöst wurde, ist die Reihenfolge der Knoten im Clustering die gleiche. Die Abstände zwischen den Knoten sind jedoch unterschiedlich und für andere Beispieldaten können auch unterschiedliche Bäume entstehen.


**(4)** Überblick der vier Linkage Methoden

**Methode der single linkage oder des nächsten Nachbarn.** Die Nähe zwischen zwei Clustern ist die Nähe zwischen ihren beiden nächstgelegenen Objekten. 

**Methode der complete linkage oder farthest neighbour.** Die Nähe zwischen zwei Clustern ist die Nähe zwischen den beiden am weitesten entfernten Objekten.

**Methode der average linkage zwischen Gruppen (UPGMA).** Die Proximität zwischen zwei Clustern ist das arithmetische Mittel aller Proximitäten zwischen den Objekten. Die Mittelwerte werden bei jedem Schritt mit der Anzahl der Taxa in jedem Cluster gewichtet.

**Methode der simple average oder der gleichgewichtigen durchschnittlichen Verknüpfung zwischen Gruppen (WPGMA).** Ist die modifizierte vorherige. Die Proximität zwischen zwei Clustern ist das arithmetische Mittel aller Proximitäten zwischen den Objekten. Obwohl dies rechnerisch einfacher ist, tragen bei einer ungleichen Anzahl von Taxa in den Clustern die Abstände in der ursprünglichen Matrix nicht gleichmäßig zu den Zwischenberechnungen bei.



# Aufgabe 5 - Principal Component Analysis (PCA)

In einem Dresdener Krankenhaus wurden die Symptome und Diagnosen für die zuletzt aufgenommenen Patienten erfasst. 

Der untenstehende Code verwendet die PCA-Implementierung in [scikit learn](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html?highlight=pca#sklearn.decomposition.PCA), um die Dimensionalität der Daten zu reduzieren.

Vervollständigen Sie den Code so, dass die vorhandenen Symptom-Daten mittels PCA in 2 Dimensionen abgebildet werden und färben Sie die Datenpunkte ensprechend der Diagnose. Sind in der resultierenden 2D Darstellung Cluster erkennbar, die eine Vorhersage der Diagnose anhand der Symptome ermöglichen würden?

Ergänzen Sie den Code zusätzlich um eine Darstellung in nur einer Dimension.

## Lösung

In [None]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
#
data = [
["Headache",  "Fever",  "Dry_cough",  "Tiredness",  "Conjunctivitis",   "Diarrhoea",  "Dehydration ",  "Rash",  "Cramps",  "Nausea", "Diagnosis"],
["Yes",  "Yes",   "Yes",   "Yes",  "Yes",  "Yes",    "No",    "Yes",  "No",   "No",   "Covid"],
["No",  "Yes",   "No",   "No",  "No",  "Yes",    "Yes",    "No",  "Yes",   "Yes",   "Food_poison"],
["Yes",  "No",   "Yes",   "Yes",  "Yes",  "No",    "No",    "Yes",  "No",   "No",   "Covid"],
["Yes",  "Yes",   "Yes",   "Yes",  "No",  "Yes",    "No",    "No",  "No",   "No",   "Covid"],
["Yes",  "Yes",   "No",   "No",  "No",  "Yes",    "Yes",    "No",  "Yes",   "Yes",   "Food_poison"],
["Yes",  "Yes",   "No",   "Yes",  "No",  "Yes",    "No",    "No",  "Yes",   "Yes",   "Food_poison"],
["Yes",  "Yes",   "Yes",   "No",  "No",  "Yes",    "No",    "Yes",  "Yes",   "No",   "Food_poison"],
["Yes",  "No",   "No",   "Yes",  "Yes",  "No",    "No",    "Yes",  "No",   "No",   "Covid"],
["Yes",  "Yes",   "No",   "Yes",  "Yes",  "No",    "Yes",    "Yes",  "Yes",   "Yes",   "Covid"],
["Yes",  "Yes",   "No",   "Yes",  "No",  "Yes",    "Yes",    "No",  "Yes",   "Yes",   "Food_poison"]
]

header = data[0] # header from data
data = data[1:]      # remove header from data

val2int =  {
    "Yes": 0, "No": 1
    }

val2col = {
    "Food_poison": "blue", "Covid": "red"
}

data2 = [[val2int[val] for val in example[:-1]] for example in data]
print(data2)

col = [val2col[example[-1]] for example in data]

data3 = PCA(n_components=2).fit_transform(data2)
(x,y) = zip(*data3)
plt.scatter(x, y, c=col)
plt.show()

# PCA mit nur einer Dimension
data4 = PCA(n_components=1).fit_transform(data2)
plt.scatter(data4, [0]*len(data4),c=col)
plt.show()