# Agenda
1. Backpropagation
    - Wiederholung Feed Forward Neural Network mit Parametern $M_1,M_2,...,M_k$
    - Generalisierte Darstellung
    - Backpropagation-Algorithmus
2. K-means Clustering
    - Motivation
    - Minimierungsproblem
    - Anwendungsfälle
# Backpropagation:
## Wiederholung
Zur Regression bzw. Klassifizierung verwenden wir nun parametrisierbare Basiselemente und fügen diese durch Summation und Komposition zu einem Netzwerk zusammen, dessen Parameter wir auf den Zielvektor $y\in\mathbb{R}^N$ hin optimieren möchten.
### Definition: Feed Forward Neural Network mit Parametern $M_1, M_2, ...,M_k$
#### Voraussetzungen:
<br>
<div style="border:1px solid lightgrey;padding:20px;">
Daten $\{x_p,y_p\}_{p=1}^P$ mit $x_p\in\mathbb{R}^N,y\in\mathbb{R}$<br><br>
$M_1,M_2,\dots,M_k$, wobei $M_i$ die Anzahl der Neuronen des $i$-ten Hidden Layers angibt<br><br>
$k$ bezeichnet die Gesamtanzahl an Hidden Layern <br><br>
$f:\mathbb{R}^N\rightarrow \mathbb{R}$ eine Basisfunktion <br>(z.b. $f(x)=tanh(c_m+x^Tv_m)$ mit Parametern $c_m\in\mathbb{R}, v_m\in\mathbb{R}^N$)<br><br>
Aktivierungsfunktion $a:\mathbb{R}\rightarrow\mathbb{R}$ 
<br>(z.b. $a(\centerdot)=tanh(\centerdot)$)
</div>
<br><br>
Folgendes Bild zeigt die Konstruktion von Basisfeatures $f_m$, mit Hilfe derer man $r=\sum_{m=1}^{M}w_mf_m$ konstruiert: <br><br>
<img src="FeedForwardNeuralNetwork.jpg">

## Über die Konstruktion eines Basiselements $f_m$ zur Zielfunktion $r$ 
Sei $m\in\{1,\dots,M\}$ beliebig aber fest.<br>
Es seien $c^{(2)}=(c_{1}^{(2)},\dots,c_{m_2}^{(2)},\dots,c_{M}^{(2)})^T\in\mathbb{R}^{M_2\times1}$ sowie <br>$c^{(1)}=(c_{1}^{(1)},\dots,c_{m}^{(1)},\dots,c_{M_1}^{(1)})^T\in\mathbb{R}^{M_1\times1}$ und <br>
$V=???$
<br><br>
Dann kann man schreiben:<br>
$$f_m(x_p)=a(c_m^{(1)}+\sum_{m_2=1}^{M_2}[a(c_{m_2}^{(2)}+\sum_{n=1}^Nx_{p,n}v_{n,m_2}^{(2)})v_{m_2,m}^{(1)}]$$
<br><br>
Und noch kompakter in Matrixschreibweise für alle $m=1,\dots,M_1$:<br>
$ f_p=a(c^{(1)}+V^{T(1)}a(c^{(2)}+V^{T(2)}x_p))$, wobei $a(\centerdot)$ komponentenweise operiert.
<br><br>
Somit erhält man für $r=\sum_{m=1}^{M_1}w_mf_m=b+w^Ta[c^{(1)}+V^{T(1)}a(c^{(2)}+V^{T(2)}x_p)]$ das Rekursionsmuster<br><br>
0. $r^{(0)}=b+w^Ta(r^{(1)})$
1. $r^{(1)}=c^{(1)}+V^{T(1)}a(r^{(2)})$
2. $r^{(2)}=c^{(2)}+V^{T(2)}x_p$
<br><br>
Im Folgenden werden wir dieses Rekursionsmuster in Kombination mit einer Kostenfunktion $h(\centerdot)$ ausnutzen, um den Gradienten für das Gradientenverfahren angeben zu können. Dieses Vorgehen bezeichnet man als Backpropagation-Algorithmus:
## Backpropagation-Algorithmus
Die Zielsetzung besteht darin, eine Kostenfunktion $h(r)$ mit dem Gradientenverfahren minimieren zu können. Dabei ist folgende Verkettungsfolge gegeben:<br>
$h(r)\rightarrow r(b,w) \rightarrow [b(c^{(1)},V^{(1)}),w(c^{(1)},V^{(1)})]\rightarrow [c^{(1)}(c^{(2)},V^{(2)}),V^{(1)}(c^{(2)},V^{(2)})]\rightarrow[c^{(2)}(x_p),V^{(2)}(x_p)]$

<br><br><br><br>
Übliche Funktionsscharen für die Basiselemente sind<br>
1. $b_m(x)=tanh(c_m+x_mv_m)$ mit Aktivierungsfunktion $a(.)=tanh(.)$<br>
2. $b_m(x)=max(0,c_m+x^Tv_m)$ mit Aktivierungsfunktion $a(.)=max(0,.)$

<br><br><br>
# PCA und K-Means Clustering
## Motivation K-Means Clustering
Es sei ein Dataset $\{x_p\}_{p=1}^P$ gegeben mit $x_p\in\mathbb{R}^N$<br>
Wähle $K\in\mathbb{N}$ beliebig (ggf. getrieben durch Vorwissen) aber fest.<br><br>
<b>Ziel</b>: Finde eine "gute" Zuordnung $x_p\sim S_i$ für alle $x_p$ und $i\in\{0,\dots,K-1\}$<br><br>
Wir sagen, dass die Zuordnung gut ist, wenn alle Datenpunkte $x_p$ mit $x_p\sim Q_i$ sich nach zuvor festgelegten Kriterien möglichst ähnlich sind.<br><br>
Aus Gründen der Anschaulichkeit wählen wir im Folgenden "räumliche Nähe" als Kriterium, d.i. ein kleiner Wert für den euklidischen Abstand für alle Datenpunkte innerhalb eines Clusters. Das Vorgehen lässt sich ohne größere Schwierigkeiten für auf andere Kriterien übertragen.<br><br>
## Beispiel: Beste Position von Fussballspielern

X: Standardisierter Datensatz mit 17500 Profifußballern, jeweils beschrieben durch 185 Features,<br><br>
Y: "Beste Spielfeldposition": Torwart, Verteidigung, Mittelfeld, Sturm (Vorwissen: 4 Klassen)<br><br>
Reduktion der Features auf 3 PCA-Features und 4-Means-Clustering.
### Ergebnis 4-Means Clustering (unsupervised)
<img src="KMeans_modif.png">
### Die Realität (supervised)
<img src='Means_modif.jpg'>
### Analyse

<img src="KMeans_comp.png">
Das 4-Means-Clustering ordnet erkennt die Klassen 'Torwart' und 'Sturm' relativ gut.
<img src="K_Means_mixareas.png">
In einigen Bereichen gibt es starke Durchmischung der Datenpunkte.
<img src="comp_kmeans_stats.png">

### Schlussfolgerung:
Wir können Datenpunkte der Klasse 'Torwart' ohne größere Bedenken auf den zugehörigen Zentroiden abbilden und so die Dimension des Datensatzes reduzieren. In den anderen Fällen verschlechtert die Dimensionsreduktion die Vorhersagegenauigkeit.

### Der K-Means-Algorithmus
Es sei ein Datensatz $\{x_p\}_{p=1}^P$ gegeben mit $x_p\in\mathbb{R}^N$<br>
Wähle $K\in\mathbb{N}$ beliebig (ggf. getrieben durch Vorwissen) aber fest.<br><br>
#### Def. Cluster $S_i$ und Clustering
Ein Cluster $S_i$ ist eine Indexmenge $S_i\subset\{1,\dots,P\}$<br><br>
Für jeweils zwei Cluster $S_i,S_j$ mit $i\neq j$ gilt zudem $S_i \cap S_j=\O$
<b>Ziel:</b> Finde für jedes Cluster $S_i$ einen Zentroiden $c_i, i\in\{0,\dots,K-1\}$, so dass<br>
$c_k\approx x_p$









### Der K-Means-Algorithmus
Es sei ein Datensatz $\{x_p\}_{p=1}^P$ gegeben mit $x_p\in\mathbb{R}^N$<br>
Wähle $K\in\mathbb{N}$ beliebig (ggf. getrieben durch Vorwissen) aber fest.<br><br>
#### Def. Cluster $S_i$ und Clustering $\bigcup_{i=1}^{K}S_i$
Ein Cluster $S_i$ ist eine Indexmenge $S_i\subset\{1,\dots,P\}$<br><br>
Für jeweils zwei Cluster $S_i,S_j$ mit $i\neq j$ gilt zudem $S_i \cap S_j=\emptyset$<br>
Wir bezeichnen  $Q_D=\bigcup_{i=1}^{K}S_i$ als vollständiges Clustering für einen Datensatz $D=\{x_p\}_{p=1}^P$, <br>
wenn die $S_i$ Cluster sind und $Q_D=\{1,\dots,P\}$ gilt.    
<br>
#### Problemstellung
<b>Ziel:</b> Finde für jedes Cluster $S_i$ einen Zentroiden $c_i, i\in\{1,\dots,K\}$, so dass<br>
$c_k\approx x_p$ $\forall p\in S_k$ und $k=1,\dots,K$<br><br>
Fromuliere dieses Problem um zu<br>
$$Ce_k \approx x_p \space \forall p \in S_k$$ <br>
mit $C=[c_1 \space c_2 \dots c_K]$<br><br>
Mit der Datenmatrix $X=[x_1 \space x_2 \dots x_p]$ und der Assoziationsmatrix $W=[w_1 \space w_2 \dots w_P]$,<br> wobei $w_p = e_k$, wenn $p \in S_k$ schreibt man nun noch vereinfachter<br>
$$CW \approx X$$
<br><br>
#### Erste Formulierung eines Optimierungsproblems
Mit der schreibweise von oben erhält man ein erstes handliches und lösbaes Optimierungsproblem, nämlich<br>
$$\min_{C,W}\|CW-X\|_F^2$$



#### Konstruktion eines  $(k,(M_1,M_2,...,M_n))$ - feed forward Neural Networks
Recap: Es geht darum, eine geeignete Funktion $f = (f_1,f_2,...,f_N):\mathbb{R}^N\rightarrow\mathbb{R}$ zu finden. Wir möchten nun auf Basis der Basiselemente $b_m$ Basis-Features (eines für jedes $F_i$) erzeugen, deren Konstruktion durch $k$ und $(M_1,M_2,...,M_n)$ festgelegt wird. Es wird nach folgendem Schema konstruiert:

$f_m(x) = a( \sum_{m_1=1}^{M_1}b_1(\sum_{m_2=1}^{M_2}b_2(\sum_{m_3=1}^{M_3}b_3(\sum_{m_4=1}^{M_4}(\dots( \dots \sum_{m_k=1}^{M_k}b_k))))\dots)$<br>
und das wäre beispielsweise für $b_m(x)=tanh(c_m+x^Tv_m)$ mit Aktivierungsfunktion $a(.)=tanh(.)$:<br>
$f_m(x) = tanh( \sum_{m_1=1}^{M_1}c_{m_1}+(\sum_{m_2=1}^{M_2}a(\sum_{m_3=1}^{M_3}b_2(\sum_{m_4=1}^{M_4}\dots)$

