# Hauptkomponentenanalyse - Principal Component Analysis (PCA)

## Introduction
Das Ziel der PCA ist, Muster in Daten zu identifizieren. Die PCA zielt darauf ab, die Korrelation zwischen Variablen zu ermitteln. Die Intention, die Dimensionalit√§t zu reduzieren, ist nur dann sinnvoll, wenn eine starke Korrelation zwischen Variablen besteht.

Kurz gesagt, bei der PCA geht es um folgendes: Ermittlung der Richtungen mit der maximalen Varianz in hochdimensionalen Daten und eine anschlie√üende Projektion auf einen kleineren dimensionalen Unterraum, w√§hrend die meisten Informationen behalten werden.

## PCA and Dimensionsreduktion
H√§ufig besteht das gew√ºnschte Ziel darin, die Dimensionen eines d-dimensionalen Datensatzes zu reduzieren, indem er auf einen (k)-dimensionalen Unterraum projiziert wird (wobei k <d ist), um die Recheneffizienz zu erh√∂hen und gleichzeitig den gr√∂√üten Teil der Informationen beizubehalten.

## Eine Zusammenfassung des PCA-Ansatzes
* Ermittlung der Eigenvektoren (Eigenvectors) und Eigenwerte (Eigenvalues) anhand Kovarianzmatrix <br>
* Sortierung der Eigenwerte in absteigender Reihenfolge und Auswahl der k Eigenvektoren, die den k gr√∂√üten Eigenwerten entsprechen, wobei k die Anzahl der Dimensionen des neuen Merkmalsunterraums ist (k <= d).
* Konstruktion der Projektionsmatrix <b>W</b> aus den ausgew√§hlten k Eigenvektoren.
* Transformierung des urspr√ºnglichen Datensatzes <b>X </b> √ºber <b>W</b>, um einen k-dimensionalen Merkmalsunterraum <b>Y</b> zu erhalten.

## Iris Datensatz

F√ºr die anstehende Aufgabe wird der bereits bekannte Iris-Datensatz verwendet.

<img src="./Figures/Iris-Datensammlung.png" alt="drawing" style="width:400px;"/>

## Datensatz einlesen

Lesen Sie den Iris-Datensatz aus dem Verzeichnis /Data ein. Speichern Sie hierbei die numerischen Werte und die Class labels in unterschiedlichen Variablen.

In [1]:
import numpy as np
import csv as csv
import matplotlib.pyplot as plt
import pandas as pd
import itertools
%matplotlib inline

In [2]:
# TODO: implement
df = pd.read_csv("./Data/iris.data", header=None, sep=",", names=["s_length", "s_width", "p_length", "p_width","class"])
X = df.loc[:, df.columns != 'class']
y = df.loc[:, df.columns == 'class']

X.head()

Unnamed: 0,s_length,s_width,p_length,p_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [3]:
y.head()

Unnamed: 0,class
0,Iris-setosa
1,Iris-setosa
2,Iris-setosa
3,Iris-setosa
4,Iris-setosa


Der Iris-Datensatz ist jetzt in Form einer 150$\times$4-Matrix gespeichert, in der die Spalten die verschiedenen Merkmale darstellen und jede Zeile eine separate Blumenprobe darstellt. Jedes Sample <b>x</b> kann als 4-dimensionaler Vektor dargestellt werden

In [4]:
X.shape

(150, 4)

In [5]:
X[0:10]

Unnamed: 0,s_length,s_width,p_length,p_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
6,4.6,3.4,1.4,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,4.9,3.1,1.5,0.1


## Visualisierung

Die Daten (3 verschiedene Blumenklassen befinden sich entlang der 4 verschiedenen Merkmale) lassen sich √ºber Histogramme wiefolgt visualisieren.

Figure:
<img src="./Figures/Exploratory-Visualization.png" alt="drawing" style="width:400px;"/>

# 1 - Berechnung der Kovarianzmatrix

Die Eigenvektoren und Eigenwerte einer Kovarianzmatrix bilden den ‚ÄûKern‚Äú einer PCA: Die Eigenvektoren (Hauptkomponenten) bestimmen die Richtungen des neuen Merkmalsraums, und die Eigenwerte bestimmen ihre Gr√∂√üe. Mit anderen Worten, die Eigenwerte erkl√§ren die Varianz der Daten entlang der neuen Merkmalsachsen.

## Kovarianzmatrix C
Die Herangehensweise der PCA besteht darin, die Eigendekomposition anhand der Kovarianzmatrix $\Sigma$ vorzunehmen. Diese ist ein d$\times$d-Matrix, bei der jedes Element die Kovarianz zwischen zwei Merkmalen darstellt. Die Kovarianz zwischen zwei Merkmalen wird wie folgt berechnet:

$\sigma_{jk} = \frac{1}{n-1}\sum_{i=1}^{n}\left(  x_{ij}-\bar{x}_j \right)  \left( x_{ik}-\bar{x}_k \right).$

Die Berechnung der Kovarianzmatrix wird √ºber die folgende Matrixgleichung zusammengefasst:
$\Sigma = \frac{1}{n-1} \left( (\mathbf{X} - \mathbf{\bar{x}})^T\;(\mathbf{X} - \mathbf{\bar{x}}) \right)$

mit $\bar{x}$ als Mittelwertvektor $\mathbf{\bar{x}} = \frac{1}{n} \sum\limits_{i=1}^n x_{i}.$

Der Mittelwertvektor (mean vector) ist ein d-dimensionaler Vektor, bei dem jeder Wert in diesem Vektor den Stichprobenmittelwert einer Merkmalsspalte im Datensatz darstellt.

Implementieren Sie eigenst√§ndig den Mittelwertvektor und die Kovarianzmatrix. Testen Sie das Ergebnis Ihrer Implementierung anhand der Funktion <b>numpy.cov()</b>.

In [17]:
# TODO: implement
#X = np.array([[3, 1, 4, 2, 5],[3,1,2,4,5]]).T

mean_vec = X.mean(axis=0)
print(mean_vec)
#Œ£=1/ùëõ‚àí1((ùêó‚àíùê±¬Ø)ùëá(ùêó‚àíùê±¬Ø))
left = np.subtract(X, mean_vec).T 
right = np.subtract(X, mean_vec)

solution = np.dot(left, right)

cov_mat = solution / 3 #float(len(X.columns) -1)
print(cov_mat)

np.cov(X.T)

[[ 0.01957554 -0.34182191  0.01053859  0.02596773]
 [-0.34182191  0.07139644 -0.04172299 -0.11377082]
 [ 0.01053859 -0.04172299  0.00431161  0.01035402]
 [ 0.02596773 -0.11377082  0.01035402  0.02304686]]


In [9]:
#Test
X.cov()

Unnamed: 0,s_length,s_width,p_length,p_width
s_length,0.685694,-0.039268,1.273682,0.516904
s_width,-0.039268,0.188004,-0.321713,-0.117981
p_length,1.273682,-0.321713,3.113179,1.296387
p_width,0.516904,-0.117981,1.296387,0.582414


In [8]:
np.mean(X)

s_length    5.843333
s_width     3.054000
p_length    3.758667
p_width     1.198667
dtype: float64

In [19]:

#X = X.to_numpy()
#X -= X.mean(axis=0) 


#by_hand = np.dot(X.T, X.conj()) / 3
#print(by_hand)
# [[ 0.04735338  0.01242557]
#  [ 0.01242557  0.07669083]]
#using_cov = np.cov(X)
cov_mat = np.cov(X.T)
print(cov_mat)

[[ 0.68569351 -0.03926846  1.27368233  0.5169038 ]
 [-0.03926846  0.18800403 -0.32171275 -0.11798121]
 [ 1.27368233 -0.32171275  3.11317942  1.29638747]
 [ 0.5169038  -0.11798121  1.29638747  0.58241432]]


# 2 - Eigendekomposition - Berechnung Eigenvektoren and Eigenwerte

Im folgenden wird das in der Vorlesung (Prof. Laubenheimer) besprochene Vorgehen Schritt-f√ºr-Schritt umgesetzt, mit einer kleinen Abwandlung. Die einzelnen Berechnungsschritte sind f√ºr eine eigenst√§ndige Implementierung Ihrerseits im Rahmen dieses Labors zu aufwendig. Daher k√∂nnen Sie auf Implementierungen von Bibliotheks-Funktionen zur√ºckgreifen. Welche diese konkret sind wird jedoch nicht vorweggenommen. Diese sind Ihrerseits anhand von Recherche-Arbeiten herauszufinden.

## 2.1. Charakteristisches Polynom
Der erste Schritt ist die Aufstellung des charakteristischen Polynoms. 

In [29]:
#Laubenheim Folien
X = np.array([[3, 1, 4, 2, 5],[3,1,2,4,5]]).T
cov_mat = np.cov(X.T)
print(cov_mat)


[[2.5 1.5]
 [1.5 2.5]]


In [31]:


# TODO: implement
cp = np.poly(np.matrix(cov_mat))
print(cp)

[ 1. -5.  4.]


## 2.2. Eigenwerte (Nullstellen)
Der zweite Schritt ist die Berechnung der Nullstellen anhand des charakteristischen Polynoms. Damit einhergehend sind die Eigenwerte bestimmt.

In [32]:
# TODO: implement
eig_vals = np.roots(cp)
print(eig_vals)

[4. 1.]


## 2.3. Eigenvektoren
Der dritte Schritte ist die Berechnung der Eigenvektoren durch L√∂sung der Gleichung: <br>
$C‚àí\lambda_i \cdot I \cdot \vec{e}_i = \vec{0}$.

In der Vorlesung und in der Klausur (sofern diese Aufgabe gestellt wird), wird an dieser Stelle das Lineare Gleichungssystem (LGS) gel√∂st. Dies sollten Sie an dieser Stelle auch tun! Leider erzeugen jedoch die g√§ngigen LGS-Solver, wie bspw. <b>scipy.linalg.solve()</b> und <b>numpy.linalg.solve()</b>, lediglich die triviale L√∂sung. Gerne k√∂nnen Sie das erproben.<br>

<b>Achtung!</b>: Hier kommt der Teil, an dem wir vom Skript abweichen: <br>
* Stellen Sie f√ºr jede Nullstelle <i>i</i> (Eigenwert) folgende Matrix m auf: $m_i = (C‚àí\lambda_i \cdot I).$
* F√ºhren Sie f√ºr jede Nullstelle auf Basis der Matrizen eine QR-Zerlegung (https://de.wikipedia.org/wiki/QR-Zerlegung) durch. Dh finden Sie eine Funktion die dies berechnet. Die QR-Zerlegung unterst√ºtzt Sie bei der L√∂sung eines linearen Gleichungssystems. Das Resultat der Zerlegung sind die zwei Matrizen <b>q</b> und <b>r</b>.<br>
* Bestimmen Sie den <i>Rang der Matrix</i> wiefolgt: Ermitteln Sie in <b>r</b> die Zeile, in der s√§mtliche Werte 0 sind bzw. "nah dran". Der Rang der Matrix ist der Wert der ermittelten Zeile minus 1. <br> Zum Beispiel: Angenommen, in der Zeile 4 sind alle Werte nah an 0, dann ist der Rang der Matrix: Zeile 4 minus 1 = 3. (Grafik: Rot) <br> 
* Bestimmen Sie die <i>Eigenvektoren</i> wiefolgt: Ermitteln Sie in <b>q</b> die vom Ende betrachtet n-r Spalten (mit n=Dimension, r=Rang). In diesen Spalten sind die Eigenvektoren enthalten. <br> Zum Beispiel: Angenommen die Dimension n=4 und der Rang r=3, dann sind die Eigenvektoren in der vom Ende betrachteten Spalte n-r= 4-3= 1, dh die erste Spalte vom Ende betrachtet, bzw. die vierte Spalte vom Anfang betrachtet. (Grafik: Gr√ºn)

<img src="./Figures/q_r_color.png" alt="drawing" style="width:400px;"/>

Nochmals der Hinweis f√ºhren Sie dieses Verfahren f√ºr alle Nullstellen durch und erzeugen Sie eine geeignete Datenstruktur.<br>

Testen Sie das Ergebnis Ihrer Implementierung anhand der Funktion <b>numpy.linalg.eig()</b>.

In [44]:
# TODO: implement
# ùëöùëñ=(ùê∂‚àíùúÜùëñ‚ãÖùêº)
mi = []
for i in eig_vals:
    mi = np.subtract(cov_mat, i * np.identity(len(eig_vals)))
    qr = np.linalg.qr(mi)
    q = qr[0]
    r = qr[1]
    print(q)
    print(r)
    print("")
    print("")
eig_vecs = None

[[-0.70710678  0.70710678]
 [ 0.70710678  0.70710678]]
[[ 2.12132034e+00 -2.12132034e+00]
 [ 0.00000000e+00 -1.25321349e-15]]


[[-0.70710678 -0.70710678]
 [-0.70710678  0.70710678]]
[[-2.12132034e+00 -2.12132034e+00]
 [ 0.00000000e+00  6.46197450e-16]]




# 3 - Auswahl der Hauptkomponenten (Principal Components)

## Sortierung der Eigenpaare (Eigenpairs)

Das Ziel der PCA ist es, die Dimensionalit√§t des urspr√ºnglichen Merkmalsraums zu reduzieren, indem dieser auf einen kleineren Unterraum projiziert wird, in dem die Eigenvektoren die Achsen bilden. Die Eigenvektoren definieren jedoch nur die Richtungen der neuen Achse, da sie alle die gleiche Einheitsl√§nge 1 haben. Dies kann durch die folgenden beiden Codezeilen best√§tigt werden:

In [13]:
for ev in eig_vecs.T:
    np.testing.assert_array_almost_equal(1.0, np.linalg.norm(ev))
print('Ok Ok!')

AttributeError: 'NoneType' object has no attribute 'T'

Um zu entscheiden, welche/r Eigenvektor/en entfallen kann/k√∂nnen, ohne dass zu viele Informationen f√ºr die Konstruktion des niederdimensionalen Unterraums verloren gehen, m√ºssen die entsprechenden Eigenwerte untersucht werden: Die Eigenvektoren mit den niedrigsten Eigenwerten enthalten die geringste Information √ºber die Verteilung der Daten; diese k√∂nnen entfallen. Zu diesem Zweck werden die Eigenwerte von den h√∂chsten zu den niedrigsten geordnet/ sortiert, um die besten k Eigenvektoren auszuw√§hlen.

Erzeugen Sie eine Liste von Tupeln, welche die Eigenwerte und Eigenvektoren enth√§lt. Und sortieren Sie diese entsprechend.

In [None]:
# Make a list of (eigenvalue, eigenvector) tuples
# TODO: implement
eig_pairs = None

## Explained Variance

Nach der Sortierung der Eigenpaare stellen Sie sich m√∂glicherweise folgende Frage: <i>"Wie viele Hauptkomponenten werden f√ºr den neuen Feature-Unterraum ausgew√§hlt?"</i> <br>

Ein n√ºtzliches Ma√ü ist die sogenannte "explained variance", die sich aus den Eigenwerten berechnen l√§sst. Die "explained variance" gibt an, wie viel Informationen (Varianz) den einzelnen Hauptkomponenten zugeordnet werden k√∂nnen.

Ermitteln Sie die "explained variance", indem sie den prozentualen Anteil der einzelnen Eigenwerten aus der Gesamtheit Eigenwerten berechnen.

In [None]:
# TODO: implement

Die Berechnung zeigt deutlich, dass der gr√∂√üte Teil der Varianz (92.46% der Varianz) allein durch die erste Hauptkomponente erkl√§rt werden kann. Die zweite Hauptkomponente enth√§lt noch etwas Informationen (5.30%), w√§hrend die dritte und vierte Hauptkomponente sicher fallengelassen werden k√∂nnen, ohne zu viele Informationen zu verlieren. Zusammen enthalten die ersten beiden Hauptkomponenten 97.76% der Informationen

## Projektionsmatrix W

Es folgt die Konstruktion der Projektionsmatrix, mit der die Iris-Daten in den neuen Feature-Unterraum transformiert werden. Die Projektionsmatrix ist im Grunde genommen eine Matrix der konkatenierten Top-k-Eigenvektoren. <br>

Es erfolgt eine Reduktion des 4-dimensionalen Merkmalsraum auf einen 2-dimensionalen Merkmalsunterraum, indem die "Top 2"-Eigenvektoren mit den h√∂chsten Eigenwerten ausgew√§hlt werden, um die d$\times$k-dimensionale Projektionsmatrix (auch: Eigenvektormatrix) <b>W</b> zu konstruieren. 

Erzeugen Sie die Projektionsmatrix <b>W</b> (mit einem shape: (4, 2)) aus den Eigenpairs.

In [None]:
# TODO: implement
matrix_w = None

# 4 - Projektion in den neuen Feature-Unterraum

In diesem letzten Schritt wird die 4$\times$2-dimensionale Projektionsmatrix W verwendet, um die Daten √ºber die Gleichung auf den neuen Unterraum zu transformieren:

$Y=X \cdot W$ <br>

wobei Y eine 150$\times$2-Matrix der transformierten Daten ist.

In [None]:
# TODO: implement
Y = None

F√ºhren Sie folgenden Code aus und visualisieren Sie das Ergebnis.

In [None]:
with plt.style.context('seaborn-whitegrid'):
    plt.figure(figsize=(6, 4))
    for lab, col in zip(('Iris-setosa', 'Iris-versicolor', 'Iris-virginica'),
                        ('blue', 'red', 'green')):
        plt.scatter(Y[y==lab, 0],
                    Y[y==lab, 1],
                    label=lab,
                    c=col)
    plt.xlabel('Principal Component 1')
    plt.ylabel('Principal Component 2')
    plt.legend(loc='lower center')
    plt.tight_layout()
    plt.show()


Das Ergebnis sollte wiefolgt aussehen: 
<img src="./Figures/pca_result.png" alt="drawing" style="width:400px;"/>