# Einführung Multi-Variate Datenanalyse (MVDA)

## Übung 2: Hauptkomponentenanalyse (*prinicple component analysis*, PCA)
für Kurse Mathematische Berechnungssoftware (MBS)

_Simeon Sauer, SS2020_

### I. Bibliotheken laden

In [None]:
import pandas as pd  # 'import' lädt eine Bibliothek mit weiteren Funktionen. 'as' legt eine Abkürzung fest
import plotly.express as px
import numpy as np  # 'numpy' enthält viele numerische Methoden für python, z.B. Singulärwertzerlegung von Matrizen

### II. PCA für realen Datensatz mit 7 Variablen (Weizen)

#### Daten importieren

Wir importieren wie letzte Woche einen Datensatz, in dem Weizenkörner für verschiedende Sorten gemeoterisch vermessen wurden.
Mehr Dateils hier: http://archive.ics.uci.edu/ml/datasets/seeds

- Zeilen: Unterschiedliche Proben von Saatkörner
- Spalten: 7 - Weizensorte; 0-6: verschiedene Messwerte

In [None]:
data = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learning-databases/00236/seeds_dataset.txt", sep='\t+', header=None)

# Spaltenname einführen:
data.columns = [
    "area A",
    "perimeter P",
    "compactness C",
    "length of kernel",
    "width of kernel",
    "asymmetry coefficient",
    "length of kernel groove",
    "type"]

# Index-Spalte wird separat behandelt in pandas-Bibliothek
data.index.name='sample no.'

# Jetzt nennen wir noch die Weizensorte um
Weizensorten = ['Kama', 'Rosa', 'Canadian']
data['type'] = data['type'].replace([1,2,3], Weizensorten)

# Wie sieht die Datentabelle jetzt aus?
display(data)

### PCA
1. Aufgabe: Wäheln Sie nur die metrisch skalierten Variablen aus, also Weizensort (Variable `type`) rauswerfen

In [None]:
data_numeric = data.drop( ??? ,'columns')
display(data_numeric)

2. Aufgabe: Zentrieren Sie den Datensatz, aber skalieren Sie ihn nicht - wie im Video - mit der Standardabweichung

In [None]:
# zentrieren und skalieren
#data_numeric = (data_numeric - data_numeric.mean()) /data_numeric.std()

# nur zentrieren, nicht skalieren
data_numeric = ???

3. führen Sie die PCA durch, indem Sie die nächsten Zellen unverändert ausführen

In [None]:
# Singulärwertzerlegung
u,s,v = np.linalg.svd(data_numeric, full_matrices=False)

# Scores- und Loadings-Matrix berechnen
scores = pd.DataFrame(u*s, index=data_numeric.index)
loadings = pd.DataFrame(pd.DataFrame(v.T, index=data_numeric.columns))
print('(Zeilen, Spalten) der Datenmatrix:', data_numeric.shape)
print('(Zeilen, Spalten) der Scores Matrix:', scores.shape)
print('(Zeilen, Spalten) der Loading Matrix:', loadings.shape)

# Spalten benennen ('PC1' ... 'PC13' statt 0 ... 12)
scores.columns = 'PC' + (scores.columns+1).astype(str)
loadings.columns = 'PC' + (loadings.columns+1).astype(str)

# Matrizen ausgeben
display(scores)
display(loadings)

# Wie informativ sind die Principle Components, d.h. wieviel Gesamtvarianz enthalten Sie?
print("Erklärter Anteile an Gesamtvarianz:", s**2/(s**2).sum())

In [None]:
# Scores plot

px.scatter(scores, x='PC1', y='PC2', color=data['type'], title='Scores').show()  # 2D

In [None]:
# Loadings plots

px.scatter(loadings, x='PC1', y='PC2', color=loadings.index, title='Loadings').show()  # 2D

### Fragen zum Verständnis:
* Welchen Anteil an der Gesamtvarianz erklärt die 1. Hauptkomponente, welche die ersten beiden zusammen?

* Widerholen Sie die Analyse mit zentrierten *und* zentrierten Daten. Wie unterscheided sich der Scores bzw. Loadingsplot?

* Welche beiden "Typen" von Variablen gibt es? Haben Sie eine Erklärung dafür?