# Geodatenanalyse 1

## Übung 5: Multivariate Statistik - Übung

In dieser Übung wollen wir uns mit der Analyse und Visualisierung von mehrdimensionalen Daten befassen. Dazu lesen wir zunächst den vollständigen Datensatz (Data_GW_KA.csv) mit den Grundwasserparametern aus Karlsruhe in Python ein. 

In [None]:
import pandas as pd  # pandas package einladen und mit der Abkürzung 'pd' versehen
data = pd.read_csv('Data_GW_KA.csv', sep=';', encoding='cp1252') # 

### In 5 Schritten zur Hauptkomponentenanalyse

#### 1. Standardisierung

Da wir in der letzten Übung gesehen haben, dass die Varianzen und Kovarianzen der Parameter in dem Datensatz unterschiedliche Größenordnungen haben, sollten die Werte sämtlicher Parameter vor der weiteren Analyse auf eine Standard-Normalvereilung transformiert werden. 

Dazu gibt es in dem Python Package `sklearn` die Funktion `sklearn.preprocessing.StandardScaler().fit_transform()`. Ladet diese Funktion zunächst in Euren Code ein. 

Für die Transformierung erzeugt Ihr als nächsts eine neue Variable (output) mit Hilfe dieser Funktion. Die erste Klammer der Funktion bleit bei der Anwendung hier leer, in die hintere fügt Ihr den Namen des zu transformierenden Datensatzes ein (input). 

Inspiziert anschließend den standardisierten Datensatz mit Hilfe des Befehls `print()`, und überprüft ob die Daten wie gewünscht vorwiegend zwischen -1 und +1 liegen. 

In [None]:
# [1] 
# benötigtes Packages/benötigte Funktion einladen

# output = Funktion(input)

# print (output)

#### 2. Eigenwerte und Eigenvektoren bestimmen

Berechnet für die Bestimmung der Eigenwerte zuerst die Kovarianzmatrix der standardisierten Daten mit Hilfe von `numpy` und der Funktion `numpy.cov(data.T)`. Wichtig ist hier das `.T` hinter dem Datensatz, das die transponierte Matrix von dem Datensats bildet, das vereinfacht die weitere Handhabung der Matrizen. 

Anschließend könnt Ihr mit der Funktion `numpy.linalg.eig()` die Eigenwerte und Eigenvektoren der Kovarianzmatrix berechnen. Dafür müsst Ihr zwei Outputs definieren, und als Input die zuvor berechnete Kovarianzmatrix nehmen.   

In [None]:
# [2]
# benötigtes Packages/benötigte Funktion einladen

# Kovarianzmatrix berechnen

# Eigenwerte und Eigenvektoren berechnen 


#### 3. Hauptkomponenten bestimmen

Das Ziel der Hauptkomponentenanalyse ist es die Dimensionen des Datensatzes zu reduzieren, z.B. auf zwei für eine 2D-Visualisierung. Die Richtung dieser Achsen im Parameterraum entspricht den Eigenvektoren (mit Einheitslänge 1). Damit möglichst viel Information in Form der Varianz in den zwei Dimensionen erhalten bleibt, suchen wir nun jene Eigenvektoren mit den größter Eigenwerten. 

Definiert dafür einen Parameter vom Typ `list` ohne Inhalt als `name = [[]]*n` (vgl. Termin 1, Block 2), mit `n` als Dimension entsprechend der Anzahl der Eigenwerte. Darin wollen wir in jeder Zeile jeweils die gepaarten Eigenwerte und Eigenvektoren abbilden.  

Füllt dafür die Zeilen der Liste über eine `for` Schleife (mit der Länge entsprechend der Anzahl der Eigenwerte) mit den Absolutwerten der jeweiligen Eigenwerten und den Werten der Eigenvektoren. Die Absolutwerte eines Arrays könnt Ihr mit Hilfe von `numpy.abs(array)` berechnen. 

Achtung: in der Schleife erfolgt die Indizierung bei den Eigenwerten zeilenweise (also mit einem einfachem Index [i]), die Indizierung der Eigenvektoren spaltenweise (also [:,i]), da es sich bei diesem um eine 15x15 Matrix handelt!

In [None]:
# [3]
# neuen, leeren Parameter erzeugen

# for-Schleife definieren 
# for Schleife füllen: Zeile[i] = [(Absolutwert_Eigenwert, Werte_Eigenvektoren)]


Nun müssen wir noch die Zeilen mit den größten Eigenwerten identifizieren. Sortiert dafür die Liste mit den Eigenwerten- und Eigenvektoren-Paaren in absteigender Reihenfolge. 

Bei Listen könnt ihr den Befehl `Liste.sort()` benutzen um Euch die Werte in aufsteigende Reihenfolgen ausgeben zu lassen. Dabei wird der erste Wert jeder Zeile berücksichtigt (also hier der Eigenwert). 

Danach könnt Ihr mit `Liste.reverse()` davon die umgekehrte Reihenfolge bilden, sodass der größte Eigenwert oben steht. 

Überprüft dies mit Hilfe des `print()`-Befehls.  

In [None]:
# [4]
# Wertepaare aufsteigend sortieren 

# Reihenfolge umkehren

# sortierte Wertepaare anzeigen lassen

Die zwei obersten Zeileneinträge entsprechen den gesuchten Hauptkomponenten entlang der größten Varianzen. Speichert diese in separaten Variablen (ebenfalls vom Typ `list`) ab `name1=name2[index]`. 
Benutzt den korrekten Index für Zeilen! 

Lasst Euch die beiden Variablen nochmal zur Kontrolle anzeigen.

In [None]:
# [5]
# Hauptkomponenten 1 und 2 basierend auf Wertepaaren definieren

# Hauptkomponenten anzeigen lassen

#### 4. Projektionsmatrix konstruieren

Mit Hilfe der Projektionsmatrix wollen wir nun die ursprünglichen Daten auf die zwei eben identifizierten Achsen der Hauptkomponenten transformieren. Um 15 Parameter auf 2 Dimensionen zu reduzieren brauchen wir also eine (15 x 2) Matrix, deren Spalten den beiden Eigenvektoren mit den größten Eigenwerten entsprechen. 

Diese Eigenvektoren habt Ihr bereits im letzten Schritt (zusammen mit den Eigenwerten) als `list` gespeichtert. Fügt die beiden obersten Vektoren nun mit Hilfe von `numpy.stack((Vektor1, Vektor2))` und dem zusätzlichen Argument `axis=-1` für eine horiziontale Ausrichtung zu einer Matrix `W` zusammen. 

Als Erinnerung: Die Indizierung bei Listen funktioniert nach dem Prinzip `"list[Zeile][Spalte]"`. Schaut nochmal im letzten Ausgabefenster oben nach, in welcher Zelle der Hauptkomponenten sich die Eigenvektoren befinden.  

Lasst Euch anschließend "W" anzeigen, um die Dimensionen zu überprüfen.

In [None]:
# [6]
# W definieren

# W anzeigen lassen 


#### 5. Projektion auf neue Ebenen und Visualisierung

Jetzt könnt Ihr über die Gleichung `Y = data x W ` die Transformation durchführen. Matrixmultiplikation in Python kann mit `matrix_1.dot(matrix_2)` durchgeführt werden. 

Die Output-Matrix Y sollte dann 39 x 2 (Datenpunkte x Hauptkomponenten) Felder haben. Diese Anzahl könnt Ihr überprüfen indem Ihr Euch die Größe der Matrix über `numpy.size(matrix)` anzeigen lasst. 

In [None]:
# [7]
# Matrixmultiplikation

# Größe der Matrix anzeigen lassen

Diese transformierte Matrix können wir nun mit Hilfe des Packages `pandas` (mehr dazu nächste Woche) in den Datentyp "DataFrame" umwandeln, das erleicntert das weitere Arbeiten damit. Gleichzeitig können wir in dem DataFrame eine Spalte mit dem Parameter "Flaechennutzung" ergänzen. 

Ergänzt nun in dem Skript unten mit Hilfe von `matplotlib` einen Scatterplot mit den beiden Hauptkomponenten als Achsen, und der Flaechennutzung als Farbe der Punkte. Was lässt sich anhand dieser Abbildung über die Parameterwerte in Bezug auf die Flaechennutzung sagen?   

In [None]:
# [8]
# aus ndarray einen DataFrame erzeugen 
principalDf = pd.DataFrame(data = Y , columns = ['principal component 1', 'principal component 2'])
# eine dritte Spalte mit den Werten der Flächennutzung ergänzen
finalDf = pd.concat([principalDf,pd.DataFrame(data,columns = ['Flaechennutzung'])], axis = 1) 

# hier Abbildung mit matplotlib erzeugen



### Hauptkomponentenanalyse mit sklearn

Das Python Package `sklearn` enthält viele nützliche Funtkionen für statistische Analysen und maschinelles Lernen. Darunter auch eine Funktion für Hauptkomponentenanalyse `sklearn.decomposition.PCA()`. 

Definiert (nach dem Einladen des Packages) für die Anwendung zuerst ein Objekt mit der genauen Methode (d.h. ein Output mit dem Namen "model") mit Hilfe der Funktion `sklearn.decomposition.PCA()`. Definiert als Input wie viele Hauptkomponenten ("n_components=2") Ihr ausgegeben haben möchtet. 

Im nächsten Schritt könnt Ihr den reduzierten Datensatz berechnen, indem Ihr auf diese Methode das Attribut `.fit_transform()` anwendet, mit dem ursprünglichen Datensatz als Input. 

In [None]:
# [9]
# Package einladen

# Model-Objekt erzeugen

# Fit-Funktion auf Model-Objekt anwenden 

Für die Bewertung der Aussagekraft einer Hauptkomponentenanalyse ist es wichtig zu wissen, wie viel der ursprünglich Varianz (und damit der Informationen) in dem neuen transformierten Datensatz enthalten ist. Für die einzelnen Komponenten könnt Ihr das ausrechnen, indem Ihr das Attribut `.explained_variance_ratio_` auf Euer PCA Objekt anwendet. 

Berechnet außerdem die Summe der Varianzen (z.B. mit der Funktion `sum()` ), und lasst Euch schließlich die Werte beider Variablen anzeigen. 

Wie würdet Ihr die Werte einordnen und die Aussagekraft bewerten?

In [None]:
# [10]
# einzelne Varianzen berechnen 

# Summe der Varianzen bilden

# beide Variablen ausgeben lassen

Nun stellt auch die Ergebnisse der PCA mit `sklearn` analog zu oben graphisch dar, und vergleicht die beiden Ergebnisse.

In [None]:
# [11]
principalDf2 = pd.DataFrame(data = data_reduced, columns = ['principal component 1', 'principal component 2'])
finalDf2 = pd.concat([principalDf2,pd.DataFrame(data,columns = ['Flaechennutzung'])], axis = 1) 

# hier Abbildung erzeugen

Wenn Ihr alles richtig gemacht habt, sollten die beiden Abbildungen das gleiche Bild zeigen (u.U. gespiegelt oder rotiert, also mit einem Vorzeichenwechsel auf einer oder beiden Achsen). 

## Ende

### Referenzen: 

Koch et al. (2020), Groundwater fauna in an urban area: natural or affected? https://hess.copernicus.org/preprints/hess-2020-151/hess-2020-151.pdf

Lever et al. (2017) Principal component analysis, Nature Methods 14(7), 641-642

https://towardsdatascience.com/a-complete-guide-to-principal-component-analysis-pca-in-machine-learning-664f34fc3e5a