## 1. Vorbereitung

In [14]:
%matplotlib widget
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importiere PCA
from sklearn.decomposition import PCA
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

import utils_pca

In [4]:
# Hilfsfunktion zum Visualisieren von Bildern in einem Raster
def plot_images(data, shape=(28, 28), grid=(4, 10), cmap="Greys"):
    fig, axes = plt.subplots(grid[0], grid[1], figsize=(10, 4))
    
    for i, ax in enumerate(axes.flatten()):
        ax.imshow(data[i, :].reshape(*shape), cmap=cmap, interpolation="none")
        ax.axis("off")

### 1.1. Digits Datensatz

In [5]:
digits = load_digits()

### 1.2. Scikit-Learn PCA

Scikit-Learn's PCA hat folgende wichtige Funktionen:

- `fit()`
- `transform()`
- `inverse_transform()`


Nach dem Fit sind folgende Attribute relevant:
    
- `mean_`
- `components_`
- `explained_variance_`
- `explained_variance_ratio_`

## 2.1 PCA zur Dimensionsreduktion

Principal Component Analysis kann zur Reduktion der Anzahl der Features benutzt werden - ein Vorgang, der Dimensionsreduktion genannt wird. Das kann für alles Mögliche nützlich sein: zur Visualisierung der Daten, zur Kompression der Daten und damit auch zur Vorverarbeitung der Daten zum Beispiel für nachgeschaltetes überwachtes Modell.

Wichtig ist, dass die Dimensionsreduktion **keine Selektion der Features ist**. Es wird keine Auswahl getroffen. Stattdessen werden neue Features gelernt, die sich jeweils aus den ursprünglichen Features zusammensetzen aber dabei möglichst relevante Informationen darstellen. Im Falle der PCA setzen sich die neuen Features immer als sogenannte *Linearkombinationen* (ein Begriff der lineare Algebra) der ursprünglichen Features zusammen - das heißt gewichtete Summen der ursprünglichen Features.

Dimensionsreduktion ist ein völlig alltäglicher Vorgang und das menschliche Gehirn ist perfekt darin. Hier ein Beispiel: wenn wir zum Beispiel einen Hund auf einem Bild beschreiben, werden wir dies üblicherweise tun, indem wir bestimmte Eigenschaften des Hundes erwähnen - Farbe, Größe, Fell, Rasse usw. Keineswegs werden wir uns darauf beschränken, die Intensitäten der Pixel des Bildes einzeln aufzuzählen. Aber ganz genau so sieht bekanntlich ein überwachtes Modell das Bild. Die Information über Größe und Farbe des Hundes ergeben sich aber aus den zu Grunde liegenden Pixeln. In diesem Beispiel sind die Pixel die ursprünglichen Features. Die Eigenschaften Farbe, Größe, etc. sind das Ergebnis einer Dimensionsreduktion.

### 2.1.1 Kompression

Zum Einstieg beschäftigen wir uns damit, wie man die Information in Bildern komprimieren kann, indem man PCA benutzt. Wir beschäftigen uns hierzu nocheinmal mit dem Sign-MNIST Datensatz.

In [6]:
# TODO

### 2.1.2 Visualisierung

Die Reduktion der Dimension kann Visualisierungen ermöglichen, die andernfalls nicht möglich wären. Eine Reduktion auf 2 oder 3 Dimensionen erlaubt zum Beispiel die Benutzung von Scatterplots.

In [7]:
# TODO 2D-Dimensionsreduktion

In [8]:
# TODO 3D-Dimensionsreduktion

#### Eigen-Images

Die gelernten Komponenten/Projektionsvektoren können als Bilder visualisiert werden.

In [9]:
# TODO: Eigen-Images visualisieren

### 2.1.3 Vorverarbeitung/Feature Engineering

Ein weit verbreitete praktische Anwendung von Dimensionsreduktion ist die Anwendung als Vorverarbeitung. Nachgeschaltete überwachte Modelle profitieren unter Umständen von einer Reduktion der Features - im Sinne von Laufzeit, Speicherplatz oder sogar Generalisierungsfähigkeit.

In [10]:
# TODO

#### Scree Plots

Die Auswahl der Anzahl der Komponenten geschieht durch sogenannte "Scree Plots", die die erklärte Varianz der einzelnen Komponenten aufzeigen (einmal als absolute Varianz und einmal als Anteil an der Gesamt-Varianz).

In [11]:
# TODO

#### Trainings- und Testdaten

In [12]:
# TODO

#### SVM + PCA

In [13]:
# TODO

## 2.2 PCA für Noise Filtering

In [None]:
# TODO

## 2.3 Rekonstruktion Interaktiv

In [None]:
# TODO

## 2.4 PCA für Dekorrelation und Whitening

In [None]:
# TODO

## 2.5 PCA Beispiel - Face Images

In [None]:
# TODO