# Dimensionsreduktion und Ensemble-Methoden

In dieser Übung werden wir uns der wichtigen Hauptkomponentenanalyse (*Principal Component Analysis* PCA) widmen und verschiedene Ensemble-Methoden verwenden, um ein Modell zur Gesichtserkennung zu entwickeln.
Dazu verwenden wir das *Olivetti-Faces* Datenset, welches aus 400 verschiedenen Bildern von 40 verschiedenen Personen besteht. Jedes Bild hat $64 \times 64$ Pixel.

In [None]:
from sklearn.datasets import fetch_olivetti_faces
faces, labels = fetch_olivetti_faces(return_X_y=True, shuffle=True, random_state=42)

Um ein Bild zu plotten können wir `imshow` verwenden. Der folgende Code plottet jeweils das erste Gesicht der 40 verschiedenen Personen.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def _plot_face(face):
    if face.shape != (64, 64):
        face = face.reshape(64, 64)
    plt.imshow(face, cmap='gray')
    plt.axis('off')

    
def plot_faces(faces, cols=4):
    faces = np.array(faces)
    if len(faces.shape) == 1:
        faces = faces[None, :]
    m = faces.shape[0]
    
    rows = m // cols
    if m % cols != 0:
        rows += 1
    fig, axes = plt.subplots(rows, cols, figsize=(3*cols, 3*rows))
    if len(axes.shape) == 1:
        axes = axes[None, :]
    
    for i in range(rows):
        for j in range(cols):
            try:
                plt.sca(axes[i, j])  # set current axes
                face = faces[i * cols + j]  # get face
            except IndexError:
                plt.axis('off')
                continue
            _plot_face(face)
    return fig, axes

# plot all distinct persons
_, idx = np.unique(labels, return_index=True)
plot_faces(faces[idx], cols=5);

## a) Eigengesichter
- Plotte die ersten 20 Hauptachsen (Eigenvektoren der Kovarianzmatrix). 

In [None]:
from sklearn.decomposition import PCA


- Wie groß sind die zugehörigen Eigenwerte (Varianzen) dieser Eigengesichter?

- Plotte den Anteil der erklärten Varianz in Abhängigkeit der verwendeten Hauptkomponenten. Dazu kannst du das Attribut `explained_variance_ratio_` verwenden.

## b) Inverse Transformation

Berechne eine PCA und plotte die Rekonstruktion von 5 Gesichter basierend auf $5, 10, 20, 50, 100, 200, 300$ und $ 400$ Hauptkomponenten. Dazu kannst du die Methode `inverse_transform` benutzen.

## c) Feature Importance
- Berechne die *Gini Feature Importance*. Du kannst `imshow` für die Visualisierung verwenden.

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(faces, labels, test_size=0.2, stratify=labels, random_state=42)

## d) Gesichtserkennung

Erstelle ein Modell zur Gesichtserkennung. Du kannst dazu Methoden deiner Wahl verwenden. Experimentiere mit verschiedenen Modellen (`SVC`, `RandomForestClassifier`, ...). 
- Erstelle auch einen `VotingClassifier` basierend auf verschiedenen Modellen. 
- Probiere auch eine `PCA` als Preprocessingschritt. Was macht der Parameter `whiten` in der PCA?
- Wie hoch ist der Accuracy Score auf dem Trainings- und Testset? Kannst du einen Score von 1 auf dem Testset erreichen? Falls nicht, welche Personen werden verwechselt? Plotte die Geichter dieser Personen.


Finale Version.