In [4]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

import seaborn as sns

%load_ext version_information

In [5]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
cols = ['CRIM','ZN','INDUS','CHAS','NOX','RM','AGE','DIS','RAD','TAX','PTRATIO','B',
        'LSTAT','TGT']
boston = pd.read_csv(url, sep=' ', skipinitialspace=True, header=None, names=cols, 
                     index_col=False)

### Hauptkomponentenanalyse 

Vorgehen:
1. Gegeben eine Menge von $n$ $d$-dimensionalen Datenpunkten $\mathbf{x}_i$, berechnen Sie zuerst deren Mittelwert $\boldsymbol{\mu}_x = \frac{1}{n} \sum_{i=1}^n \mathbf{x}_i$ für jedes einzelne Merkmal und ziehen ihn von allen Datenpunkten ab (Zentrierung).
2. Normieren Sie dann alle Merkmale so, dass sie eine Varianz von 1 haben. Dieser Schritt ist optional, aber meist vorteilhaft.
3. Kopieren Sie alle $\mathbf{x}_i$ als Reihen in eine $n \times d$-Matrix $X$, die sog. Daten- oder Designmatrix.
4. Zur Lösung des Eigenwertproblens berechnen Sie die Singulärwertzerlegung von $X$ (z.B. mit `numpy.linalg.svd()`): $$ X = UDV^\top $$
Wer nicht weiß, was eine Singuärwertzerlegung ist oder macht, der lese bitte in den entsprechenden Wikipedia-Einträgen nach. Im Prinzip könnte man auch direkt die Eigenwerte der Kovarianzmatrix (s. Folie 12) berechnen (z.B. mit `numpy.linalg.eig()`), diese Methode ist aber meist aufwändiger und numerisch weniger stabil.
5. Die ersten $r$ Basisvektoren $\mathbf{q}_i$  (d.h die ersten $r$ Hauptkomponenten) sind die ersten $r$ Spalten der orthogonalen $d \times d$-Matrix $V$.
6. Die Projektionen $a_i$ der Daten $\mathbf{x}_i$ auf die ersten $r$ Basisvektoren $\mathbf{q}_i$ (d.h die neuen Variablenwerte im neuen Koordinatensystem) sind die die ersten $r$ Spalten der $n \times d$-Matrix $UD$.
7. Die Standardabweichungen entlang der Hauptkomponenten $\mathbf{q}_i$ sind die Diagonalelemente der Diagonalmatrix $D$ geteilt durch $\sqrt{n - 1}$.

### Implementierung der Hauptkomponentenanalyse

In [20]:

def pca(X , r):

    #X: Dataset
    #r: In der Theorie Anzahl an zu ermittelnden Hauptkomponenten

    #Schritt 1 Zentrieren
    mean_X = np.mean(X , axis = 0)
    centered_X = X - mean_X


    #Schritt 2 Normalisieren
    std_X = np.std(centered_X, axis = 0)

    normalized_X = centered_X - std_X


    #Schritt 3/4 Singulärwertszerlegung
    U, D, VT = np.linalg.svd(normalized_X)
    return U , D , VT

#Schritt 5 / 6 / 7
#Vielleicht verstehst du hier was mit den Schritten gemeint ist


In [19]:
pca(boston , 2)

(array([[-0.05244686,  0.00259152,  0.00628659, ..., -0.04634083,
         -0.04603041, -0.04689946],
        [-0.0617254 ,  0.00594777,  0.04706055, ..., -0.03469895,
         -0.035012  , -0.035232  ],
        [-0.06226841,  0.00467303,  0.02578186, ...,  0.00107205,
          0.00105316,  0.00331922],
        ...,
        [-0.05599688,  0.00371407,  0.05635311, ...,  0.97456394,
         -0.02427646, -0.02232459],
        [-0.05616289,  0.00245684,  0.05461678, ..., -0.02419921,
          0.97674016, -0.02205056],
        [-0.05625549,  0.0033559 ,  0.04821273, ..., -0.02247235,
         -0.02227701,  0.97490636]]),
 array([5.50773208e+03, 2.77399629e+03, 6.50558564e+02, 5.06301444e+02,
        1.99860810e+02, 1.61468128e+02, 1.06062113e+02, 8.78935284e+01,
        6.70870143e+01, 4.44784872e+01, 2.78760514e+01, 1.06555983e+01,
        5.49772651e+00, 1.31254695e+00]),
 array([[ 3.96772939e-02,  5.37319545e-02,  3.43354808e-02,
          7.73290265e-04,  5.63119346e-04,  1.65584721e