# Raum und Projektionen

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

def plot(X, y, fig, ax):
    ax.scatter(X[:,0], X[:,1], c=y, alpha=0.5)
    ax.set_xlabel('x1')
    ax.set_ylabel('x2')
    ax.axis('equal');


Erzeugen wir uns zunächst mal eine Punktwolke:

In [None]:
m = 200

rng = np.random.default_rng(50)
distr = rng.standard_normal(size=(2,m))

X_id = np.dot(np.identity(2), distr).T
y_id = np.ndarray([m,1]).fill(0)

fig, ax = plt.subplots(1, figsize=(10,10))
plot(X_id, y_id, fig, ax);


Die Punktwolke können wir durch Multiplikation mit einer 2x2 Matrix verzerren:

In [None]:

theta = np.pi/2
rot = [[np.cos(theta), np.sin(theta)], [-np.sin(theta), np.cos(theta)]]
shear = [[1, 2], [0, 1]]
stretchX = [[2, 0],[0, 1]]
stretchY = [[1, 0],[0, 2]]

fig, axs = plt.subplots(2,3, figsize=(15,10))

def plotTransformed(label, data, row, col):
    A = data[:, 0]
    B = data[:, 1]
    axs[row, col].axis('equal')
    axs[row, col].set(xlim=[-10,10], ylim=[-10, 10])
    axs[row, col].set_title(label)
    axs[row, col].scatter(A, B, alpha=0.5);

plotTransformed('Identität', np.dot(np.identity(2), distr).T, 0,0)
plotTransformed('Rotation', np.dot(rot, distr).T, 0,1)
plotTransformed('Shear', np.dot(shear, distr).T, 0,2)
plotTransformed('Stretch X', np.dot(stretchX, distr).T, 1,0)
plotTransformed('Stretch Y', np.dot(stretchY, distr).T, 1,1)
plotTransformed('Combined', np.dot(np.dot(np.dot(stretchX, stretchY), np.dot(rot, shear)), distr).T, 1,2)


Jetzt ermitteln wir eine zufällige Matrix, mit der wir diese Wolke verzerren:

In [None]:
S = rng.random(size=(2,2))
print(f'S = {S}')

In [None]:
X = np.dot(S, distr).T
y = np.ndarray([m,1]).fill(1)

fig, ax = plt.subplots(1, figsize=(10,10))
plot(X, y, fig, ax);
ax.set_title('Verzerrte Punktwolke');

PCA - Principal Component Analysis - ist eine Methode, um die maßgeblichen "Komponenten" in einer Datenmenge herauszufinden.

In [None]:
from sklearn.decomposition import PCA
pca = PCA(n_components=2, whiten=True)
pca.fit(X)

Die Ergebnisse von PCA

In [None]:
print(f'Components: {pca.components_}')
print(f'Varianz: {pca.explained_variance_}')


Schauen wir uns mal die Vektoren an, die durch PCA definiert sind:

In [None]:
def draw_vector(v0, v1, ax):
    arrowprops=dict(arrowstyle='->',
                    linewidth=2,
                    shrinkA=0, shrinkB=0)
    ax.annotate('', v1, v0, arrowprops=arrowprops)

for length, vector in zip(pca.explained_variance_, pca.components_):
    v = vector * 3 * np.sqrt(length)
    draw_vector(pca.mean_, pca.mean_ + v, ax)
fig

D.h. die durch PCA definierten Vektoren, beschreiben das Koordinatensystem, welches der Verteilung der Punktwolke folgt.

Wir können die Punktwolke auch als Punkte im durch PCA definierten Koordinatensystem darstellen:

In [None]:
fig, axs = plt.subplots(1,3, figsize=(21,7))

# zunächst noch mal unsere Punktewolke
plot(X, y, fig, axs[0]);
axs[0].set_title('Verzerrte Punktwolke');
for length, vector in zip(pca.explained_variance_, pca.components_):
    v = vector * 3 * np.sqrt(length)
    draw_vector(pca.mean_, pca.mean_ + v, axs[0])

# und jetzt die Transformation durch PCA
X_pca = pca.transform(X)

axs[1].scatter(X_pca[:, 0], X_pca[:, 1], alpha=0.5)
draw_vector([0, 0], [0, 3], ax=axs[1])
draw_vector([0, 0], [3, 0], ax=axs[1])
axs[1].axis('equal')
axs[1].set(xlabel='component 1', ylabel='component 2',
          title='principal components')

def rotate(degrees):
    return [[np.cos(degrees), np.sin(degrees)], [-np.sin(degrees), np.cos(degrees)]]

# und schlussendlich noch mal unsere zufällige Ausgangswolke
plot(np.dot(np.dot(X_id, rotate(0.88*np.pi)), [[1,0], [0,-1]]), y_id, fig, axs[2]);
axs[2].set_title('Original');


In [None]:
np.linalg.eigvals(S)