### Principle component analysis (PCA)
Im Prinzip wird mit den Werten des Features und der jeweiligen Anzahl der features ein Vektor erstellt, der den Trend oder die _Wichtigkeit_ von den Daten darstellt.  
  
Im Prinzip wird in der folgenden Funktion ein Vektor (pca), Features und ein Startindex angenommen. Die Features werden entsprechend dem PCA transformiert, leicht verändert ab dem Startindex bis zum Ende (also der Wichtigkeit nach geordnet) und dann zurück transformiert. PCA wird auf den Original Zustand gebracht und die veränderten Daten ausgegeben.

In [2]:
import numpy as np
from sklearn import decomposition

def generateData(pca, features, startIndex):
    original = pca.components_.copy()
    numberPrincipleComponents = pca.components_.shape[0]
    before = pca.transform(features)
    for i in range(startIndex, numberPrincipleComponents):
        pca.components_[i,:] += np.random.normal(scale = 0.1, size = numberPrincipleComponents)
    after = pca.inverse_transform(before)
    pca.components_ = original.copy()
    return after


In [3]:
x = np.load("iris_features.npy")
y = np.load("iris_labels.npy")


In [4]:
N = 120
x_train = x[:N]
y_train = y[:N]
x_test = x[N:]
y_test = y[N:]
pca = decomposition.PCA(n_components = 4)
pca.fit(x)
print(pca.explained_variance_ratio_)

[0.92461621 0.05301557 0.01718514 0.00518309]


1. Die ersten beide Werte erklären 97% der Varianz. Also verwenden wir fürs PCA nur die beiden letzten Komponenten.
2. Ein set ist eine neue Sammlung von Samples
3. Da ein set auf dem Original basiert, nimmt es die Form des Originals an.

In [5]:
#1.
start = 2 #2.
numberSets = 10 
numberSamples = x_train.shape[0] #3.
newx = np.zeros((numberSets*numberSamples, x_train.shape[1]))
newy = np.zeros(numberSets * numberSamples, dtype = "uint8")


Die erste Iteration ist das Original und die nächsten fügen sich leicht verändert hinten ans Original an.

In [6]:
for i in range(numberSets):
    if (i == 0):
        newx[0:numberSamples,:] = x_train
        newy[0:numberSamples] = y_train
    else:
        newx[(i*numberSamples):(i*numberSamples+numberSamples),:] = \
            generateData(pca, x_train, start)
        newy[(i*numberSamples):(i*numberSamples+numberSamples)] = y_train


In [9]:

idx = np.argsort(np.random.random(numberSets*numberSamples))
newx = newx[idx]
newy = newy[idx]
print(newy.size)

1200


In [8]:

np.save("iris_train_features_augmented.npy", newx)
np.save("iris_train_labels_augmented.npy", newy)
np.save("iris_test_features_augmented.npy", x_test)
np.save("iris_test_labels_augmented.npy", y_test)