#### Business Analytics FHDW 2024
## Aufgabe

Führen Sie die PCA *auf Basis von Eigenvektoren* für das Beispiel Kalorien und Bewertung *in normierter Form* durch. Stellen Sie die einzelnen Schritte wie oben dar. Hilfe zum Vorgehen:

1. Wie gewohnt die Daten einlesen, dann aber mit `preprocessing.scale` die Daten normieren.
2. Die normierten Daten von *calories* und *rating* mit ihren Eigenvektoren darstellen.
3. Mit einer `PCA` und `fit` prüfen, ob die Eigenvektoren aus 2 stimmen (und sich im Graphen nicht durch die Richtungen irritieren lassen :-)

In [None]:
import pandas as pd
from sklearn import preprocessing
from sklearn.decomposition import PCA
import numpy as np

def pcaSummary(pca):
    return pd.DataFrame({'Varianz':pca.explained_variance_,
                         'Kumulierte Varianz':np.cumsum(pca.explained_variance_),
                         'Varianzanteil':pca.explained_variance_ratio_,
                         'Kumulierte Anteile':np.cumsum(pca.explained_variance_ratio_)})

cereals_df = pd.read_csv('./Daten/cereal.csv')
print(cereals_df)
cereals_scaled = pd.DataFrame(preprocessing.scale(cereals_df.iloc[:, 3:].dropna(axis=0)))
print(cereals_scaled)
plot_2 = cereals_scaled.plot.scatter(x=0,y=12)

cov_matrix = cereals_scaled[[0, 12]].cov()
eigenvalues_norm, eigenvectors_norm = np.linalg.eig(cov_matrix)

print("Der erste Eigenvektor {} hat den Eigenwert {:.4f}.".format(eigenvectors_norm[:,0], eigenvalues_norm[0]))
print("Der zweite Eigenvektor {} hat den Eigenwert {:.4f}.".format(eigenvectors_norm[:,1], eigenvalues_norm[1]))
print("Summe der Eigenwerte = {}".format(eigenvalues_norm[0]+eigenvalues_norm[1]))

plot_2.quiver(*eigenvectors_norm[:,0], color=['g'], scale=3)
plot_2.quiver(*eigenvectors_norm[:,1], color=['r'], scale=5)

In [None]:
pca_normalized_exercise = PCA(n_components=2)
pca_normalized_exercise.fit(preprocessing.scale(cereals_df[["calories","rating"]]))
pca_normalized_exercise_summary = pcaSummary(pca_normalized_exercise)
pca_normalized_exercise_summary = pca_normalized_exercise_summary.transpose()
pca_normalized_exercise_summary.columns = ["PC1","PC2"]
print(pca_normalized_exercise_summary.to_string()+"\n")
pca_normalized_exercise_components = pd.DataFrame(pca_normalized_exercise.components_.transpose(),columns=["PC1","PC2"],index=["calories","rating"])
print(pca_normalized_exercise_components.to_string()+"\n")
plot_2 = cereals_scaled.plot.scatter(x=0,y=12)
plot_2.quiver(*pca_normalized_exercise_components["PC1"], color=['g'], scale=3)
plot_2.quiver(*pca_normalized_exercise_components["PC2"], color=['r'], scale=5)