<p><font size="6" color='grey'> <b>
Machine Learning
</b></font> </br></p>
<p><font size="5" color='grey'> <b>
Principle Component Analysis - Cancer
</b></font> </br></p>

---


In [None]:
#@title 🔧 Colab-Umgebung { display-mode: "form" }
!uv pip install --system -q git+https://github.com/ralf-42/Python_Modules
from ml_lib.utilities import get_ipinfo
import sys
print()
print(f"Python Version: {sys.version}")
print()
get_ipinfo()

# 0 | Install & Import
---

In [None]:
# Install

In [None]:
# Import
import numpy as np
from pandas import read_csv, DataFrame, concat

from sklearn.datasets import fetch_openml
from sklearn.decomposition import PCA

import plotly.express as px

In [None]:
# Warnung ausstellen
import warnings
warnings.filterwarnings("ignore")

# 1 | Understand
---

In [None]:
import pandas as pd
df = read_csv('https://raw.githubusercontent.com/ralf-42/ML_Intro/main/02%20data/breast_cancer_wisconsin.csv')

In [None]:
data = df.copy()
target = data.pop("Class")

# 2 | Prepare
---

In [None]:
# drop na
data = data.dropna()
target = target.loc[data.index]

# 3 | Modeling
---

In [None]:
n_components = data.shape[1]
model = PCA(n_components=n_components)

In [None]:
pca_np = model.fit_transform(data)
pca_df = DataFrame(pca_np)

# 4 | Evaluate
---

<p><font color='black' size="5">
Erklärte Varianz
</font></p>

Die erklärte Varianz ist der Anteil der Gesamtvarianz im Datensatz, der durch eine bestimmte Hauptkomponente oder eine Menge von Hauptkomponenten erklärt wird. Sie ist ein Maß dafür, wie gut die Hauptkomponenten die Daten repräsentieren.

**PCA**

PCA ist eine Technik zur Dimensionsreduktion, die verwendet wird, um die Dimensionalität eines Datensatzes zu reduzieren, indem er in einen niedrigerdimensionalen Raum transformiert wird. Dies geschieht durch die Suche nach den Hauptkomponenten des Datensatzes, die die Richtungen der größten Varianz in den Daten darstellen. Die erste Hauptkomponente erklärt den größten Teil der Varianz, die zweite Hauptkomponente den zweitgrößten Teil der Varianz und so weiter.

**Erklärte Varianz in PCA**

Im Zusammenhang mit PCA wird die erklärte Varianz verwendet, um zu bestimmen, wie viele Hauptkomponenten im niedrigerdimensionalen Raum beibehalten werden sollen. Ziel ist es, so viele Hauptkomponenten beizubehalten, dass ein großer Teil der Gesamtvarianz erklärt wird, ohne zu viele Dimensionen beizubehalten.

Die erklärte Varianz jeder Hauptkomponente kann berechnet werden, indem das Eigenwert der Hauptkomponente durch die Summe der Eigenwerte aller Hauptkomponenten dividiert wird. Die Gesamtvarianz, die durch eine Menge von Hauptkomponenten erklärt wird, ist die Summe der erklärten Varianzen jeder Hauptkomponente.

**Beispiel**

Angenommen, ein Datensatz hat 10 Dimensionen und die PCA wird verwendet, um ihn auf 2 Dimensionen zu reduzieren. Die erste Hauptkomponente erklärt 70 % der Gesamtvarianz und die zweite Hauptkomponente erklärt 20 % der Gesamtvarianz. Zusammen erklären diese beiden Hauptkomponenten 90 % der Gesamtvarianz. Dies bedeutet, dass der Datensatz in einem 2-dimensionalen Raum mit einem Verlust von nur 10 % der Gesamtvarianz repräsentiert werden kann.

**Schlussfolgerung**

Die erklärte Varianz ist ein wichtiges Konzept in PCA. Sie wird verwendet, um zu bestimmen, wie viele Hauptkomponenten im niedrigerdimensionalen Raum beibehalten werden sollen. Ziel ist es, so viele Hauptkomponenten beizubehalten, dass ein großer Teil der Gesamtvarianz erklärt wird, ohne zu viele Dimensionen beizubehalten.

In [None]:
opt_point = 90.0  # erklärte Varianz sollte >= 90% sein
explained_variance = [round(v, 3) for v in model.explained_variance_ratio_ * 100]
cum_expl_variance = np.cumsum(model.explained_variance_ratio_ * 100)
pc_greater = np.argmax(cum_expl_variance >= opt_point) + 1

In [None]:
# Ausgabe "erklärte Varianz"
print("-" * 40)
print("Erklärte Varianz (%):\n", explained_variance)

print("-" * 40)
print("Kum. erkl. Varianz (%):\n", cum_expl_variance)

print("-" * 40)
print(f"Optimaler Punkt: {pc_greater}", "\n")

In [None]:
# @title
# @markdown   <p><font size="4" color='green'>  Plot-Funktion</font> </br></p>
def plot_explained_variance(data, cum_sum, opt_point, d):
    # Erstelle ein DataFrame für die Daten
    df = DataFrame(
        {
            "Principal Component": range(1, data.shape[1] + 1),
            "Cumulative Explained Variance": cum_sum,
        }
    )

    # Erstelle das Liniendiagramm mit plotly-express
    fig = px.line(
        df,
        x="Principal Component",
        y="Cumulative Explained Variance",
        title="Explained Variance by Principal Components",
        labels={"Cumulative Explained Variance": "Cumulative Explained Variance"},
        width=700,
        height=400,
        markers=True,
    )

    # Füge den optimalen Punkt als Scatter hinzu
    fig.add_scatter(
        x=[d],
        y=[cum_sum[d - 1]],
        mode="markers",
        marker=dict(color="red", size=10),
        name="Opt. Point >" + str(opt_point) + "%",
    )

    # Zeige die Grafik an
    fig.show()

In [None]:
# Grafik "erklärte Varianz"
plot_explained_variance(data, cum_expl_variance, opt_point, pc_greater)

<p><font color='black' size="5">
Gewichtung Features in den Hauptkomponenten
</font></p>

Die Werte in pca.components_ stellen die Gewichte oder Koeffizienten der ursprünglichen Features in den jeweiligen Hauptkomponenten dar.

Jede Zeile der Matrix entspricht einer Hauptkomponente.
Jede Spalte der Matrix entspricht einem ursprünglichen Feature.
Der Wert an der Position (i, j) in der Matrix gibt das Gewicht des Features j in der Hauptkomponente i an.
Interpretation:

+ Vorzeichen: Das Vorzeichen eines Gewichts (+ oder -) gibt die Richtung des Einflusses des Features auf die Hauptkomponente an. Ein positives Gewicht bedeutet, dass ein Anstieg des Feature-Werts zu einem Anstieg des Werts der Hauptkomponente führt. Ein negatives Gewicht bedeutet, dass ein Anstieg des Feature-Werts zu einem Abfall des Werts der Hauptkomponente führt.

+ Betrag: Der Betrag eines Gewichts gibt die Stärke des Einflusses des Features auf die Hauptkomponente an. Je größer der absolute Wert des Gewichts, desto stärker trägt das entsprechende Feature zur Hauptkomponente bei.

Zusammenfassend:

+ Hohe positive Werte: Das Feature trägt stark und positiv zur Hauptkomponente bei.
+ Hohe negative Werte: Das Feature trägt stark und negativ zur Hauptkomponente bei.
+ Werte nahe Null: Das Feature hat wenig Einfluss auf die Hauptkomponente.

**Beispiel:**

Nehmen wir an, wir haben einen Datensatz mit zwei Features: "Größe" und "Gewicht". Wenn die PCA eine Hauptkomponente findet, die "PCA1" genannt wird, und das Feature "Größe" einen starken und negativen Beitrag zu dieser Hauptkomponente hat, bedeutet dies, dass größere Personen tendenziell einen niedrigeren Wert auf der "PCA1"-Hauptkomponente haben.

In [None]:
feature = data.columns
DataFrame(model.components_, columns=feature)

# 5 | Deploy
---