Termin 2 - Machine Learning Algorithmen (Aufgabe)

# Maschinelles Lernen
# Übung Termin 2 - Einfache Machine Learning Algorithmen
# Kurzer Theorie-Überblick

## **Überwachtes Lernen**

Überwachtes Lernen bezieht sich auf eine Klasse von Algorithmen des maschinellen Lernens, bei der ein Modell mit der Verwendung von **gelabelten Trainingsdaten** trainiert wird, um eine Vorhersage zu treffen. Gelabelte Trainingsdaten sind Datensätze, die sowohl die Eingabewerte (unabhängige Variablen) als auch die zugehörigen Zielwerte (abhängige Variablen) enthalten.
- **Klassifikation**
    - **Binäre Klassifikation**: Eine binäre Klassifikation ist eine Form der Klassifikation im maschinellen Lernen, bei der eine Entscheidung zwischen nur **zwei Kategorien** getroffen wird. Zum Beispiel die Vorhersage, ob ein Patient an einer bestimmten Krankheit leidet oder nicht.

    - **Multiklassen Klassifikation**: Multiklassenklassifikation ist eine Form der Klassifikation im maschinellen Lernen, bei der eine Entscheidung zwischen **mehr als zwei Kategorien** getroffen wird. Zum Beispiel die Klassifizierung von Bildern in verschiedene Kategorien wie Hunde, Katzen oder Vögel.

- **Regression**: Regression ist ein maschinelles Lernverfahren, bei dem eine **Beziehung zwischen abhängigen und unabhängigen Variablen** modelliert wird. Zum Beispiel die Vorhersage des Grundwasserstands anhand von Daten wie der Niederschlagsmenge, der Bodenart und der Landnutzung.

- **Verwendete Algorithmen**:
    - **Support Vector Machines (SVM)**: Hohe Genauigkeit und Fähigkeit, mit großen Datensätzen umzugehen.
    - **Random Forests (RF)**: Besonders gut geeignet für Datensätze mit vielen Features.

## **Unüberwachtes Lernen**

Im Gegensatz zum überwachten Lernen gibt es beim unüberwachten Lernen **keine Zielvariablen oder gelabelten Trainingsdaten**. Stattdessen zielt das unüberwachte Lernen darauf ab, **unbekannte Strukturen in den Daten zu finden** und zu extrahieren.

- **Verwendete Algorithmen**:
    - **K-Means Clustering**: Gruppiert Datenpunkte in k Klassen, um Trends zu identifizieren.
    - **Principal Component Analysis (PCA)**: Reduziert die Dimensionalität des Feature-Space.
    - **Kombination PCA + K-Means Clustering**: Durch die Kombination von PCA und K-Means Clustering können beide Methoden in einem Algorithmus verwendet werden, um eine bessere Vorhersagegenauigkeit zu erzielen.
 
- <font color='purple' size='4'>Eine Liste der von scikit learn verfügbaren überwachten Lernalgorithmen findet ihr [**Hier**](https://scikit-learn.org/stable/supervised_learning.html)</font>




<span style="font-size: 20px">**Laden der Bibliotheken**</span>


In [None]:
# Basic packages
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
      
# Preprocessing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Metrics
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

# Validation 
from sklearn.model_selection import KFold, cross_val_score

# Methods
from sklearn.svm import SVC, SVR # support vector classification/regression
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans

# Adv
from sklearn.pipeline import Pipeline

<span style="font-size: 28px">**Überwachtes Lernen**</span>

<span style="font-size: 24px">**Binäre Klassifikation**</span>

Eine binäre Klassifikation ist eine Form der Klassifikation im maschinellen Lernen, bei der eine Entscheidung zwischen nur **zwei Kategorien** getroffen wird. Zum Beispiel die Vorhersage, ob ein Patient an einer bestimmten Krankheit leidet oder nicht.

<span style="font-size: 16px">**Datensatz einlesen und aufbereiten**</span>
- Gegeben: Grundwasserstichtagsmesssung aus dem Jahr 2005
- Aufgabe: Binärer Klassifikation der Landnutzung auf Basis alle Parameter


In [None]:
# Einladen der Daten
filename = 'gwdata_2005.csv'
dataset = pd.read_csv(filename, delimiter=';', encoding="ISO-8859-1")

# Preprocessing (Bereinigen von NaN-Werten und Entfernen von nicht benötigten Spalten)
dataset_cleaned = dataset.dropna(axis=0, how='any')
data = dataset_cleaned.drop(['GWNum','Messstelle','Rechtswert', 'Hochwert', 'Aquifer','Aquifer2','landuse'], axis=1)
data.head()

Die Spalte `landuse_num` gibt Auskunft über Landwirtschaft als binären Code.
- 0 steht für keine Landwirtschaft (no_agr).
- 1 steht für Landwirtschaft (agr).

In [None]:
print("Anzahl jedes eindeutigen Werts:\n", data['landuse_num'].value_counts())

<span style="font-size: 20px">**Aufteilen der Daten in einen Test- und Trainingsdatensatz**</span>


In [None]:
# Setzen des Seeds für die Reproduzierbarkeit
random_state = 42

# Aufteilen der Daten in Trainings- und Testdaten
X = data.drop('landuse_num', axis=1)  # Spalte Zielvariable ab
Y = data['landuse_num']  # Definiere 'landuse_num' als Zielvariable
test_size = 0.2  # Anteil der Testdaten: 20%

# Mischen und Aufteilen der Daten in Trainings- und Testdaten
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=random_state, shuffle=True)

print("Form der Trainingsdaten (X_train):", X_train.shape)
print("Form der Testdaten (X_test):", X_test.shape)
print("Form der Trainingszielvariablen (Y_train):", Y_train.shape)
print("Form der Testzielvariablen (Y_test):", Y_test.shape)

<span style="font-size: 20px">**Support Vector Machines (SVM)**</span>

**Support Vector Machines (SVM)** sind leistungsfähige Modelle für die Klassifikation und Regression von Daten. Sie arbeiten, indem sie eine Entscheidungsgrenze zwischen den verschiedenen Klassen finden, indem sie eine Hyperebene im Feature-Raum konstruieren. 

[**Hier**](https://scikit-learn.org/stable/modules/svm.html) findest du weitere Informationen zur **SVM** in scikit-learn.

- **Support Vector Classification (SVC)**: SVC ist eine Implementierung von SVM für die Klassifikation. Es funktioniert, indem es eine Hyperebene in einem hochdimensionalen Raum konstruiert, um die Datenpunkte so zu trennen, dass die Klassen am besten voneinander getrennt sind. SVC ist bekannt für seine Fähigkeit, auch mit komplexen Datensätzen gut umzugehen und robuste Entscheidungsgrenzen zu erzeugen.

[**Hier**](https://scikit-learn.org/stable/modules/model_evaluation.html) findest du weitere Informationen zu den **Scoring-Metriken** in scikit-learn.

In [None]:
# Zufalls-Seed für die Reproduzierbarkeit 
random_seed = 88
# Metrik für die Kreuzvalidierung
scoring_metric = 'accuracy'
# Anzahl der Folds für die Kreuzvalidierung
num_folds = 10

<span style="font-size: 18px">**1/3 SVC mit unskalierten Eingangsdatedaten**</span>


[Hier](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC) findest du weitere Informationen zur SVC in scikit-learn.

In [None]:
# Erstellen des SVM-Modells
svm = SVC(kernel='rbf', gamma='auto')

# Definieren der K-Fold CV
kfold = KFold(n_splits=num_folds, random_state=random_seed, shuffle=True)

# Kreuzvalidierung der SVM-Modells
cv_svm = cross_val_score(svm, X_train, Y_train, cv=kfold, scoring=scoring_metric)

# Berechnung der mittleren Genauigkeit und der Standardabweichung
msg = f"SVM Accuracy: {cv_svm.mean():.3f} ({cv_svm.std():.3f})"

# Ausgabe der SVM-Genauigkeit
print(msg)

<span style="font-size: 18px">**2/3 SVC mit skalierten Eigangsdaten**</span>

In [None]:
# Erstellen des StandardScaler-Objekts
scaler = StandardScaler()

# Skalierung der Trainingsdaten und Erstellung des SVM-Modells
X_train_scaled = scaler.fit_transform(X_train) # Skalierung der Trainingsdaten
svm_scaled = SVC(kernel='rbf', gamma='auto') # Erstellen des SVM-Modells mit RBF-Kernel und 'auto' gamma

# Definieren der K-Folds CV 
kfold = KFold(n_splits=num_folds, random_state=random_seed, shuffle=True)

# Kreuzvalidierung der SVM-Modells
cv_svm_scaled  = cross_val_score(svm, X_train_scaled, Y_train, cv=kfold, scoring=scoring_metric)

# Berechnung der mittleren Genauigkeit und der Standardabweichung
msg_sc = "%f (%f)" % (cv_svm_scaled.mean(), cv_svm_scaled.std())

# Ausgabe der SVM-Genauigkeit
print('SVM(scaled) Accuracy: ', msg_sc)

<span style="font-size: 18px">**<font color='blue'>For Your Interest</font>**</span>

Der nächste Codeabschnitt erstellt eine Pipeline mit dem StandardScaler und dem SVM-Modell. Die Pipeline ermöglicht eine nahtlose Integration der Skalierung und des Modells in einen einzigen Prozess:

 Wenn nötig und die nötigen Bibliotheken installiert wurden könnt ihr viel Schritte in der Pipeline durchführen
 - Imputer (SimpleImputer(strategy='mean')): Dieser Schritt behandelt fehlende Werte im Datensatz. Es verwendet den Mittelwert der vorhandenen Daten, um fehlende Werte zu ersetzen.
 - Scaler (StandardScaler()): Dieser Schritt skaliert die Daten, um sicherzustellen, dass alle Merkmale eine ähnliche Skalenordnung haben
 - Feature Engineering (PolynomialFeatures(degree=2)): Hier werden Polynom-Features zweiten Grades zu den Daten hinzugefügt. Dies ermöglicht dem Modell, nichtlineare Beziehungen zwischen den Merkmalen zu modellieren. Die Idee ist, die Flexibilität des Modells zu erhöhen, indem man nichtlineare Entscheidungsgrenzen lernen kann.
 - Feature Selection (SelectKBest(f_classif, k=10)): Dieser Schritt wählt die besten k Features basierend auf dem ANOVA F-Test aus. Der F-Test bewertet die Signifikanz der Beziehung zwischen jedem Merkmal und der Zielvariable.
 - Dimensionality Reduction (PCA(n_components=0.95)): Hier wird eine Dimensionsreduktion mit der Hauptkomponentenanalyse (PCA) durchgeführt.
 - SVM (SVC(kernel='rbf', gamma='auto')): Dieser letzte Schritt erstellt das SVM-Modell mit einem RBF-Kernel und automatisch bestimmtem Gamma.

**<span style="font-size: 14px"><font color='blue'>Der Code in der nächsten Zelle dient ausschließlich zur Veranschaulichung der Funktionalität einer Pipeline für ein SVM-Modell. Beachtet, dass der Code m nicht in unserer Enviroment ausgeführt werden kann, da einige der benötigten Bibliotheken nicht installiert sind.</font></span>**   


In [None]:
# Erstellen der Pipeline für das SVM-Modell mit StandardScaler
svm_pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Skalierung der Daten
    ('svm', SVC(kernel='rbf', gamma='auto'))  # Erstellen des SVM-Modells mit RBF-Kernel und 'auto' gamma
])

# Definieren der K-Folds CV 
kfold = KFold(n_splits=num_folds, random_state=random_seed, shuffle=True)

# Kreuzvalidierung des SVM-Modells
cv_scores_svm_pipeline = cross_val_score(svm_pipeline, X_train, Y_train, cv=kfold, scoring=scoring_metric)

# Berechnung der mittleren Genauigkeit und der Standardabweichung
mean_accuracy_pipeline = cv_scores_svm_pipeline.mean()
std_dev_accuracy_pipeline = cv_scores_svm_pipeline.std()

# Ausgabe der SVM-Genauigkeit
print(f'SVM(scaled) Accuracy: {mean_accuracy_pipeline:.3f} ({std_dev_accuracy_pipeline:.3f})')

<span style="font-size: 18px">**3/3 Random Forest Classifier**</span>

Der Random Forest Classifier ist ein Ensemble-Lernalgorithmus, der auf Entscheidungsbäumen basiert. Er kombiniert mehrere Bäume zu einem "Wald", wodurch Robustheit und Stabilität erhöht werden. Durch zufällige Auswahl von Features bei jedem Split und Bagging-Techniken reduziert er Überanpassung und verbessert die Generalisierungsfähigkeit. Der Random Forest ist effizient und vielseitig einsetzbar, sowohl für Klassifikation als auch Regression.

[**Hier**](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier) findest du weitere Informationen zur RFC in scikit-learn.

In [None]:
# Erstellen des RF-Modells
rf = RandomForestClassifier()

# Definieren der K-Folds CV 
kfold = KFold(n_splits=10, random_state=random_seed, shuffle=True)

# Kreuzvalidierung des RF-Modells
cv_rf = cross_val_score(rf, X_train_scaled, Y_train, cv=kfold, scoring=scoring_metric)

# Berechnung der mittleren Genauigkeit und der Standardabweichung
msg_rf = "%f (%f)" % (cv_rf.mean(), cv_rf.std())

# Ausgabe der RF-Genauigkeit
print('RF Accuracy: ', msg_rf)


<span style="font-size: 18px">**Vergleich der Ergebnisse:**</span>

In [None]:
# Ergebnisse speichern
results = [cv_rf, cv_svm, cv_svm_scaled]

# Plotten
plt.figure(figsize=(8, 6))
plt.boxplot(results)
plt.title('Algorithm Comparison')
plt.xticks([1, 2, 3], ['RF', 'SVM', 'SVM_scaled'])
plt.ylabel('Accuracy')
plt.grid(True)
plt.show()


<span style="font-size: 20px">**Auswertung des besten Modells**</span>

In [None]:
# Klassifikator initialisieren
rfc = RandomForestClassifier()

# Klassifikator auf Trainingsdaten trainieren
rfc.fit(X_train, Y_train)

# Vorhersagen auf Testdaten treffen
y_pred = rfc.predict(X_test)

# Genauigkeit berechnen und ausgeben
accuracy = accuracy_score(Y_test, y_pred)
print("Accuracy: {:.2f}".format(accuracy))

# Confusionmatrix und Klassifikationsreport berechnen und ausgeben
conf_matrix = confusion_matrix(Y_test, y_pred)
print("Confusion Matrix:\n", conf_matrix)
class_report = classification_report(Y_test, y_pred)
print("Classification Report:\n", class_report)


<hr style="border: none; height: 5px; background-color: black;">


**<span style="font-size: 24px">Multiklassen Klassifikation</span>**

**<span style="font-size: 18px">IRIS Datensatz laden</span>**

Der Iris-Datensatz enthält 150 Beispiele von Blumen, die jeweils einer von drei Arten angehören (Setosa, Versicolor oder Virginica). Er besteht aus vier numerischen Merkmalen: Länge und Breite von Sepal und Petal. Dieser Datensatz ist gut geeignet, um verschiedene Machine-Learning-Modelle auf ihre Fähigkeit zur Vorhersage der Blumenarten zu testen.

<img src="https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Machine+Learning+R/iris-machinelearning.png" width="60%">

Die Daten werden als Bunch-Objekt geladen, das neben den Eingangsmerkmalen und den Zielwerten auch Metadaten wie die Namen der Merkmale und die Namen der Klassen enthält. Ein "bunch" Objekt enthält in der Regel die folgenden Attribute:

- **data**: Ein Numpy-Array mit den Merkmalswerten.
- **target**: Ein Numpy-Array mit den Zielwerten.
- **feature_names**: Eine Liste der Namen der Merkmale.
- **target_names**: Eine Liste der Namen der Zielklassen.
- **DESCR**: Eine Beschreibung des Datensatzes.



In [None]:
from sklearn.datasets import load_iris

# Laden des Iris-Datensatzes
iris = load_iris()

# Extrahieren der Merkmale und des Targets aus dem Iris-Datensatz
X = iris.data  # Merkmale
Y = iris.target  # Zielwerte
#print(iris.DESCR)

- [x] Laden des Iris-Datensatzes
- [ ] Teilen der Daten in Trainings- und Testdatensätze
- [ ] Identifizieren der relevanten Eigenschaften für die Klassifikation
- [ ] Implementieren eines SVM-Modells für die Klassifikation (unskaliert und skaliert)
- [ ] Implementieren eines Random Forest-Modells für die Klassifikation
- [ ] Evaluierung der Modelle mit den Testdaten und Berechnung der Genauigkeit der Vorhersagen
- [ ] Vergleich und Diskussion der Ergebnisse



## <font color='red'>Aufgabe:</font> 
Führe eine multiklassen Klassifikation mit dem Iris-Datensatz durch. Implementiere mindestens zwei verschiedene Modelle: Ein Modell basierend auf Support Vector Machines (SVM) für die Klassifikation (unskaliert und skaliert) und ein Modell basierend auf Random Forest (RF). Teile die Daten in Trainings- und Testdatensätze auf und identifiziere die relevanten Eigenschaften für die Klassifikation. Implementiere dann die Modelle und führe eine Evaluierung mit den Testdaten durch. Berechne die Genauigkeit der Vorhersagen für beide Modelle. Vergleiche und diskutiere abschließend die Ergebnisse und entscheide, welches Modell besser geeignet ist für die multiklassen Klassifikation des Iris-Datensatzes.

<span style="font-size: 18px">**Aufgabe:**</span>
- [x] Laden des Iris-Datensatzes
- [ ] Teilen der Daten in Trainings- und Testdatensätze
- [ ] Identifizieren der relevanten Eigenschaften für die Klassifikation
- [ ] Implementieren eines SVM-Modells für die Klassifikation (unskaliert und skaliert)
- [ ] Implementieren eines Random Forest-Modells für die Klassifikation
- [ ] Evaluierung der Modelle mit den Testdaten und Berechnung der Genauigkeit der Vorhersagen
- [ ] Vergleich und Diskussion der Ergebnisse


<span style="font-size: 18px">**Hinweis**</span>

Denke daran, die Daten angemessen vorzubereiten, einschließlich der Skalierung der Features für die SVM-Modelle, und verschiedene Hyperparameter für die Modelle zu testen, um die Leistung zu optimieren.

<span style="font-size: 20px">**Preprocessing**</span>

- Erstelle X_train, X_test, Y_train, Y_test.
- Definiere tesize und den random seed

<span style="font-size: 20px">**Support Vector Classifier**</span>

- <span style="font-size: 18px">**SVC Unskaliert**</span>
    - Erstelle Modell
    - Definiere K-Fold CV
    - Berechne und Speichere mittlere Genauigkeit und Standardabweichung

- <span style="font-size: 18px">**SVC Skaliert**</span>
    - Erstelle Modell
    - Definiere K-Fold CV
    - Berechne und Speichere mittlere Genauigkeit und Standardabweichung

- <span style="font-size: 20px">**Random Forest Classifier**</span>
    - Erstelle Modell
    - Definiere K-Fold CV
    - Berechne und Speichere mittlere Genauigkeit und Standardabweichung

<span style="font-size: 20px">**Vergleich der Ergebnisse**</span>

- Führe Ergebnisse zusammen und Plotte sie

<hr style="border: none; height: 5px; background-color: black;">

**<span style="font-size: 24px">Regression</span>**

**<span style="font-size: 18px">Concrete Datensatz</span>**

Dieser Datensatz, enthält verschiedene Eigenschaften von Betonmischungen und deren Druckfestigkeit. Insgesamt enthält der Datensatz 1030 Datensätze mit 9 verschiedenen Eingabevariablen
- Cement (Zement)
- Blast Furnace Slag (Hüttenzement)
- Fly Ash (Flugasche)
- Water (Wasser)
- Superplasticizer (Fließmittel)
- Coarse Aggregate (Grobgestein)
- Feingestein (Fine Aggregate)
- Alter (Age)
- Ausgabevariablen Druckfestigkeit (Concrete compressive strength).

In [None]:
data = pd.read_csv('Concrete_Data.csv', sep=';', encoding="ISO-8859-1")
data.head()

In [None]:
# Zufalls-Seed für die Reproduzierbarkeit 
random_seed = 88
# Metrik für die Kreuzvalidierung
scoring_metric = 'r2'
# Anzahl der Folds für die Kreuzvalidierung
num_folds = 10

**<span style="font-size: 20px">Preprocessing</span>**

Preprocing
Führe Hier die nötigen Schritte durch um die NO3 (Y) mit den anderen Parametern vorherzusagen. 

In [None]:
#Löschen Übung
# Setzen des Seeds für die Reproduzierbarkeit
random_state = 42

# Aufteilen der Daten in Trainings- und Testdaten
X = data.drop('Concrete compressive strength ', axis=1)  # Spalte Zielvariable ab
Y = data['Concrete compressive strength ']  # Definiere 'landuse_num' als Zielvariable
test_size = 0.2  # Anteil der Testdaten: 20%

# Mischen und Aufteilen der Daten in Trainings- und Testdaten
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=random_state, shuffle=True)

print("Form der Trainingsdaten (X_train):", X_train.shape)
print("Form der Testdaten (X_test):", X_test.shape)
print("Form der Trainingszielvariablen (Y_train):", Y_train.shape)
print("Form der Testzielvariablen (Y_test):", Y_test.shape)

**<span style="font-size: 24px"> <font color='red'>Aufgabe: </font></span>**

Entwickle zwei verschiedene Modelle zur Vorhersage der Druckfestigkeit des Betons: eines basierend auf Support Vector Machines (SVM) und eines basierend auf Random Forest (RF).

<span style="font-size: 18px">**Schritte:**</span>
- [x] **Daten aufteilen:** Teile die Daten in Trainings- und Testdatensätze auf, um die Modelle zu trainieren und zu evaluiere
- [ ] **Implementierung der Modelle:** Implementiere ein SVM-Modell und ein Random Forest-Modell.
- [ ] **Trainiere und evaluieren:** Trainiere die Modelle mit den Trainingsdaten und evaluieren Sie sie mit den Testdaten.
- [ ] **Berechnung der Genauigkeit:** Berechne die Genauigkeit der Vorhersagen für beide Modelle.
- [ ] **Vergleich der Ergebnisse:** Vergleiche und diskutiere die Ergebnisse beider Modelle und entscheide, welches besser geeignet ist, um die Druckfestigkeit des Betons vorherzusagen.

Alle wichtigen Infos findest du hier

- [scikit-learn.org](https://scikit-learn.org)
- [sklearn.svm.SVR](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html)
- [sklearn.ensemble.RandomForestRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html)


- [Model Evaluation](https://scikit-learn.org/stable/modules/model_evaluation.html)


**<span style="font-size: 24px">Support Vector Regressor</span>**

**<span style="font-size: 18px">Support Vector Regressor unskaliert</span>**

- Erstelle Modell
- Definiere K-Fold CV
- Berechne und Speichere mittlere Genauigkeit und Standardabweichung

**<span style="font-size: 18px">Support Vector Regressor skaliert</span>**

- Erstelle Modell
- Definiere K-Fold CV
- Berechne und Speichere mittlere Genauigkeit und Standardabweichung

**<span style="font-size: 18px">Random Forest skaliert</span>**

- Erstelle Modell
- Definiere K-Fold CV
- Berechne und Speichere mittlere Genauigkeit und Standardabweichung

<span style="font-size: 18px">**Vergleich der Ergebnisse:**</span>

<hr style="border: none; height: 5px; background-color: black;">

**<span style="font-size: 28px">Unüberwachtes Lernen</span>**

Die **PCA** (Principal Component Analysis) ist ein Verfahren zur Dimensionsreduktion, das verwendet wird, um die **Anzahl der Variablen in einem Datensatz zu verringern**, während gleichzeitig die **wichtigen Informationen beibehalten werden**. Im Falle des Iris-Datensatzes könnte die PCA verwendet werden, um die ursprünglichen vier Variablen (Sepal Länge, Sepal Breite, Petal Länge, Petal Breite) in eine kleinere Anzahl von Hauptkomponenten zu transformieren, die die größte Varianz im Datensatz erklären. Diese reduzierten Dimensionen können dann verwendet werden, um den Datensatz zu visualisieren, komplexe Muster zu erkennen oder die Rechenzeit für nachfolgende Analysen zu reduzieren.

**KMeans** ist ein Clustering-Algorithmus, der verwendet wird, um **Datenpunkte in k Gruppen (Cluster) aufzuteilen**, wobei jedes Cluster durch **seinen Mittelpunkt (centroid) repräsentiert wird**. Im Falle des Iris-Datensatzes könnte KMeans verwendet werden, um die Datenpunkte in unterschiedliche Gruppen aufzuteilen, basierend auf den Merkmalen der Blumen. Dabei könnten beispielsweise Cluster gebildet werden, die bestimmte Arten von Iris-Blumen repräsentieren oder Cluster, die bestimmte Eigenschaften wie Petal Länge und Petal Breite gemeinsam haben. Dies könnte helfen, verborgene Strukturen im Datensatz aufzudecken und neue Erkenntnisse über die Beziehungen zwischen den Merkmalen zu gewinnen.


**<span style="font-size: 24px">KMeans Clustering</span>**

**<span style="font-size: 20px">Datensatz laden</span>**

Wir verwenden erneut den Iris-Datensatz von vorhin. Da wir nun unüberwachtes Lernen durchführen, benötigen wir keine Labels

In [None]:
X = load_iris()['data'] # Iris Daten -->ohne Target (Pflanzentypus)

In [None]:
# Plotten der Daten ohne Clustering
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.title('Iris Daten ohne Clustering')
plt.xlabel('Sepal Length')
plt.ylabel('Sepal Width')
plt.show()

In [None]:
# Definieren der KMeans-Funktion mit der Anzahl der Cluster
kmeans = KMeans(n_clusters=3, n_init=10)

# Anwenden des KMeans-Algorithmus auf die Daten
kmeans.fit(X)


**<span style="font-size: 20px">Validierung</span>**

Für KMeans-Clustering gibt es verschiedene Metriken zur Bewertung der Clusterbildung, darunter die **Inertia**, der **Silhouette Score**, der **Calinski-Harabasz Index** und der **Davies-Bouldin Index**. Diese Metriken bieten Einblicke in die Qualität der erstellten Cluster. Weitere Informationen zu diesen Metriken und ihrer Verwendung in Scikit-Learn findest du in der [Scikit-Learn-Dokumentation](https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation).

Die **Inertia** misst die Summe der quadrierten Abstände der Datenpunkte zu ihren jeweiligen Clusterzentren. Eine niedrige Inertia deutet darauf hin, dass die Datenpunkte in ihren Clustern eng beieinander liegen und die Cluster gut definiert sind. Eine hohe Inertia bedeutet hingegen, dass die Datenpunkte weit verstreut sind und die Cluster möglicherweise nicht gut definiert sind.

**Inertia** = $\sum_{j=1}^{k}\sum_{i \in C_j} ||x_i - \mu_j||^2$

wobei k die Anzahl der Cluster, Cj die Menge der Datenpunkte im j-ten Cluster, xi der i-te Datenpunkt und $\mu_j$ der Schwerpunkt des j-ten Clusters ist.

In [None]:
# Berechnung der Metriken für verschiedene Clustergrößen
metriken = [KMeans(n_clusters=anzahl_cluster, n_init=10).fit(X).inertia_ for anzahl_cluster in range(1, 10)]

# Erstellen eines Pandas Dataframes aus den Metriken und Plotten der Ergebnisse
df_metriken = pd.DataFrame({'Anzahl_Cluster': range(1, 10), 'Metrik': metriken})
plt.figure(figsize=(6, 3))
plt.plot(df_metriken['Anzahl_Cluster'], df_metriken['Metrik'], marker='o')
plt.xlabel('Anzahl der Cluster')
plt.ylabel('Inertia')


In [None]:
# Definieren der KMeans-Funktion mit der Anzahl der Cluster und explizitem n_init
kmeans = KMeans(n_clusters=3, n_init=10)

# Anwenden des KMeans-Algorithmus auf die Daten
kmeans.fit(X)

# Zuordnen jedes Merkmals (Features) zu einem Cluster
y_kmeans = kmeans.predict(X)

centers= kmeans.cluster_centers_

def plot_kmeans_clusters(X, y_kmeans, centroids):
    # Erstellen des Plots
    for cluster_label, centroid in enumerate(centroids):
        plt.scatter(X[y_kmeans == cluster_label, 0], X[y_kmeans == cluster_label, 1], s=50, label='Cluster {}'.format(cluster_label + 1))
    
    # Markieren der Zentroide der Cluster
    plt.scatter(centroids[:, 0], centroids[:, 1], s=300, marker='*', label='Cluster Centroids')
    plt.title('Iris Clustering')
    plt.xlabel('Sepal Length')
    plt.ylabel('Sepal Width')
    plt.legend()
    plt.show()

# Aufruf der Funktion
plot_kmeans_clusters(X, y_kmeans, centers)

**<span style="font-size: 24px">Principle Component Analysis (PCA)</span>**

**<span style="font-size: 20px">Datensatz laden</span>**

Wir laden hier zusätzlich die Zielvariable herunter, da wir diese zum Plotten benötigen.

In [None]:
# Iris Daten
X = load_iris()['data']

# Targets dienen zum plotten
color = load_iris()['target'] 

**<span style="font-size: 20px">Erklärte Varianz</span>**

Die kumulierte Erklärte Varianz (Cumulative Variance Ratio) in der PCA ist ein Maß dafür, wie viel Information von den ursprünglichen Daten in den Hauptkomponenten erhalten bleibt. Es zeigt den Anteil der gesamten Varianz im Datensatz an, der von den ersten k Hauptkomponenten erklärt wird. Je höher der Wert, desto besser erfassen die Hauptkomponenten die Variationen im Datensatz.

Wenn die kumulierte erklärte Varianz 0,98 beträgt, bedeutet dies, dass die ersten k Hauptkomponenten zusammen 98 % der gesamten Varianz im Datensatz erklären. Mit anderen Worten, diese Hauptkomponenten erfassen einen Großteil der Variationen in den Daten und bieten eine gute Zusammenfassung des Datensatzes. Dies ist oft ein Hinweis darauf, dass eine Reduktion der Dimensionen auf k Hauptkomponenten eine sinnvolle Wahl sein könnte, da sie die Daten mit relativ hoher Genauigkeit darstellen können.


In [None]:
# PCA durchführen und kumulierte erklärte Varianz berechnen
pca = PCA().fit(X)
cumulative_variance_ratio = np.cumsum(pca.explained_variance_ratio_)

# Plot erstellen
plt.figure(figsize=(6, 3))
plt.plot(range(1, len(cumulative_variance_ratio) + 1), cumulative_variance_ratio, marker='o')
plt.xlabel('Anzahl der Komponenten')
plt.ylabel('Kumulierte erklärte Varianz')
plt.title('Kumulierte erklärte Varianz vs. Anzahl der PCA-Komponenten')
plt.show()


**<span style="font-size: 20px">Dimensionsreduktion</span>**

In [None]:
# Daten laden
X = load_iris()['data']
color = load_iris()['target']

# PCA durchführen
pca = PCA(n_components=3)
pca.fit(X)
X_pca = pca.transform(X)
X_pca = pd.DataFrame(X_pca, columns=['PC1','PC2','PC3'])

# Ausgabe der Formen der ursprünglichen und transformierten Daten
print("Ursprüngliche Form der Daten:", X.shape)
print("Transformierte Form der Daten:", X_pca.shape)

**<span style="font-size: 20px">Visualisierung</span>**

Die Funktion plot_combined_3d erstellt einen kombinierten Plot mit einem 3D-Scatterplot oben und drei 2D-Scatterplots unten. Der 3D-Scatterplot zeigt die Datenpunkte im Raum der ersten drei Hauptkomponenten an, während die drei 2D-Scatterplots jeweils die Beziehung zwischen zwei der Hauptkomponenten darstellen.


In [None]:
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

def plot_combined_3d(X_pca, color):
    fig = plt.figure(figsize=(12, 8))
    
    # 3D Plot on top
    ax_3d = fig.add_subplot(2, 1, 1, projection='3d')
    ax_3d.scatter(X_pca[:, 0], X_pca[:, 1], X_pca[:, 2], c=color, cmap='viridis')
    ax_3d.set_xlabel('PC1')
    ax_3d.set_ylabel('PC2')
    ax_3d.set_zlabel('PC3')
    ax_3d.set_title('PCA Scatterplot in 3D')
    
    # 2D Scatterplots at the bottom
    for i, (x_axis, y_axis) in enumerate([(0, 1), (0, 2), (1, 2)]):
        ax = fig.add_subplot(2, 3, i+4)
        ax.scatter(X_pca[:, x_axis], X_pca[:, y_axis], c=color, cmap='viridis')
        ax.set_xlabel('PC{}'.format(x_axis+1))
        ax.set_ylabel('PC{}'.format(y_axis+1))
    
    plt.tight_layout()
    plt.show()

# Call the function
plot_combined_3d(X_pca.values if isinstance(X_pca, pd.DataFrame) else X_pca, color)


**<span style="font-size: 18px; color: orange;">Optional: Plotly Bibliothek für interaktive Datenvisualisierung:</span>**

Plotly ermöglicht die Erstellung interaktiver Diagramme, die Zoomen und Rotieren ermöglichen.
Um Plotly zu nutzen, muss die Bibliothek zuerst in eure Umgebung installiert werden. Dies kann mit dem Befehl:

``` pip install plotly ```

durchgeführt werden.




In [None]:
import plotly.graph_objects as go

# Erstellen des 3D-Scatterplots mit Plotly
fig = go.Figure(data=[go.Scatter3d(
    x=X_pca['PC1'],
    y=X_pca['PC2'],
    z=X_pca['PC3'],
    mode='markers',
    marker=dict(color=color, colorscale='viridis', size=5),
)])

# Anpassen des Layouts
fig.update_layout(
    scene=dict(
        xaxis_title='PC1',
        yaxis_title='PC2',
        zaxis_title='PC3',
        aspectmode='cube'  # 3D-Aspektverhältnis beibehalten
    ),
    title='PCA Scatterplot in 3D'
)

# Plot anzeigen
fig.show()


## 2.3 Kombination PCA und Clustering

## <font color='red'>Aufgabe: </font>
Die Kombination von PCA und Clustering ermöglicht es, Muster in den Daten zu erkennen, die auf den ersten Blick nicht erkennbar sind. Um dies zu erreichen, können wir zunächst eine PCA durchführen, um die Dimensionalität der Daten zu reduzieren, und dann ein Clustering auf den transformierten Daten anwenden.

Um dies in der Praxis anzuwenden, können wir den Code von oben verwenden, um statt der ursprünglichen Variable X die dimensionsreduzierte Variable X_pca zu clustern. Das Ergebnis des kmeans.predict kann dann als Farbschema des Scatterplots verwendet werden, um die verschiedenen Cluster zu visualisieren.
