# Support Vector Machines

## Quelle der Daten

https://www.kaggle.com/datasets/captainozlem/framingham-chd-preprocessed-data (zuletzt aufgerufen: 01/2024)

https://www.framinghamheartstudy.org/ (zuletzt aufgerufen: 01/2024)

## Installation der Bibliotheken

In [None]:
# Importieren der benötigten Bibliotheken
import pandas as pd # Für die Arbeit mit Tabellen/DataFrames

import matplotlib.pyplot as plt # Für die Erstellung von Diagrammen und Visualisierungen

from imblearn.over_sampling import SMOTE # Für das Resampling unausgeglichener Datensätze

from sklearn.model_selection import train_test_split # Für die Aufteilung von Daten in Trainings- und Testsets

# Importiere das svm-Modul aus der sklearn-Bibliothek zur Erstellung von Support Vector Machine-Modellen.
from sklearn import svm

## Einlesen der Daten

In [None]:
# Definieren der URL der Datenquelle und Laden der Daten in einen pandas DataFrame
data_url = "https://github.com/timwgnd/Lehrbuch-Kuenstliche-Intelligenz-in-der-Medizin/raw/refs/heads/main/FraminghamHeartStudy.xlsx"
data = pd.read_excel(io=data_url, sheet_name = "Tabelle1")

# Entfernen von Zeilen mit fehlenden Werten
data = data.dropna()

# Anzeigen der ersten Zeilen des DataFrames, um einen Überblick über die Daten zu erhalten
print(data.head().to_markdown(index=False, tablefmt='psql'))

In [None]:
# Erstellen von Dummy-Variablen für die kategoriale Spalte "Geschlecht"
# Dies wandelt die kategoriale Variable in numerische Variablen um, die für das Modell verwendet werden können
data_new = pd.get_dummies(data, columns = ["Geschlecht"])

# Anzeigen der ersten Zeilen des neuen DataFrames mit den Dummy-Variablen
print(data_new.head().to_markdown(index=False, tablefmt='psql'))

In [None]:
# Zählen der Häufigkeit der einzelnen Werte in der Spalte "Diabetes"
count_diabetes = data_new["Diabetes"].value_counts()

# Anzeigen der Häufigkeitsauzszählung in Tabellenform
print(count_diabetes.to_markdown(tablefmt='psql'))

# Erstellen eines Balkendiagramms, das die Verteilung der Werte in der Spalte "Diabetes" zeigt
count_diabetes.plot(kind = "bar", rot = 0)

## Aufteilung der Daten und Resampling

In [None]:
# Auswählen der Feature-Variable(n) (x) und der Zielvariable (y)
# Hier wird die Spalte mit Index 13 ("Blutzucker") als Feature ausgewählt und in ein 2D-Array umgeformt
x = data_new.iloc[:, 13].values.reshape(-1, 1)

# Hier wird die Spalte mit Index 7 ("Diabetes") als Zielvariable ausgewählt
y = data_new.iloc[:, 7]

In [None]:
# Anzeigen der Feature-Variable x
print(x)

In [None]:
# Anzeigen der Zielvariable y
print(y)

In [None]:
# Aufteilen der Daten in Trainings- und Testsets
# test_size = 0.15 bedeutet, dass 15% der Daten für das Testset verwendet werden
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.15)

In [None]:
# Initialisieren des SMOTE-Objekts für Over-Sampling
sm = SMOTE()

# Anwenden von SMOTE auf die Trainingsdaten, um die Anzahl der Instanzen der Minderheitenklasse zu erhöhen
x_train_res, y_train_res = sm.fit_resample(x_train, y_train)

# Anzeigen der Verteilung der Zielvariablen im resampelten Trainingsset, um den Effekt von SMOTE zu sehen
print(y_train_res.value_counts().to_markdown(tablefmt='psql'))

## SVC-Modell

In [None]:
# Erstellt ein SVC-Objekt (Support Vector Classifier) mit einem linearen Kernel.
svc = svm.SVC(kernel = "linear")

# Trainiert das SVC-Modell mit den resampleten Trainingsdaten.
svc.fit(x_train_res, y_train_res)

# Berechnet die Genauigkeit des Modells auf den Testdaten.
svc.score(x_test, y_test)

In [None]:
# Verwende das trainierte SVC-Modell, um Vorhersagen auf den Testdaten (x_test) zu treffen.
predictions = svc.predict(x_test)

# Erstelle einen Pandas DataFrame namens 'results_df', um die tatsächlichen Labels (y_test) und die
# Modellvorhersagen (predictions) zu speichern.
# Das Dictionary definiert die Spaltennamen: "Label" für die tatsächlichen Werte und
# "Modell-Ausgabe" für die Vorhersagen.
results_df = pd.DataFrame({"Label": y_test, "Modell-Ausgabe": predictions})

# Gib den DataFrame 'results_df' im Markdown-Format aus, wobei 'index=False' die Indexspalte unterdrückt
# und 'tablefmt='psql'' das Format für eine PostgreSQL-ähnliche Tabelle festlegt.
print(results_df.head().to_markdown(index=False, tablefmt='psql'))

In [None]:
# Erstellt ein SVC-Objekt (Support Vector Classifier) mit einem polynomialen Kernel und dem Grad 3.
svc_2 = svm.SVC(kernel = "poly", degree = 3)

# Trainiert das SVC-Modell mit den resampleten Trainingsdaten.
svc_2.fit(x_train_res, y_train_res)

# Berechnet die Genauigkeit des Modells auf den Testdaten.
svc_2.score(x_test, y_test)

In [None]:
# Erstellt ein SVC-Objekt (Support Vector Classifier) mit einem RBF (Radial Basis Function) Kernel.
svc_3 = svm.SVC(kernel = "rbf")

# Trainiert das SVC-Modell mit den resampleten Trainingsdaten (x_train_res, y_train_res).
svc_3.fit(x_train_res, y_train_res)

# Berechnet die Genauigkeit (accuracy) des trainierten SVC-Modells auf den Testdaten (x_test, y_test).
svc_3.score(x_test, y_test)

## SVR-Modell

In [None]:
# Wähle die Spalten 1, 2, 3, 4, 5, 6, 7, 8, 11, 12, 13 und 14 aus dem DataFrame 'data_new' aus und
# speichere sie in der Variablen 'x'.
# 'x' repräsentiert die Features (unabhängigen Variablen) für das Modell.
x = data_new.iloc[:, [1, 2, 3, 4, 5, 6, 7, 8, 11, 12, 13, 14]]

# Wähle die Spalte 7 aus dem DataFrame 'data_new' aus und speichere sie in der Variablen 'y'.
# 'y' repräsentiert die Zielvariable (abhängige Variable), welche wir vorhersagen möchten.
y = data_new.iloc[:, 7]

# Teile den Datensatz in Trainings- und Testmengen auf. 'x' und 'y' sind die Datensätze, die aufgeteilt werden sollen.
# 'test_size = 0.15' bedeutet, dass 15% der Daten für den Testdatensatz verwendet werden,
# während der Rest für das Training verwendet wird.
# Die Funktion gibt Trainings- und Testdatensätze für sowohl die Features
# ('x_train', 'x_test') als auch die Zielvariable ('y_train', 'y_test') zurück.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.15)

In [None]:
# Erstellt ein SVR-Objekt (Support Vector Regression) mit einem linearen Kernel.
svr = svm.SVR(kernel = "linear")

# Trainiert das SVR-Modell mit den Trainingsdaten.
svr.fit(x_train, y_train)

# Berechnet die Genauigkeit des Modells auf den Testdaten.
svr.score(x_test, y_test)