# Logistische Regression

## Quelle der Daten

https://www.kaggle.com/datasets/captainozlem/framingham-chd-preprocessed-data (zuletzt aufgerufen: 01/2024)

https://www.framinghamheartstudy.org/ (zuletzt aufgerufen: 01/2024)

## Installation der Bibliotheken

In [None]:
# Importieren der benötigten Bibliotheken
import pandas as pd # Für die Arbeit mit Tabellen/DataFrames

import matplotlib.pyplot as plt # Für die Erstellung von Diagrammen und Visualisierungen

from imblearn.over_sampling import SMOTE # Für das Resampling unausgeglichener Datensätze

from sklearn.model_selection import train_test_split # Für die Aufteilung von Daten in Trainings- und Testsets

from sklearn.linear_model import LogisticRegression # Für das Erstellen eines logistischen Regressionsmodells

import numpy as np # Für numerische Operationen, insbesondere mit Arrays

from sklearn.metrics import roc_curve, auc # Für Darstellung einer Receiver-Operating-Characteristic (ROC) curve

## Einlesen der Daten

In [None]:
# Definieren der URL der Datenquelle und Laden der Daten in einen pandas DataFrame
data_url = "https://github.com/timwgnd/Lehrbuch-Kuenstliche-Intelligenz-in-der-Medizin/raw/refs/heads/main/FraminghamHeartStudy.xlsx"
data = pd.read_excel(io=data_url, sheet_name = "Tabelle1")

# Entfernen von Zeilen mit fehlenden Werten
data = data.dropna()

# Anzeigen der ersten Zeilen des DataFrames, um einen Überblick über die Daten zu erhalten
print(data.head().to_markdown(index=False, tablefmt='psql'))

In [None]:
# Erstellen von Dummy-Variablen für die kategoriale Spalte "Geschlecht"
# Dies wandelt die kategoriale Variable in numerische Variablen um, die für das Modell verwendet werden können
data_new = pd.get_dummies(data, columns = ["Geschlecht"])

# Anzeigen der ersten Zeilen des neuen DataFrames mit den Dummy-Variablen
print(data_new.head().to_markdown(index=False, tablefmt='psql'))

In [None]:
# Zählen der Häufigkeit der einzelnen Werte in der Spalte "Diabetes"
count_diabetes = data_new["Diabetes"].value_counts()

# Anzeigen der Häufigkeitsauzszählung in Tabellenform
print(count_diabetes.to_markdown(tablefmt='psql'))

# Erstellen eines Balkendiagramms, das die Verteilung der Werte in der Spalte "Diabetes" zeigt
count_diabetes.plot(kind = "bar", rot = 0)

## Aufteilung der Daten und Resampling

In [None]:
# Auswählen der Feature-Variable(n) (x) und der Zielvariable (y)
# Hier wird die Spalte mit Index 13 ("Blutzucker") als Feature ausgewählt und in ein 2D-Array umgeformt
x = data_new.iloc[:, 13].values.reshape(-1, 1)

# Hier wird die Spalte mit Index 7 ("Diabetes") als Zielvariable ausgewählt
y = data_new.iloc[:, 7]

In [None]:
# Anzeigen der Feature-Variable x
print(x)

In [None]:
# Anzeigen der Zielvariable y
print(y)

In [None]:
# Aufteilen der Daten in Trainings- und Testsets
# test_size = 0.15 bedeutet, dass 15% der Daten für das Testset verwendet werden
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.15)

In [None]:
# Initialisieren des SMOTE-Objekts für Over-Sampling
sm = SMOTE()

# Anwenden von SMOTE auf die Trainingsdaten, um die Anzahl der Instanzen der Minderheitenklasse zu erhöhen
x_train_res, y_train_res = sm.fit_resample(x_train, y_train)

# Anzeigen der Verteilung der Zielvariablen im resampelten Trainingsset, um den Effekt von SMOTE zu sehen
print(y_train_res.value_counts().to_markdown(tablefmt='psql'))

## Definition, Training und Evaluation des Modells

### Einfache logistische Regression

In [None]:
# Initialisieren des logistischen Regressionsmodells
model = LogisticRegression()

# Trainieren des Modells mit den resampelten Trainingsdaten
model.fit(x_train_res, y_train_res)

# Bewerten der Leistung des Modells auf dem Testset
model.score(x_test, y_test)

In [None]:
# Erstellen eines Scatter-Plots der Testdaten (Feature vs. Zielvariable)
plt.scatter(x_test, y_test, color = "gray")

# Erstellen von Werten für die x-Achse, um die Regressionskurve zu zeichnen
x_values = np.linspace(min(x_test), max(x_test), 100).reshape(-1, 1)

# Vorhersagen der Wahrscheinlichkeiten für die positiven Klasse (Diabetes = 1)
y_pred = model.predict_proba(x_values)[:, 1]

# Zeichnen der logistischen Regressionskurve
plt.plot(x_values, y_pred, color = "blue")

# Beschriften der Achsen
plt.xlabel("Blutzucker")
plt.ylabel("Diabetes")

### Multiple logistische Regression

In [None]:
# Auswählen mehrerer Feature-Variablen (x) und der Zielvariablen (y)
# Hier werden die Spalten mit den Indizes 1, 8 und 13 als Features ausgewählt
x = data_new.iloc[:, [1, 8, 13]]

# Hier wird die Spalte mit Index 7 ("Diabetes") als Zielvariable ausgewählt
y = data_new.iloc[:, 7]

# Aufteilen der Daten in Trainings- und Testsets
# test_size = 0.15 bedeutet, dass 15% der Daten für das Testset verwendet werden
x_train_2, x_test_2, y_train_2, y_test_2 = train_test_split(x, y, test_size = 0.15)

In [None]:
# Initialisieren des SMOTE-Objekts für Over-Sampling
sm = SMOTE()

# Anwenden von SMOTE auf die Trainingsdaten, um die Anzahl der Instanzen der Minderheitenklasse zu erhöhen
x_train_res_2, y_train_res_2 = sm.fit_resample(x_train_2, y_train_2)

# Anzeigen der Verteilung der Zielvariablen im resampelten Trainingsset, um den Effekt von SMOTE zu sehen
print(y_train_res_2.value_counts().to_markdown(tablefmt='psql'))

In [None]:
# Initialisieren eines zweiten logistischen Regressionsmodells
model_2 = LogisticRegression()

# Trainieren des zweiten Modells mit den resampelten Trainingsdaten (mit mehreren Features)
model_2.fit(x_train_res_2, y_train_res_2)

# Bewerten der Leistung des zweiten Modells auf dem Testset
model_2.score(x_test_2, y_test_2)

## Vorhersage und Modellbewertung

In [None]:
# Vorhersagen der Wahrscheinlichkeiten für die positive Klasse für model_1
y_pred_proba_model_1 = model.predict_proba(x_test)[:, 1]

# Berechnen der ROC-Kurve und des AUC-Wertes für model_1
fpr_model_1, tpr_model_1, _ = roc_curve(y_test, y_pred_proba_model_1)
roc_auc_model_1 = auc(fpr_model_1, tpr_model_1)

# Vorhersagen der Wahrscheinlichkeiten für die positive Klasse für model_2
y_pred_proba_model_2 = model_2.predict_proba(x_test_2)[:, 1]

# Berechnen der ROC-Kurve und des AUC-Wertes für model_2
fpr_model_2, tpr_model_2, _ = roc_curve(y_test_2, y_pred_proba_model_2)
roc_auc_model_2 = auc(fpr_model_2, tpr_model_2)

# Plotten der ROC-Kurven
plt.figure()
plt.plot(fpr_model_1, tpr_model_1, color='red', lw=2, label='ROC curve Model 1 (area = %0.2f)' % roc_auc_model_1)
plt.plot(fpr_model_2, tpr_model_2, color='blue', lw=2, label='ROC curve Model 2 (area = %0.2f)' % roc_auc_model_2)
plt.plot([0, 1], [0, 1], color='gray', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc="lower right")
plt.show()