# Lineare Regressionen

## Quelle der Daten

https://www.kaggle.com/datasets/captainozlem/framingham-chd-preprocessed-data (zuletzt aufgerufen: 01/2024)

https://www.framinghamheartstudy.org/ (zuletzt aufgerufen: 01/2024)

## Installation der Bibliotheken

In [None]:
# Importieren der benötigten Bibliotheken für Datenmanipulation,
# mathematische Operationen, Visualisierung und maschinelles Lernen
import pandas as pd

import numpy as np

from numpy.ma.core import mean

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.metrics import r2_score

## Einlesen und Aufteilung der Daten 

In [None]:
# Laden der Daten von einer URL in einen Pandas DataFrame und Entfernen von Zeilen mit fehlenden Werten
data_url = "https://github.com/timwgnd/Lehrbuch-Kuenstliche-Intelligenz-in-der-Medizin/raw/refs/heads/main/FraminghamHeartStudy.xlsx"
data = pd.read_excel(io=data_url, sheet_name = "Tabelle1")

data = data.dropna()

print(data.head().to_markdown(index=False, tablefmt='psql'))

In [None]:
# Konvertieren der kategorialen Spalte 'Geschlecht' in numerische Dummy-Variablen
data_new = pd.get_dummies(data, columns = ["Geschlecht"])

print(data_new.head().to_markdown(index=False, tablefmt='psql'))

In [None]:
# Auswählen der Spalten 'BMI' (Index 11) und 'Systolisch' (Index 9) als unabhängige (x) und abhängige (y) Variablen
x = data_new.iloc[:, 11]

y = data_new.iloc[:, 9]

In [None]:
# Anzeigen der ersten Zeilen der unabhängigen Variablen 'x' (BMI)
print(x.head().to_markdown(index=False, tablefmt='psql'))

In [None]:
# Anzeigen der ersten Zeilen der abhängigen Variablen 'y' (Systolischer Blutdruck)
print(y.head().to_markdown(index=False, tablefmt='psql'))

## Berechnung der Regressionsgerade

In [None]:
# Erstellen eines Scatter-Plots, der den Zusammenhang zwischen BMI und systolischem Blutdruck zeigt
plt.xlabel("BMI")
plt.ylabel("Systolischer Blutdruck")
plt.scatter(x, y, c = "royalblue")

In [None]:
# Berechnen und Plotten der Regressionsgeraden für den Zusammenhang zwischen BMI und systolischem Blutdruck
plt.xlabel("BMI")
plt.ylabel("Systolischer Blutdruck")
plt.scatter(x, y, c = "lightgrey")

xy_mean = mean(x * y)

m = (xy_mean - mean(x) * mean(y)) / ((mean(x**2)) - ((mean(x)**2)))
t = mean(y) - m * mean(x)

plt.plot(x, m * x + t)

print("f(x) =", m, "* x +", t)

In [None]:
# Vorhersage des systolischen Blutdrucks basierend auf einem eingegebenen BMI-Wert
# unter Verwendung der zuvor berechneten Regressionsgleichung
bmi = int(input("Wie lautet der BMI (in kg/m²)? "))

syst = 1.7808402593844028 * bmi + 86.48413789669307

print("Der vorhergesagte systolische Blutdruck lautet:", syst, "mmHg")

## Multiple lineare Regression

In [None]:
# Vorbereiten der Daten für eine einfache lineare Regression:
# Auswahl von BMI als unabhängige Variable (x) und
# systolischem Blutdruck als abhängige Variable (y) und
# Aufteilung der Daten in Trainings- und Testsets
x = data_new.iloc[:, [11]]

y = data_new.iloc[:, 9]

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.15)

In [None]:
# Trainieren eines einfachen linearen Regressionsmodells mit den Trainingsdaten
# und Vorhersage des systolischen Blutdrucks auf den Testdaten
model_1 = LinearRegression()

model_1.fit(x_train, y_train)

y_pred_1 = model_1.predict(x_test)

In [None]:
# Berechnung des R²-Werts, um die Güte des einfachen linearen Regressionsmodells zu bewerten
r2 = r2_score(y_test, y_pred_1)

print("R²:", r2)

In [None]:
# Vorbereiten der Daten für eine multiple lineare Regression: Auswahl mehrerer unabhängiger Variablen
# (Alter, Raucher, ZigProTag, etc.) und des systolischen Blutdrucks als abhängige Variable,
# dann Aufteilung der Daten in Trainings- und Testsets
x = data_new.iloc[:, [1, 2, 3, 4, 5, 6, 7, 8, 11, 12, 13, 14]]

y = data_new.iloc[:, 9]

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.15)

In [None]:
# Trainieren eines multiplen linearen Regressionsmodells mit den ausgewählten Variablen
# auf den Trainingsdaten und Vorhersage auf den Testdaten
model_2 = LinearRegression()

model_2.fit(x_train, y_train)

y_pred_2 = model_2.predict(x_test)

In [None]:
# Berechnung des R²-Werts, um die Güte des multiplen linearen Regressionsmodells zu bewerten
r2 = r2_score(y_test, y_pred_2)

print("R²:", r2)