In dieser Arbeit werden Machine-Learning-Verfahren im Hinblick auf die Vorhersage von Diabetes untersucht. Ziel ist es, ausgewählte Klassifikationsalgorithmen – insbesondere logistische Regression, Support Vector Machines (SVM) und k-Nearest Neighbors (KNN) – auf ihre Leistungsfähigkeit zu vergleichen.

Als Datengrundlage dient der öffentlich verfügbare Diabetes Prediction Dataset von Kaggle, der sowohl demografische Merkmale (z. B. Alter, Geschlecht, Raucherstatus) als auch medizinische Werte wie BMI, Blutzucker- und HbA1c-Werte enthält. Die Vorgehensweise umfasst die Datenvorverarbeitung, das Trainieren der Modelle in Python (Scikit-Learn) sowie die Bewertung mithilfe von Metriken wie Accuracy, Precision, Recall, F1-Score und ROC-Kurve. Die Ergebnisse werden abschließend vergleichend analysiert und visuell aufbereitet.

In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

# Vergleich von Klassifikationsalgorithmen zur Vorhersage von Diabetes anhand des Kaggle-Datensatzes: Eine Analyse mit logistischer Regression, SVM und KNN

## Inhaltsverzeichnis
**1. Einleitung**
   - 1.1 Diabetes Typ 1
   - 1.2 Diabetes Typ 2
   - 1.3 Zielsetzung

**2. Datenbeschreibung**
   - 2.1 Datensatzbeschreibung
   - 2.2 Datenvorverarbeitung

## 1. Einleitung

   Diabetes oder auch umgangsprachlich die Zuckerkranheit (lateinisch: Diabetes mellitus
   ist ein Überbegriff für eine Gruppe von Stoffwechselerkrankungen. Bei Diabetes ist der
   Blutzuckerspiegel dauerhaft erhöht, was zu verschiedenen gesundheitlichen Problemen
   führen kann. Die Krankheit kann in zwei Haupttypen unterteilt werden: Typ 1 und Typ 2.
   Typ 1
   ist eine Autoimmunerkrankung, bei der die Insulin produzierenden Zellen in der
   Bauchspeicheldrüse zerstört werden. Typ 2 hingegen ist oft mit Übergewicht und
   Bewegungsmangel
   verbunden und kann durch Lebensstiländerungen und Medikamente behandelt werden.
    Unbehandelt kann Diabetes zu schwerwiegenden Komplikationen wie Herzkrankheiten,
    Nierenerkrankungen, Augenproblemen und Nervenschäden führen. Eine frühzeitige Diagnose
   und Behandlung sind entscheidend, um die Krankheit zu kontrollieren und das Risiko von
   Komplikationen zu verringern. Diabetes kann man durch eine Blutuntersuchung diagnostizieren,
   bei der der Blutzuckerspiegel gemessen wird.

---

   <div style="text-align:center;">
  <img src="image/Regelkreis-Zucker.png" alt="Regelkreis Zucker" style="max-height:350px;" />
  <div>Quelle: https://praxis-beylich.de/wp-content/uploads/2018/02/Regelkreis-Zucker.png</div>
</div>

---

### 1.1 Diabetes Typ 1
   Die Ursache des Typ 1 Diabetes ist ein absoluter Mangel an Insulin, ein Hormon, das für die Regulierung des Blutzuckerspiegels verantwortlich ist. Weshalb dieser Diabetestyp auch
   insulinabhängiger Diabetes mellitus heißt. Er wird durch das absolute Versagen durch die Zellen in der Bauchspeicheldrüse verursacht, die das Hormon Insulin produziert. Diabetes
   Typ 1 beginnt meistens in Kinder- und Jugendalter, kann aber auch bei Erwachsenen auftreten. Bisher ist Diabetes Typ 1 nicht heilbar, aber mit Insulintherapie und anderen
   Behandlungen kann der Blutzuckerspiegel kontrolliert werden. Die betroffenen Personen müssen ihr ganzes Leben den Blutzuckerspiegel überwachen und Insulin spritzen, um den
   Blutzuckerspiegel im Normalbereich zu halten.

### 1.2 Diabetes Typ 2
   Diabetes Typ 2 ist die häufigste Form von Diabetes und tritt auf, zum einen durch verminderte Empfindlichkeit der Körperzellen für Insulin (Insulinresistenz), zum anderen führt
   eine jahrelange Überproduktion von Insulin zu einer "Erschöpfung" der insulinproduzierenden Zellen (die Bauchspeicheldrüse kann nicht genügend Insulin für den erhöhten Bedarf
   liefern). Diabetes Typ 2 tritt häufig bei älteren Menschen auf, kann aber auch bei jüngeren Menschen auftreten, insbesondere bei Übergewichtigen und Menschen mit einem
   ungesunden Lebensstil. Die Behandlung von Diabetes Typ 2 umfasst in der Regel Änderungen des Lebensstils, wie z. B. eine gesunde Ernährung und regelmäßige Bewegung, sowie
   Medikamente zur Regulierung des Blutzuckerspiegels.

### 1.3 Zielsetzung
   Ziel dieser Arbeit ist es, verschiedene Klassifikationsalgorithmen zu vergleichen, um die Vorhersage von Diabetes zu verbessern. Dabei werden insbesondere die logistische
   Regression,
   Support Vector Machines (SVM) und k-Nearest Neighbors (KNN) untersucht. Die Algorithmen werden auf einem öffentlich zugänglichen Datensatz trainiert und evaluiert, um ihre
   Leistungsfähigkeit in Bezug auf Genauigkeit, Präzision, Recall und F1-Score zu bewerten. Die Ergebnisse werden anschließend vergleichend analysiert und visuell aufbereitet.


## 2. Datenbeschreibung
### 2.1 Datensatzbeschreibung
   Der Datensatz, der für diese Analyse verwendet wird, enthält verschiedene Merkmale, die mit Diabetes in Verbindung stehen. Dazu gehören demografische Informationen wie Geschlecht (gender) und
   Alter (age) sowie medizinische Werte wie Body-Mass-Index (BMI), Blutzucker- (blood_glocose_level) und HbA1c-Werte (HbA1c_level). Der Datensatz ist öffentlich zugänglich und wurde von Kaggle bereitgestellt.

In [5]:
df = pd.read_csv('diabetes_prediction_dataset.csv')
print(df.head()) # first 5 rows of the dataset

   gender   age  hypertension  heart_disease smoking_history    bmi  \
0  Female  80.0             0              1           never  25.19   
1  Female  54.0             0              0         No Info  27.32   
2    Male  28.0             0              0           never  27.32   
3  Female  36.0             0              0         current  23.45   
4    Male  76.0             1              1         current  20.14   

   HbA1c_level  blood_glucose_level  diabetes  
0          6.6                  140         0  
1          6.6                   80         0  
2          5.7                  158         0  
3          5.0                  155         0  
4          4.8                  155         0  


### 2.2 Datenvorverarbeitung
   Die Datenvorverarbeitung umfasst mehrere Schritte, um sicherzustellen, dass die Daten für die Analyse geeignet sind. Dazu gehören das Entfernen von Duplikaten, die in diesem Fall aber nicht Sinnvoll ist, da es mehrere Menschen geben kann, die gleiche Merkmale auf zeigen (bei 100.000 Personen wahrscheinlich), das Behandeln von fehlenden Werten und das Konvertieren von Datentypen. Darüber hinaus werden die Merkmale normalisiert oder skaliert, um sicherzustellen, dass sie für die Algorithmen geeignet sind.

   Im Folgenden wird der Datensatz eingelesen und aufbereitet:

## Quelle
[09.08.2025] https://www.kaggle.com/datasets/iammustafatz/diabetes-prediction-dataset