# **Projektarbeit: Diabetes**

**Kurs:** Maschinelles Lernen (MaLe-AD23-HS24)  
**Autor/in:** Christoph Reichlin <br>
**Datum:** 18.12.2024


  <li><a href="https://www.datacamp.com/tutorial/markdown-in-jupyter-notebook">Detailierteres Tutorial</a></li>

---







## **Einführung**


## Problemstellung
Ziel ist es, mithilfe von medizinischen Daten vorherzusagen, ob ein Patient an Diabetes erkrankt ist oder nicht. Diese binäre Klassifikation soll mit Supervised Learning gelöst werden.

## Daten
Der Datensatz umfasst:
- **Zeilen:** 2000
- **Spalten:** 9 (davon 1 Zielvariable)

## Zielvariable
Die Zielvariable ist `Outcome`:
- `0 = Nein`: Kein Diabetes
- `1 = Ja`: Diabetes vorhanden


## Features und Bedeutung

1. **Pregnancies**
   - Anzahl der Schwangerschaften, die eine Person hatte.
   - Höhere Werte können mit einem erhöhten Risiko für Schwangerschaftsdiabetes in Verbindung stehen.

2. **Glucose**
   - Blutzuckerspiegel nach einer Glukosebelastung.
   - Ein hoher Wert ist ein starker Indikator für Diabetes oder Prädiabetes.

3. **Blood Pressure**
   - Blutdruck (diastolisch) in mmHg.
   - Erhöhte Blutdruckwerte können auf ein höheres Risiko für Typ-2-Diabetes hinweisen.

4. **Skin Thickness**
   - Hautfaltendicke (in mm), gemessen an der Trizeps-Stelle.
   - Gibt einen Hinweis auf die Körperfettverteilung und mögliche Insulinresistenz.

5. **Insulin**
   - Serum-Insulinspiegel (in μU/ml).
   - Abnormale Werte können auf Insulinresistenz oder eine gestörte Insulinproduktion hinweisen.

6. **BMI**
   - Body Mass Index (kg/m²).
   - Ein hoher BMI ist ein bekannter Risikofaktor für Typ-2-Diabetes.

7. **Diabetes Pedigree Function**
   - Ein berechneter Wert, der die genetische Wahrscheinlichkeit von Diabetes anhand der Familienanamnese beschreibt.

8. **Age**
   - Alter der Person (in Jahren).
   - Ältere Menschen haben ein höheres Risiko, an Typ-2-Diabetes zu erkranken.



---
## **Setup**

<span style="color:#2D8FF3;font-style:italic">
<b>Anleitung:</b>
In diesem Abschnitt geht es darum, das Jupyter Notebook zu 
konfigurieren. Ihr braucht hier nicht viel zu machen.
</span>


In [None]:
# Basic imports
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris

# Enable vectorized graphics
%config InlineBackend.figure_formats = ["svg"]

# Setup plotting
PALETTE = [ (0.341, 0.648, 0.962, 1.0), 
            (0.990, 0.476, 0.494, 1.0), 
            (0.281, 0.749, 0.463, 1.0), 
            (0.629, 0.802, 0.978, 1.0), 
            (0.994, 0.705, 0.715, 1.0), 
            (0.595, 0.858, 0.698, 1.0), 
            (0.876, 0.934, 0.992, 1.0), 
            (0.998, 0.901, 0.905, 1.0), 
            (0.865, 0.952, 0.899, 1.0) ]

# For more color palettes, see here:
# https://seaborn.pydata.org/tutorial/color_palettes.html
# https://matplotlib.org/stable/users/explain/colors/colormaps.html
#PALETTE = sns.color_palette("husl", 8)
#PALETTE = sns.color_palette("viridis", 10)

print("Our color palette:")
sns.palplot(PALETTE, size=0.5)

sns.set_style("whitegrid")
plt.rcParams["axes.prop_cycle"] = plt.cycler(color=PALETTE)
plt.rcParams["figure.dpi"] = 300    # High-res figures (DPI)
plt.rcParams["pdf.fonttype"] = 42   # Editable text in PDF

---
## **Präprozessierung**

<span style="color:#2D8FF3;font-style:italic">
<b>Anleitung:</b>
In diesem Abschnitt werden die Daten geladen und aufbereitet.<br>
</span>


In [15]:
# Code to load and preprocess the data
...

---

## **Explorative Datenanalyse**

<span style="color:#2D8FF3;font-style:italic">
<b>Anleitung:</b>
Hier untersucht ihr eure Daten ein erstes Mal, visualisiert sie und versucht, Muster zu erkennen.
Zeigt hier, dass ihr neugierig seid und euch mit den Daten auseinandersetzt.
</span>



In [None]:
# Code to perform the exploratory data analysis
...

---

## **Feature Engineering und Dimensionalitätsreduktion**

<span style="color:#2D8FF3;font-style:italic">
<b>Anleitung:</b>
Beim Feature Engineering versucht ihr aus den verfügbaren Daten nützliche 
neue Features zu generieren. Falls ihr bereits viele Prädiktoren habt, versucht 
ihr die Dimensionalität des Problems mittels eines geeigneten Verfahrens zu reduzieren.
Je nach Datensatz und Problem fällt dieser Abschnitt länger oder kürzer aus.
</span>



In [None]:
# Code to perform the feature engineering
...

---

## **Modellieren, Trainieren und Validieren**

<span style="color:#2D8FF3;font-style:italic">
<b>Anleitung:</b>
Es folgt der für diese Projektarbeit zentrale Abschnitt. Hier trainiert 
Datenmodelle, und validiert diese. Folgende Punkte sind zu beachten:

<ul>
    <li>Es sollen mindestens <u>zwei verschiedene Datenmodelle</u> trainiert und verglichen werden.</li>
    <li>Die Hyperparameter sollen mittels <u>Kreuzvalidierung</u> ermittelt werden.</li>
    <li>Die Vorhersagegenauigkeit der Modelle müssen mit einem <u>separaten Testdatensatz</u> abgeschätzt werden.</li>
    <li>Die Resultate der Trainings- und Testphasen sollen <u>visualisiert</u> werden (z.B. mittels ROC-Kurve oder Residuen-Plots).</li>
    <li>Bonuspunkte gibt es, falls
        <ul style="list-style-type:  circle;">
            <li>der Generalisierungsfehler des Modells robust ermittelt wird (durch wiederholtes Validieren, so dass die Kennzahlen für Vorhersagegenauigkeit als "µ ± σ" angeben werden kann).</li>
            <li>die Vorhersagefehler der Modelle auf Muster untersucht werden.</li>
            <li>falls eine Standardmodellierung basierend auf Beobachtungen verfeinert und weiterentwickelt wird.</li>
        </ul></li>
</ul>

Wir empfehlen, die verschiedenen Modelle in scikit-learn <a href=https://scikit-learn.org/1.5/modules/compose.html>als Pipelines</a> aufzubauen.
</span>


In [None]:
# Code to perform the model training and validation
...

---

## **Diskussion und Fazit**

<span style="color:#2D8FF3;font-style:italic">
<b>Anleitung:</b>
Diskutiert hier <u>kurz</u> eure Erkenntnisse aus eurer Projektarbeit. Folgende Punkte müsst ihr addressieren:

<ul>
    <li>Wie interpretiert eure Ergebnisse:
        <ul style="list-style-type:  circle;">
            <li>Welches Datenmodell funktioniert am besten?</li>
            <li>Wie gut löst es das formulierte Problem?</li>
            <li>Entsprechen die Ergebnisse euren Erwartungen?</li>
        </ul></li>
    <li>Habt ihr Verbesserungsvorschläge für eure Datenmodelle?</li>
    <li>Beschreibt eure Lernerlebnisse. Was waren eure wichtigsten Erkenntnisse im Verlauf dieses Projekts?</li>
</ul>
</span>

