# Heart Disease ML-Aufgaben

## 1. Aufgabe (Bibliotheken verstehen und importieren)

In [13]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score



## 2. Aufgabe (Daten laden und erkunden)

In [14]:
heart_disease = pd.read_csv("data/heart-disease.csv")
heart_disease

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3,0
299,45,1,3,110,264,0,1,132,0,1.2,1,0,3,0
300,68,1,0,144,193,1,1,141,0,3.4,1,2,3,0
301,57,1,0,130,131,0,1,115,1,1.2,1,1,3,0


- Wie viele Zeilen und Spalten enthält der Datensatz? 14 Spalten und 303 Zeilen
- Welche Spalten sind enthalten? 'age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach',
       'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target'
- Welche Spalte ist die Zielvariable? taget


## 3. Aufgabe (Zielvariable untersuchen und visualisieren)

- Analysiere, wie viele Patienten im Datensatz an einer Herzerkrankung leiden (target = 1) und wie viele nicht (target = 0).
- Erstelle ein Balkendiagramm mit Plotly, das die Verteilung der Zielvariable zeigt. Beantworte anschließend:
    - Ist der Datensatz ausgeglichen? ja 
    - Könnte das ein Problem für das Modell sein? ja es macht es schwieriger merkmale zu finden.

In [15]:
print("\nAnzahl der Patienten mit (1) und ohne (0) Herzerkrankung:\n")
print(heart_disease["target"].value_counts())

# Diagramm zur Verteilung:
fig = px.histogram(
    heart_disease, 
    x="target",
    title="Verteilung der Zielvariable (target)",
    labels={"target": "Herzerkrankung"},
    nbins=2
)

fig.update_layout(xaxis_title="Herzerkrankung: 0 = Nein, 1 = Ja", yaxis_title="Anzahl")
fig.update_traces(marker_line_color="black", marker_line_width=1.5)
fig


Anzahl der Patienten mit (1) und ohne (0) Herzerkrankung:

target
1    165
0    138
Name: count, dtype: int64


ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

## 4. Aufgabe (Merkmale und Ziel trennen)

- Trenne die Daten in:
    - X: die Merkmale, also alle Spalten außer der Zielspalte
    - y: die Zielvariable (target)
- Begründe: Warum trennt man X und y? um das Ziel zu erreichen aus X y hervorzusagen

In [16]:
X = heart_disease.drop("target", axis=1)
X

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3
299,45,1,3,110,264,0,1,132,0,1.2,1,0,3
300,68,1,0,144,193,1,1,141,0,3.4,1,2,3
301,57,1,0,130,131,0,1,115,1,1.2,1,1,3


In [17]:
y = heart_disease["target"]
y

0      1
1      1
2      1
3      1
4      1
      ..
298    0
299    0
300    0
301    0
302    0
Name: target, Length: 303, dtype: int64

## 5. Aufgabe (Daten in Trainings- und Testdaten aufteilen)

- Teile die Daten in Trainings- und Testdaten auf:
    - 80% für das Training
    - 20% für das Testen
- Verwende random_state=42 für Reproduzierbarkeit!
- Beantworte:
    - Warum ist es wichtig, nicht das gesamte Modell auf allen Daten zu trainieren? overfitting
    - Wie viele Datenpunkte wurden jeweils in Training und Test verwendet? 42

In [18]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state= 42)

print("\nAnzahl Trainingsbeispiele:", len(X_train))
print("Anzahl Testbeispiele:", len(X_test))


Anzahl Trainingsbeispiele: 242
Anzahl Testbeispiele: 61


## 6. Aufgabe (Modell erstellen und trainieren)

- Erstelle ein Klassifikationsmodell mit dem RandomForestClassifier aus scikit-learn. Trainiere es auf den Trainingsdaten mit .fit(X_train, y_train).
- Beantworte:
    - Was ist ein Random Forest (gtob)? ein Model zur Kategorie vorhersage
    - Warum ist dieser Algorithmus besonders für Einsteiger gut geeignet? er ist sehr zuverlässig und leistungsstark

In [19]:
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

0,1,2
,n_estimators,100
,criterion,'gini'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,'sqrt'
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


## 7. Aufgabe (Vorhersagen treffen und bewerten)

- Nutze das trainierte Modell, um Vorhersagen auf den Testdaten zu treffen.
    - Welche Genauigkeit (Accuracy) erreicht dein Modell?
    - Erstelle eine Verwirrungsmatrix und einen Klassifikationsbericht.
- Beantworte:
    - Was sagen dir Precision, Recall und F1-Score?
    - Wie gut ist dein Modell insgesamt?

In [20]:
y_pred = model.predict(X_test)

print("\nVorhersage abgeschlossen. Beispiel-Ausgabe:")
print(y_pred[:10])

# Genauigkeit berechnen:
accuracy = accuracy_score(y_test, y_pred)
print("\nGenauigkeit des Modells:", round(accuracy * 100, 2), "%")

# Klassifikationsbericht:
print("\nKlassifikationsbericht:")
print(classification_report(y_test, y_pred))

# Verwirrungsmatrix (Confusion Matrix):
cm = confusion_matrix(y_test, y_pred)
cm_labels = ["Negativ", "Positiv"]
fig_cm = go.Figure(data=go.Heatmap(
    z=cm,
    x=cm_labels,
    y=cm_labels,
    colorscale='Blues',
    text=cm,
    texttemplate="%{text}"
))
fig_cm.update_layout(title="Verwirrungsmatrix", xaxis_title="Vorhergesagte Klasse", yaxis_title="Tatsächliche Klasse")
fig_cm.show()


Vorhersage abgeschlossen. Beispiel-Ausgabe:
[0 1 1 0 1 1 1 0 0 0]

Genauigkeit des Modells: 83.61 %

Klassifikationsbericht:
              precision    recall  f1-score   support

           0       0.83      0.83      0.83        29
           1       0.84      0.84      0.84        32

    accuracy                           0.84        61
   macro avg       0.84      0.84      0.84        61
weighted avg       0.84      0.84      0.84        61



ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

## 8. Aufgabe (Skalierung verstehen)

- Skaliere deine Daten mit dem StandardScaler. Überlege dir wozu man dies benötigt und was genau passiert! Die Skalierung benötist du für die nächste Aufgabe!

In [21]:
import plotly.express as px

feat_importance = model.feature_importances_
features = X.columns
fig = px.bar(x=features, y=feat_importance, labels={'x': 'Merkmal', 'y': 'Wichtigkeit'}, title="Feature Importance")
fig

ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

## 9. Modellvergleich (verschiedene ML-Algorithmen testen)

- Ersetze das Modell durch mindestens zwei weitere Klassifikatoren:
    - Logistische Regression
    - KNN
    - SVM
- Trainiere sie ebenfalls, gib ihre Accuracy aus und vergleiche alle Modelle. Beantworte dann:
    - Welches Modell funktioniert am besten?
    - Warum könnten manche Modelle schlechter abschneiden (grob)?
    - Welche Modelle profitieren von der Skalierung?
    - Warum ist Skalierung wichtig?

In [22]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler

# Daten skalieren
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Modellliste
models = {
    "Random Forest": RandomForestClassifier(),  # kann auch unskalierte Daten verarbeiten
    "Logistische Regression": LogisticRegression(max_iter=1000),
    "KNN": KNeighborsClassifier(),
    "SVM": SVC()
}

# Training & Bewertung
for name, model in models.items():
    if name == "Random Forest":
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
    else:
        model.fit(X_train_scaled, y_train)
        y_pred = model.predict(X_test_scaled)
    
    acc = accuracy_score(y_test, y_pred)
    print(f"{name}: {acc:.2f}")


Random Forest: 0.85
Logistische Regression: 0.85
KNN: 0.90
SVM: 0.87
