<a href="https://colab.research.google.com/github/AlexKressner/Business_Intelligence/blob/main/ML_Klassifikation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Machine Learning: Klassifikation, Beispiel Diabetes
Im nachfolgenden Beispiel werden wir ein ML-Verfahren einsetzen, um anhand von Untersuchungsergebnissen vorherzusagen, ob ein Patient Diabetes hat. Es handelt sich dabei um eine Klassifikationsproblem (Diabetes/ keine Diabetes). Wir verwenden einen Datensatz mit folgenden Informationen:
1. Anzahl Schwangerschaften
1. Glukosekonzentration nach Glukosetoleranztest
1. Blutdruck (mm Hg)
1. Dicke der Trizepshautfalte (mm)
1. Insulinwert (mu U/ml)
1. Body mass index
1. Diabetesvorbelastungsfunktion
1. Alter (Jahre)
1. Diabetes (0/1)

## 1 Daten laden

In [None]:
import pandas as pd

In [None]:
! git clone https://github.com/AlexKressner/Business_Intelligence

In [None]:
path = "Business_Intelligence/Daten/ML_Klassifikation/"

In [None]:
# Daten laden
data = pd.read_csv(f"{path}diabetes.txt")

In [None]:
data.dtypes

In [None]:
data.describe()

## 2 Datensatz in Features und Target teilen

Wie bereits zuvor müssen wir unterscheiden, was vorhergesagt werden soll (**Target**) und welche Merkmale dazu genutzt werden sollen (**Features**).

In [None]:
# Features, d.h. womit lässt sich Diabetes prognostizeren!
X = data.drop(columns="diabetes")
X.head()

In [None]:
# Target, d.h. was soll prognostiziert werden!
y = data["diabetes"]
y.head()

## 2.2 Datensatz in Trainings- und Testmenge aufteilen
Erneut müssen wir die Daten aufteilen. Da wir ausschließlich mit numerischen Daten arbeiten, müssen wir keine Datenaufbereitung über `pd.get_dummies` vornehmen.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# X und y werden in Trainings- und Testmenge aufgeteilt, so dass die Testmenge 20% der vorhandenen Daten hat
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=3)

In [None]:
y_train.head()

In [None]:
X_train.head()

## 2.3 Modell auswählen

Erneut verwenden wir das Verfahren `Random Forest`. Sie müssen allerdings darauf achten, dass Sie einen Random Forest zur Klassifikation importieren. Aus diesem Grund verwenden wir das Verfahren `RandomForestClassifier`. Für die Regressionaufgabe hatten wir das Verfahren `RandomForestRegressor` genutzt. Achten Sie auf diesen wichtigen Unterschied!

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
model = RandomForestClassifier()

## 2.4 Modell trainieren

Das Random Forest Verfahren versucht nun einen Zusammenhang zwischen den Features und dem Target zu lernen und minimiert dabei ein Fehlermaß. Letzteres misst den Grad der Fehlklassifikation. Beispiel für Fehlklassifikation: Das Modell prognostiziert Diabetes für einen Patienten, in der Realität liegt die Erkrankung aber nicht vor.

In [None]:
model.fit(X_train, y_train)

## 2.5 Modell anwenden

Das ML-Verfahren erhält die Daten `X_test`, d.h. die Untersuchungsergebnisse mit den relevanten Merkmalen und wendet die gelernten Zusammenhänge zur Prognose des Targets an, d.h. dem Vorhandensein von Diabetes (0/1)!

In [None]:
X_test.head()

In [None]:
y_pred = model.predict(X_test)

In [None]:
y_pred

In [None]:
y_test.values

In [None]:
pd.DataFrame({"Vorhersage":pd.Series(y_pred), "Beobachtung":pd.Series(y_test.values)},).head(10)

## 2.6 Modell evaluieren

Die Modellbewertung erfolgt bei der Klassifikation regelmäßg nach dem Kriterium der "Accuracy" (andere kommen aber auch zum Einsatz). Die Accuracy setzt die Anzahl der korrekten Klassifikation in das Verhältnis zur Anzahl aller Beobachtungen. Dementsprechend stellt sie den Anteil der korrekten Klassifikationen dar.

In [None]:
from sklearn import metrics
import matplotlib.pyplot as plt

In [None]:
metrics.accuracy_score(y_test, y_pred) * 100

In [None]:
conf_matrix = metrics.confusion_matrix(y_test, y_pred, labels=model.classes_)
disp = metrics.ConfusionMatrixDisplay(conf_matrix, display_labels=model.classes_)
disp.plot()
plt.show()

In [None]:
from sklearn.inspection import permutation_importance
import numpy as np

In [None]:
results = permutation_importance(model, X_test, y_test, n_repeats=10, random_state=42)

# Get the mean importance of each feature
importances = results.importances_mean

# Sort the feature importances in descending order
indices = np.argsort(importances)[::-1]

# Plot the feature importances
plt.figure(figsize=(10, 6))
plt.title("Feature importances using Permutation Importance")
plt.bar(range(X.shape[1]), importances[indices], align="center")
plt.xticks(range(X.shape[1]), X.columns, rotation=45)
plt.xlim([-1, X.shape[1]])
plt.tight_layout()
plt.show()

# Übungsaufgabe
Das Versinken der Titanic ist eines der berüchtigtsten Schiffsunglücke in der Geschichte.

Am 15. April 1912, während ihrer Jungfernfahrt, sank die weithin als „unsinkbar“ betrachtete RMS Titanic, nachdem sie mit einem Eisberg kollidiert war. Leider gab es nicht genügend Rettungsboote für alle an Bord, was zum Tod von 1502 der 2224 Passagiere und Besatzungsmitglieder führte.

Obwohl beim Überleben auch ein Element des Glücks eine Rolle spielte, scheint es, dass einige Gruppen von Menschen eine höhere Überlebenschance hatten als andere.

Erstellen Sie bitte ein Vorhersagemodell, das die Frage beantwortet: „Welche Art von Personen hatten eine höhere Überlebenschance?“ unter Verwendung von Passagierdaten (z.B. Name, Alter, Geschlecht, sozioökonomische Klasse usw.).

Die Daten finden Sie in der Datei `titanic.csv`.

In [None]:
# 1. Daten laden
data = pd.read_csv(f"{path}titanic.csv")

In [None]:
data.drop(columns=["Age","Cabin","Embarked","PassengerId", "Name", "Ticket"], inplace=True)

In [None]:
data.head()