### Logistische Regression zur Vorhersage der Klassifikation
Logistische Regression ist ein statistisches Verfahren, das verwendet wird, um die Wahrscheinlichkeit eines Ereignisses vorherzusagen, welches nur zwei mögliche Ergebnisse hat. Stellen Sie sich vor, Sie möchten vorhersagen, ob ein Student eine Prüfung besteht (Ereignis = 1) oder nicht besteht (Ereignis = 0), basierend auf der Anzahl der Stunden, die er für die Prüfung gelernt hat.

Hier ist eine einfache Erklärung des Prozesses in Python:



1. **Daten sammeln:** Zuerst benötigen Sie Daten. In unserem Beispiel wären das die Anzahl der Studienstunden und ob der Student die Prüfung bestanden hat oder nicht.

2. **Modell vorbereiten:** Logistische Regression verwendet eine spezielle Funktion, die "Sigmoid-Funktion" genannt wird, um die Wahrscheinlichkeit zu berechnen, dass ein bestimmtes Ereignis eintritt. Diese Funktion gibt Werte zwischen 0 und 1 zurück, was perfekt für Wahrscheinlichkeiten ist.

3. **Training des Modells:** Das Modell "lernt" aus den Daten. Es versucht, die Beziehung zwischen der Anzahl der Studienstunden und der Wahrscheinlichkeit des Bestehens der Prüfung zu verstehen. Dabei wird eine "Verlustfunktion" verwendet, um zu messen, wie gut das Modell die Daten vorhersagt, und es versucht, diesen Verlust zu minimieren.

4. **Vorhersagen treffen:** Nachdem das Modell trainiert wurde, können Sie es verwenden, um die Wahrscheinlichkeit des Bestehens der Prüfung basierend auf der Anzahl der Studienstunden vorherzusagen.

Lassen Sie uns dies mit einem einfachen Python-Codebeispiel demonstrieren. Wir werden die `LogisticRegression`-Klasse aus der `scikit-learn`-Bibliothek verwenden. Stellen Sie sich vor, wir haben einen Datensatz mit Stunden (`hours`) und einer binären Variablen, die angibt, ob der Student die Prüfung bestanden hat (`passed`).

In diesem Beispiel haben wir ein logistisches Regressionsmodell mit einem einfachen Datensatz trainiert, der aus der Anzahl der Studienstunden (`hours`) und Informationen darüber besteht, ob der Student die Prüfung bestanden hat (`passed`).

Das Modell wurde dann verwendet, um die Wahrscheinlichkeit vorherzusagen, dass ein Student, der 5 Stunden lernt, die Prüfung besteht. Laut unserem Modell beträgt diese Wahrscheinlichkeit etwa 38.87%. 

Es ist wichtig zu beachten, dass diese Zahl stark von der Qualität und Quantität der Daten, die für das Training des Modells verwendet werden, abhängt. In einem realen Szenario würde man ein viel umfangreicheres und komplexeres Datenset verwenden, um genauere Vorhersagen zu machen.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

# Beispiel Daten
# Stunden studiert
hours = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]).reshape(-1, 1)
# Ob bestanden: 0 = nicht bestanden, 1 = bestanden
passed = np.array([0, 0, 0, 0, 1, 0, 1, 1, 1, 1])

# Modell erstellen und trainieren
model = LogisticRegression()
model.fit(hours, passed)

# Vorhersage für einen Studenten, der 5 Stunden gelernt hat
predicted_probability = model.predict_proba([[5]])[0][1]
predicted_probability


Die Konfusionsmatrix ist ein mächtiges Werkzeug zur Bewertung der Leistung von Klassifikationsmodellen. Sie zeigt, wie gut ein Modell bei der Vorhersage von Klassen funktioniert. Ich werde zunächst eine schematische Darstellung der Konfusionsmatrix erstellen und dann detailliert auf die Formeln eingehen, die zur Berechnung verschiedener Gütekriterien verwendet werden.

### Schematische Darstellung der Konfusionsmatrix

Stellen Sie sich die Konfusionsmatrix als eine Tabelle vor, die die tatsächlichen Klassen (oben) und die vorhergesagten Klassen (links) eines Klassifikationsmodells anzeigt:

| Tatsächlich \ Vorhergesagt | Positiv    | Negativ    |
|----------------------------|------------|------------|
| **Positiv**                | TP         | FN         |
| **Negativ**                | FP         | TN         |

- **TP (True Positives):** Anzahl der Fälle, die korrekt als positiv klassifiziert wurden.
- **TN (True Negatives):** Anzahl der Fälle, die korrekt als negativ klassifiziert wurden.
- **FP (False Positives):** Anzahl der Fälle, die fälschlicherweise als positiv klassifiziert wurden (Typ I Fehler).
- **FN (False Negatives):** Anzahl der Fälle, die fälschlicherweise als negativ klassifiziert wurden (Typ II Fehler).

### Berechnung der Gütekriterien

1. **Genauigkeit (Accuracy):** Gesamtanteil der korrekten Vorhersagen.<br/><br/>
   $\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$

2. **Präzision (Precision):** Anteil der korrekten positiven Vorhersagen an allen positiven Vorhersagen.
   <br/><br/>
   $\text{Precision} = \frac{TP}{TP + FP}$

3. **Sensitivität (Recall) / Trefferquote:**
   Anteil der korrekten positiven Vorhersagen an der Gesamtzahl der tatsächlich positiven Fälle.
   <br/><br/>
   $\text{Recall} = \frac{TP}{TP + FN}$

4. **Spezifität (Specificity):**
   Anteil der korrekten negativen Vorhersagen an der Gesamtzahl der tatsächlich negativen Fälle.
   <br/><br/>
   $\text{Specificity} = \frac{TN}{TN + FP}$

5. **F1-Score:**
   Harmonisches Mittel von Präzision und Sensitivität, nützlich bei unausgewogenen Klassen.
   <br/><br/>
   $\text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$

Diese Maße geben Auskunft über verschiedene Aspekte der Klassifikationsleistung und sind besonders wichtig, um die Stärken und Schwächen des Modells zu verstehen, insbesondere in Fällen unausgewogener Datensätze.

### Gütekriterien - Konfusionsmatrix

Um die Konfusionsmatrix und die damit verbundenen Gütekriterien zu erklären, werden wir das Beispiel in Python durchgehen. Wir verwenden wieder ein logistisches Regressionsmodell, wie zuvor, und erstellen eine Konfusionsmatrix für die Ergebnisse. Anschließend berechnen wir verschiedene Gütekriterien wie Genauigkeit (Accuracy), Präzision (Precision), Sensitivität (Recall), Spezifität und F1-Score.

### Schritt 1: Datenvorbereitung und Modelltraining
Wir verwenden denselben Datensatz wie zuvor, in dem wir vorhersagen wollen, ob ein Student eine Prüfung besteht, basierend auf der Anzahl der Studienstunden.

### Schritt 2: Modellvorhersagen
Wir verwenden das Modell, um Vorhersagen für unseren Datensatz zu treffen. Diese Vorhersagen werden dann verwendet, um die Konfusionsmatrix zu erstellen.

### Schritt 3: Erstellen der Konfusionsmatrix
Die Konfusionsmatrix ist eine Tabelle, die zeigt, wie viele Vorhersagen in jede Kategorie fallen (True Positive, False Positive, True Negative, False Negative).

### Schritt 4: Berechnung der Gütekriterien
Wir berechnen verschiedene Maße wie Genauigkeit, Präzision, Sensitivität, Spezifität und F1-Score, die uns ein detailliertes Bild über die Leistung unseres Modells geben.

Lassen Sie uns diesen Prozess in Python durchführen:


In [2]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
import numpy as np

# Beispiel Daten
# Stunden studiert
hours = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]).reshape(-1, 1)
# Ob bestanden: 0 = nicht bestanden, 1 = bestanden
passed = np.array([0, 0, 0, 0, 1, 0, 1, 1, 1, 1])

# Modell erstellen und trainieren
model = LogisticRegression()
model.fit(hours, passed)

# Vorhersagen für den gesamten Datensatz
predictions = model.predict(hours)

# Erstellen der Konfusionsmatrix
conf_matrix = confusion_matrix(passed, predictions)

# Berechnung der Gütekriterien
accuracy = accuracy_score(passed, predictions)
precision = precision_score(passed, predictions)
recall = recall_score(passed, predictions)
f1 = f1_score(passed, predictions)

# Spezifität manuell berechnen
tn, fp, fn, tp = conf_matrix.ravel()
specificity = tn / (tn + fp)

conf_matrix, accuracy, precision, recall, specificity, f1


(array([[4, 1],
        [1, 4]]),
 0.8,
 0.8,
 0.8,
 0.8,
 0.8000000000000002)


Hier sind die Ergebnisse der Konfusionsmatrix und der Gütekriterien für unser logistisches Regressionsmodell:

### Konfusionsmatrix
Die Konfusionsmatrix für unser Modell sieht so aus:

| Tatsächlich \ Vorhergesagt | Positiv | Negativ |
|----------------------------|---------|---------|
| **Positiv**                | 4 (TP)  | 1 (FN)  |
| **Negativ**                | 1 (FP)  | 4 (TN)  |

### Gütekriterien
- **Genauigkeit (Accuracy):** 0.8 (80%)
- **Präzision (Precision):** 0.8 (80%)
- **Sensitivität (Recall):** 0.8 (80%)
- **Spezifität:** 0.8 (80%)
- **F1-Score:** 0.8

Diese Zahlen bedeuten, dass das Modell in 80% der Fälle korrekt vorhersagt, ob ein Student die Prüfung besteht oder nicht. Die Präzision und Sensitivität sind ebenfalls bei 80%, was darauf hinweist, dass das Modell eine ausgewogene Leistung in Bezug auf die Vermeidung von falsch positiven und falsch negativen Vorhersagen zeigt. Der F1-Score, der ein harmonisches Mittel aus Präzision und Sensitivität darstellt, bestätigt ebenfalls die ausgewogene Leistung des Modells.