# Wichtige Kennzahlen für die Klassifizierung
Hier werden die wichtigsten Kennzahlen für ein Klassifizierungsmodell vorgestellt.

Als Datensatz verwenden wir eine CSV-Datei, die direkt die Ergebnisse des Modells enthält (Feature *PROGNOSE*). In der ersten Spalte sind die realen Werte enthalten (Feature *REALITAET*).

0 entspricht hier NEGATIV
1 entspricht hier POSITIV

In [None]:
import pandas as pd
url = "https://raw.githubusercontent.com/troescherw/datasets/master/daten_kennzahlen_klassifizierung.csv"
df = pd.read_csv(url, delimiter=";")
df

Zuerst erstellen wir einen Report für diesen Datensatz. Mit *Seaborn* erstellen wir zudem eine Confusion Matrix mit Hilfe der Funktion *heatmap*. Man beachte hier, dass die Zeilen / Spalten gegenüber üblicher Darstellung in der Literatur vertauscht sind. Spaltenweise sind hier die Prognosen angegeben, zeilenweise die Realität.

In [None]:
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

labels=["NEGATIV", "POSITIV"]
#sklearn.metrics.confusion_matrix(y_true, y_pred, *, labels=None, sample_weight=None, normalize=None)[source]
cm = confusion_matrix(df.REALITAET, df.PROGNOSE)


_=sns.heatmap(cm, annot=True)

In [None]:
# Report
from sklearn.metrics import classification_report

target_names = ["NEGATIV", "POSITIV"]
print(classification_report(df.REALITAET, df.PROGNOSE, target_names=target_names))

Man kann natürlich jede dieser Kennzahlen (und noch viele weitere) mit Hilfe von Funktionen berechnen lassen:

In [None]:
from sklearn.metrics import *
TN, FP, FN, TP =  cm[0][0], cm[0][1], cm[1][0],cm[1][1]

accuracy = accuracy_score(df.REALITAET, df.PROGNOSE) # Accuracy
sensitivity = TP / (TP+FN) # Sensitivität
specificity = TN / (TN+FP) # Spezifität
precision = precision_score(df.REALITAET, df.PROGNOSE) # Precision
balanced_acc = balanced_accuracy_score(df.REALITAET, df.PROGNOSE) # balanced accuracy
f1 = f1_score(df.REALITAET, df.PROGNOSE) # F1-Score
mcc = matthews_corrcoef(df.REALITAET, df.PROGNOSE) # Mattews Korrelationskoeffizient

print("Accuracy = ", accuracy)
print("Sensitivitaet / Recall = ", sensitivity)
print("Spezifität = " , specificity)
print("Precision = ", precision)
print("Balanced Accuracy = " , balanced_acc)
print("F1-Score = " , f1)
print("Matthews Korrelationskoeffizient = " , mcc)
