# Porto Seguro Notebook
In diesem Notebook wird der Datensatz der brasilianischen Versicherungsfirma Porto Seguro aus einem Wettbewerb der Online-Community kaggle analysiert. Er ist unter dem folgenden Link erhältlich: <https://www.kaggle.com/competitions/porto-seguro-safe-driver-prediction/data?select=train.csv>
Der Datensatz enthält Daten über Personen mit einer KfZ-Versicherung und soll dafür genutzt werden die Wahrscheinlichkeit eines Versicherungsfalles im Laufe des nächsten Jahres für eine bestimmte Person vorauszusagen. Von insgesamt 595.212 versicherten Personen im Trainingsdatensatz tritt bei 21.694 der Versicherungsfall im Laufe des Jahres ein. Der Datensatz weist damit ein hohes Ungleichgewicht auf, denn die Versicherungsfälle bilden im Trainingsdatensatz einen Anteil von etwa 3,645%. Ein Datenpunkt einer versicherten Person besteht aus 57 Attributen, einer `id` und der tatsächlichen Klasse `target`. Die `id` ist eine einzigartige Zuordnungsnummer, `target` die Zahl 0 oder 1. 0 steht für keinen Versicherungsfall im kommenden Jahr und 1 steht für einen Versicherungsfall im kommenden Jahr. Die 57 Attribute sind kontinuierlich, binär, nominal oder ordinal. Sie sind gekennzeichnet durch die Endungen `_bin` für binäre Attribute und `_cat` für kategorische Attribute. Die mittleren Namensteile der Daten geben weiteren Aufschluss über bestimmte Eigenschaften. `ind` bezieht sich auf die versicherte Person, `reg` bezieht sich auf eine Region, `car` bezieht sich auf das Auto und `calc` ist ein berechnetes Attribut. Attribute ohne eine Endung sind entweder ordinal oder kontinuierlich. Fehlende Werte bei Attributen sind als -1 gekennzeichnet.
Das Notebook ist dabei in folgende Kapitel unterteilt:

- **Initialisierung**: Einstellungen für nachfolgende Notebook Kapitel, Laden des Datensatzes und Verarbeitung fehlender Werte.
- **Visualisierung**: Visualisierung der Verteilungen der einiger Attribute des Datensatzes.
- **Analyse**:
    - ***Training 1***: Aufspaltung des Datensatzes in Features und Labels. Transformation der Daten mit einem One-Hot-Encoder. Training verschiedener Algorithmen für das binäre Klassifikationsproblem.
    - ***Klassierung 1***: Klassierung der Testdaten.
    - ***Auswertung 1***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.
    - ***Datenmodifikation 2***: Modifikation der Daten durch Oversampling-Algorithmen.
    - ***Training 2.1***: Training verschiedener Algorithmen mit durch Random Oversampling modifizierten Trainingsdaten für das binäre Klassifikationsproblem.
    - ***Klassierung 2.1***: Klassierung der durch Random Oversampling modifizierten Testdaten.
    - ***Auswertung 2.1***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.
    - ***Training 2.2.1***: Training verschiedener Algorithmen mit durch SMOTE (Rechteck) modifizierten Trainingsdaten für das binäre Klassifikationsproblem.
    - ***Klassierung 2.2.1***: Klassierung der durch SMOTE (Rechteck) modifizierten Testdaten.
    - ***Auswertung 2.2.1***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.
    - ***Training 2.2.2***: Training verschiedener Algorithmen mit durch SMOTE (Linie) modifizierten Trainingsdaten für das binäre Klassifikationsproblem.
    - ***Klassierung 2.2.2***: Klassierung der durch SMOTE (Linie) modifizierten Testdaten.
    - ***Auswertung 2.2.2***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.
    - ***Training 2.3***: Training verschiedener Algorithmen mit durch Borderline SMOTE modifizierten Trainingsdaten für das binäre Klassifikationsproblem.
    - ***Klassierung 2.3***: Klassierung der durch Borderline SMOTE modifizierten Testdaten.
    - ***Auswertung 2.3***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.
    - ***Training 2.4***: Training verschiedener Algorithmen mit durch ADASYN modifizierten Trainingsdaten für das binäre Klassifikationsproblem.
    - ***Klassierung 2.4***: Klassierung der durch ADASYN modifizierten Testdaten.
    - ***Auswertung 2.4***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.
    - ***Experimente***: Austesten von Kombinationen verschiedener Techniken zur Datenmodifikation.
    - ***Datenmodifikation 3.1***: Der Trainingsdatensatz wird in vier gleich große Teile aufgespalten. Jeder der Teile wird von unterschiedlichen Oversampling-Algorithmen ausbalanciert. Nach Oversampling werden die vier Datensätze wieder zu einem einzigen zusammengefügt.
    - ***Training 3.1***: Training verschiedener Algorithmen mit modifizierten Trainingsdaten für das binäre Klassifikationsproblem.
    - ***Klassierung 3.1***: Klassierung der modifizierten Testdaten.
    - ***Auswertung 3.1***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.
    - ***Datenmodifikation 3.2***: Der Trainingsdatensatz wird gestaffelt von vier verschiedenen Oversampling-Algorithmen ausbalanciert. Nach und nach wird ein Verhältnis von zuerst 1:4 bis hin zu 4:4 zwischen den zwei Klassen des binären Klassifikationsproblems hergestellt.
    - ***Training 3.2***: Training verschiedener Algorithmen mit modifizierten Trainingsdaten für das binäre Klassifikationsproblem.
    - ***Klassierung 3.2***: Klassierung der modifizierten Testdaten.
    - ***Auswertung 3.2***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.

Für eine Interpretation der Ergebnisse seien Leser:innen auf die Bachelorarbeit verwiesen.

### Initialisierung
In diesem Kapitel werden Einstellungen für nachfolgende Kapitel des Notebooks vorgenommen, der mit Klassenzuordnungen versehene Datensatz `ps_train` (csv Datei) in einer Variable abgespeichert und fehlende Werte durch den Median aller Werte in deren zugehöriger Merkmalsausprägung ersetzt.

Importieren aller benötigten Module und Funktionen

In [None]:
# Visualisierung der Diagramme direkt im Notebook.
%matplotlib inline
# Importieren des Moduls matplotlib unter dem Namen mpl um Parameter für die Visualisierung festzulegen.
import matplotlib as mpl
# Importieren des Moduls matplotlib.pyplot zur Visualisierung.
import matplotlib.pyplot as plt
# Benötigte Importierungen der Module numpy und os.
import numpy as np
# Importieren des Moduls os um Zugriff auf das Festplattenverzeichnis zu erlangen.
import os
# Importieren der Funkion scatter_matrix aus dem Modul pandas.plotting zur Visualisierung von ccf_data in Streudiagrammen.
from pandas.plotting import scatter_matrix
# Importieren der Funktion train_test_split aus dem Modul sklearn.model_selection
from sklearn.model_selection import train_test_split

# Importieren des KNeighborsClassifier aus dem Modul sklearn.neighbors .
from sklearn.neighbors import KNeighborsClassifier
# Importieren der Funktion DecisionTreeClassifier aus dem Modul sklearn.tree .
from sklearn.tree import DecisionTreeClassifier
# Importieren der Funktion RandomForestClassifier aus dem Modul sklearn.ensemble .
from sklearn.ensemble import RandomForestClassifier
# Importieren der Funktion GaussianNB aus dem Modul sklearn.naive_bayes .
from sklearn.naive_bayes import GaussianNB

# Importieren von Seaborn zur Visualisierung der Konfusionsmatrix
import seaborn as sns
# Importieren der Funktionen roc_curve, roc_auc_score und precision_recall_curve, average_precision_score aus dem Modul sklearn.metrics zur Erstellung der ROC und PR Kurve sowie zur Berechnung des Flächeninhalts AUROC und dem gewichteten Mittelwert der Werte für precision an jedem Punkt der PR-Kurve.
from sklearn.metrics import roc_curve, roc_auc_score, precision_recall_curve, average_precision_score
# Importieren der Funktion confusion_matrix aus dem Modul sklearn.metrics .
from sklearn.metrics import confusion_matrix
# Importieren des Moduls pandas um das Auslesen der csv Datei zu ermöglichen.
import pandas as pd

# Importierungen zur Transformation des Datensatzes
from sklearn.compose import make_column_transformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler, QuantileTransformer

# Importieren der Funktionen RandomOverSampler, SMOTE, BorderlineSMOTE und ADASYN aus dem Modul imblearn.oversampling
from imblearn.over_sampling import RandomOverSampler, SMOTE, BorderlineSMOTE, ADASYN
# Importieren des Moduls pySMOTE für SMOTE mit der Interpolationsvariante Rechteck
import pySMOTE

In diesem Abschnitt werden verschiedene Funktionen für die nachfolgenden Notebook Abschnitte definiert.

In [None]:
# Funktion zur Abspeicherung von Bildern.
# fig_id legt den Namen des abgespeicherten Bildes fest.
# tight_layout passt automatisch die Größe mehrerer untergeordneter Graphen an, damit diese sich nicht überschneiden.
# fig_extension legt den Datentyp des abgespeicherten Bildes fest.
# resolution bestimmt die Auflösung des Bildes.
def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("Saving figure", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

Die Zelle definiert eine Funktion, um das Abspeichern einer csv Dateien zu ermöglichen.

In [None]:
# Abspeichern des Pfades, unter welchem der Datensatz des Wettbewerbs abgespeichert ist.
PS_PATH = os.path.join("datasets", "ps")

# Definition der Funktion load_ps_data.
def load_ps_data(ccf_path=PS_PATH):
    # Abspeichern des Pfades, unter welchem der Datensatz ps_test abgespeichert ist, in der Variable csv_path.
    csv_path = os.path.join(ccf_path, "ps_train.csv")
    # Auslesen der Daten in der csv Datei mit Hilfe von pandas. Abspeicherung in der Variablen data.
    # Merkmalsausprägungen, welche in dem Datensatz fehlen, wurden durch den Wert -1 ersetzt. Diese Stellen werden im Folgenden durch den Ausdruck NaN (Not a Number) ausgetauscht.
    data = pd.read_csv(csv_path, na_values='-1')
    # Die fehlende Werte, welche nun durch NaN gekennzeichnet sind, werden durch den Median in ihrer Attributsspalte ausgetauscht.
    data.fillna(value=data.median(), inplace=True)
    # Rückgabe des vollständigen Datensatzes.
    return data

Funktion um sechs verschiedene Klassifikatoren zu initialisieren. Für diese Funktionen werden Standardparameter definiert, wie beispielsweise 'neighbors' , 'estimators' und 'leafs', welche die Klassifikatoren individuell beeinflussen. Diese können abgeändert werden, sofern eine Umstellung der Klassifikatoren erwünscht ist.

In [None]:
# Funktion welche eine Liste von initialisierten Klassifikatoren zurückgibt
def create_classifiers(include_knn=True, neighbors=5, jobs=-1, random=42, estimators=10, leafs=16, alph=1, iter=1000):
    classifier_list= [# Initialisieren des KNeighborsClassifier.
                      # n_neighbors=5 bedeutet, dass für die Klassierung eines Punktes die Information von 5 Nachbarn beachtet wird.
                      # n_jobs=-1 bedeutet, dass für die Berechnungen alle Kerne des CPU genutzt werden (-> schneller).
                      KNeighborsClassifier(n_neighbors=neighbors, n_jobs=jobs),
                      # Initialisieren des DecisionTreeClassifier mit dem Blatt-Aufspaltungskriterium 'gini' und dem random_state=42 um reproduzierbare Ergebnisse zu ermöglichen.
                      DecisionTreeClassifier(criterion='gini', random_state=random),
                      # Initialisieren des DecisionTreeClassifier mit dem Blatt-Aufspaltungskriterium 'entropy' und dem random_state=42 um reproduzierbare Ergebnisse zu ermöglichen.
                      DecisionTreeClassifier(criterion='entropy', random_state=random),
                      # Initialisieren eines RandomForestClassifier.
                      # n_estimators=10 bedeutet, dass 10 Bäume erzeugt werden, welche das Voting übernehmen.
                      # max_leaf_nodes=16 bedeutet, dass ein einzelner Baum der erzeugt wird, maximal 16 Blattknoten besitzen darf.
                      # Festlegen des random_state auf 42 damit das Ergebnis reproduzierbar bleibt.
                      # n_jobs=-1 bedeutet, dass für die Berechnungen alle Kerne des CPU genutzt werden (-> schneller).
                      # criterion='entropy' legt Gini als Kriterium zur Aufspaltung der Knoten in den Entscheidungsbäumen fest.
                      RandomForestClassifier(n_estimators=estimators, max_leaf_nodes=leafs, random_state=random, n_jobs=jobs, criterion='gini'),
                      # Initialisieren eines RandomForestClassifier.
                      # n_estimators=10 bedeutet, dass 10 Bäume erzeugt werden, welche das Voting übernehmen.
                      # max_leaf_nodes=16 bedeutet dass ein einzelner Baum der erzeugt wird, maximal 16 Blattknoten besitzen darf.
                      # Festlegen des random_state auf 42 damit das Ergebnis reproduzierbar bleibt.
                      # n_jobs=-1 bedeutet, dass für die Berechnungen alle Kerne des CPU genutzt werden (-> schneller).
                      # criterion='entropy' legt die Entropie als Kriterium zur Aufspaltung der Knoten in den Entscheidungsbäumen fest.
                      RandomForestClassifier(n_estimators=estimators, max_leaf_nodes=leafs, random_state=random, n_jobs=jobs, criterion='entropy'),
                      # Initialisieren eines Gaussian Naive Bayes.
                      GaussianNB()]
    # Rückgabe der Liste an Klassifikatoren
    return classifier_list

Funktion, um die in einer Liste abgespeicherten Klassifikatoren mit einem Trainingsdatensatz (bestehend aus den Attributsausprägungen 'train_features' und den Klassenzuordnungen 'train_labels') zu trainieren.

In [None]:
# Funktion zum Trainieren von Klassifikatoren mit Trainingsdaten.
# Die Trainingsdaten bestehen dabei aus den Features train_features und den Klassenzuordnungen train_labels.
# In classifier_list sind die am Training teilnehmenden Klassifikatoren abgespeichert.
def train_models(train_features, train_labels, classifier_list):
    # Iterieren über die Liste der am Training teilnehmenden Klassifikatoren
    for classifier in classifier_list:
        # Training des aktuell ausgewählten Klassifikators mit den Trainingsdaten train_features und train_labels
        classifier.fit(train_features, train_labels)

Funktion um mit den trainierten Klassifikatoren einen Testdatensatz zu klassieren. Die Funktion gibt sowohl eindeutige Zuordnungen ('predictions'), als auch Wahrscheinlichkeiten für die Zuordnung zu einer Klasse ('prediction_probas') zurück.

In [None]:
# Funktion zur Klassierung von Testdaten durch verschiedene Klassifikatoren.
def klassieren(test_features, classifier_list):
    # Anlegen zweier Listen. predictions speichert dabei die Klassierungen der Klassifikatoren aus der classifier_list ab. prediction_probas speichert die Wahrscheinlichkeiten für eine Klassenzugehörigkeit ab, welche die Klassifikatoren aus der classifier_list für einen Datenpunkt aus den Testdaten berechnet haben.
    predictions=[]
    prediction_probas=[]
    # Iterieren über die Klassifikatoren aus der classifier_list.
    for classifier in classifier_list:
        # Klassierung der Testdaten.
        predictions.append(classifier.predict(test_features))
        # Berechnung der Wahrscheinlichkeit für eine Klassenzuordnung.
        prediction_probas.append((classifier.predict_proba(test_features)))
    # Rückgabe der Klassierungen und Wahrscheinlichkeiten für eine Klassenzuordnung.
    return predictions, prediction_probas

Funktion zur Erstellung einer Konfusionsmatrix. Diese wurde übernommen aus dem folgenden GitHub repository: <https://github.com/DTrimarchi10/confusion_matrix/blob/master/cf_matrix.py>
Um die Ausgabe der Matrix mit der Verwendung in der Bachelorarbeit konsistent zu halten, wurden die Klassen 0 und 1 vertauscht. Zudem wurden die TN-Rate als Bewertungskennzahl hinzugefügt, die Größe der Abbildung abgeändert, zwei Parameter der Funktion abgeändert und die Kommentare auf Deutsch übersetzt.

In [None]:
def make_confusion_matrix(cf,
                          group_names=None,
                          count=True,
                          percent=True,
                          cbar=True,
                          xyticks=True,
                          xyplotlabels=True,
                          sum_stats=True,
                          figsize=None,
                          cmap='Blues',
                          title=None):
    '''
    This function will make a pretty plot of an sklearn Confusion Matrix cm using a Seaborn heatmap visualization.  #####Deutsch: Diese Funktion erzeugt eine schöne grafische Darstellung einer sklearn Konfusionsmatrix mit der Hilfe der Seaborn-Heatmap.
    Arguments                                                                                                       #####Deutsch: Parameter
    ---------
    cf:            confusion matrix to be passed in                                                                 #####Deutsch: Konfusionsmatrix, die übergeben werden muss.
    group_names:   List of strings that represent the labels row by row to be shown in each square.                 #####Deutsch: Liste von Elementen des Datentyps String, welche die Klassenzuordnungen Zeile für Zeile repräsentieren, die in der Matrix angezeigt                                                                                                                               werden sollen.
    categories:    List of strings containing the categories to be displayed on the x,y axis. Default is 'auto'     #####Deutsch: Liste von Elementen des Datentyps String, welche die Kategorien enthält, die auf der x- und der y-Achse angezeigt werden sollen.
    count:         If True, show the raw number in the confusion matrix. Default is True.                           #####Deutsch: Falls True, wird die absolute Häufigkeit in den Feldern der Konfusionsmatrix angezeigt. Die Standardeinstellung ist True.
    percent:       If True, show the proportions for each category. Default is True.                                #####Deutsch: Falls True, werden die relativen Häufigkeiten der vier Kategorien im Verhältnis zum gesamten Datensatz angezeigt. Die                                                                                                                                             Standardeinstellung ist True.
    cbar:          If True, show the color bar. The cbar values are based off the values in the confusion matrix.   #####Deutsch: Falls True, wird eine Farblegende für den Farbverlauf der einzelnen Felder angezeigt. Die Standardeinstellung ist True.
                   Default is True.
    xyticks:       If True, show x and y ticks. Default is True.                                                    #####Deutsch: Falls True, werden die Felder der Heatmap mit den Klassenzugehörigkeiten beschriftet. Die Standardeinstellung ist True.
    xyplotlabels:  If True, show 'True Label' and 'Predicted Label' on the figure. Default is True.                 #####Deutsch: Falls True, werden die übergeordneten Beschriftungen 'Tatsächliche Klassenzuordnung' und 'Vorhergesagte Klassenzuordnung' angezeigt.                                                                                                                              Die Standardeinstellung ist True.
    sum_stats:     If True, display summary statistics below the figure. Default is True.                           #####Deutsch: Falls True, werden unter der Heatmap einige Bewertungskennzahlen angezeigt. Die Standardeinstellung ist True.
    figsize:       Tuple representing the figure size. Default will be the matplotlib rcParams value.               #####Deutsch: Tupel, welches die Abbildungsgröße festlegt. Die Standardeinstellungen sind die matplotlib rcParams Werte.
    cmap:          Colormap of the values displayed from matplotlib.pyplot.cm. Default is 'Blues'                   #####Deutsch: Farbzuordnung der Werte die von matplotlib.pyplot.cm. angezeigt werden. Die Standardeinstellung ist 'Blues' (deutsch: Blautöne).
                   See http://matplotlib.org/examples/color/colormaps_reference.html                                              Referenz zur matplotlib colormap: http://matplotlib.org/examples/color/colormaps_reference.html

    title:         Title for the heatmap. Default is None.                                                          #####Deutsch: Titel der Heatmap. Standardmäßig gibt es keinen Titel.
    '''

    # Vertauschen der Klassen für die Konsistenz der Konfusionsmatrix mit der restlichen Bachelorarbeit
    e00 = cf[0][0]
    e01 = cf[0][1]
    e10 = cf[1][0]
    e11 = cf[1][1]

    cf[0][0] = e11
    cf[1][1] = e00
    cf[0][1] = e10
    cf[1][0] = e01

    # CODE TO GENERATE TEXT INSIDE EACH SQUARE                                                                      #####Deutsch: Source Code, um Text in jedem Feld zu erzeugen
    blanks = ['' for i in range(cf.size)]

    if group_names and len(group_names)==cf.size:
        group_labels = ["{}\n".format(value) for value in group_names]
    else:
        group_labels = blanks

    if count:
        group_counts = ["{0:0.0f}\n".format(value) for value in cf.flatten()]
    else:
        group_counts = blanks

    if percent:
        group_percentages = ["{0:.2%}".format(value) for value in cf.flatten()/np.sum(cf)]
    else:
        group_percentages = blanks

    box_labels = [f"{v1}{v2}{v3}".strip() for v1, v2, v3 in zip(group_labels,group_counts,group_percentages)]
    box_labels = np.asarray(box_labels).reshape(cf.shape[0],cf.shape[1])


    # CODE TO GENERATE SUMMARY STATISTICS & TEXT FOR SUMMARY STATS                                                  #####Deutsch: Source Code, um Bewertungskennzahlen und Text dazu anzuzeigen
    if sum_stats:
        #Accuracy is sum of diagonal divided by total observations                                                  #####Deutsch: Die Accuracy ist die Summe der Diagonale, geteilt durch die gesamte Zahl an Datenpunkten die klassiert wurden
        accuracy  = np.trace(cf) / float(np.sum(cf))

        #if it is a binary confusion matrix, show some more stats                                                   #####Deutsch: Sofern es eine binäre Konfusionsmatrix ist, werden weitere Bewertungskennzahlen angezeigt
        if len(cf)==2:
            #Metrics for Binary Confusion Matrices                                                                  #####Deutsch: Bewertungskennzahlen für binäre Konfusionsmatrizen
            precision = cf[0,0] / sum(cf[:,0])
            recall    = cf[0,0] / sum(cf[0,:])
            f1_score  = 2*precision*recall / (precision + recall)
            tn_rate   = cf[1,1] / sum(cf[1,:])
            stats_text = "\n\nAccuracy={:0.3f}\nPrecision={:0.3f}\nTP-Rate/Recall={:0.3f}\nTN-Rate={:0.3f}\nF1 Score={:0.3f}".format(
                accuracy,precision,recall,tn_rate,f1_score)
        else:
            stats_text = "\n\nAccuracy={:0.3f}".format(accuracy)
    else:
        stats_text = ""


    # SET FIGURE PARAMETERS ACCORDING TO OTHER ARGUMENTS                                                            #####Deutsch: Parameter der Abbildung gemäß den übergebenen Parametern einstellen
    if figsize==None:
        #Get default figure size if not set                                                                         #####Deutsch: Sofern keine Abbildungsgröße angegeben wurde, wird die Standardgröße verwendet
        figsize = plt.rcParams.get('figure.figsize')

    if xyticks==False:
        #Do not show categories if xyticks is False                                                                 #####Deutsch: Die Matrix wird nicht mit den Klassenzugehörigkeiten beschriftet
        categories=False


    # MAKE THE HEATMAP VISUALIZATION                                                                                #####Deutsch: Visualisierung der Heatmap
    plt.figure(figsize=(1.5,1.5))
    sns.heatmap(cf,annot=box_labels,fmt="",cmap=cmap,cbar=cbar,xticklabels=[1, 0],yticklabels=[1, 0])

    if xyplotlabels:
        plt.ylabel('True label')
        plt.xlabel('Predicted label' + stats_text)
    else:
        plt.xlabel(stats_text)

    if title:
        plt.title(title)

Funktion zur Auswertung der trainierten Klassifikatoren mit dem Testdatensatz.

In [None]:
# Funktion zur Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
def auswerten(predictions, prediction_probas, identifier):

    # Liste von Klassifikatoren, um die Graphen des Algorithmus beschriften zu können.
    classifiers = ['K-Nearest-Neighbors', 'Decision_Tree_Gini', 'Decision_Tree_Entropy', 'Random_Forest_Gini', 'Random_Forest_Entropy', 'Gaussian_Naive_Bayes']


    # Initialisierung eines Zählers classifier_counter um zusätzlich über die Namen aus der Liste classifier iterieren zu können.
    classifier_counter = 0


    # Iterieren über alle Klassierungen in der Liste predictions.
    for prediction in predictions:

        # Anzeigen der Konfusionsmatrix.
        # Zeilen = tatsächliche Kategorien.
        # Spalten = vorhergesagte Kategorien.
        #ConfusionMatrixDisplay.from_predictions(ps_test_labels, prediction)
        cf_matrix = confusion_matrix(ps_test_labels, prediction)
        make_confusion_matrix(cf_matrix, figsize=(2,2), cbar=False, percent=False) # Bei Bedarf kann hier die Konfusionsmatrix mit dem Namen des Klassifikators beschriftet werden. Source Code: , title=classifiers[classifier_counter]

        # Einstellung der Schriftgröße
        sns.set(font_scale=.5)

        # Erzeugung eines Namens für die Konfusionsmatrix. Dieser setzt sich aus dem Klassifikator, '_Konfusionsmatrix_' und dem übergebenen identifier zusammen.
        fig_name = classifiers[classifier_counter] + '_Konfusionsmatrix_' + identifier

        # Abspeichern der Konfusionsmatrix in einem einzelnen Bild mit der im Kapitel Initialisierung definierten Funktion. Für eine verkürzte Ladezeit kann die Auflösung des Bildes in der Funktion save_fig reduziert werden.
        save_fig(fig_name)

        # Ausgabe unterdrücken
        plt.close()

        # Erhöhung des classifier_counter.
        classifier_counter=classifier_counter+1

    # Initialisierung eines Zählers classifier_counter um zusätzlich über die Namen aus der Liste classifier iterieren zu können.
    classifier_counter = 0

    # Iterieren über alle Wahrscheinlichkeiten für eine Klassenzuordnung in der Liste prediction_probas.
    for prediction_proba in prediction_probas:

        f, (ax1, ax2) = plt.subplots(1, 2, figsize=(6,3))

        #f.suptitle(classifiers[classifier_counter], fontsize=10) # Titel der Abbildung wurde auskommentiert und kann bei Bedarf durch Einkommentieren der Zeile wieder angegeben werden

        # Auswahl der Wahrscheinlichkeiten, dass ein Element Klasse 1 zugeordnet wird.
        prediction_proba = prediction_proba[:, 1]

        # Berechnung und Ausgabe des Flächeninhalts AUROC.
        auc = roc_auc_score(ps_test_labels, prediction_proba)

        # Erzeugung zweier Serien von False-Positive- und True-Positive-Rate um anschließend den ROC Graphen zeichnen zu können.
        fpr, tpr, _ = roc_curve(ps_test_labels, prediction_proba)

        # Beschriftung des ROC Graphen mit dem Namen des Klassifikators und dem Flächeninhalt unter der Kurve.
        label_roc = classifiers[classifier_counter] + ' (AUROC = %0.7f)'% auc

        # Darstellung der ROC Kurve mit Angabe des Flächeninhalts AUROC auf 7 Nachkommastellen genau. Einzelne Klassierungsergebnisse können durch Punkte symbolisiert werden mit dem folgendem Source Code: marker='.',
        ax1.plot(fpr, tpr, label=label_roc)

        # Titel
        ax1.set_title('ROC Plot')
        # Axenbeschriftungen
        ax1.set(xlabel='False Positive Rate', ylabel='True Positive Rate')
        # Legende
        ax1.legend()

        # Anzeigen des Funktionsgraphen
        # plt.show()

        # Erzeugung zweier Serien von Precision und Recall, um anschließend den PR Graphen zeichnen zu können
        precision, recall, thresholds = precision_recall_curve(ps_test_labels, prediction_proba)

        # Berechnung der Average Precision (vgl. https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html).
        precision_avg = average_precision_score(ps_test_labels, prediction_proba)

        label_pr = classifiers[classifier_counter] + ' (PR_AVG = %0.7f)'% precision_avg

        # Darstellung der Precision-Recall Kurve. Einzelne Klassierungsergebnisse können durch Punkte symbolisiert werden mit dem folgendem Source Code: marker='.',
        ax2.plot(recall, precision, label=label_pr)

        # Titel
        ax2.set_title('PR Plot')
        # Axenbeschriftungen
        ax2.set(xlabel='Recall', ylabel='Precision')
        # Legende
        ax2.legend()

        # Erzeugung eines Namens für den Plot. Dieser setzt sich aus dem Klassifikator, '_ROC_PR_' und dem übergebenen identifier zusammen.
        fig_name = classifiers[classifier_counter] + '_ROC_PR_' + identifier

        # Abspeichern des PR Plot in einem einzelnen Bild mit der im Kapitel Initialisierung definierten Funktion. Für eine verkürzte Ladezeit kann die Auflösung des Bildes in der Funktion save_fig reduziert werden.
        save_fig(fig_name)

        # Einstellung damit sich die beiden Grafiken der Abbildung nicht überschneiden.
        plt.tight_layout()

        # Ausgabe unterdrücken.
        plt.close()

        # Erhöhung des classifier_counter.
        classifier_counter=classifier_counter+1

Funktion um aus einem Datensatz (bestehend aus den Attributsausprägungen X und den Klassenzuordnungen y) alle Elemente einer Klasse herauszufiltern. In diesem Fall wird die Funktion dazu genutzt die Minderheit herauszufiltern und die Mehrheit zu entfernen.

In [None]:
def filter_minority(X, y, majority_class):

    i=0
    index_list=[]
    while i<len(X):
        if y[i]==majority_class:
            index_list.append(i)
        i +=1
    print(index_list)
    X.drop(index_list, inplace=True)
    minority = X.to_numpy()

    return minority

Methode um die Anwendung von pySMOTE an die Verwendung der restlichen Oversampling-Methoden anzugleichen

In [None]:
def smote_rectangle(X ,y, minority_class, majority_class, ratio=None, neighbors=5):

    # Herausfiltern der Minderheit aus dem Trainingsdatensatz
    ps_train_labels_new = y.reset_index(drop=True)
    ps_train_prepared_transformed_new = X.reset_index(drop=True)
    minority = filter_minority(ps_train_prepared_transformed_new, ps_train_labels_new, majority_class)

    # Formel, um die Menge an neu zu generierenden Punkten auf eine Anzahl zu erhöhen, welche die Anteile beider Klassen im Datensatz auf 50% setzt.
    if ratio is not None:
        ratio=ratio
    else:
        ratio = int(((len(y)/len(minority)) - 1)*100)
        subtraction = int(((len(y)/len(minority)) - 1)*100)%100
        ratio-=subtraction

    # Initialisierung und Anwendung der Funktion SMOTE aus dem Modul pySMOTE auf die Minderheit des Trainingsdatensatzes
    smote = pySMOTE.SMOTE(ratio=ratio, k_neighbors=neighbors)
    new_samples = smote.oversample(minority, merge=True)

    # Anlegen einer Spalte für die Klassenzugehörigkeiten der neuen Datenpunkte
    if minority_class==1:
        label_column = pd.DataFrame(1, index=np.arange(len(new_samples)), columns=['target'])
    else:
        label_column = pd.DataFrame(0, index=np.arange(len(new_samples)), columns=['target'])

    # Zusammenführung des alten Datensatzes mit den neu generierten Datenpunkten
    X = X.to_numpy()
    y = y.to_numpy()
    label_column = label_column.to_numpy()
    label_column = label_column.reshape(len(label_column),)


    X_res = np.concatenate((X, new_samples))
    y_res = np.concatenate((y, label_column))

    X_res = pd.DataFrame(X_res)
    y_res = pd.DataFrame(y_res)


    y_res[0] = y_res[0].astype(str)


    i=0
    while i<len(y_res):
        if y_res[0][i]=='1.0':
            y_res[0][i]='1'
        if y_res[0][i]=='0.0':
            y_res[0][i]='0'
        i +=1

    y_res[0] = y_res[0].astype(int)

    # Rückgabe des Trainingsdatensatzes, welcher nun die zusätzlich generierten Datenpunkte enthält.
    return X_res, y_res

##### Einstellungen für die verschiedenen Funktionen

In [None]:
# Um für mehrere Durchläufe des Notebooks die gleichen Ergebnisse zu erzeugen wird der Seed des RNG festgelegt.
np.random.seed(42)

# Einstellungen für die Achsenbeschriftungen.
mpl.rc('axes', labelsize=20)
mpl.rc('xtick', labelsize=13)
mpl.rc('ytick', labelsize=13)

# Erstellung eines Speicherort für die Graphen
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "ps_project_"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)

Nun wird die zuvor definierte Funktionen zum Laden der Daten genutzt und es werden die ersten fünf Datenpunkte ausgegeben.

In [None]:
ps_data = load_ps_data()
ps_data.head()

### Visualisierung
In diesem Kapitel werden einige Attribute des Datensatzes in Histogrammen visualisiert und als Bilder abgespeichert. Bei der Visualisierung des gesamten Datensatzes haben sich diese als repräsentativ herausgestellt. Die Visualisierung und Abspeicherung aller Attribute ist im Anschluss (aufgrund der langen Laufzeit) auskommentiert angegeben.

Visualisierung des Histogramms des Attributs 'ps_car_01_cat'.

In [None]:
ax = ps_data['ps_car_01_cat'].hist(bins=12)
ax.set_title('ps_car_01_cat', fontsize=15)
save_fig('histo_ps_car_01_cat')

Visualisierung des Attributs 'ps_ind_08_bin'.

In [None]:
ax = ps_data['ps_ind_08_bin'].value_counts().plot(kind='bar', rot=0)
ax.set_title('ps_ind_08_bin', fontsize=15)

save_fig('histo_ps_ind_08_bin')

Visualisierung des Attributs 'ps_calc_01'.

In [None]:
ax = ps_data['ps_calc_01'].hist(bins=10)
ax.set_title('ps_calc_01', fontsize=15)
save_fig('histo_ps_calc_01')

Visualisierung des Attributs 'ps_calc_14'.

In [None]:
ax = ps_data['ps_calc_14'].hist(bins=24)
ax.set_title('ps_calc_14', fontsize=15)
save_fig('histo_ps_calc_14')

Visualisierung des Attributs 'ps_reg_03'.

In [None]:
ax = ps_data['ps_reg_03'].hist(bins=50)
ax.set_title('ps_reg_03', fontsize=15)
save_fig('histo_ps_reg_03')

In [None]:
# Visualisierung des Datensatzes ps_data in Histogrammen mit jeweils bis zu 50 Säulen (bins=50).
# figsize gibt die Größe der Darstellung in Zoll an.
#ps_data.hist(bins=30, figsize=(60,40))
# Abspeichern der Histogramme in einem einzelnen Bild mit der im Kapitel Initialisierung definierten Funktion. Für eine verkürzte Ladezeit kann die Auflösung des Bildes in der Funktion save_fig reduziert werden.
#save_fig("attribute_histogram_plots_ps_data")
# Anzeigen der Histogramme mit dem Modul matplotlib.pyplot.
#plt.show()

### Analyse
In diesem Kapitel wird der Datensatz aufgespalten, sodass Machine Learning Algorithmen einen Großteil des Datensatzes für ihr Training verwenden können. Zudem werden einige Features entfernt und transformiert. Im Anschluss sollen die Algorithmen auf einem Testdatensatz (dem übrig gebliebenen kleineren Teil) ausgewertet werden. Die Auswertung erfolgt anhand von verschiedenen Bewertungskennzahlen und -methoden. Grundlage für alle Bewertungskennzahlen und -methoden bilden dabei die absoluten Häufigkeiten in der Konfusionsmatrix. Im Anschluss an diese erste Auswertung folgen zwei weitere Trainings- und Auswertungszyklen. Vor dem zweiten Trainings- und Auswertungszyklus wird der Trainingsdatensatz mit verschiedenen Oversampling-Algorithmen modifiziert. Vor dem dritten Trainings- und Auswertungszyklus werden Kombinationen von Oversampling-Algorithmen ausprobiert.

##### Training 1
Nach der Datentransformation werden nun erneut die Machine Learning Algorithmen trainiert. Zusätzlich wird ein K-Nearest-Neighbor Algorithmus trainiert. Dies ist nun nach der Transformation ungeordneter kategorischer Merkmale möglich.

Aufspalten des Datensatzes in Klassenzuordnungen und Merkmalsausprägungen.

In [None]:
# Abspeichern der Klassenzuordnungen (ursprüngliche "target"-Spalte) in der Variable ps_labels
ps_labels = ps_data["target"].copy()
# Abspeichern der Merkmalsausprägungen in der Variable ps_prepared
# axis=1 bedeutet, dass sich "target" auf eine Spalte bezieht
ps_prepared = ps_data.drop(["target", "id"], axis=1)

Aufspalten von Klassenzuordnungen und Merkmalsausprägungen in jeweils eine Trainings- und eine Testversion. 80% des Datensatzes wird für das Training genutzt und 20% für die Auswertung. Die Datensätze werden dabei stratifiziert. Das bedeutet, dass das Verhältnis an Klassenzuordnungen im gesamten Datensatz auch in den aufgeteilten Datensätzen widergespiegelt wird.

In [None]:
# 80% der Daten werden für den Trainingsdatensatz genutzt, 20% für den Testdatensatz (test_size=0.2).
# Der random_state wird auf 42 festgesetzt, damit das Ergebnis reproduzierbar ist.
# stratify=ps_labels sorgt dafür, die Datensätze stratifiziert werden.
ps_train_prepared, ps_test_prepared, ps_train_labels, ps_test_labels = train_test_split(ps_prepared, ps_labels, test_size=0.2, random_state=42, stratify=ps_labels)

##### Datenmodifikation
Die Daten werden im in der nachfolgenden Zelle durch einen Spaltentransformator transformiert.
In diesem Spaltentransformator werden die nominalen Werte werden mit einem One-Hot-Encoder transformiert. Dieser wandelt nominale Attribute mit n Kategorien in n Abfragen nach jeweils einer Kategorie um. Kann die Abfrage nach der Kategorie mit Ja beantwortet werden, so wird eine 1 eingetragen. Im anderen Fall wird eine 0 eingetragen. Dies dient dem Zweck, dass nominale Merkmalsausprägungen durch die Abstandsmetrik des K-Nearest-Neighbor-Algorithmus sinnvoll interpretiert werden können.

In [None]:
categorical_features = ['ps_ind_02_cat', 'ps_ind_04_cat', 'ps_ind_05_cat', 'ps_car_01_cat', 'ps_car_02_cat', 'ps_car_03_cat', 'ps_car_04_cat', 'ps_car_05_cat', 'ps_car_06_cat', 'ps_car_07_cat', 'ps_car_08_cat', 'ps_car_09_cat', 'ps_car_10_cat', 'ps_car_11_cat' ]

# Transformation der nominalen Attribute
column_trans = make_column_transformer(
    (OneHotEncoder(), categorical_features),
    # `passthrough` bedeutet, dass die übrigen Spalten unberührt bleiben, sparse_threshold=0 gibt immer einen bestimmten Datentyp zurück
    remainder='passthrough', n_jobs=-1, sparse_threshold=0
)

ps_train_prepared_transformed=pd.DataFrame(column_trans.fit_transform(ps_train_prepared))
ps_test_prepared_transformed=pd.DataFrame(column_trans.fit_transform(ps_test_prepared))

 Nun werden in den folgenden Zellen ein K-Nearest-Neighbors Algorithmus, zwei Entscheidungsbäume, zwei Random Forests und ein Gaussian Naive Bayes mit dem Trainingsdatensatz trainiert mit dem transformierten Trainingsdatensatz trainiert.

In [None]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_transformed = create_classifiers()

# Trainieren der Klassifikatoren mit den transformierten Trainingsdaten.
train_models(ps_train_prepared_transformed, ps_train_labels, classifier_list_transformed)

##### Klassierung 1
In diesem Abschnitt werden die Daten im Testdatensatz durch die trainierten Algorithmen klassiert.

In [None]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_transformed, prediction_probas_transformed = klassieren(ps_test_prepared_transformed, classifier_list_transformed)

##### Auswertung 1
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet und die Abbildungen der Auswertung abgespeichert.

In [None]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_transformed, prediction_probas_transformed, '1')

![K-Nearest-Neighbors_Konfusionsmatrix](images/ps_project_calc/K-Nearest-Neighbors_Konfusionsmatrix_1.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Gini_Konfusionsmatrix_1.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Entropy_Konfusionsmatrix_1.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Gini_Konfusionsmatrix_1.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Entropy_Konfusionsmatrix_1.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ps_project_calc/Gaussian_Naive_Bayes_Konfusionsmatrix_1.png)

![K-Nearest-Neighbors_ROC_PR](images/ps_project_calc/K-Nearest-Neighbors_ROC_PR_1.png)
![Decision_Tree_Gini_ROC_PR](images/ps_project_calc/Decision_Tree_Gini_ROC_PR_1.png)
![Decision_Tree_Entropy_ROC_PR](images/ps_project_calc/Decision_Tree_Entropy_ROC_PR_1.png)
![Random_Forest_Gini_ROC_PR](images/ps_project_calc/Random_Forest_Gini_ROC_PR_1.png)
![Random_Forest_Entropy_ROC_PR](images/ps_project_calc/Random_Forest_Entropy_ROC_PR_1.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ps_project_calc/Gaussian_Naive_Bayes_ROC_PR_1.png)

##### Datenmodifikation 2
In diesem Abschnitt werden auf die Datensätze Oversampling Methoden angewandt. Eine Illustration der Oversampling-Methoden mit den Auswirkungen auf die Entscheidungsregionen der hier ebenfalls verwendeten Klassifikatoren ist im Notebook 'Bsp_Oversampling(ROS, SMOTE, BSM, ADA)' zu finden. Die Abbildungen der Auswertung werden mit der Endung '_2*' abgespeichert. * steht hierbei für die konkrete Oversampling-Methode in der Versuchsreihe. Die Reihenfolge ist: ROS, SMOTE_Rechteck, SMOTE_Linie, Borderline_SMOTE, ADASYN

Der Random Oversampler wird auf den transformierten Datensatz angewandt.

In [None]:
# Festlegen des random_state auf 42 damit das Ergebnis reproduzierbar bleibt.
ros = RandomOverSampler(random_state=42)

# Resampling der Trainingsdaten (also Features und Labels)
ps_train_prepared_transformed_ros, ps_train_labels_transformed_ros = ros.fit_resample(ps_train_prepared_transformed, ps_train_labels)

Anwendung von SMOTE mit der Interpolationsmethode Rechteck. Hierbei werden die neuen Datenpunkte in einem Rechteck generiert, welches von den zwei erzeugenden Datenpunkten aufgespannt wird. Eine Illustration ist im Notebook 'Erzeugung_Datenpunkt_SMOTE_Rechteck' zu finden.

In [None]:
ps_train_prepared_transformed_sm_rectangle, ps_train_labels_transformed_sm_rectangle = smote_rectangle(ps_train_prepared_transformed, ps_train_labels, 1, 0)

ps_train_labels_transformed_sm_rectangle = ps_train_labels_transformed_sm_rectangle.values.ravel()
ps_train_prepared_transformed_sm_rectangle_np = ps_train_prepared_transformed_sm_rectangle.to_numpy()

SMOTE mit der Interpolationsmethode Linie wird auf den transformierten Datensatz angewandt. Hierbei werden die neuen Datenpunkte auf einer Verbindungslinie zwischen zwei erzeugenden Datenpunkten generiert. Eine Illustration ist im Notebook 'Erzeugung_Datenpunkt_SMOTE_Linie' zu finden.

In [None]:
# Festlegen des random_state auf 42 damit das Ergebnis reproduzierbar bleibt. n_jobs=-1 bedeutet, dass für die Berechnungen alle Kerne des CPU genutzt werden (--> schneller). Sonst werden die Standardparameter genutzt.
sm = SMOTE(random_state=42, n_jobs=-1)

# Resampling der Trainingsdaten (also Features und Labels)
ps_train_prepared_transformed_sm, ps_train_labels_transformed_sm = sm.fit_resample(ps_train_prepared_transformed, ps_train_labels)

Borderline SMOTE wird auf den transformierten Datensatz angewandt.

In [None]:
# Festlegen des random_state auf 42 damit das Ergebnis reproduzierbar bleibt. n_jobs=-1 bedeutet, dass für die Berechnungen alle Kerne des CPU genutzt werden (--> schneller). Sonst werden die Standardparameter genutzt.
bsm = BorderlineSMOTE(random_state=42, n_jobs=-1)

# Resampling der Trainingsdaten (also Features und Labels)
ps_train_prepared_transformed_bsm, ps_train_labels_transformed_bsm = bsm.fit_resample(ps_train_prepared_transformed, ps_train_labels)

ADASYN wird auf den transformierten Datensatz angewandt.

In [None]:
# Festlegen des random_state auf 42 damit das Ergebnis reproduzierbar bleibt. n_jobs=-1 bedeutet, dass für die Berechnungen alle Kerne des CPU genutzt werden (--> schneller). Sonst werden die Standardparameter genutzt.
ada = ADASYN(random_state=42, n_jobs=-1)

# Resampling der Trainingsdaten (also Features und Labels)
ps_train_prepared_transformed_ada, ps_train_labels_transformed_ada = ada.fit_resample(ps_train_prepared_transformed, ps_train_labels)

##### Training 2.1

Die Klassifikatoren werden mit den transformierten und durch Random Oversampling balancierten Trainingsdaten trainiert.

In [None]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_transformed_ros = create_classifiers()

# Trainieren der Klassifikatoren mit den transformierten und durch Random Oversampling ausbalancierten Trainingsdaten.
train_models(ps_train_prepared_transformed_ros, ps_train_labels_transformed_ros, classifier_list_transformed_ros)

##### Klassierung 2.1
In diesem Abschnitt werden die Daten im Testdatensatz durch die trainierten Algorithmen klassiert.

In [None]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_transformed_ros, prediction_probas_transformed_ros = klassieren(ps_test_prepared_transformed, classifier_list_transformed_ros)

##### Auswertung 2.1
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet.

In [None]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_transformed_ros, prediction_probas_transformed_ros, '21')

![K-Nearest-Neighbors_Konfusionsmatrix](images/ps_project_calc/K-Nearest-Neighbors_Konfusionsmatrix_21.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Gini_Konfusionsmatrix_21.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Entropy_Konfusionsmatrix_21.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Gini_Konfusionsmatrix_21.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Entropy_Konfusionsmatrix_21.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ps_project_calc/Gaussian_Naive_Bayes_Konfusionsmatrix_21.png)

![K-Nearest-Neighbors_ROC_PR](images/ps_project_calc/K-Nearest-Neighbors_ROC_PR_21.png)
![Decision_Tree_Gini_ROC_PR](images/ps_project_calc/Decision_Tree_Gini_ROC_PR_21.png)
![Decision_Tree_Entropy_ROC_PR](images/ps_project_calc/Decision_Tree_Entropy_ROC_PR_21.png)
![Random_Forest_Gini_ROC_PR](images/ps_project_calc/Random_Forest_Gini_ROC_PR_21.png)
![Random_Forest_Entropy_ROC_PR](images/ps_project_calc/Random_Forest_Entropy_ROC_PR_21.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ps_project_calc/Gaussian_Naive_Bayes_ROC_PR_21.png)

##### Training 2.2.1
Die Klassifikatoren werden mit den transformierten und durch SMOTE balancierten Trainingsdaten trainiert.

In [None]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_transformed_sm_rectangle = create_classifiers()

# Trainieren der Klassifikatoren mit den transformierten und durch SMOTE ausbalancierten Trainingsdaten.
train_models(ps_train_prepared_transformed_sm_rectangle, ps_train_labels_transformed_sm_rectangle, classifier_list_transformed_sm_rectangle)

##### Klassierung 2.2.1
In diesem Abschnitt werden die Daten im Testdatensatz durch die trainierten Algorithmen klassiert.

In [None]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_transformed_sm_rectangle, prediction_probas_transformed_sm_rectangle = klassieren(ps_test_prepared_transformed, classifier_list_transformed_sm_rectangle)

##### Auswertung 2.2.1
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet.

In [None]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_transformed_sm_rectangle, prediction_probas_transformed_sm_rectangle, '22_1')

![K-Nearest-Neighbors_Konfusionsmatrix](images/ps_project_calc/K-Nearest-Neighbors_Konfusionsmatrix_22_1.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Gini_Konfusionsmatrix_22_1.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Entropy_Konfusionsmatrix_22_1.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Gini_Konfusionsmatrix_22_1.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Entropy_Konfusionsmatrix_22_1.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ps_project_calc/Gaussian_Naive_Bayes_Konfusionsmatrix_22_1.png)

![K-Nearest-Neighbors_ROC_PR](images/ps_project_calc/K-Nearest-Neighbors_ROC_PR_22_1.png)
![Decision_Tree_Gini_ROC_PR](images/ps_project_calc/Decision_Tree_Gini_ROC_PR_22_1.png)
![Decision_Tree_Entropy_ROC_PR](images/ps_project_calc/Decision_Tree_Entropy_ROC_PR_22_1.png)
![Random_Forest_Gini_ROC_PR](images/ps_project_calc/Random_Forest_Gini_ROC_PR_22_1.png)
![Random_Forest_Entropy_ROC_PR](images/ps_project_calc/Random_Forest_Entropy_ROC_PR_22_1.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ps_project_calc/Gaussian_Naive_Bayes_ROC_PR_22_1.png)

##### Training 2.2.2
Die Klassifikatoren werden mit den transformierten und durch SMOTE balancierten Trainingsdaten trainiert.

##### Training 2.2.2
Die Klassifikatoren werden mit den transformierten und durch SMOTE balancierten Trainingsdaten trainiert.

In [None]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_transformed_sm = create_classifiers()

# Trainieren der Klassifikatoren mit den transformierten und durch SMOTE ausbalancierten Trainingsdaten.
train_models(ps_train_prepared_transformed_sm, ps_train_labels_transformed_sm, classifier_list_transformed_sm)

##### Klassierung 2.2.2
In diesem Abschnitt werden die Daten im Testdatensatz durch die trainierten Algorithmen klassiert.

In [None]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_transformed_sm, prediction_probas_transformed_sm = klassieren(ps_test_prepared_transformed, classifier_list_transformed_sm)

##### Auswertung 2.2.2
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet.

In [None]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_transformed_sm, prediction_probas_transformed_sm, '22_2')

![K-Nearest-Neighbors_Konfusionsmatrix](images/ps_project_calc/K-Nearest-Neighbors_Konfusionsmatrix_22_2.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Gini_Konfusionsmatrix_22_2.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Entropy_Konfusionsmatrix_22_2.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Gini_Konfusionsmatrix_22_2.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Entropy_Konfusionsmatrix_22_2.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ps_project_calc/Gaussian_Naive_Bayes_Konfusionsmatrix_22_2.png)

![K-Nearest-Neighbors_ROC_PR](images/ps_project_calc/K-Nearest-Neighbors_ROC_PR_22_2.png)
![Decision_Tree_Gini_ROC_PR](images/ps_project_calc/Decision_Tree_Gini_ROC_PR_22_2.png)
![Decision_Tree_Entropy_ROC_PR](images/ps_project_calc/Decision_Tree_Entropy_ROC_PR_22_2.png)
![Random_Forest_Gini_ROC_PR](images/ps_project_calc/Random_Forest_Gini_ROC_PR_22_2.png)
![Random_Forest_Entropy_ROC_PR](images/ps_project_calc/Random_Forest_Entropy_ROC_PR_22_2.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ps_project_calc/Gaussian_Naive_Bayes_ROC_PR_22_2.png)

##### Training 2.3
Die Klassifikatoren werden mit den transformierten und durch Borderline SMOTE balancierten Trainingsdaten trainiert.

In [None]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_transformed_bsm = create_classifiers()

# Trainieren der Klassifikatoren mit den transformierten und durch Borderline SMOTE ausbalancierten Trainingsdaten.
train_models(ps_train_prepared_transformed_bsm, ps_train_labels_transformed_bsm, classifier_list_transformed_bsm)

##### Klassierung 2.3
In diesem Abschnitt werden die Daten im Testdatensatz durch die trainierten Algorithmen klassiert.

In [None]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_transformed_bsm, prediction_probas_transformed_bsm = klassieren(ps_test_prepared_transformed, classifier_list_transformed_bsm)

##### Auswertung 2.3
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet.

In [None]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_transformed_bsm, prediction_probas_transformed_bsm, '23')

![K-Nearest-Neighbors_Konfusionsmatrix](images/ps_project_calc/K-Nearest-Neighbors_Konfusionsmatrix_23.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Gini_Konfusionsmatrix_23.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Entropy_Konfusionsmatrix_23.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Gini_Konfusionsmatrix_23.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Entropy_Konfusionsmatrix_23.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ps_project_calc/Gaussian_Naive_Bayes_Konfusionsmatrix_23.png)

![K-Nearest-Neighbors_ROC_PR](images/ps_project_calc/K-Nearest-Neighbors_ROC_PR_23.png)
![Decision_Tree_Gini_ROC_PR](images/ps_project_calc/Decision_Tree_Gini_ROC_PR_23.png)
![Decision_Tree_Entropy_ROC_PR](images/ps_project_calc/Decision_Tree_Entropy_ROC_PR_23.png)
![Random_Forest_Gini_ROC_PR](images/ps_project_calc/Random_Forest_Gini_ROC_PR_23.png)
![Random_Forest_Entropy_ROC_PR](images/ps_project_calc/Random_Forest_Entropy_ROC_PR_23.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ps_project_calc/Gaussian_Naive_Bayes_ROC_PR_23.png)

##### Training 2.4
Die Klassifikatoren werden mit den transformierten und durch ADASYN balancierten Trainingsdaten trainiert.

In [None]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_transformed_ada = create_classifiers()

# Trainieren der Klassifikatoren mit den transformierten und durch ADASYN ausbalancierten Trainingsdaten.
train_models(ps_train_prepared_transformed_ada, ps_train_labels_transformed_ada, classifier_list_transformed_ada)

##### Klassierung 2.4
In diesem Abschnitt werden die Daten im Testdatensatz durch die trainierten Algorithmen klassiert.

In [None]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_transformed_ada, prediction_probas_transformed_ada = klassieren(ps_test_prepared_transformed, classifier_list_transformed_ada)

##### Auswertung 2.4
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet.

In [None]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_transformed_ada, prediction_probas_transformed_ada, '24')

![K-Nearest-Neighbors_Konfusionsmatrix](images/ps_project_calc/K-Nearest-Neighbors_Konfusionsmatrix_24.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Gini_Konfusionsmatrix_24.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Entropy_Konfusionsmatrix_24.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Gini_Konfusionsmatrix_24.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Entropy_Konfusionsmatrix_24.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ps_project_calc/Gaussian_Naive_Bayes_Konfusionsmatrix_24.png)

![K-Nearest-Neighbors_ROC_PR](images/ps_project_calc/K-Nearest-Neighbors_ROC_PR_24.png)
![Decision_Tree_Gini_ROC_PR](images/ps_project_calc/Decision_Tree_Gini_ROC_PR_24.png)
![Decision_Tree_Entropy_ROC_PR](images/ps_project_calc/Decision_Tree_Entropy_ROC_PR_24.png)
![Random_Forest_Gini_ROC_PR](images/ps_project_calc/Random_Forest_Gini_ROC_PR_24.png)
![Random_Forest_Entropy_ROC_PR](images/ps_project_calc/Random_Forest_Entropy_ROC_PR_24.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ps_project_calc/Gaussian_Naive_Bayes_ROC_PR_24.png)

##### Experimente

In diesem Abschnitt werden als Experiment zwei unterschiedliche Kombinationen von Oversampling Algorithmen genutzt, um den Trainingsdatensatz zu balancieren. Anschließend werden jeweils verschiedene Klassifikatoren mit diesen modifizierten Datensätzen trainiert und ausgewertet. Die Abbildungen der Auswertung werden mit der Endung '_3*' abgespeichert. * steht hierbei für die konkrete Oversampling-Methode in der Versuchsreihe.

##### Datenmodifikation 3.1
Als erstes Experiment soll ausgetestet werden, welchen Einfluss ein Training unterschiedlicher Oversampling Algorithmen auf gleich große Teile des ursprünglichen Trainingsdatensatz hat, welche im Anschluss wieder zu einem großen Trainingsdatensatz zusammengesetzt werden.

In [None]:
# Zweimaliges Aufspalten in insgesamt 4 gleich große Teile

# Datensatz halbieren
# Der random_state wird auf 42 festgesetzt, damit das Ergebnis reproduzierbar ist.
# stratify=ps_labels sorgt dafür, die Datensätze stratifiziert werden.
ps_train_prepared_transformed_0, ps_train_prepared_transformed_1, ps_train_labels_0, ps_train_labels_1 = train_test_split(ps_train_prepared_transformed, ps_train_labels, test_size=0.5, random_state=42, stratify=ps_train_labels)

# Halbe Datensätze halbieren zu Vierteln
ps_train_prepared_transformed_0_0, ps_train_prepared_transformed_0_1, ps_train_labels_0_0, ps_train_labels_0_1 = train_test_split(ps_train_prepared_transformed_0, ps_train_labels_0, test_size=0.5, random_state=42, stratify=ps_train_labels_0)
ps_train_prepared_transformed_1_0, ps_train_prepared_transformed_1_1, ps_train_labels_1_0, ps_train_labels_1_1 = train_test_split(ps_train_prepared_transformed_1, ps_train_labels_1, test_size=0.5, random_state=42, stratify=ps_train_labels_1)

Oversampling Algorithmen auf die Datensätze anwenden: _0_0 = ROS; _0_1 = SMOTE; _1_0 = ADASYN; _1_1 = Borderline SMOTE

In [None]:
ps_train_prepared_transformed_0_0_ros, ps_train_labels_0_0_ros = ros.fit_resample(ps_train_prepared_transformed_0_0, ps_train_labels_0_0)

ps_train_prepared_transformed_0_1_sm, ps_train_labels_0_1_sm = sm.fit_resample(ps_train_prepared_transformed_0_1, ps_train_labels_0_1)

ps_train_prepared_transformed_1_0_ada, ps_train_labels_1_0_ada = ada.fit_resample(ps_train_prepared_transformed_1_0, ps_train_labels_1_0)

ps_train_prepared_transformed_1_1_bsm, ps_train_labels_1_1_bsm = bsm.fit_resample(ps_train_prepared_transformed_1_1, ps_train_labels_1_1)

# Überführung in ein Dataframe
ps_train_prepared_transformed_0_0_ros = pd.DataFrame(ps_train_prepared_transformed_0_0_ros)
ps_train_labels_0_0_ros = pd.DataFrame(ps_train_labels_0_0_ros)
ps_train_prepared_transformed_0_1_sm = pd.DataFrame(ps_train_prepared_transformed_0_1_sm)
ps_train_labels_0_1_sm = pd.DataFrame(ps_train_labels_0_1_sm)
ps_train_prepared_transformed_1_0_ada = pd.DataFrame(ps_train_prepared_transformed_1_0_ada)
ps_train_labels_1_0_ada = pd.DataFrame(ps_train_labels_1_0_ada)
ps_train_prepared_transformed_1_1_bsm = pd.DataFrame(ps_train_prepared_transformed_1_1_bsm)
ps_train_labels_1_1_bsm = pd.DataFrame(ps_train_labels_1_1_bsm)

# Zusammenfügen der Datensätze
ps_train_x1 = pd.concat([ps_train_prepared_transformed_0_0_ros,ps_train_prepared_transformed_0_1_sm, ps_train_prepared_transformed_1_0_ada, ps_train_prepared_transformed_1_1_bsm], axis=0)
ps_train_labels_x1 = pd.concat([ps_train_labels_0_0_ros,ps_train_labels_0_1_sm, ps_train_labels_1_0_ada, ps_train_labels_1_1_bsm], axis=0)
ps_train_labels_x1 = ps_train_labels_x1.values.ravel()

##### Training 3.1
Die Klassifikatoren werden mit den Trainingsdaten aus 4 verschiedenen parallelen Oversampling Algorithmen trainiert.

In [None]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_x1 = create_classifiers()

# Trainieren der Klassifikatoren mit den gemäß Experiment 1 abgeänderten Trainingsdaten.
train_models(ps_train_x1, ps_train_labels_x1, classifier_list_x1)

##### Klassierung 3.1
In diesem Abschnitt werden die Daten im Testdatensatz durch die trainierten Algorithmen klassiert.

In [None]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_x1, prediction_probas_x1 = klassieren(ps_test_prepared_transformed, classifier_list_x1)

##### Auswertung 3.1
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet.

In [None]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_x1, prediction_probas_x1, '31')

![K-Nearest-Neighbors_Konfusionsmatrix](images/ps_project_calc/K-Nearest-Neighbors_Konfusionsmatrix_31.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Gini_Konfusionsmatrix_31.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Entropy_Konfusionsmatrix_31.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Gini_Konfusionsmatrix_31.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Entropy_Konfusionsmatrix_31.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ps_project_calc/Gaussian_Naive_Bayes_Konfusionsmatrix_31.png)

![K-Nearest-Neighbors_ROC_PR](images/ps_project_calc/K-Nearest-Neighbors_ROC_PR_31.png)
![Decision_Tree_Gini_ROC_PR](images/ps_project_calc/Decision_Tree_Gini_ROC_PR_31.png)
![Decision_Tree_Entropy_ROC_PR](images/ps_project_calc/Decision_Tree_Entropy_ROC_PR_31.png)
![Random_Forest_Gini_ROC_PR](images/ps_project_calc/Random_Forest_Gini_ROC_PR_31.png)
![Random_Forest_Entropy_ROC_PR](images/ps_project_calc/Random_Forest_Entropy_ROC_PR_31.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ps_project_calc/Gaussian_Naive_Bayes_ROC_PR_31.png)

##### Datenmodifikation 3.2
Als zweites Experiment wird ausgetestet, welchen Einfluss ein geschachteltes Training unterschiedlicher Oversampling Algorithmen auf den Trainingsdatensatz hat. Die Minderheit wird dabei durch jede Oversampling-Methode vergrößert, bis sie gleich groß wie die ursprüngliche Mehrheit ist.

In [None]:
ada_x2 = ADASYN(random_state=42, n_jobs=-1, sampling_strategy=0.25)
bsm_x2 = BorderlineSMOTE(random_state=42, n_jobs=-1, sampling_strategy=0.5)
sm_x2 = SMOTE(random_state=42, n_jobs=-1, sampling_strategy=0.75)
ros_x2 = RandomOverSampler(random_state=42)

# Oversampling durch ADASYN bis Anzahl an Datenpunkten der Minderheit 25% der Anzahl an Datenpunkten der Mehrheit erreicht hat.
ps_train_prepared_transformed_ada_x2, ps_train_labels_ada_x2 = ada_x2.fit_resample(ps_train_prepared_transformed, ps_train_labels)

# Oversampling durch BorderlineSMOTE bis Anzahl an Datenpunkten der Minderheit 50% der Anzahl an Datenpunkten der Mehrheit erreicht hat.
ps_train_prepared_transformed_ada_bsm_x2, ps_train_labels_ada_bsm_x2 = bsm_x2.fit_resample(ps_train_prepared_transformed_ada_x2, ps_train_labels_ada_x2)

# Oversampling durch SMOTE (Linie) bis Anzahl an Datenpunkten der Minderheit 75% der Anzahl an Datenpunkten der Mehrheit erreicht hat.
ps_train_prepared_transformed_ada_bsm_sm_x2, ps_train_labels_ada_bsm_sm_x2 = sm_x2.fit_resample(ps_train_prepared_transformed_ada_bsm_x2, ps_train_labels_ada_bsm_x2)

# Oversampling durch den RandomOverSampler bis Anzahl an Datenpunkten der Minderheit 100% der Anzahl an Datenpunkten der Mehrheit erreicht hat.
ps_train_prepared_transformed_ada_bsm_sm_ros_x2, ps_train_labels_ada_bsm_sm_ros_x2 = ros_x2.fit_resample(ps_train_prepared_transformed_ada_bsm_sm_x2, ps_train_labels_ada_bsm_sm_x2)

ps_train_x2 = ps_train_prepared_transformed_ada_bsm_sm_ros_x2
ps_train_labels_x2 = ps_train_labels_ada_bsm_sm_ros_x2
ps_train_labels_x2 = ps_train_labels_x2.values.ravel()

##### Training 3.2
Die Klassifikatoren werden mit den Trainingsdaten aus 4 ineinander geschachtelten Oversampling Algorithmen trainiert.

In [None]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_x2 = create_classifiers()

# Trainieren der Klassifikatoren mit den gemäß Experiment 1 abgeänderten Trainingsdaten.
train_models(ps_train_x2, ps_train_labels_x2, classifier_list_x2)

##### Klassierung 3.2
In diesem Abschnitt werden die Daten im Testdatensatz `ps_test_prepared` durch die trainierten Algorithmen klassiert.

In [None]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_x2, prediction_probas_x2 = klassieren(ps_test_prepared_transformed, classifier_list_x2)

##### Auswertung 3.2
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet.

In [None]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_x2, prediction_probas_x2, '32')

![K-Nearest-Neighbors_Konfusionsmatrix](images/ps_project_calc/K-Nearest-Neighbors_Konfusionsmatrix_32.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Gini_Konfusionsmatrix_32.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ps_project_calc/Decision_Tree_Entropy_Konfusionsmatrix_32.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Gini_Konfusionsmatrix_32.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ps_project_calc/Random_Forest_Entropy_Konfusionsmatrix_32.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ps_project_calc/Gaussian_Naive_Bayes_Konfusionsmatrix_32.png)

![K-Nearest-Neighbors_ROC_PR](images/ps_project_calc/K-Nearest-Neighbors_ROC_PR_32.png)
![Decision_Tree_Gini_ROC_PR](images/ps_project_calc/Decision_Tree_Gini_ROC_PR_32.png)
![Decision_Tree_Entropy_ROC_PR](images/ps_project_calc/Decision_Tree_Entropy_ROC_PR_32.png)
![Random_Forest_Gini_ROC_PR](images/ps_project_calc/Random_Forest_Gini_ROC_PR_32.png)
![Random_Forest_Entropy_ROC_PR](images/ps_project_calc/Random_Forest_Entropy_ROC_PR_32.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ps_project_calc/Gaussian_Naive_Bayes_ROC_PR_32.png)