# Credit Card Fraud Detection Notebook
In diesem Notebook wird der Datensatz Credit Card Fraud Detection aus einem Wettbewerb der Online-Community kaggle analysiert. Er ist unter dem folgenden Link erhältlich: <https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud>
Die Ordnerstruktur für den Zugriff auf diesen Datensatz mit diesem Notebook ist dabei im Speicherort des Source Codes folgendermaßen anzulegen: `datasets/ccf/ccf.csv`. Im README des Github Repositories befindet sich ein Link zum Herunterladen zweier Datensätze in der passenden Ordnerstruktur. Dieser ist bis zum 01.08.2022 gültig.
Der Datensatz enthält Transaktionsdaten über Kreditkartenzahlungen, welche im September 2013 in einem Zeitraum von 2 Tagen von europäischen Kreditkarteninhaber:innen getätigt wurden und soll zur Betrugserkennung bei Transaktionen genutzt werden. Von insgesamt 284.807 Transaktionen, sind 492 auf einen Betrug zurückzuführen. Der Datensatz weist damit ein hohes Ungleichgewicht auf, denn die betrügerischen Transaktionen bilden einen Anteil von 0,173%. Die Information über die Klassenzugehörigkeit ist in der Spalte Class abgespeichert. Eine 1 steht für einen Betrugsfall und eine 0 für eine legitime Zahlung. Alle 30 Attribute sind numerische Variablen. 28 dieser Attribute sind Ergebnis eine Principal Component Analyse gewonnen. Die fachliche Bedeutung der ursprünglichen Attribute ist aus Datenschutzgründen nicht angegeben. Die Bedeutung der anderen zwei Attribute ist bekannt. Diese zwei Attribute heißen `Time` und `Amount`. `Time` beschreibt dabei die Zeit in Sekunden, die seit der ersten Transaktion im Datensatz vergangen sind. `Amount` gibt die Höhe der Transaktion an. Die Analyse umfasst das Training sechs verschiedener Klassifikatoren auf verschiedenen Iterationen eines Trainingsdatensatz, welcher mit sieben unterschiedlichen Oversampling-Methoden ausbalanciert wird.
Das Notebook ist dabei in folgende Kapitel unterteilt:

- **Initialisierung**: Importierungen und Einstellungen für nachfolgende Notebook Kapitel und Laden des Datensatzes.
- **Visualisierung**: Visualisierung der Verteilungen der einiger Attribute des Datensatzes.
- **Analyse**:
    - ***Training 1***: Aufspaltung des Datensatzes in Features und Labels. Training verschiedener Algorithmen für das binäre Klassifikationsproblem.
    - ***Klassierung 1***: Klassierung der Testdaten.
    - ***Auswertung 1***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.
    - ***Datenmodifikation 2***: Modifikation der Daten durch Oversampling-Algorithmen.
    - ***Training 2.1***: Training verschiedener Algorithmen mit durch Random Oversampling modifizierten Trainingsdaten für das binäre Klassifikationsproblem.
    - ***Klassierung 2.1***: Klassierung der durch Random Oversampling modifizierten Testdaten.
    - ***Auswertung 2.1***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.
    - ***Training 2.2.1***: Training verschiedener Algorithmen mit durch SMOTE (Rechteck) modifizierten Trainingsdaten für das binäre Klassifikationsproblem.
    - ***Klassierung 2.2.1***: Klassierung der durch SMOTE (Rechteck) modifizierten Testdaten.
    - ***Auswertung 2.2.1***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.
    - ***Training 2.2.2***: Training verschiedener Algorithmen mit durch SMOTE (Linie) modifizierten Trainingsdaten für das binäre Klassifikationsproblem.
    - ***Klassierung 2.2.2***: Klassierung der durch SMOTE (Linie) modifizierten Testdaten.
    - ***Auswertung 2.2.2***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.
    - ***Training 2.3***: Training verschiedener Algorithmen mit durch Borderline SMOTE modifizierten Trainingsdaten für das binäre Klassifikationsproblem.
    - ***Klassierung 2.3***: Klassierung der durch Borderline SMOTE modifizierten Testdaten.
    - ***Auswertung 2.3***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.
    - ***Training 2.4***: Training verschiedener Algorithmen mit durch ADASYN modifizierten Trainingsdaten für das binäre Klassifikationsproblem.
    - ***Klassierung 2.4***: Klassierung der durch ADASYN modifizierten Testdaten.
    - ***Auswertung 2.4***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.
    - ***Experimente***: Austesten von Kombinationen verschiedener Techniken zur Datenmodifikation.
    - ***Datenmodifikation 3.1***: Der Trainingsdatensatz wird in vier gleich große Teile aufgespalten. Jeder der Teile wird von unterschiedlichen Oversampling-Algorithmen ausbalanciert. Nach Oversampling werden die vier Datensätze wieder zu einem einzigen zusammengefügt.
    - ***Training 3.1***: Training verschiedener Algorithmen mit modifizierten Trainingsdaten für das binäre Klassifikationsproblem.
    - ***Klassierung 3.1***: Klassierung der modifizierten Testdaten.
    - ***Auswertung 3.1***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.
    - ***Datenmodifikation 3.2***: Der Trainingsdatensatz wird gestaffelt von vier verschiedenen Oversampling-Algorithmen ausbalanciert. Nach und nach wird ein Verhältnis von zuerst 1:4 bis hin zu 4:4 zwischen den zwei Klassen des binären Klassifikationsproblems hergestellt.
    - ***Training 3.2***: Training verschiedener Algorithmen mit modifizierten Trainingsdaten für das binäre Klassifikationsproblem.
    - ***Klassierung 3.2***: Klassierung der modifizierten Testdaten.
    - ***Auswertung 3.2***: Auswertungen der Ergebnisse mittels verschiedener Bewertungskennzahlen und -methoden, welche sich aus der Konfusionsmatrix ableiten lassen.

Für eine Interpretation der Ergebnisse seien Leser:innen auf die Bachelorarbeit verwiesen.

### Initialisierung
In diesem Kapitel werden Einstellungen und Importierungen für nachfolgende Kapitel des Notebooks vorgenommen und der mit Klassenzuordnungen versehene Datensatz `ccf_train` (csv Datei) wird in einer Variable abgespeichert.

Importieren aller benötigten Module und Funktionen

In [None]:
# Visualisierung der Diagramme direkt im Notebook.
%matplotlib inline
# Importieren des Moduls matplotlib unter dem Namen mpl um Parameter für die Visualisierung festzulegen.
import matplotlib as mpl
# Importieren des Moduls matplotlib.pyplot zur Visualisierung.
import matplotlib.pyplot as plt
# Benötigte Importierungen der Module numpy und os.
import numpy as np
# Importieren des Moduls os um Zugriff auf das Festplattenverzeichnis zu erlangen.
import os
# Importieren der Funkion scatter_matrix aus dem Modul pandas.plotting zur Visualisierung von ccf_data in Streudiagrammen.
from pandas.plotting import scatter_matrix
# Importieren der Funktion train_test_split aus dem Modul sklearn.model_selection
from sklearn.model_selection import train_test_split

# Importieren des KNeighborsClassifier aus dem Modul sklearn.neighbors .
from sklearn.neighbors import KNeighborsClassifier
# Importieren der Funktion DecisionTreeClassifier aus dem Modul sklearn.tree .
from sklearn.tree import DecisionTreeClassifier
# Importieren der Funktion RandomForestClassifier aus dem Modul sklearn.ensemble .
from sklearn.ensemble import RandomForestClassifier
# Importieren der Funktion GaussianNB aus dem Modul sklearn.naive_bayes .
from sklearn.naive_bayes import GaussianNB

# Importieren von Seaborn zur Visualisierung der Konfusionsmatrix
import seaborn as sns
# Importieren der Funktionen roc_curve, roc_auc_score und precision_recall_curve, average_precision_score aus dem Modul sklearn.metrics zur Erstellung der ROC und PR Kurve sowie zur Berechnung des Flächeninhalts AUROC und dem gewichteten Mittelwert der Werte für precision an jedem Punkt der PR-Kurve.
from sklearn.metrics import roc_curve, roc_auc_score, precision_recall_curve, average_precision_score
# Importieren der Funktion confusion_matrix aus dem Modul sklearn.metrics .
from sklearn.metrics import confusion_matrix
# Importieren des Moduls pandas um das Auslesen der csv Datei zu ermöglichen.
import pandas as pd

# Importieren des Moduls pySMOTE für SMOTE mit der Interpolationsvariante Rechteck
import pySMOTE
# Importieren des RandomOversampler aus der Softwarebibliothek imblearn.oversampling
from imblearn.over_sampling import RandomOverSampler
# Importieren von SMOTE aus der Softwarebibliothek imblearn.oversampling
from imblearn.over_sampling import SMOTE
# Importieren von BorderlineSMOTE aus der Softwarebibliothek imblearn.oversampling
from imblearn.over_sampling import BorderlineSMOTE
# Importieren von ADASYN aus der Softwarebibliothek imblearn.oversampling
from imblearn.over_sampling import ADASYN

In diesem Abschnitt werden verschiedene Funktionen für die nachfolgenden Notebook Abschnitte definiert.

In [None]:
# Funktion zur Abspeicherung von Bildern.
# fig_id legt den Namen des abgespeicherten Bildes fest.
# tight_layout passt automatisch die Größe mehrerer untergeordneter Graphen an, damit diese alle im Gesamtgebiet des übergeordneten Graphen liegen.
# fig_extension legt den Datentyp des abgespeicherten Bildes fest.
# resolution bestimmt die Auflösung des Bildes.
def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("Saving figure", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

Funktion, um das Auslesen einer csv Dateien zu ermöglichen.

In [None]:
# Abspeichern des Pfades, unter welchem der Datensatz des Wettbewerbs abgespeichert ist.
CCF_PATH = os.path.join("datasets", "ccf")

# Definition der Funktion load_ccf_data.
def load_ccf_data(ccf_path=CCF_PATH):
    # Abspeichern des Pfades, unter welchem der Datensatz ccf_test abgespeichert ist, in der Variable csv_path.
    csv_path = os.path.join(ccf_path, "ccf.csv")
    # Auslesen der Daten in der csv Datei mit Hilfe von pandas. Abspeicherung in der Variablen data.
    # Merkmalsausprägungen, welche in dem Datensatz fehlen, wurden durch den Wert -1 ersetzt. Diese Stellen werden im Folgenden durch den Ausdruck NaN (Not a Number) ausgetauscht.
    data = pd.read_csv(csv_path)
    # Rückgabe des vollständigen Datensatzes.
    return data

Funktion um sechs verschiedene Klassifikatoren zu initialisieren. Für diese Funktionen werden Standardparameter definiert, wie beispielsweise 'neighbors' , 'estimators' und 'leafs', welche die Klassifikatoren individuell beeinflussen. Diese können abgeändert werden, sofern eine Umstellung der Klassifikatoren erwünscht ist.

In [None]:
# Funktion welche eine Liste von initialisierten Klassifikatoren zurückgibt
def create_classifiers(neighbors=5, jobs=-1, random=42, estimators=10, leafs=16):

    classifier_list= [# Initialisieren des KNeighborsClassifier.
                      # n_neighbors=5 bedeutet, dass für die Klassierung eines Punktes die Information von 5 Nachbarn beachtet wird.
                      # n_jobs=-1 bedeutet, dass für die Berechnungen alle Kerne des CPU genutzt werden (-> schneller).
                      KNeighborsClassifier(n_neighbors=neighbors, n_jobs=jobs),
                      # Initialisieren des DecisionTreeClassifier mit dem Blatt-Aufspaltungskriterium 'gini' und dem random_state=42 um reproduzierbare Ergebnisse zu ermöglichen.
                      DecisionTreeClassifier(criterion='gini', random_state=random),
                      # Initialisieren des DecisionTreeClassifier mit dem Blatt-Aufspaltungskriterium 'entropy' und dem random_state=42 um reproduzierbare Ergebnisse zu ermöglichen.
                      DecisionTreeClassifier(criterion='entropy', random_state=random),
                      # Initialisieren eines RandomForestClassifier.
                      # n_estimators=10 bedeutet, dass 10 Bäume erzeugt werden, welche das Voting übernehmen.
                      # max_leaf_nodes=16 bedeutet, dass ein einzelner Baum der erzeugt wird, maximal 16 Blattknoten besitzen darf.
                      # Festlegen des random_state auf 42 damit das Ergebnis reproduzierbar bleibt.
                      # n_jobs=-1 bedeutet, dass für die Berechnungen alle Kerne des CPU genutzt werden (-> schneller).
                      # criterion='entropy' legt Gini als Kriterium zur Aufspaltung der Knoten in den Entscheidungsbäumen fest.
                      RandomForestClassifier(n_estimators=estimators, max_leaf_nodes=leafs, random_state=random, n_jobs=jobs, criterion='gini'),
                      # Initialisieren eines RandomForestClassifier.
                      # n_estimators=10 bedeutet, dass 10 Bäume erzeugt werden, welche das Voting übernehmen.
                      # max_leaf_nodes=16 bedeutet dass ein einzelner Baum der erzeugt wird, maximal 16 Blattknoten besitzen darf.
                      # Festlegen des random_state auf 42 damit das Ergebnis reproduzierbar bleibt.
                      # n_jobs=-1 bedeutet, dass für die Berechnungen alle Kerne des CPU genutzt werden (-> schneller).
                      # criterion='entropy' legt die Entropie als Kriterium zur Aufspaltung der Knoten in den Entscheidungsbäumen fest.
                      RandomForestClassifier(n_estimators=estimators, max_leaf_nodes=leafs, random_state=random, n_jobs=jobs, criterion='entropy'),
                      # Initialisieren eines Gaussian Naive Bayes.
                      GaussianNB()
                      ]
    
    # Rückgabe der Liste an Klassifikatoren
    return classifier_list

Funktion, um die in einer Liste abgespeicherten Klassifikatoren mit einem Trainingsdatensatz (bestehend aus den Attributsausprägungen 'train_features' und den Klassenzuordnungen 'train_labels') zu trainieren.

In [None]:
# Funktion zum Trainieren von Klassifikatoren mit Trainingsdaten.
# Die Trainingsdaten bestehen dabei aus den Features train_features und den Klassenzuordnungen train_labels.
# In classifier_list sind die am Training teilnehmenden Klassifikatoren abgespeichert.
def train_models(train_features, train_labels, classifier_list):
    # Iterieren über die Liste der am Training teilnehmenden Klassifikatoren
    for classifier in classifier_list:
        # Training des aktuell ausgewählten Klassifikators mit den Trainingsdaten train_features und train_labels
        classifier.fit(train_features, train_labels)

Funktion um mit den trainierten Klassifikatoren einen Testdatensatz zu klassieren. Die Funktion gibt sowohl eindeutige Zuordnungen ('predictions'), als auch Wahrscheinlichkeiten für die Zuordnung zu einer Klasse ('prediction_probas') zurück.

In [None]:
# Funktion zur Klassierung von Testdaten durch verschiedene Klassifikatoren.
def klassieren(test_features, classifier_list):
    # Anlegen zweier Listen. predictions speichert dabei die Klassierungen der Klassifikatoren aus der classifier_list ab. prediction_probas speichert die Wahrscheinlichkeiten für eine Klassenzugehörigkeit ab, welche die Klassifikatoren aus der classifier_list für einen Datenpunkt aus den Testdaten berechnet haben.
    predictions=[]
    prediction_probas=[]
    # Iterieren über die Klassifikatoren aus der classifier_list.
    for classifier in classifier_list:
        # Klassierung der Testdaten.
        predictions.append(classifier.predict(test_features))
        # Berechnung der Wahrscheinlichkeit für eine Klassenzuordnung.
        prediction_probas.append((classifier.predict_proba(test_features)))
    # Rückgabe der Klassierungen und Wahrscheinlichkeiten für eine Klassenzuordnung.
    return predictions, prediction_probas

Funktion zur Erstellung einer Konfusionsmatrix. Diese wurde übernommen aus dem folgenden GitHub repository: <https://github.com/DTrimarchi10/confusion_matrix/blob/master/cf_matrix.py>
Um die Ausgabe der Matrix mit der Verwendung in der Bachelorarbeit konsistent zu halten, wurden die Klassen 0 und 1 vertauscht. Zudem wurden die TN-Rate als Bewertungskennzahl hinzugefügt, die Größe der Abbildung abgeändert, zwei Parameter der Funktion abgeändert und die Kommentare auf Deutsch übersetzt.

In [None]:
def make_confusion_matrix(cf,
                          group_names=None,
                          count=True,
                          percent=True,
                          cbar=True,
                          xyticks=True,
                          xyplotlabels=True,
                          sum_stats=True,
                          figsize=None,
                          cmap='Blues',
                          title=None):
    '''
    This function will make a pretty plot of an sklearn Confusion Matrix cm using a Seaborn heatmap visualization.  #####Deutsch: Diese Funktion erzeugt eine schöne grafische Darstellung einer sklearn Konfusionsmatrix mit der Hilfe der Seaborn-Heatmap.
    Arguments                                                                                                       #####Deutsch: Parameter
    ---------
    cf:            confusion matrix to be passed in                                                                 #####Deutsch: Konfusionsmatrix, die übergeben werden muss.
    group_names:   List of strings that represent the labels row by row to be shown in each square.                 #####Deutsch: Liste von Elementen des Datentyps String, welche die Klassenzuordnungen Zeile für Zeile repräsentieren, die in der Matrix angezeigt                                                                                                                               werden sollen.
    categories:    List of strings containing the categories to be displayed on the x,y axis. Default is 'auto'     #####Deutsch: Liste von Elementen des Datentyps String, welche die Kategorien enthält, die auf der x- und der y-Achse angezeigt werden sollen.
    count:         If True, show the raw number in the confusion matrix. Default is True.                           #####Deutsch: Falls True, wird die absolute Häufigkeit in den Feldern der Konfusionsmatrix angezeigt. Die Standardeinstellung ist True.
    percent:       If True, show the proportions for each category. Default is True.                                #####Deutsch: Falls True, werden die relativen Häufigkeiten der vier Kategorien im Verhältnis zum gesamten Datensatz angezeigt. Die                                                                                                                                             Standardeinstellung ist True.
    cbar:          If True, show the color bar. The cbar values are based off the values in the confusion matrix.   #####Deutsch: Falls True, wird eine Farblegende für den Farbverlauf der einzelnen Felder angezeigt. Die Standardeinstellung ist True.
                   Default is True.
    xyticks:       If True, show x and y ticks. Default is True.                                                    #####Deutsch: Falls True, werden die Felder der Heatmap mit den Klassenzugehörigkeiten beschriftet. Die Standardeinstellung ist True.
    xyplotlabels:  If True, show 'True Label' and 'Predicted Label' on the figure. Default is True.                 #####Deutsch: Falls True, werden die übergeordneten Beschriftungen 'Tatsächliche Klassenzuordnung' und 'Vorhergesagte Klassenzuordnung' angezeigt.                                                                                                                              Die Standardeinstellung ist True.
    sum_stats:     If True, display summary statistics below the figure. Default is True.                           #####Deutsch: Falls True, werden unter der Heatmap einige Bewertungskennzahlen angezeigt. Die Standardeinstellung ist True.
    figsize:       Tuple representing the figure size. Default will be the matplotlib rcParams value.               #####Deutsch: Tupel, welches die Abbildungsgröße festlegt. Die Standardeinstellungen sind die matplotlib rcParams Werte.
    cmap:          Colormap of the values displayed from matplotlib.pyplot.cm. Default is 'Blues'                   #####Deutsch: Farbzuordnung der Werte die von matplotlib.pyplot.cm. angezeigt werden. Die Standardeinstellung ist 'Blues' (deutsch: Blautöne).
                   See http://matplotlib.org/examples/color/colormaps_reference.html                                              Referenz zur matplotlib colormap: http://matplotlib.org/examples/color/colormaps_reference.html

    title:         Title for the heatmap. Default is None.                                                          #####Deutsch: Titel der Heatmap. Standardmäßig gibt es keinen Titel.
    '''

    # Vertauschen der Klassen für die Konsistenz der Konfusionsmatrix mit der restlichen Bachelorarbeit
    e00 = cf[0][0]
    e01 = cf[0][1]
    e10 = cf[1][0]
    e11 = cf[1][1]

    cf[0][0] = e11
    cf[1][1] = e00
    cf[0][1] = e10
    cf[1][0] = e01

    # CODE TO GENERATE TEXT INSIDE EACH SQUARE                                                                      #####Deutsch: Source Code, um Text in jedem Feld zu erzeugen
    blanks = ['' for i in range(cf.size)]

    if group_names and len(group_names)==cf.size:
        group_labels = ["{}\n".format(value) for value in group_names]
    else:
        group_labels = blanks

    if count:
        group_counts = ["{0:0.0f}\n".format(value) for value in cf.flatten()]
    else:
        group_counts = blanks

    if percent:
        group_percentages = ["{0:.2%}".format(value) for value in cf.flatten()/np.sum(cf)]
    else:
        group_percentages = blanks

    box_labels = [f"{v1}{v2}{v3}".strip() for v1, v2, v3 in zip(group_labels,group_counts,group_percentages)]
    box_labels = np.asarray(box_labels).reshape(cf.shape[0],cf.shape[1])


    # CODE TO GENERATE SUMMARY STATISTICS & TEXT FOR SUMMARY STATS                                                  #####Deutsch: Source Code, um Bewertungskennzahlen und Text dazu anzuzeigen
    if sum_stats:
        #Accuracy is sum of diagonal divided by total observations                                                  #####Deutsch: Die Accuracy ist die Summe der Diagonale, geteilt durch die gesamte Zahl an Datenpunkten die klassiert wurden
        accuracy  = np.trace(cf) / float(np.sum(cf))

        #if it is a binary confusion matrix, show some more stats                                                   #####Deutsch: Sofern es eine binäre Konfusionsmatrix ist, werden weitere Bewertungskennzahlen angezeigt
        if len(cf)==2:
            #Metrics for Binary Confusion Matrices                                                                  #####Deutsch: Bewertungskennzahlen für binäre Konfusionsmatrizen
            precision = cf[0,0] / sum(cf[:,0])
            recall    = cf[0,0] / sum(cf[0,:])
            f1_score  = 2*precision*recall / (precision + recall)
            tn_rate   = cf[1,1] / sum(cf[1,:])
            stats_text = "\n\nAccuracy={:0.3f}\nPrecision={:0.3f}\nTP-Rate/Recall={:0.3f}\nTN-Rate={:0.3f}\nF1 Score={:0.3f}".format(
                accuracy,precision,recall,tn_rate,f1_score)
        else:
            stats_text = "\n\nAccuracy={:0.3f}".format(accuracy)
    else:
        stats_text = ""


    # SET FIGURE PARAMETERS ACCORDING TO OTHER ARGUMENTS                                                            #####Deutsch: Parameter der Abbildung gemäß den übergebenen Parametern einstellen
    if figsize==None:
        #Get default figure size if not set                                                                         #####Deutsch: Sofern keine Abbildungsgröße angegeben wurde, wird die Standardgröße verwendet
        figsize = plt.rcParams.get('figure.figsize')

    if xyticks==False:
        #Do not show categories if xyticks is False                                                                 #####Deutsch: Die Matrix wird nicht mit den Klassenzugehörigkeiten beschriftet
        categories=False


    # MAKE THE HEATMAP VISUALIZATION                                                                                #####Deutsch: Visualisierung der Heatmap
    plt.figure(figsize=(1.5,1.5))
    sns.heatmap(cf,annot=box_labels,fmt="",cmap=cmap,cbar=cbar,xticklabels=[1, 0],yticklabels=[1, 0])

    if xyplotlabels:
        plt.ylabel('True label')
        plt.xlabel('Predicted label' + stats_text)
    else:
        plt.xlabel(stats_text)

    if title:
        plt.title(title)

Funktion zur Auswertung der trainierten Klassifikatoren mit dem Testdatensatz.

In [None]:
# Funktion zur Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
def auswerten(predictions, prediction_probas, identifier):

    # Liste von Klassifikatoren, um die Graphen des Algorithmus beschriften zu können.
    classifiers = ['K-Nearest-Neighbors', 'Decision_Tree_Gini', 'Decision_Tree_Entropy', 'Random_Forest_Gini', 'Random_Forest_Entropy', 'Gaussian_Naive_Bayes']


    # Initialisierung eines Zählers classifier_counter um zusätzlich über die Namen aus der Liste classifier iterieren zu können.
    classifier_counter = 0


    # Iterieren über alle Klassierungen in der Liste predictions.
    for prediction in predictions:

        # Anzeigen der Konfusionsmatrix.
        # Zeilen = tatsächliche Kategorien.
        # Spalten = vorhergesagte Kategorien.
        cf_matrix = confusion_matrix(ccf_test_labels, prediction)
        make_confusion_matrix(cf_matrix, figsize=(2,2), cbar=False, percent=False) # Bei Bedarf kann hier die Konfusionsmatrix mit dem Namen des Klassifikators beschriftet werden. Source Code: , title=classifiers[classifier_counter]

        # Einstellung der Schriftgröße
        sns.set(font_scale=.5)

        # Erzeugung eines Namens für die Konfusionsmatrix. Dieser setzt sich aus dem Klassifikator, '_Konfusionsmatrix_' und dem übergebenen identifier zusammen.
        fig_name = classifiers[classifier_counter] + '_Konfusionsmatrix_' + identifier

        # Abspeichern der Konfusionsmatrix in einem einzelnen Bild mit der im Kapitel Initialisierung definierten Funktion. Für eine verkürzte Ladezeit kann die Auflösung des Bildes in der Funktion save_fig reduziert werden.
        save_fig(fig_name)

        # Ausgabe unterdrücken
        plt.close()

        # Erhöhung des classifier_counter.
        classifier_counter=classifier_counter+1

    # Initialisierung eines Zählers classifier_counter um zusätzlich über die Namen aus der Liste classifier iterieren zu können.
    classifier_counter = 0

    # Iterieren über alle Wahrscheinlichkeiten für eine Klassenzuordnung in der Liste prediction_probas.
    for prediction_proba in prediction_probas:

        # Initialisierung der Abbildung welche aus zwei verschiedenen Grafiken besteht.
        f, (ax1, ax2) = plt.subplots(1, 2, figsize=(6,3))

        #f.suptitle(classifiers[classifier_counter], fontsize=10) # Titel der Abbildung wurde auskommentiert und kann bei Bedarf durch Einkommentieren der Zeile wieder angegeben werden

        # Auswahl der Wahrscheinlichkeiten, dass ein Element Klasse 1 zugeordnet wird.
        prediction_proba = prediction_proba[:, 1]

        # Berechnung und Ausgabe des Flächeninhalts AUROC.
        auc = roc_auc_score(ccf_test_labels, prediction_proba)

        # Erzeugung zweier Serien von False-Positive- und True-Positive-Rate um anschließend den ROC Graphen zeichnen zu können.
        fpr, tpr, _ = roc_curve(ccf_test_labels, prediction_proba)

        # Beschriftung des ROC Graphen mit dem Namen des Klassifikators und dem Flächeninhalt unter der Kurve.
        label_roc = classifiers[classifier_counter] + ' (AUROC = %0.7f)'% auc

        # Darstellung der ROC Kurve mit Angabe des Flächeninhalts AUROC auf 7 Nachkommastellen genau. Einzelne Klassierungsergebnisse können durch Punkte symbolisiert werden mit dem folgendem Source Code: marker='.',
        ax1.plot(fpr, tpr, label=label_roc)

        # Titel
        ax1.set_title('ROC Plot')
        # Axenbeschriftungen
        ax1.set(xlabel='False Positive Rate', ylabel='True Positive Rate')
        # Legende
        ax1.legend()

        # Erzeugung zweier Serien von Precision und Recall, um anschließend den PR Graphen zeichnen zu können
        precision, recall, thresholds = precision_recall_curve(ccf_test_labels, prediction_proba)

        # Berechnung der Average Precision (vgl. https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html).
        precision_avg = average_precision_score(ccf_test_labels, prediction_proba)

        label_pr = classifiers[classifier_counter] + ' (PR_AVG = %0.7f)'% precision_avg

        # Darstellung der Precision-Recall Kurve. Einzelne Klassierungsergebnisse können durch Punkte symbolisiert werden mit dem folgendem Source Code: marker='.',
        ax2.plot(recall, precision, label=label_pr)

        # Titel
        ax2.set_title('PR Plot')
        # Axenbeschriftungen
        ax2.set(xlabel='Recall', ylabel='Precision')
        # Legende
        ax2.legend()

        # Erzeugung eines Namens für den Plot. Dieser setzt sich aus dem Klassifikator, '_ROC_PR_' und dem übergebenen identifier zusammen.
        fig_name = classifiers[classifier_counter] + '_ROC_PR_' + identifier

        # Abspeichern des PR Plot in einem einzelnen Bild mit der im Kapitel Initialisierung definierten Funktion. Für eine verkürzte Ladezeit kann die Auflösung des Bildes in der Funktion save_fig reduziert werden.
        save_fig(fig_name)

        # Einstellung damit sich die beiden Grafiken der Abbildung nicht überschneiden.
        plt.tight_layout()

        # Ausgabe unterdrücken.
        plt.close()

        # Erhöhung des classifier_counter.
        classifier_counter=classifier_counter+1

Funktion um aus einem Datensatz (bestehend aus den Attributsausprägungen X und den Klassenzuordnungen y) alle Elemente einer Klasse herauszufiltern. In diesem Fall wird die Funktion dazu genutzt die Minderheit herauszufiltern und die Mehrheit zu entfernen.

In [None]:
def filter_minority(X, y, majority_class):

    i=0
    index_list=[]
    while i<len(X):
        if y[i]==majority_class:
            index_list.append(i)
        i +=1
    print(index_list)
    X.drop(index_list, inplace=True)
    minority = X.to_numpy()

    return minority

Methode um die Anwendung von pySMOTE an die Verwendung der restlichen Oversampling-Methoden anzugleichen

In [None]:
def smote_rectangle(X ,y, minority_class, majority_class, ratio=None, neighbors=5):

    # Herausfiltern der Minderheit aus dem Trainingsdatensatz
    ccf_train_labels_new = y.reset_index(drop=True)
    ccf_train_prepared_new = X.reset_index(drop=True)
    minority = filter_minority(ccf_train_prepared_new, ccf_train_labels_new, majority_class)

    # Formel, um die Menge an neu zu generierenden Punkten auf eine Anzahl zu erhöhen, welche die Anteile beider Klassen im Datensatz auf 50% setzt.
    if ratio is not None:
        ratio=ratio
    else:
        ratio = int(((len(y)/len(minority)) - 1)*100)
        subtraction = int(((len(y)/len(minority)) - 1)*100)%100
        ratio-=subtraction

    # Initialisierung und Anwendung der Funktion SMOTE aus dem Modul pySMOTE auf die Minderheit des Trainingsdatensatzes
    smote = pySMOTE.SMOTE(ratio=ratio, k_neighbors=neighbors)
    new_samples = smote.oversample(minority, merge=True)

    # Anlegen einer Spalte für die Klassenzugehörigkeiten der neuen Datenpunkte
    if minority_class==1:
        label_column = pd.DataFrame(1, index=np.arange(len(new_samples)), columns=['target'])
    else:
        label_column = pd.DataFrame(0, index=np.arange(len(new_samples)), columns=['target'])

    # Zusammenführung des alten Datensatzes mit den neu generierten Datenpunkten
    X = X.to_numpy()
    y = y.to_numpy()
    label_column = label_column.to_numpy()
    label_column = label_column.reshape(len(label_column),)


    X_res = np.concatenate((X, new_samples))
    y_res = np.concatenate((y, label_column))

    X_res = pd.DataFrame(X_res)
    y_res = pd.DataFrame(y_res)


    y_res[0] = y_res[0].astype(str)


    i=0
    while i<len(y_res):
        if y_res[0][i]=='1.0':
            y_res[0][i]='1'
        if y_res[0][i]=='0.0':
            y_res[0][i]='0'
        i +=1

    y_res[0] = y_res[0].astype(int)

    # Rückgabe des Trainingsdatensatzes, welcher nun die zusätzlich generierten Datenpunkte enthält.
    return X_res, y_res

##### Einstellungen für die verschiedenen Funktionen

In [None]:
# Um für mehrere Durchläufe des Notebooks die gleichen Ergebnisse zu erzeugen wird der Seed des RNG festgelegt.
np.random.seed(42)

# Visualisierung der Diagramme direkt im Notebook.
%matplotlib inline

# Einstellungen für die Achsenbeschriftungen.
mpl.rc('axes', labelsize=20)
mpl.rc('xtick', labelsize=15)
mpl.rc('ytick', labelsize=15)

# Erstellung eines Speicherort für die Graphen
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "ccf_project"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)

Nun wird die zuvor definierte Funktionen zum Laden der Daten genutzt und es werden die ersten fünf Datenpunkte ausgegeben.

In [None]:
ccf_data = load_ccf_data()
ccf_data.head()

### Visualisierung
In diesem Kapitel werden einige Attribute des Datensatzes in Histogrammen visualisiert und als Bilder abgespeichert. Bei der Visualisierung des gesamten Datensatzes haben sich diese als repräsentativ herausgestellt. Die Visualisierung und Abspeicherung aller Attribute ist im Anschluss (aufgrund der langen Laufzeit) auskommentiert angegeben.

Visualisierung des Histogramms des Attributs 'Time'.

In [None]:
ax = ccf_data['Time'].hist(bins=50)
ax.set_xticks(ax.get_xticks()[::2])
ax.set_xlim((0,175000))
ax.set_title('Time', fontsize=15)
save_fig('histo_Time')

Visualisierung des Attributs 'Amount'.

In [None]:
ax = ccf_data['Amount'].hist(bins=2000)
ax.set_title('Amount', fontsize=15)
ax.set_xlim([0,600])
save_fig('histo_Amount')

Visualisierung des Attributs 'V13'.

In [None]:
ax = ccf_data['V13'].hist(bins=50)
ax.set_title('V13', fontsize=15)
save_fig('histo_V13')

Ausgabe der Histogramme aller Attribute.

In [None]:
# Visualisierung des Datensatzes ccf_data in Histogrammen mit jeweils bis zu 50 Säulen (bins=50).
# figsize gibt die Größe der Darstellung in Zoll an.
#ccf_data.hist(bins=50, figsize=(60,40))
# Abspeichern der Histogramme in einem einzelnen Bild mit der im Kapitel Initialisierung definierten Funktion. Für eine verkürzte Ladezeit kann die Auflösung des Bildes in der Funktion save_fig reduziert werden.
#save_fig("attribute_histogram_plots_ccf_data")
# Anzeigen der Histogramme mit dem Modul matplotlib.pyplot.
#plt.show()

### Analyse
In diesem Kapitel wird der Datensatz aufgespalten, sodass Machine Learning Algorithmen einen Großteil des Datensatzes für ihr Training verwenden können. Im Anschluss sollen die Algorithmen auf einem Testdatensatz (dem übrig gebliebenen kleineren Teil) ausgewertet werden. Die Auswertung erfolgt anhand von verschiedenen Bewertungskennzahlen und -methoden. Grundlage für alle Bewertungskennzahlen und -methoden bilden dabei die absoluten Häufigkeiten in der Konfusionsmatrix. Im Anschluss an diese erste Auswertung folgen zwei weitere Trainings- und Auswertungszyklen. Vor dem zweiten Trainings- und Auswertungszyklus wird der Trainingsdatensatz mit verschiedenen Oversampling-Algorithmen modifiziert. Vor dem dritten Trainings- und Auswertungszyklus werden Kombinationen von Oversampling-Algorithmen ausprobiert.

##### Training 1
In diesem Abschnitt wird die Funktion train_test_split des Moduls sklearn.model_selection genutzt, um den Datensatz in einen Trainings- und Testdatensatz aufzuspalten. Nachfolgend werden ein K-Nearest-Neighbor-Algorithmus, zwei Entscheidungsbäume, zwei Random Forests und ein Gaussian Naive Bayes mit dem Trainingsdatensatz trainiert.

Aufspalten des Datensatzes in Klassenzuordnungen und Merkmalsausprägungen.

In [None]:
# Abspeichern der Klassenzuordnungen (ursprüngliche "target"-Spalte) in der Variable ccf_labels
ccf_labels = ccf_data["Class"].copy()
# Abspeichern der Merkmalsausprägungen in der Variable ccf_prepared
# axis=1 bedeutet, dass sich "target" auf eine Spalte bezieht
ccf_prepared = ccf_data.drop("Class", axis=1)

Aufspalten von Klassenzuordnungen und Merkmalsausprägungen in jeweils einen Trainings- und einen Testdatensatz. 80% des Datensatzes wird für das Training genutzt und 20% für die Auswertung. Die Datensätze werden dabei stratifiziert. Das bedeutet, dass das Verhältnis an Klassenzuordnungen im gesamten Datensatz auch in den aufgeteilten Datensätzen widergespiegelt wird.

In [None]:
# 80% der Daten werden für den Trainingsdatensatz genutzt, 20% für den Testdatensatz (test_size=0.2).
# Der random_state wird auf 42 festgesetzt, damit das Ergebnis reproduzierbar ist.
# stratify=ccf_labels sorgt dafür, die Datensätze stratifiziert werden.
ccf_train_prepared, ccf_test_prepared, ccf_train_labels, ccf_test_labels = train_test_split(ccf_prepared, ccf_labels, test_size=0.2, random_state=42, stratify=ccf_labels)

 Nun werden in den folgenden Zellen ein K-Nearest-Neighbors Algorithmus, zwei Entscheidungsbäume, zwei Random Forests und ein Gaussian Naive Bayes mit dem Trainingsdatensatz trainiert mit dem transformierten Trainingsdatensatz trainiert.

In [None]:
# Anlegen einer Liste von Klassifikatoren ohne den K-Nearest-Neighbor Klassifikator. Dieser sollte aufgrund von nominalen Features in den Trainingsdaten nicht genutzt werden. Abstände zwischen den Ausprägungen nominaler Features, welcher der Algorithmus zur Klassierung nutzt, sind nicht sinnvoll interpretierbar.
classifier_list = create_classifiers()

# Trainieren der Klassifikatoren mit den unveränderten Trainingsdaten.
train_models(ccf_train_prepared, ccf_train_labels, classifier_list)

##### Klassierung 1
In diesem Abschnitt werden die Daten im Testdatensatz durch die trainierten Algorithmen klassiert.

In [None]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions, prediction_probas = klassieren(ccf_test_prepared, classifier_list)

##### Auswertung 1
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet und die Abbildungen der Auswertung abgespeichert.

In [None]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions, prediction_probas, '1')

Die Bilder können hier in der nachfolgenden Markdown-Zelle oder im Unterordner images/ccf_project/ am Speicherort des Source Codes begutachtet werden. Gleiches gilt für die nachfolgenden Markdown-Zellen, welche auf eine Auswertungszelle folgen.

![K-Nearest-Neighbors_Konfusionsmatrix](images/ccf_project/K-Nearest-Neighbors_Konfusionsmatrix_1.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ccf_project/Decision_Tree_Gini_Konfusionsmatrix_1.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ccf_project/Decision_Tree_Entropy_Konfusionsmatrix_1.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ccf_project/Random_Forest_Gini_Konfusionsmatrix_1.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ccf_project/Random_Forest_Entropy_Konfusionsmatrix_1.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ccf_project/Gaussian_Naive_Bayes_Konfusionsmatrix_1.png)

![K-Nearest-Neighbors_ROC_PR](images/ccf_project/K-Nearest-Neighbors_ROC_PR_1.png)
![Decision_Tree_Gini_ROC_PR](images/ccf_project/Decision_Tree_Gini_ROC_PR_1.png)
![Decision_Tree_Entropy_ROC_PR](images/ccf_project/Decision_Tree_Entropy_ROC_PR_1.png)
![Random_Forest_Gini_ROC_PR](images/ccf_project/Random_Forest_Gini_ROC_PR_1.png)
![Random_Forest_Entropy_ROC_PR](images/ccf_project/Random_Forest_Entropy_ROC_PR_1.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ccf_project/Gaussian_Naive_Bayes_ROC_PR_1.png)

##### Datenmodifikation 2
In diesem Abschnitt werden auf die Datensätze Oversampling Methoden angewandt. Eine Illustration der Oversampling-Methoden mit den Auswirkungen auf die Entscheidungsregionen der hier ebenfalls verwendeten Klassifikatoren ist im Notebook 'Bsp_Oversampling(ROS, SMOTE, BSM, ADA)' zu finden. Die Abbildungen der Auswertung werden mit der Endung '_2*' abgespeichert. * steht hierbei für die konkrete Oversampling-Methode in der Versuchsreihe. Die Reihenfolge ist: ROS, SMOTE_Rechteck, SMOTE_Linie, Borderline_SMOTE, ADASYN

Der Random Oversampler wird auf den transformierten Datensatz angewandt.

In [None]:
# Festlegen des random_state auf 42 damit das Ergebnis reproduzierbar bleibt.
ros = RandomOverSampler(random_state=42)

# Resampling der Trainingsdaten (also Features und Labels)
ccf_train_prepared_ros, ccf_train_labels_ros = ros.fit_resample(ccf_train_prepared, ccf_train_labels)

Anwendung von SMOTE mit der Interpolationsmethode Rechteck. Hierbei werden die neuen Datenpunkte in einem Rechteck generiert, welches von den zwei erzeugenden Datenpunkten aufgespannt wird. Eine Illustration ist im Notebook 'Erzeugung_Datenpunkt_SMOTE_Rechteck' zu finden.

In [None]:
ccf_train_prepared_sm_rectangle, ccf_train_labels_sm_rectangle = smote_rectangle(ccf_train_prepared, ccf_train_labels, 1, 0)

ccf_train_labels_sm_rectangle = ccf_train_labels_sm_rectangle.values.ravel()
ccf_train_prepared_sm_rectangle_np = ccf_train_prepared_sm_rectangle.to_numpy()

SMOTE mit der Interpolationsmethode Linie wird auf den transformierten Datensatz angewandt. Hierbei werden die neuen Datenpunkte auf einer Verbindungslinie zwischen zwei erzeugenden Datenpunkten generiert. Eine Illustration ist im Notebook 'Erzeugung_Datenpunkt_SMOTE_Linie' zu finden.

In [16]:
# Festlegen des random_state auf 42 damit das Ergebnis reproduzierbar bleibt. n_jobs=-1 bedeutet, dass für die Berechnungen alle Kerne des CPU genutzt werden (--> schneller). Sonst werden die Standardparameter genutzt.
sm = SMOTE(random_state=42, n_jobs=-1)

# Resampling der Trainingsdaten (also Features und Labels)
ccf_train_prepared_sm, ccf_train_labels_sm = sm.fit_resample(ccf_train_prepared, ccf_train_labels)

Borderline SMOTE wird auf den transformierten Datensatz angewandt.

In [18]:
# Festlegen des random_state auf 42 damit das Ergebnis reproduzierbar bleibt. n_jobs=-1 bedeutet, dass für die Berechnungen alle Kerne des CPU genutzt werden (--> schneller). Sonst werden die Standardparameter genutzt.
bsm = BorderlineSMOTE(random_state=42, n_jobs=-1)

# Resampling der Trainingsdaten (also Features und Labels)
ccf_train_prepared_bsm, ccf_train_labels_bsm = bsm.fit_resample(ccf_train_prepared, ccf_train_labels)

ADASYN wird auf den transformierten Datensatz angewandt.

In [17]:
# Festlegen des random_state auf 42 damit das Ergebnis reproduzierbar bleibt. n_jobs=-1 bedeutet, dass für die Berechnungen alle Kerne des CPU genutzt werden (--> schneller). Sonst werden die Standardparameter genutzt.
ada = ADASYN(random_state=42, n_jobs=-1)

# Resampling der Trainingsdaten (also Features und Labels)
ccf_train_prepared_ada, ccf_train_labels_ada = ada.fit_resample(ccf_train_prepared, ccf_train_labels)

##### Training 2.1

Die Klassifikatoren werden mit den durch Random Oversampling balancierten Trainingsdaten trainiert.

In [19]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_ros = create_classifiers()

# Trainieren der Klassifikatoren mit den durch Random Oversampling ausbalancierten Trainingsdaten.
train_models(ccf_train_prepared_ros, ccf_train_labels_ros, classifier_list_ros)

##### Klassierung 2.1
In diesem Abschnitt werden die Daten im Testdatensatz durch die trainierten Algorithmen klassiert.

In [20]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_ros, prediction_probas_ros = klassieren(ccf_test_prepared, classifier_list_ros)

##### Auswertung 2.1
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet.

In [21]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_ros, prediction_probas_ros, '21')

Saving figure K-Nearest-Neighbors_Konfusionsmatrix_no_label_21
Saving figure Decision_Tree_Gini_Konfusionsmatrix_no_label_21
Saving figure Decision_Tree_Entropy_Konfusionsmatrix_no_label_21
Saving figure Random_Forest_Gini_Konfusionsmatrix_no_label_21
Saving figure Random_Forest_Entropy_Konfusionsmatrix_no_label_21
Saving figure Gaussian_Naive_Bayes_Konfusionsmatrix_no_label_21
Saving figure K-Nearest-Neighbors_ROC_PR_21
Saving figure Decision_Tree_Gini_ROC_PR_21
Saving figure Decision_Tree_Entropy_ROC_PR_21
Saving figure Random_Forest_Gini_ROC_PR_21
Saving figure Random_Forest_Entropy_ROC_PR_21
Saving figure Gaussian_Naive_Bayes_ROC_PR_21


![K-Nearest-Neighbors_Konfusionsmatrix](images/ccf_project/K-Nearest-Neighbors_Konfusionsmatrix_21.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ccf_project/Decision_Tree_Gini_Konfusionsmatrix_21.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ccf_project/Decision_Tree_Entropy_Konfusionsmatrix_21.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ccf_project/Random_Forest_Gini_Konfusionsmatrix_21.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ccf_project/Random_Forest_Entropy_Konfusionsmatrix_21.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ccf_project/Gaussian_Naive_Bayes_Konfusionsmatrix_21.png)

![K-Nearest-Neighbors_ROC_PR](images/ccf_project/K-Nearest-Neighbors_ROC_PR_21.png)
![Decision_Tree_Gini_ROC_PR](images/ccf_project/Decision_Tree_Gini_ROC_PR_21.png)
![Decision_Tree_Entropy_ROC_PR](images/ccf_project/Decision_Tree_Entropy_ROC_PR_21.png)
![Random_Forest_Gini_ROC_PR](images/ccf_project/Random_Forest_Gini_ROC_PR_21.png)
![Random_Forest_Entropy_ROC_PR](images/ccf_project/Random_Forest_Entropy_ROC_PR_21.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ccf_project/Gaussian_Naive_Bayes_ROC_PR_21.png)

##### Training 2.2.1
Die Klassifikatoren werden mit den durch SMOTE (mit der Interpolationsmethode Rechteck) balancierten Trainingsdaten trainiert.

Abändern der Datei, damit ein Training der Klassifikatoren mit dem Datensatz möglich ist.

In [22]:
ccf_train_prepared_sm_rectangle_df = pd.DataFrame(data=ccf_train_prepared_sm_rectangle)
ccf_train_prepared_sm_rectangle_df.rename(columns={0 : 'Time', 1 : 'V1', 2 : 'V2', 3 : 'V3', 4 : 'V4', 5 : 'V5', 6 : 'V6', 7 : 'V7', 8 : 'V8', 9 : 'V9', 10 : 'V10', 11 : 'V11', 12 : 'V12', 13 : 'V13', 14 : 'V14', 15 : 'V15', 16 : 'V16', 17 : 'V17', 18 : 'V18', 19 : 'V19', 20 : 'V20', 21 : 'V21', 22 : 'V22', 23 : 'V23', 24 : 'V24', 25 : 'V25', 26 : 'V26', 27 : 'V27', 28 : 'V28', 29 : 'Amount' }, inplace=True)

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,...,V20,V21,V22,V23,V24,V25,V26,V27,V28,Amount
0,161919.000000,1.946747,-0.752526,-1.355130,-0.661630,1.502822,4.024933,-1.479661,1.139880,1.406819,...,-0.134435,0.076197,0.297537,0.307915,0.690980,-0.350316,-0.388907,0.077641,-0.032248,7.320000
1,124477.000000,2.035149,-0.048880,-3.058693,0.247945,2.943487,3.298697,-0.002192,0.674782,0.045826,...,-0.227279,0.038628,0.228197,0.035542,0.707090,0.512885,-0.471198,0.002520,-0.069002,2.990000
2,41191.000000,-0.991920,0.603193,0.711976,-0.992425,-0.825838,1.956261,-2.212603,-5.037523,0.000772,...,1.280856,-2.798352,0.109526,-0.436530,-0.932803,0.826684,0.913773,0.038049,0.185340,175.100000
3,132624.000000,2.285718,-1.500239,-0.747565,-1.668119,-1.394143,-0.350339,-1.427984,0.010010,-1.118447,...,-0.490642,-0.139670,0.077013,0.208310,-0.538236,-0.278032,-0.162068,0.018045,-0.063005,6.100000
4,59359.000000,-0.448747,-1.011440,0.115903,-3.454854,0.715771,-0.147490,0.504347,-0.113817,-0.044782,...,-0.275297,-0.243245,-0.173298,-0.006692,-1.362383,-0.292234,-0.144622,-0.032580,-0.064194,86.100000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
455572,75873.939443,-4.930043,3.558245,-5.473387,4.158237,-3.721618,-1.923633,-5.085494,2.058408,-2.920237,...,0.335468,1.147500,0.171552,-0.359598,0.144371,0.317310,-0.190863,0.302258,0.725572,99.855210
455573,76192.317934,-4.894591,3.466376,-5.912253,4.106286,-3.862455,-1.487225,-5.131383,2.001997,-3.002968,...,-0.052963,1.066442,0.285885,-0.353415,0.183828,0.088956,-0.353605,-0.105220,0.469100,167.547942
455574,76444.158143,-5.566804,3.452522,-5.388863,4.208595,-4.599254,-1.921424,-5.089843,2.042049,-2.948916,...,0.337925,1.036715,0.046358,-0.363709,0.187713,0.154247,-0.334710,-0.110793,0.484499,135.718613
455575,76244.183256,-4.994159,3.467464,-6.173283,4.212092,-4.382754,-1.567384,-5.102434,2.010375,-3.026769,...,0.138840,0.980981,-0.403597,-0.354424,0.149215,0.149957,-0.372540,-0.033387,0.820844,100.721635


In [23]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_sm_rectangle = create_classifiers()

# Trainieren der Klassifikatoren mit den durch SMOTE ausbalancierten Trainingsdaten.
train_models(ccf_train_prepared_sm_rectangle_df, ccf_train_labels_sm_rectangle, classifier_list_sm_rectangle)

##### Klassierung 2.2.1
In diesem Abschnitt werden die Daten im Testdatensatz durch die trainierten Algorithmen klassiert.

In [24]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_sm_rectangle, prediction_probas_sm_rectangle = klassieren(ccf_test_prepared, classifier_list_sm_rectangle)

##### Auswertung 2.2.1
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet.

In [25]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_sm_rectangle, prediction_probas_sm_rectangle, '22_1')

Saving figure K-Nearest-Neighbors_Konfusionsmatrix_no_label_22_1
Saving figure Decision_Tree_Gini_Konfusionsmatrix_no_label_22_1
Saving figure Decision_Tree_Entropy_Konfusionsmatrix_no_label_22_1
Saving figure Random_Forest_Gini_Konfusionsmatrix_no_label_22_1
Saving figure Random_Forest_Entropy_Konfusionsmatrix_no_label_22_1
Saving figure Gaussian_Naive_Bayes_Konfusionsmatrix_no_label_22_1
Saving figure K-Nearest-Neighbors_ROC_PR_22_1
Saving figure Decision_Tree_Gini_ROC_PR_22_1
Saving figure Decision_Tree_Entropy_ROC_PR_22_1
Saving figure Random_Forest_Gini_ROC_PR_22_1
Saving figure Random_Forest_Entropy_ROC_PR_22_1
Saving figure Gaussian_Naive_Bayes_ROC_PR_22_1


![K-Nearest-Neighbors_Konfusionsmatrix](images/ccf_project/K-Nearest-Neighbors_Konfusionsmatrix_22_1.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ccf_project/Decision_Tree_Gini_Konfusionsmatrix_22_1.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ccf_project/Decision_Tree_Entropy_Konfusionsmatrix_22_1.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ccf_project/Random_Forest_Gini_Konfusionsmatrix_22_1.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ccf_project/Random_Forest_Entropy_Konfusionsmatrix_22_1.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ccf_project/Gaussian_Naive_Bayes_Konfusionsmatrix_22_1.png)

![K-Nearest-Neighbors_ROC_PR](images/ccf_project/K-Nearest-Neighbors_ROC_PR_22_1.png)
![Decision_Tree_Gini_ROC_PR](images/ccf_project/Decision_Tree_Gini_ROC_PR_22_1.png)
![Decision_Tree_Entropy_ROC_PR](images/ccf_project/Decision_Tree_Entropy_ROC_PR_22_1.png)
![Random_Forest_Gini_ROC_PR](images/ccf_project/Random_Forest_Gini_ROC_PR_22_1.png)
![Random_Forest_Entropy_ROC_PR](images/ccf_project/Random_Forest_Entropy_ROC_PR_22_1.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ccf_project/Gaussian_Naive_Bayes_ROC_PR_22_1.png)

##### Training 2.2.2
Die Klassifikatoren werden mit den durch SMOTE (mit der Interpolationsmethode Linie) balancierten Trainingsdaten trainiert.

In [26]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_sm = create_classifiers()

# Trainieren der Klassifikatoren mit den durch SMOTE ausbalancierten Trainingsdaten.
train_models(ccf_train_prepared_sm, ccf_train_labels_sm, classifier_list_sm)

##### Klassierung 2.2.2
In diesem Abschnitt werden die Daten im Testdatensatz durch die trainierten Algorithmen klassiert.

In [27]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_sm, prediction_probas_sm = klassieren(ccf_test_prepared, classifier_list_sm)

##### Auswertung 2.2.2
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet.

In [28]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_sm, prediction_probas_sm, '22_2')

Saving figure K-Nearest-Neighbors_Konfusionsmatrix_no_label_22_2
Saving figure Decision_Tree_Gini_Konfusionsmatrix_no_label_22_2
Saving figure Decision_Tree_Entropy_Konfusionsmatrix_no_label_22_2
Saving figure Random_Forest_Gini_Konfusionsmatrix_no_label_22_2
Saving figure Random_Forest_Entropy_Konfusionsmatrix_no_label_22_2
Saving figure Gaussian_Naive_Bayes_Konfusionsmatrix_no_label_22_2
Saving figure K-Nearest-Neighbors_ROC_PR_22_2
Saving figure Decision_Tree_Gini_ROC_PR_22_2
Saving figure Decision_Tree_Entropy_ROC_PR_22_2
Saving figure Random_Forest_Gini_ROC_PR_22_2
Saving figure Random_Forest_Entropy_ROC_PR_22_2
Saving figure Gaussian_Naive_Bayes_ROC_PR_22_2


![K-Nearest-Neighbors_Konfusionsmatrix](images/ccf_project/K-Nearest-Neighbors_Konfusionsmatrix_22_2.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ccf_project/Decision_Tree_Gini_Konfusionsmatrix_22_2.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ccf_project/Decision_Tree_Entropy_Konfusionsmatrix_22_2.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ccf_project/Random_Forest_Gini_Konfusionsmatrix_22_2.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ccf_project/Random_Forest_Entropy_Konfusionsmatrix_22_2.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ccf_project/Gaussian_Naive_Bayes_Konfusionsmatrix_22_2.png)

![K-Nearest-Neighbors_ROC_PR](images/ccf_project/K-Nearest-Neighbors_ROC_PR_22_2.png)
![Decision_Tree_Gini_ROC_PR](images/ccf_project/Decision_Tree_Gini_ROC_PR_22_2.png)
![Decision_Tree_Entropy_ROC_PR](images/ccf_project/Decision_Tree_Entropy_ROC_PR_22_2.png)
![Random_Forest_Gini_ROC_PR](images/ccf_project/Random_Forest_Gini_ROC_PR_22_2.png)
![Random_Forest_Entropy_ROC_PR](images/ccf_project/Random_Forest_Entropy_ROC_PR_22_2.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ccf_project/Gaussian_Naive_Bayes_ROC_PR_22_2.png)

##### Training 2.3
Die Klassifikatoren werden mit den durch Borderline SMOTE balancierten Trainingsdaten trainiert.

In [32]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_bsm = create_classifiers()

# Trainieren der Klassifikatoren mit den durch Borderline SMOTE ausbalancierten Trainingsdaten.
train_models(ccf_train_prepared_bsm, ccf_train_labels_bsm, classifier_list_bsm)

##### Klassierung 2.3
In diesem Abschnitt werden die Daten im Testdatensatz durch die trainierten Algorithmen klassiert.

In [33]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_bsm, prediction_probas_bsm = klassieren(ccf_test_prepared, classifier_list_bsm)

##### Auswertung 2.3
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet.

In [34]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_bsm, prediction_probas_bsm, '23')

Saving figure K-Nearest-Neighbors_Konfusionsmatrix_no_label_24
Saving figure Decision_Tree_Gini_Konfusionsmatrix_no_label_24
Saving figure Decision_Tree_Entropy_Konfusionsmatrix_no_label_24
Saving figure Random_Forest_Gini_Konfusionsmatrix_no_label_24
Saving figure Random_Forest_Entropy_Konfusionsmatrix_no_label_24
Saving figure Gaussian_Naive_Bayes_Konfusionsmatrix_no_label_24
Saving figure K-Nearest-Neighbors_ROC_PR_24
Saving figure Decision_Tree_Gini_ROC_PR_24
Saving figure Decision_Tree_Entropy_ROC_PR_24
Saving figure Random_Forest_Gini_ROC_PR_24
Saving figure Random_Forest_Entropy_ROC_PR_24
Saving figure Gaussian_Naive_Bayes_ROC_PR_24


![K-Nearest-Neighbors_Konfusionsmatrix](images/ccf_project/K-Nearest-Neighbors_Konfusionsmatrix_23.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ccf_project/Decision_Tree_Gini_Konfusionsmatrix_23.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ccf_project/Decision_Tree_Entropy_Konfusionsmatrix_23.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ccf_project/Random_Forest_Gini_Konfusionsmatrix_23.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ccf_project/Random_Forest_Entropy_Konfusionsmatrix_23.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ccf_project/Gaussian_Naive_Bayes_Konfusionsmatrix_23.png)

![K-Nearest-Neighbors_ROC_PR](images/ccf_project/K-Nearest-Neighbors_ROC_PR_23.png)
![Decision_Tree_Gini_ROC_PR](images/ccf_project/Decision_Tree_Gini_ROC_PR_23.png)
![Decision_Tree_Entropy_ROC_PR](images/ccf_project/Decision_Tree_Entropy_ROC_PR_23.png)
![Random_Forest_Gini_ROC_PR](images/ccf_project/Random_Forest_Gini_ROC_PR_23.png)
![Random_Forest_Entropy_ROC_PR](images/ccf_project/Random_Forest_Entropy_ROC_PR_23.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ccf_project/Gaussian_Naive_Bayes_ROC_PR_23.png)

##### Training 2.4
Die Klassifikatoren werden mit den durch ADASYN balancierten Trainingsdaten trainiert.

In [29]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_ada = create_classifiers()

# Trainieren der Klassifikatoren mit den durch ADASYN ausbalancierten Trainingsdaten.
train_models(ccf_train_prepared_ada, ccf_train_labels_ada, classifier_list_ada)

##### Klassierung 2.4
In diesem Abschnitt werden die Daten im Testdatensatz durch die trainierten Algorithmen klassiert.

In [30]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_ada, prediction_probas_ada = klassieren(ccf_test_prepared, classifier_list_ada)

##### Auswertung 2.4
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet.

In [31]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_ada, prediction_probas_ada, '24')

Saving figure K-Nearest-Neighbors_Konfusionsmatrix_no_label_23
Saving figure Decision_Tree_Gini_Konfusionsmatrix_no_label_23
Saving figure Decision_Tree_Entropy_Konfusionsmatrix_no_label_23
Saving figure Random_Forest_Gini_Konfusionsmatrix_no_label_23
Saving figure Random_Forest_Entropy_Konfusionsmatrix_no_label_23
Saving figure Gaussian_Naive_Bayes_Konfusionsmatrix_no_label_23
Saving figure K-Nearest-Neighbors_ROC_PR_23
Saving figure Decision_Tree_Gini_ROC_PR_23
Saving figure Decision_Tree_Entropy_ROC_PR_23
Saving figure Random_Forest_Gini_ROC_PR_23
Saving figure Random_Forest_Entropy_ROC_PR_23
Saving figure Gaussian_Naive_Bayes_ROC_PR_23


![K-Nearest-Neighbors_Konfusionsmatrix](images/ccf_project/K-Nearest-Neighbors_Konfusionsmatrix_24.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ccf_project/Decision_Tree_Gini_Konfusionsmatrix_24.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ccf_project/Decision_Tree_Entropy_Konfusionsmatrix_24.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ccf_project/Random_Forest_Gini_Konfusionsmatrix_24.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ccf_project/Random_Forest_Entropy_Konfusionsmatrix_24.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ccf_project/Gaussian_Naive_Bayes_Konfusionsmatrix_24.png)

![K-Nearest-Neighbors_ROC_PR](images/ccf_project/K-Nearest-Neighbors_ROC_PR_24.png)
![Decision_Tree_Gini_ROC_PR](images/ccf_project/Decision_Tree_Gini_ROC_PR_24.png)
![Decision_Tree_Entropy_ROC_PR](images/ccf_project/Decision_Tree_Entropy_ROC_PR_24.png)
![Random_Forest_Gini_ROC_PR](images/ccf_project/Random_Forest_Gini_ROC_PR_24.png)
![Random_Forest_Entropy_ROC_PR](images/ccf_project/Random_Forest_Entropy_ROC_PR_24.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ccf_project/Gaussian_Naive_Bayes_ROC_PR_24.png)

##### Experimente

In diesem Abschnitt werden als Experiment zwei unterschiedliche Kombinationen von Oversampling Algorithmen genutzt, um den Trainingsdatensatz zu balancieren. Anschließend werden jeweils verschiedene Klassifikatoren mit diesen modifizierten Datensätzen trainiert und ausgewertet. Die Abbildungen der Auswertung werden mit der Endung '_3*' abgespeichert. * steht hierbei für die konkrete Oversampling-Methode in der Versuchsreihe.

##### Datenmodifikation 3.1
Als erstes Experiment soll ausgetestet werden, welchen Einfluss ein Training unterschiedlicher Oversampling Algorithmen auf gleich große Teile des ursprünglichen Trainingsdatensatz hat, welche im Anschluss wieder zu einem großen Trainingsdatensatz zusammengesetzt werden.

In [35]:
# Zweimaliges Aufspalten in insgesamt 4 gleich große Teile

# Datensatz halbieren
# Der random_state wird auf 42 festgesetzt, damit das Ergebnis reproduzierbar ist.
# stratify=ccf_labels sorgt dafür, die Datensätze stratifiziert werden.
ccf_train_prepared_0, ccf_train_prepared_1, ccf_train_labels_0, ccf_train_labels_1 = train_test_split(ccf_train_prepared, ccf_train_labels, test_size=0.5, random_state=42, stratify=ccf_train_labels)

# Halbe Datensätze halbieren zu Vierteln
ccf_train_prepared_0_0, ccf_train_prepared_0_1, ccf_train_labels_0_0, ccf_train_labels_0_1 = train_test_split(ccf_train_prepared_0, ccf_train_labels_0, test_size=0.5, random_state=42, stratify=ccf_train_labels_0)
ccf_train_prepared_1_0, ccf_train_prepared_1_1, ccf_train_labels_1_0, ccf_train_labels_1_1 = train_test_split(ccf_train_prepared_1, ccf_train_labels_1, test_size=0.5, random_state=42, stratify=ccf_train_labels_1)

Oversampling Algorithmen auf die Datensätze anwenden: _0_0 = ROS; _0_1 = SMOTE; _1_0 = ADASYN; _1_1 = Borderline SMOTE

In [36]:
ccf_train_prepared_0_0_ros, ccf_train_labels_0_0_ros = ros.fit_resample(ccf_train_prepared_0_0, ccf_train_labels_0_0)

ccf_train_prepared_0_1_sm, ccf_train_labels_0_1_sm = sm.fit_resample(ccf_train_prepared_0_1, ccf_train_labels_0_1)

ccf_train_prepared_1_0_ada, ccf_train_labels_1_0_ada = ada.fit_resample(ccf_train_prepared_1_0, ccf_train_labels_1_0)

ccf_train_prepared_1_1_bsm, ccf_train_labels_1_1_bsm = bsm.fit_resample(ccf_train_prepared_1_1, ccf_train_labels_1_1)

# Überführung in ein Dataframe
ccf_train_prepared_0_0_ros = pd.DataFrame(ccf_train_prepared_0_0_ros)
ccf_train_labels_0_0_ros = pd.DataFrame(ccf_train_labels_0_0_ros)
ccf_train_prepared_0_1_sm = pd.DataFrame(ccf_train_prepared_0_1_sm)
ccf_train_labels_0_1_sm = pd.DataFrame(ccf_train_labels_0_1_sm)
ccf_train_prepared_1_0_ada = pd.DataFrame(ccf_train_prepared_1_0_ada)
ccf_train_labels_1_0_ada = pd.DataFrame(ccf_train_labels_1_0_ada)
ccf_train_prepared_1_1_bsm = pd.DataFrame(ccf_train_prepared_1_1_bsm)
ccf_train_labels_1_1_bsm = pd.DataFrame(ccf_train_labels_1_1_bsm)

# Zusammenfügen der Datensätze
ccf_train_x1 = pd.concat([ccf_train_prepared_0_0_ros,ccf_train_prepared_0_1_sm, ccf_train_prepared_1_0_ada, ccf_train_prepared_1_1_bsm], axis=0)
ccf_train_labels_x1 = pd.concat([ccf_train_labels_0_0_ros,ccf_train_labels_0_1_sm, ccf_train_labels_1_0_ada, ccf_train_labels_1_1_bsm], axis=0)
ccf_train_labels_x1 = ccf_train_labels_x1.values.ravel()

##### Training 3.1
Die Klassifikatoren werden mit den Trainingsdaten aus 4 verschiedenen parallelen Oversampling Algorithmen trainiert.

In [37]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_x1 = create_classifiers()

# Trainieren der Klassifikatoren mit den gemäß Experiment 1 abgeänderten Trainingsdaten.
train_models(ccf_train_x1, ccf_train_labels_x1, classifier_list_x1)

##### Klassierung 3.1
In diesem Abschnitt werden die Daten im Testdatensatz durch die trainierten Algorithmen klassiert.

In [38]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_x1, prediction_probas_x1 = klassieren(ccf_test_prepared, classifier_list_x1)

##### Auswertung 3.1
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet.

In [39]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_x1, prediction_probas_x1, '31')

Saving figure K-Nearest-Neighbors_Konfusionsmatrix_no_label_31
Saving figure Decision_Tree_Gini_Konfusionsmatrix_no_label_31
Saving figure Decision_Tree_Entropy_Konfusionsmatrix_no_label_31
Saving figure Random_Forest_Gini_Konfusionsmatrix_no_label_31
Saving figure Random_Forest_Entropy_Konfusionsmatrix_no_label_31
Saving figure Gaussian_Naive_Bayes_Konfusionsmatrix_no_label_31
Saving figure K-Nearest-Neighbors_ROC_PR_31
Saving figure Decision_Tree_Gini_ROC_PR_31
Saving figure Decision_Tree_Entropy_ROC_PR_31
Saving figure Random_Forest_Gini_ROC_PR_31
Saving figure Random_Forest_Entropy_ROC_PR_31
Saving figure Gaussian_Naive_Bayes_ROC_PR_31


![K-Nearest-Neighbors_Konfusionsmatrix](images/ccf_project/K-Nearest-Neighbors_Konfusionsmatrix_31.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ccf_project/Decision_Tree_Gini_Konfusionsmatrix_31.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ccf_project/Decision_Tree_Entropy_Konfusionsmatrix_31.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ccf_project/Random_Forest_Gini_Konfusionsmatrix_31.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ccf_project/Random_Forest_Entropy_Konfusionsmatrix_31.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ccf_project/Gaussian_Naive_Bayes_Konfusionsmatrix_31.png)

![K-Nearest-Neighbors_ROC_PR](images/ccf_project/K-Nearest-Neighbors_ROC_PR_31.png)
![Decision_Tree_Gini_ROC_PR](images/ccf_project/Decision_Tree_Gini_ROC_PR_31.png)
![Decision_Tree_Entropy_ROC_PR](images/ccf_project/Decision_Tree_Entropy_ROC_PR_31.png)
![Random_Forest_Gini_ROC_PR](images/ccf_project/Random_Forest_Gini_ROC_PR_31.png)
![Random_Forest_Entropy_ROC_PR](images/ccf_project/Random_Forest_Entropy_ROC_PR_31.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ccf_project/Gaussian_Naive_Bayes_ROC_PR_31.png)

##### Datenmodifikation 3.2
Als zweites Experiment wird ausgetestet, welchen Einfluss ein geschachteltes Training unterschiedlicher Oversampling Algorithmen auf den Trainingsdatensatz hat. Die Minderheit wird dabei durch jede Oversampling-Methode vergrößert, bis sie gleich groß wie die ursprüngliche Mehrheit ist.

In [40]:
ada_x2 = ADASYN(random_state=42, n_jobs=-1, sampling_strategy=0.25)
bsm_x2 = BorderlineSMOTE(random_state=42, n_jobs=-1, sampling_strategy=0.5)
sm_x2 = SMOTE(random_state=42, n_jobs=-1, sampling_strategy=0.75)
ros_x2 = RandomOverSampler(random_state=42)

# Oversampling durch ADASYN bis Anzahl an Datenpunkten der Minderheit 25% der Anzahl an Datenpunkten der Mehrheit erreicht hat.
ccf_train_prepared_ada_x2, ccf_train_labels_ada_x2 = ada_x2.fit_resample(ccf_train_prepared, ccf_train_labels)

# Oversampling durch BorderlineSMOTE bis Anzahl an Datenpunkten der Minderheit 50% der Anzahl an Datenpunkten der Mehrheit erreicht hat.
ccf_train_prepared_ada_bsm_x2, ccf_train_labels_ada_bsm_x2 = bsm_x2.fit_resample(ccf_train_prepared_ada_x2, ccf_train_labels_ada_x2)

# Oversampling durch SMOTE (Linie) bis Anzahl an Datenpunkten der Minderheit 75% der Anzahl an Datenpunkten der Mehrheit erreicht hat.
ccf_train_prepared_ada_bsm_sm_x2, ccf_train_labels_ada_bsm_sm_x2 = sm_x2.fit_resample(ccf_train_prepared_ada_bsm_x2, ccf_train_labels_ada_bsm_x2)

# Oversampling durch den RandomOverSampler bis Anzahl an Datenpunkten der Minderheit 100% der Anzahl an Datenpunkten der Mehrheit erreicht hat.
ccf_train_prepared_ada_bsm_sm_ros_x2, ccf_train_labels_ada_bsm_sm_ros_x2 = ros_x2.fit_resample(ccf_train_prepared_ada_bsm_sm_x2, ccf_train_labels_ada_bsm_sm_x2)

ccf_train_x2 = ccf_train_prepared_ada_bsm_sm_ros_x2
ccf_train_labels_x2 = ccf_train_labels_ada_bsm_sm_ros_x2
ccf_train_labels_x2 = ccf_train_labels_x2.values.ravel()

##### Training 3.2
Die Klassifikatoren werden mit den Trainingsdaten aus 4 ineinander geschachtelten Oversampling Algorithmen trainiert.

In [41]:
# Anlegen einer Liste von Klassifikatoren.
classifier_list_x2 = create_classifiers()

# Trainieren der Klassifikatoren mit den gemäß Experiment 1 abgeänderten Trainingsdaten.
train_models(ccf_train_x2, ccf_train_labels_x2, classifier_list_x2)

##### Klassierung 3.2
In diesem Abschnitt werden die Daten im Testdatensatz `ccf_test_prepared` durch die trainierten Algorithmen klassiert.

In [42]:
# Klassierung und Berechnung der Wahrscheinlichkeiten für eine Klassenzuordnung für den Testdatensatz.
predictions_x2, prediction_probas_x2 = klassieren(ccf_test_prepared, classifier_list_x2)

##### Auswertung 3.2
In diesem Abschnitt werden die Klassierungen der Klassifikatoren mit verschiedenen Bewertungskennzahlen und -methoden ausgewertet.

In [43]:
# Auswertung der Klassierungen und berechneten Wahrscheinlichkeiten für eine Klassenzuordnung.
auswerten(predictions_x2, prediction_probas_x2, '32')

Saving figure K-Nearest-Neighbors_Konfusionsmatrix_no_label_32
Saving figure Decision_Tree_Gini_Konfusionsmatrix_no_label_32
Saving figure Decision_Tree_Entropy_Konfusionsmatrix_no_label_32
Saving figure Random_Forest_Gini_Konfusionsmatrix_no_label_32
Saving figure Random_Forest_Entropy_Konfusionsmatrix_no_label_32
Saving figure Gaussian_Naive_Bayes_Konfusionsmatrix_no_label_32
Saving figure K-Nearest-Neighbors_ROC_PR_32
Saving figure Decision_Tree_Gini_ROC_PR_32
Saving figure Decision_Tree_Entropy_ROC_PR_32
Saving figure Random_Forest_Gini_ROC_PR_32
Saving figure Random_Forest_Entropy_ROC_PR_32
Saving figure Gaussian_Naive_Bayes_ROC_PR_32


![K-Nearest-Neighbors_Konfusionsmatrix](images/ccf_project/K-Nearest-Neighbors_Konfusionsmatrix_32.png)![Decision_Tree_Gini_Konfusionsmatrix](images/ccf_project/Decision_Tree_Gini_Konfusionsmatrix_32.png) ![Decision_Tree_Entropy_Konfusionsmatrix](images/ccf_project/Decision_Tree_Entropy_Konfusionsmatrix_32.png)
![Random_Forest_Gini_Konfusionsmatrix](images/ccf_project/Random_Forest_Gini_Konfusionsmatrix_32.png)![Random_Forest_Entropy_Konfusionsmatrix](images/ccf_project/Random_Forest_Entropy_Konfusionsmatrix_32.png)![Gaussian_Naive_Bayes_Konfusionsmatrix](images/ccf_project/Gaussian_Naive_Bayes_Konfusionsmatrix_32.png)

![K-Nearest-Neighbors_ROC_PR](images/ccf_project/K-Nearest-Neighbors_ROC_PR_32.png)
![Decision_Tree_Gini_ROC_PR](images/ccf_project/Decision_Tree_Gini_ROC_PR_32.png)
![Decision_Tree_Entropy_ROC_PR](images/ccf_project/Decision_Tree_Entropy_ROC_PR_32.png)
![Random_Forest_Gini_ROC_PR](images/ccf_project/Random_Forest_Gini_ROC_PR_32.png)
![Random_Forest_Entropy_ROC_PR](images/ccf_project/Random_Forest_Entropy_ROC_PR_32.png)
![Gaussian_Naive_Bayes_ROC_PR](images/ccf_project/Gaussian_Naive_Bayes_ROC_PR_32.png)