# Einleitung

Dies ist ein jpuyter notebook. Jupyter notebooks erlauben die Kombination von Code, graphischer Ausgabe (Plots) und Dokumentation. Jupyter sind sehr beliebt für das Prototyping und werden zunehmend wichtiger.

Ein Jupyter Notebook besteht aus Zellen, die einzelnd ausgeführt werden können. Zellen, in denen Programmcode ausgeführt werden kann sind farbig.

Sie können mit SHIFT-Enter ausgeführt werden.

# Initialisierung

Die nächte Zelle beinhaltet Programmcode zur Initialiserung. Es werden fehlende Funktionalität installiert (!pip ...) und benötigte Funktionalität geladen (import ...).

* *!pip install pyreadr* installiert Funktionalität, die zum Laden der Daten benötigt wird.

* *!pip install bokeh* installiert Funktionalität, die zum Erzeugen von Grafiken benötigt wird.

* *import pandas as pd* Pandas ist die Standardbibliothek zum Verwalten von Daten in Python. Hier wird sie unter dem Namen *pd* eingebunden.

* *import numpy as np* Numpy ist eine sehr mächtige Bibliothek für Matrizen-Berechnungen. Die Funktionen in numpy sind sehr effizient implementiert. Numpy wird hier unter dem Namen *np* eingebunden.

* *import pyreadr* Preardy enthält Funktionalität um das Datenformat zu lesen, das die Sprache R verwendet

* *import math* Math enthält mathematische Funktionen, wie z.B. Sinus (math.sin), Cosinus (math.cos), et.c

Die folgenden 3 import-Statement binden Funktionalität ein, die zum Visualisieren von Daten benötiogt wird.

* *from bokeh.plotting import figure, show, ColumnDataSource*

* *from bokeh.io import output_notebook*

* *from bokeh.sampledata.iris import flowers*

* *from google.colab import drive*





In [0]:
!pip install pyreadr
!pip install bokeh

import pandas as pd
import numpy as np
import pyreadr
import math
from bokeh.plotting import figure, show, ColumnDataSource
from bokeh.io import output_notebook
from bokeh.sampledata.iris import flowers
from google.colab import drive

drive.mount('/gdrive')
output_notebook()

Drive already mounted at /gdrive; to attempt to forcibly remount, call drive.mount("/gdrive", force_remount=True).


# Daten laden und anschauen

In der folgenden Zelle werden die Daten geladen, die im Folgenden für die Analyse und das Machine Learning verwendet werden. Income sind die Einkommensdaten und Transaction sind die Finanzbetrugsdaten.

*pyreadr.read_r* ruft die Funktion *read_r* aus der Bibliothek *pyreadr* auf. read_r liesst eine R-Datei ein und gibt ein Pandas-DataFrame zurück. Dieses wird in den Variale Transakionsdaten, bzw. Einkommensdaten gespeichert. Ein DataFrame ist vergleichbar mit einer Excel-Tabelle. Weiter unten werden wir die DatenFrames der Einkommensdaten und der Transaktionsdaten genauer anschauen.


In [0]:
Transaktionsdaten = pyreadr.read_r('/gdrive/My Drive/ML-Workshop/transactions2.RData')['transactions2']
Einkommensdaten = pyreadr.read_r('/gdrive/My Drive/ML-Workshop/income2.RData')['inc']

Mit der Funktion *type* können wir uns den Datentyp einer Variable anschauen. Wir sehen, dass der Einkommendaten ein DataFrame aus der Bibliothek pandas ist.

In [0]:
type(Einkommensdaten)

pandas.core.frame.DataFrame

DataFrames erlauben es uns die Daten auf sehr einfache Art anzuzeigen. Dies sollte man aber nur bei kleinen Datenmengen auf die folgende Art machen:

In [0]:
Einkommensdaten

Unnamed: 0,Person,Einkommen,Bildung,Arbeitserfahrung,Geschlecht,Haarlaenge
0,1,100,22,14,W,20
1,2,93,18,15,W,25
2,3,35,12,13,M,2
3,4,79,17,23,W,3
4,5,68,20,3,W,15
5,6,72,18,3,W,46
6,7,88,20,19,W,33
7,8,80,21,10,W,21
8,9,90,20,11,W,28
9,10,46,10,14,M,10


### Head

Für die Anzeige von sehr großen Datensätzen, z.B. den Transaktionsdaten, ist das aber nicht zu empfehlen. Hier sollte man sich nur Teile der Daten anschauen. Eine Methode dies zu tun ist die Funktion *head*, die als Parameter *n* annimmt. Mit *n* lässt sich einstellgen, wie viele Zeilen der Tabelle angezeigt werden sollen.

Versuchen Sie die ersten 5 und 10 Zeilen auf diese Art anzuzeigen:



```
Einkommensdaten.head(n=5)
```




In [0]:
# Nach diesen 2 Zeilen geben Sie bitte Einkommensdaten.head(n=5) ein und
# versuchen andere Zahlen als 5. Danach müssen Sie SHIFT-Enter drücken.



### Zeilen und Spalten anschauen

#### Eckige Klammern

Das Paket *pandas* erlaubt auch den Zugriff auf bestimmte Zeilen und Spalten des Datensatzes. Mit eckigen Klammern [] kann man Zeilen auswählen:
  * Einkommensdaten[0:3] zeigt die ersten 3 Zeilen an.

  * Einkommensdaten[10:20] zeigt die 10 Zeilen nach der 11 Zeile an.

  * Einkommensdaten[9] zeigt die 10te Zeile an.

Viele Programmiersprachen zählen bei 0 und nicht bei 1 los, so ist es auch in Python.

In [0]:
Einkommensdaten[10:13]

Unnamed: 0,Person,Einkommen,Bildung,Arbeitserfahrung,Geschlecht,Haarlaenge
10,11,32,14,6,M,6
11,12,96,19,18,M,6
12,13,28,12,3,W,12


### Aufgabe

Probieren sie die anderen Varianten aus und verwenden Sie dabei unterschiedliche Zahlen.

In [0]:
# Nach den Zeilen, die mit # beginnen können sie die anderen
# Arten ausprobieren. Verwenden Sie dafür auch anderen Zahlen
# Einkommensdaten[10:20]
# Einkommensdaten[9]


Man kann mit eckigen Klammern auch nach dem Namen der Spalten selektieren

In [0]:
Einkommensdaten[['Geschlecht','Haarlaenge']]

Unnamed: 0,Geschlecht,Haarlaenge
0,W,20
1,W,25
2,M,2
3,W,3
4,W,15
5,W,46
6,W,33
7,W,21
8,W,28
9,M,10


Es lässt sich auch beides kombinieren

In [0]:
Einkommensdaten[['Geschlecht','Haarlaenge']][0:10]

Unnamed: 0,Geschlecht,Haarlaenge
0,W,20
1,W,25
2,M,2
3,W,3
4,W,15
5,W,46
6,W,33
7,W,21
8,W,28
9,M,10


#### iloc Funktion

Mit dem Funktion .iloc kann man Zeilen und Spalten auswählen.

In [0]:
Einkommensdaten.iloc[0:3,2:4]

## Aufgaben zum Thema Daten

#### Aufgabe 1
Nur die Spalte "Bildung" anzeigen

In [0]:
Einkommensdaten.head[:-5]

TypeError: ignored

#### Aufagbe 2

Die Spalten "Bildung", "Einkommen" und "Haarlänge" anzeigen, allerdings nur die letzten 5 Zeilen

In [0]:
Einkommensdaten[ <HIER AUSFÜLLEN> ]

*### Aufgabe 3

Wählen nun selbst Spalten und Zeilen zur Anzeige aus.

In [0]:
Einkommensdaten[ <HIER AUSFÜLLEN> ]

### Aufgabe 4

Kombinieren Sie die Auswahlmöglichkeiten


In [0]:
Einkommensdaten[ <HIER AUSFÜLLEN> ]

# Plotting - Daten visualisieren

In dem vorherigen Abschnitt haben wir uns die Daten in Form von Tabellen angesehen. In diesem Abschnitt werden wir die Daten visualisieren. Dazu verwenden wir die Funktionen, die uns das Paket *bokeh* zur Verfügung stellt.

Als erstes schauen wir uns ein paar sehr einfache Beispieldaten an.

Die Variable *x_bsp* enthält die werden auf der x-Achse unseres Plots (von links nach rechts), die Varaible *y_bsp* enthält die Werte auf der y-Achse (von unten nach oben). Ein Punkt wird für jeden Wert aus x_bsp und y_bsp gezeichnet.

In der nächsten Zelle steht:


```
x_bsp = [0,1,2,3,4,5,6,7,8,9,10]
y_bsp = [0,2,4,8,10,10,8,4,2,2,1]
```
Das bedeutet, dass jeweils ein Punkt für die Koordinate (x=0, y=0), (x=1, y=2), (x=2, y=4), (x=3, y=8), ... gezeichnet wird. Wir werden diese Punkte mit Linien verbinden.

Als erster müssen wir das "Blatt" erstellen, auf dem wir den Graphen malen. Das macht man mit der Funktion


```
p = figure(title = "Beispiel", plot_width=800, plot_height=300)
```

Nun können wir auf dem "Blatt" malen, das *p* heisst.

Mit 
```
p.line(x_bsp,y_bsp, color="#0A09A2")
```
sagen wir, dass eine Linie entlang der Koordinaten gemalt werden soll, die in den Variablen *x_bsp* und *y_bsp* gespeichert wird, und dass dabei die Farbe genommen werden soll, die durch "#0A09A2" bestimmt wurde.

```
show(p)
```
sagt, dass das "Blatt" angezeigt werden soll.

Verändern Sie in dem der folgenden Zelle bitte die Koordnaten und Farbe.

In [0]:
x_bsp = [0,1,2,3,4,5,6,7,8,9,10]
y_bsp = [0,2,4,8,10,10,8,4,2,2,1]

p = figure(title = "Beispiel", plot_width=800, plot_height=300)
p.line(x_bsp,y_bsp, color="#0A09A2")
show(p)

Man kann mehrere Linien zeichen, in dem man die entsprechende Funktion mehrmals aufruft.

In [0]:
x_bsp = [0,1,2,3,4,5,6,7,8,9,10]
y_bsp = [0,2,4,8,10,10,8,4,2,2,1]

p = figure(title = "Beispiel", plot_width=800, plot_height=300)
p.line(x_bsp,y_bsp, color="#0A09A2")
p.line(x_bsp,[2*v for v in y_bsp], color="#AA09A2")
show(p)

### Aufgabe 1

Zeichnen sie ein Viereck mit den Koordinaten (0,0), (0,1), (1,1), (1,0)

In [0]:
x = [ 0,0,1,1,0 ]
y = [ 0,1,1,0,0 ]

p = figure(title = "Beispiel", plot_width=300, plot_height=300)
p.line(x, y, color="#0A09A2")
show(p)

Aufgabe 2

Verändern Sie die Farbe des Vierecks.

Es können englische Namen für Farben verwendet werden, oder eine RGB Kodierung. Farben in RGB werden wie folgt beschrieben:

"#RRGGBB"

Die ersten beiden Ziffern beschreiben den Rotanteil einer Farbe. Die zweiten beiden Ziffern beschreiben den Grünateil und die letzten beiden Ziffern den Blauanteil. Für jede Ziffer kann eine der folgenden Zahlen verwendet werden:

0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F, wobei F für die Zahl 15 steht, A entsprechend für 10

* "#0000FF" ist ein kräftiges Blau
* "#00FF00" ist ein kräftiges Grün
* "#FF0000" ist ein kräftiges Rot
* "#000000" ist Schwarz
* "#FFFFFF" ist Weiß
* "#888888" ergibt Grau

Probieren Sie bitte unterschiedliche Farben aus.



In [0]:
x = [ 0,0,1,1,0 ]
y = [ 0,1,1,0,0 ]

p = figure(title = "Beispiel", plot_width=300, plot_height=300)
p.line(x, y, color="#A0A0A0")
show(p)

## Visualisierung der Einkommensdaten

Als nächstes reproduzieren wir die Plots aus den Folien. Der erste Plot zeigte den Zusammenhang zwischen Bildung, Einkommen und Geschlecht.

Für das Geschlecht haben wir 2 Farben gewählt. Diese müssen wir dem Datensatz noch hinzufügen.

Das machen wir mit den folgenden Zeilen:

```
colormap = {'W': 'green', 'M': 'orange'}
colors = [colormap[x] for x in Einkommensdaten['Geschlecht']]
Einkommensdaten['Farbe'] = colors
source = ColumnDataSource(Einkommensdaten)
```

Die erste Zeile legt fest, welche Farben wir für W (weiblich) und M (männlich) haben wollen. Die zweite Zeile weist diese Farben jedem Eintrag in dem Datensatz zu und die dritte Zeile erstellt eine neue Spalte namens 'Farbe', in der die Werte gespeichert werden. Die vierte Zeile legt fest, dass der Datensatz *Einkommensdaten* die Datengrundlage für die Visualiserung ist. So kann man deutlich einfacher auf die Daten zugreifen (sieht man bei dem p.circle weiter unten).


Die folgenden Zeilen erstellen wieder das "Blatt" und legen die Achsenbeschriftung fest.
```
p = figure(title = "Gehaltsdaten")
p.xaxis.axis_label = 'Bildung'
p.yaxis.axis_label = 'Einkommen'

```

Als nächsten zeichen wir die Punkte auf. Hier sehen wir auch warum wir die Zeile *source = ColumnDataSource(Einkommensdaten)* oben verwendet haben. Wir können nun einfach die Namen der Spalten angeben:

```
p.circle("Bildung",      # x-Achse
         "Einkommen",    # y-Achse
         color="Farbe",  # Die Farbe für jeden Punkt
         fill_alpha=0.2, # Leicht transparent
         size=10,        # 10 Pixel gross
         legend="Geschlecht", # Legende ist W und M
         source=source) # Datengrundlagen ist die Variable source
p.legend.location = "top_left" # Die Legende soll in der oberen, linken Ecke sein
```

Zum Schluss müssen wir das "Blatt" noch anzeigen.

```
show(p)
```



In [0]:
colormap = {'W': 'green', 'M': 'orange'}
colors = [colormap[x] for x in Einkommensdaten['Geschlecht']]
Einkommensdaten['Farbe'] = colors

source = ColumnDataSource(Einkommensdaten)

p = figure(title = "Gehaltsdaten")
p.xaxis.axis_label = 'Bildung'
p.yaxis.axis_label = 'Einkommen'

p.circle("Bildung",
         "Einkommen",
         color="Farbe",
         fill_alpha=0.2,
         size=10,
         legend="Geschlecht",
         source=source)
p.legend.location = "top_left"

show(p)

In der folgenden Zelle können Sie unterschiedliche Zusammenhänge ausprobiern, z.B. könnten Sie sich anschauen, wie sich das Gehalt zur Haarlänge verhält.

In [0]:
colormap = {'W': 'green', 'M': 'orange'}
colors = [colormap[x] for x in Einkommensdaten['Geschlecht']]
Einkommensdaten['Farbe'] = colors

source = ColumnDataSource(Einkommensdaten)

p = figure(title = "Gehaltsdaten")
p.xaxis.axis_label = 'Bildung'
p.yaxis.axis_label = 'Einkommen'

p.circle("Bildung",
         'Einkommen',
         color="Farbe",
         fill_alpha=0.2,
         size=10,
         legend="Geschlecht",
         source=source)
p.legend.location = "top_left"

show(p)

## Modellierung der Einkommensdaten (manuell)

In [0]:
minimum = np.min(Einkommensdaten['Bildung'])
maximum = np.max(Einkommensdaten['Bildung'])

xp   = np.linspace(minimum, maximum, 1000)

fit  = np.polyfit(x=Einkommensdaten['Bildung'], y=Einkommensdaten['Einkommen'],
                  deg=3) # <<<< Den Grad hier ändern

func = np.poly1d(fit)
yp   = [func(v) for v in xp]

colormap = {'W': 'green', 'M': 'orange'}
colors = [colormap[x] for x in Einkommensdaten['Geschlecht']]
Einkommensdaten['colors'] = colors

source = ColumnDataSource(Einkommensdaten)

p = figure(title = "Gehaltsdaten")
p.xaxis.axis_label = 'Bildung'
p.yaxis.axis_label = 'Einkommen'

p.circle("Bildung",
         "Einkommen",
         color="colors",
         fill_alpha=0.2,
         size=10,
         legend="Geschlecht",
         source=source)
p.line(xp,yp)
p.legend.location = "top_left"

show(p)

# Transaktionsdaten

## Transaktionsdaten laden

In [0]:
Transaktionsdaten = pyreadr.read_r('/gdrive/My Drive/ML-Workshop/transactions2.RData')['transactions2']

## Datensatz inspizieren mit head

In [0]:
Transaktionsdaten.head(n=10)

## Verhältnis von Fraud zu Non-Fraud visualisieren

Als erstes zählen wir, wie viele Fälle von Betrug in dem Datensatz vohanden sind und wie viele Fälle keine Betrugsfälle sind.

In [0]:
nr_fraud = len(Transaktionsdaten[ (Transaktionsdaten["isFraud"] == 1)])
nr_no_fraud = len(Transaktionsdaten[ (Transaktionsdaten["isFraud"] == 0)])

print('Anzahl der Betrugsfälle:                      %d' % (nr_fraud))
print('Anzahl der der Fääle, die keinen Betrug sind: %d' % (nr_no_fraud))

Als nächsten zeigen wir diese Daten in einem Balkendiagramm an.

In [0]:
labels =['fraud', 'no fraud']
p = figure(x_range=labels, plot_height=350, title="Fraud vs. Non-Fraud",
           toolbar_location=None, tools="")

counts =[len(Transaktionsdaten[ (Transaktionsdaten["isFraud"] == 1)]),
         len(Transaktionsdaten[ (Transaktionsdaten["isFraud"] == 0)])]

p.vbar(x=labels, top=counts, width=0.9)

show(p)

Jetzt wollen wir uns überlegen, wie wir vllt. mit einfachen Methoden Betrug (Fraud) erkennen können. Dazu schauen wir uns an, wie sich die Menge des Geldes zum Verhältnis Fraud vs Nicht-Fraud verhält. Es ist einfach Betrug vorherzusagen, wenn alle Betrugsfälle immer über einem bestimmten Betrag liegen.

In [0]:
p = figure(title = "Transaktionsdaten")
p.xaxis.axis_label = 'Fraud'
p.yaxis.axis_label = 'Amount'

p.circle(Transaktionsdaten["isFraud"][0:100000],
         Transaktionsdaten["amount"][0:100000],
         fill_alpha=0.2,
         size=10)
show(p)

Probieren Sie andere Zusammenhänge zu visualisieren

In [0]:
p = figure(title = "Transaktionsdaten")
p.xaxis.axis_label = <EINFÜGEN>
p.yaxis.axis_label = <EINFÜGEN>

p.circle(Transaktionsdaten[<EINFÜGEN>][0:100000],
         Transaktionsdaten[<EINFÜGEN>][0:100000],
         fill_alpha=0.2,
         size=10)
show(p)

Es scheint keinen einfachen Zusammenhang der Menge des Geldes und der Betrugsfälle zu geben. Wir werden also auf Methoden Maschinellen Lernens zurückgreifen müssen. Wie das geht, wird jetzt in Teil 2 erklärt.

# Praktischer Teil 2: Klassifizieren mit Logistischer Regression

Als nächstes widmen wir uns der Klassifizierung der Daten mit dem Modell der Logistischen Regression, das wir soeben besprochen haben. 

Zunächst wollen wir das auf dem Einkommensdatensatz machen. Zum Beispiel möchten wir das Geschlecht anhand der Haarlänge vorhersagen.
Für diese Analysen laden wir uns ein paar nützliche Pakete von Scikit-Learn herunter. Scikit-Learn ist eine Sammlung von häufig verwendeten Werkzeugen im Maschinellen Lernen.

Das Einbinden von SciKit-Learn erfolgt über das Paket sklearn. Weil es ziemlich umfänglich ist, laden wir nur die benötigte Funktionalität.

In [0]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

## Inspizieren der Daten

Schauen wir uns den Datensatz noch einmal an mit der "head" funktion, die uns eine Liste der Variablennamen und eine n-Anzahl Einträge gibt:


```
Einkommensdaten.head(n=5)
```
Bitte schauen Sie sich nun die ersten 10 Zeilen an:

In [0]:
# Code hier einfügen:


Die Größe des Datensatzes kann man mit *shape* erfahren. Die erste Zahl sind die Anzahl der Zeilen, die zweite Zahl sind die Anzahl der Spalten.



In [0]:
Einkommensdaten.shape

(30, 8)

## Aufteilen in Trainingsdaten und Testdaten

Zunächst muss der Datensatz geteilt werden 
Speichere dazu 60% der Beobachtungen in das Objekt "samples" und tue dies zufällig (der Code ist gegeben)

In [0]:
seed=1
train_size = 0.6
Haarlaenge_train, Haarlaenge_test, Geschlecht_train, Geschlecht_test = train_test_split(Einkommensdaten[['Haarlaenge']], Einkommensdaten['Geschlecht'], train_size=train_size, random_state=seed)

Gehen wir sicher, dass wir die richtige Anzahl an Trainingsdatensätzen haben, dafür lassen wir uns mit der "print" Funktion mehrere Befehle nacheinander anzeigen, z.B.

```
print(Haarlaenge_train.shape)
```

Aufgabe: Schauen Sie sich die Länge der anderen Variablen an und überprüfen Sie, ob die Daten 60/40 aufgeteilt sind:

In [0]:
print(Haarlaenge_train.shape)
print(Haarlaenge_test.shape)
print(Geschlecht_train.shape)
print(Geschlecht_test.shape)

(18, 1)
(12, 1)
(18,)
(12,)


## Modellbildung

Jetzt bauen wir unser Model mit Logistischer Regression. Dafür benutzen wir eine Implementierung von Scikit-Learn mit dem passenden Namen LogisticRegression.


In [0]:
logmodel = LogisticRegression(solver='lbfgs')
logmodel.fit(Haarlaenge_train,Geschlecht_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

## Verwenden des Modells für eine Vorhersage

Das Modell können wir nun dafür verwenden Vorhersagen zu machen.

In [0]:
Vorhersage = logmodel.predict(Haarlaenge_test)
print(Vorhersage)
print(Haarlaenge_test)

['W' 'M' 'M' 'W' 'W' 'W' 'W' 'M' 'M' 'M' 'W' 'M']
    Haarlaenge
17          35
21          16
10           6
19          23
14          39
20          34
26          19
3            3
24           5
22           3
23          17
4           15


## Genauigkeit und Präzision des Modells bestimmen

Dieses Ergebnis schauen wir uns am Besten genauer an. Insbesondere möchten wir wissen wie gut wir das Geschlecht vorhergesagt haben. Dazu vergleichen wir die vorhergesagten Daten mit den echten. Das Scikit-Learn hat dafür auch schon ein paar nützliche Funktionen: accuracy_score und confusion_matrix, die den Vergleich für uns machen.

In [0]:
accuracy = accuracy_score(Geschlecht_test, Vorhersage)
cm_results = confusion_matrix(Geschlecht_test, Vorhersage).ravel()

print("Korrekt Klassifiziert (insgesamt) :     %.2f%%" % (accuracy * 100.0))
print("Korrekt Abgelehnt (true negatives):     " + str(cm_results[0]))
print("Fälschlich Abgelehnt (false negatives): " + str(cm_results[2]))
print("Korrekt Erkannt (true positives):       " + str(cm_results[3]))
print("Fälschlich Erkannt (false positives):   " + str(cm_results[1]))

Korrekt Klassifiziert (insgesamt) :     75.00%
Korrekt Abgelehnt (true negatives):     4
Fälschlich Abgelehnt (false negatives): 2
Korrekt Erkannt (true positives):       5
Fälschlich Erkannt (false positives):   1


# Logistische Regression auf den Transaktionsdaten

Als nächstes wollen wir uns an einen "Big Data" Datensatz machen, für die Transaktionsdaten. Auch hier können wir die logistische Regression verwenden.

Bevor wir den Algorithmus einsetzen können, müssen wir wieder erst einmal das Datenset so einrichten, dass wir ein Trainingsdatenset und ein Testdatenset haben. Wir werden auf einem Teil, z.B. 80%, der Daten unser Modell trainieren, dann auf dem anderen Teil (20%) das Modell validieren. Das Modell, also das Endprodukt der Anwendung des Algorithmus, sagt in diesem Fall aus den Daten hervor, ob ein Betrug (isFraud) stattgefunden hat.

Schauen wir uns die Datenstruktur genauer an.

Als erstes schauen wir uns an, wie groß der Datensatz ist. Dafür kann dieselbe Funktion "shape" verwendet werden wie bei dem Einkommensdatensatz.
Dort war es

```
Einkommensdaten.shape
```




In [0]:
#Bitte hier den code zum Anzeigen der Datenstruktur / Größe eingeben
Transaktionsdaten.shape

(2770409, 8)

An nächstes schauen wir uns an, welche Datenfelder in dem Datensatz vorhanden sind.

In [0]:
Transaktionsdaten.head(n=10)

Unnamed: 0,isFraud,amount,oldbalanceOrg,newbalanceOrg,oldbalanceDest,newbalanceDest,hour,type
0,1.0,181.0,181.0,0.0,0.0,0.0,1.0,0
1,1.0,181.0,181.0,0.0,21182.0,0.0,1.0,1
2,0.0,229133.94,15325.0,0.0,5083.0,51513.44,1.0,1
3,0.0,215310.3,705.0,0.0,22425.0,0.0,1.0,0
4,0.0,311685.89,10835.0,0.0,6267.0,2719172.89,1.0,0
5,0.0,110414.71,26845.41,0.0,288800.0,2415.16,1.0,1
6,0.0,56953.9,1942.02,0.0,70253.0,64106.18,1.0,1
7,0.0,5346.89,0.0,0.0,652637.0,6453430.91,1.0,1
8,0.0,23261.3,20411.53,0.0,25742.0,0.0,1.0,1
9,0.0,62610.8,79114.0,16503.2,517.0,8383.29,1.0,0


Jetzt wissen wir, welche Variablen es gibt und können einzelne auswählen.

Unser Ziel ist es, vorherzusagen, ob Betrug begangen wurde. Die Variable 'isFraud' gibt an, ob die Transaktion betrügerischer Natur war. Diese soll nicht in unsere Berechnungen eingehen, sondern vorhergesagt werden. Deswegen teilen wir unsere Daten in die Variablen zur Berechnung (X) und die Vorhergesagten (Y) auf. Versuchen wir es erst einmal mit der Vorhersage ob es Betrug (isFraud) war, anhand aller anderer Variablen.

Bitte ändern Sie den unten stehenden Code so, dass die Zielvariable Transaktionsdaten_Y beinhaltet.

In [0]:
# Wir können aus den einzelnen Spalten auswählen. 'isFraud' wollen wir nicht!
Transaktionsdaten_X = Transaktionsdaten[['amount', 'oldbalanceOrg', 'newbalanceOrg', 'oldbalanceDest',
       'newbalanceDest', 'hour']]

# Wir wählen isFraud zur Vorhersage aus
Transaktionsdaten_Y = Transaktionsdaten[['isFraud']]

Als nächsten Schritt teilen wir die Datensets in Trainings- und Testdaten. Dafür gibt es eine praktische Funktion train_test_split(). Damit wir später unsere Modelle vergleichen können, setzen wir den Zufälligkeitsalgorithmus (seed) fest. Bitte ändern Sie den unten stehenden code, sodass 80% aller Daten zum Training verwendet werden:

In [0]:
seed=1
test_size = 0.2
x_train, x_test, y_train, y_test = train_test_split(Transaktionsdaten_X,
                                                    Transaktionsdaten_Y,
                                                    test_size=test_size,
                                                    random_state=seed)

Schauen wir uns das training set an: x_train und y_train sollten die gleiche Anzahl Zeilen haben. x_train sind die Daten von denen wir die Kategorie in y_train vorhersagen. x_test und y_test benutzen wir zur Validierung des Modells und werden nicht zum Trainieren verwendet!

In [0]:
print(x_train.shape)
print(y_train.shape)

(2216327, 6)
(2216327, 1)


Überprüfen wir, ob wirklich 80% aller Daten ausgewählt wurden:

In [0]:
print("Anteil der Daten für das Training: %.2f%%" % (x_train.shape[0] / Transaktionsdaten.shape[0] * 100.0))

Anteil der Daten für das Training: 80.00%


Jetzt trainieren (fitten) wir unser Modell mit Hilfe der Logistischen Regression. 

In [0]:
logmodel = LogisticRegression(solver='lbfgs')
logmodel.fit(x_train, y_train.values.ravel())

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

Jetzt müssen wir nur noch das Modell auf die Testdaten anwenden.

In [0]:
Vorhersage = logmodel.predict(x_test)

print(Vorhersage)

[0. 0. 0. ... 0. 0. 0.]


Wir sehen, die Vorhersage ist viel zu lang ist (20% von circa 2.7 Millionen) um angezeigt zu werden. Außerdem sind viele 0 dabei - warum ist das so?

Jetzt wollen wir noch Vergleichen, was wir vorhergesagt haben und was wirklich im Testdatensatz steht

In [0]:
accuracy = accuracy_score(y_test, Vorhersage)
cm_results=confusion_matrix(y_test, Vorhersage).ravel()

print("Korrekt Klassifiziert (insgesamt) :     %.2f%%" % (accuracy * 100.0))
print("Korrekt Abgelehnt (true negatives):     " + str(cm_results[0]))
print("Fälschlich Abgelehnt (false negatives): " + str(cm_results[2]))
print("Korrekt Erkannt (true positives):       " + str(cm_results[3]))
print("Fälschlich Erkannt (false positives):   " + str(cm_results[1]))

Korrekt Klassifiziert (insgesamt) :     99.82%
Korrekt Abgelehnt (true negatives):     552242
Fälschlich Abgelehnt (false negatives): 811
Korrekt Erkannt (true positives):       848
Fälschlich Erkannt (false positives):   181


# Maschinelles Lernen mit XGBoost

In diesem Tutorial wollen wir eine Methode aus dem Maschinellen Lernen verwenden: Den e**X**treme **G**radient **Boost**ing Algorithmus XGBoost.

Im Bereich Maschinellen Lernen gibt es sogenannte Kaggle Challenges, wo KI-Teams gegeneinander mit ihren Algorithmen antreten. Der XGBoost hat dabei mehrmals alle anderen geschlagen und ist ein sehr effizientes und mächtiges Werkzeug.

Wir werden XGBoost heute auf die Transaktionsdaten anwenden, um Betrüger aufzuspüren.

Wir installieren den Algorithmus XGBoost

In [0]:
# Installieren der relevanten Pakete
!pip install xgboost # Der Algorithmus XGBoost
from xgboost import XGBClassifier



Jetzt trainieren (fit) wir unser Modell mit Hilfe des XGBoost Algorithmus. Wir lassen diesen z.B. 10x laufen und nutzen am Ende das beste Modell. Der Output der Funktion zeigt uns schon einmal vorab, wie gut jeder Durchgang ist.

In [0]:
# Hier können Einstellungen geändert werden, z.B. max_depth=5 oder mehr für "tiefere Bäume", nfold - wie groß das Validierungsset beim Training ist, oder auch n_estimators, wie häufig trainiert und iteriert wird.
model = XGBClassifier(booster="gbtree", max_depth = 10, objective = "binary:logistic", nfold = 10, n_estimators=20)
eval_set = [(x_train, y_train), (x_test, y_test.values.ravel())]
model.fit(x_train, y_train.values.ravel(), eval_metric="error", eval_set=eval_set, verbose=True) # verbose gibt error pro Validierungsrunde, early_stopping_rounds=10 gibt automatischen stop nach 10 nicht besseren Iterationen

  y = column_or_1d(y, warn=True)


[0]	validation_0-error:0.0008	validation_1-error:0.000841
[1]	validation_0-error:0.00077	validation_1-error:0.000819
[2]	validation_0-error:0.000755	validation_1-error:0.000819
[3]	validation_0-error:0.000739	validation_1-error:0.000798
[4]	validation_0-error:0.000737	validation_1-error:0.00078
[5]	validation_0-error:0.00073	validation_1-error:0.000778
[6]	validation_0-error:0.000731	validation_1-error:0.000778
[7]	validation_0-error:0.0007	validation_1-error:0.000751
[8]	validation_0-error:0.000691	validation_1-error:0.000751
[9]	validation_0-error:0.000684	validation_1-error:0.00074
[10]	validation_0-error:0.000674	validation_1-error:0.000736
[11]	validation_0-error:0.000674	validation_1-error:0.000735
[12]	validation_0-error:0.000669	validation_1-error:0.000722
[13]	validation_0-error:0.000666	validation_1-error:0.000722
[14]	validation_0-error:0.000663	validation_1-error:0.000722
[15]	validation_0-error:0.000654	validation_1-error:0.000713
[16]	validation_0-error:0.000649	validatio

XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=1, gamma=0,
              learning_rate=0.1, max_delta_step=0, max_depth=10,
              min_child_weight=1, missing=None, n_estimators=20, n_jobs=1,
              nfold=10, nthread=None, objective='binary:logistic',
              random_state=0, reg_alpha=0, reg_lambda=1, scale_pos_weight=1,
              seed=None, silent=None, subsample=1, verbosity=1)

Unser Modell gibt uns jetzt eine Menge output.
Wir haben XGBoost gesagt, es soll in 10 iterationen das Modell am besten Trainieren, sodass es möglichst gut die Daten Klassifiziert.

Jetzt müssen wir nur noch schauen, ob das errechnete Modell auch die Testdaten gut vorhersagt. Diese Vorhersage vergleichen wir mit den Testdaten. Herauskommen und schauen uns nicht nur an, wie häufig

In [0]:
y_pred = model.predict(x_test)
	
# Evaluieren wir die Vorhersage
accuracy = accuracy_score(y_test, y_pred)
cm_results=confusion_matrix(y_test, y_pred).ravel()

print("Korrekt Klassifiziert (insgesamt) :     %.2f%%" % (accuracy * 100.0))
print("Korrekt Abgelehnt (true negatives):     " + str(cm_results[0]))
print("Fälschlich Abgelehnt (false negatives): " + str(cm_results[2]))
print("Korrekt Erkannt (true positives):       " + str(cm_results[3]))
print("Fälschlich Erkannt (false positives):   " + str(cm_results[1]))


Korrekt Klassifiziert (insgesamt) :     99.90%
Korrekt Abgelehnt (true negatives):     552334
Fälschlich Abgelehnt (false negatives): 480
Korrekt Erkannt (true positives):       1179
Fälschlich Erkannt (false positives):   89


Jetzt vergleichen wir die Ergebnisse einmal gemeinsam. War die logistische Regression oder das Extreme Gradiant Boosting besser?


Können wir mit Einstellungen beim Training, z.B. Tiefe der Bäume (max_depth), Größe des Trainingsdatensatzes für die Iteration (n_folds) oder der Häufigkeit der Trainingsiterationen (n_estimators) bessere Ergebnisse erzielen?
Vorsicht: Das Berechnen kann schnell lange dauern bei zu großen Parametern. 

Optional: Können wir mit anderen Größen an Trainings- und Testdatensätzen (also nicht 80/20) bessere Ergebnisse erzielen?

Optional: Werden wirklich alle Variablen gebraucht zur Vorhersage? Was passiert wenn zum Beispiel "hour" weggelassen wird? Oder zum Beispiel nur anhand der Menge (amount) klassifiziert wird?