# Künstliche Intelligenz

In diesem Teil beschäftigen wir uns mit künstlicher Intelligenz. Genauer gesagt
beschäftigen wir uns mit *maschinellem Lernen*. Beim maschinellem Lernen geht
es darum das der Computer eigenständig aus den Daten die er gegeben hat lernen
kann. Eine sehr häufige Anwendung davon ist **Klassifizierung**.

Ein Beispiel für Klassifizierung ist wenn der Computer aufgrund der ihm zur
Verfügung stehenden Daten entscheiden muss um welche Art von Frucht er sich
handelt.


**Aufgabe:**
> In der nächsten Zelle ist ein Datensatz beschrieben, versuchen Sie sich zu
> überlegen wie Sie die Daten so aufteilen können, dass sie eindeutig
> klassifiziert werden können. Teilen Sie Ihre Erkenntnis mit Ihrem
> Sitznachbarn.


In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib notebook

data = [
  [117, 'Banane'],
  [130, 'Banane'],
  [234, 'Apfel'],
  [221, 'Apfel'],
  [239, 'Apfel'],
  [122, 'Banane'],
  [200, 'Apfel'],
  [92, 'Banane'],
  [187, 'Apfel'],
  [276, 'Apfel'],
  [88, 'Banane'],
  [110, 'Banane'],
  [240, 'Apfel'],
  [212, 'Apfel'],
  [232, 'Apfel'],
  [115, 'Banane'],
]

df = pd.DataFrame(data)
df.head(16)

Unnamed: 0,0,1
0,117,Banane
1,130,Banane
2,234,Apfel
3,221,Apfel
4,239,Apfel
5,122,Banane
6,200,Apfel
7,92,Banane
8,187,Apfel
9,276,Apfel


Sie sehen in diesem Beispiel dass Sie aufgrund vom Gewicht ganz eindeutig
korrekt klassifizieren können. Damit man das noch ein wenig schneller sehen
kann, finden Sie in der nächsten Zelle eine Grafik welche jeden Datenpunkt
darstellt. Weil wir nur das Gewicht der Früchte betrachten, gibt es nur eine
lineare Verteilung der Punkte.

In [2]:
bananas = df[df[1] == 'Banane']
apples = df[df[1] == 'Apfel']
fig, ax = plt.subplots(1)

ax.scatter(bananas[0], np.linspace(0,0,len(bananas)), color='yellow')
ax.scatter(apples[0], np.linspace(0,0,len(apples)), color='green')

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x7f0933f712e0>

Sie sehen an der Grafik bereits das die Punkte unterschiedlich eingefärbt sind.
Das können wir hier machen, da wir hier mit dem sogenannten *Trainingsset*
arbeiten. Beim *Trainingsset* handelt es sich um Daten zu denen wir die Antwort
bereits kennen. Diese Daten werden dann verwendet um eine *künstliche
Intelligenz* zu trainieren.

Für diesen Datensatz ist es sehr einfach eine *KI* zu trainieren. Wir müssen
nur fragen ob das Gewicht grösser als $160$ ist, dann wird es sich um einen
Apfel handeln. Und genau das machen wir hier. Die *KI* soll eine neue Frucht
die wir bis jetzt noch nicht in Datensatz hatten, klassifizieren.

**Aufgabe:**
> Führen Sie die nächste Zelle aus. Die fügt in den Plot von oben 2 neue Graue
> Punkte ein, die noch nicht klassifiziert sind. Können Sie erraten welcher
> Punkt welches Label erhalten soll? Diskutieren Sie Ihre Lösung mit Ihrem
> Sitznachbarn.

In [3]:
unknown = pd.DataFrame([
    [252, 'unknown'],
    [102, 'unknown']
])
ax.scatter(unknown[0], np.linspace(0, 0, len(unknown)), color='gray')

<matplotlib.collections.PathCollection at 0x7f097010d940>

## Super!

Das war mal wieder viel zu einfach für Sie! Das Beispiel soll Ihnen aufzeigen
wie die *KI* hier vorgehen würde. Es wird schon noch ein wenig schwieriger.

Auf dem Markt ist eine neue Art von Apfel aufgetreten. Es handelt sich hier um
Baby-Äpfel. Diese sind sehr klein und von daher auch relativ leicht. Es handelt
sich allerdings immer noch um Äpfel.

**Aufgabe:**
> In der nächsten Zelle finden Sie ein neues Datenset. Wenn Sie die Zelle
> ausführen, wird der Datensatz gleich geplottet. Diskutieren Sie mit Ihrem
> Sitznachbarn wie Sie den Datensatz klassifizieren würden.



In [4]:
df = pd.DataFrame([
  [117, 'Banane'],
  [130, 'Banane'],
  [234, 'Apfel'],
  [221, 'Apfel'],
  [239, 'Apfel'],
  [122, 'Banane'],
  [200, 'Apfel'],
  [92, 'Banane'],
  [187, 'Apfel'],
  [276, 'Apfel'],
  [89, 'Banane'],
  [110, 'Banane'],
  [240, 'Apfel'],
  [212, 'Apfel'],
  [232, 'Apfel'],
  [115, 'Banane'],
    [50, 'Apfel'],
    [75, 'Apfel'],
    [62, 'Apfel'],
    [88, 'Apfel'],
])

bananas = df[df[1] == 'Banane']
apples = df[df[1] == 'Apfel']
fig, ax = plt.subplots(1)

ax.scatter(bananas[0], np.linspace(0,0,len(bananas)), color='yellow')
ax.scatter(apples[0], np.linspace(0,0,len(apples)), color='green')

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x7f0933f46a00>

Das klassifizieren ist nicht weiter schwer in diesem Fall, Sie müssen einfach 2
Fragen statt nur einer Frage stellen.

## Entscheidungsbäume

Hier kommen nun sogenannte *Entscheidungsbäume* ins Spiel. Ein
Entscheidungsbaum besteht aus mehreren Fragen, die nacheinander gestellt
werden. Wenn keine Fragen mehr übrig sind, dann ist der Baum bei einer
Entscheidung angelangt, und gibt eine Klassifizierung für den aktellen
Datenpunkt an.

In der nächsten Zelle finden Sie ein Beispiel für so einen Entscheidungsbaum.
In der Zelle wird er von Hand aufgebaut und folgt einigen ganz einfachen
Regeln.

**Regeln:**
> - Es gibt immer einen Wurzelknoten.
> - Jeder Knoten hat genau 2 Kinder, ein linkes und ein rechtes.
> - Jeder Knoten hat genau eine Frage.
> - Die Frage ist immer gestellt ob ein Wert kleiner ist.
> - Wird die Frage mit JA beantwortet, gehen wir zum linken Kind, sonst zum
>   rechten.
> - Knoten am Ende des Baumes sind Blätter, und haben eine Kategorie.

**Aufgabe:**
> In der nächsten Zelle finden Sie Code und Kommentare. Führen Sie die Zelle
> aus, und sehen was passiert. Diskutieren Sie das mit Ihrem Sitznachbarn.
>
> Versuchen Sie mit Hilfe von Ihrem Sitznachbarn alle Kommentare im Code zu
> verstehen, und versuchen Sie dann den Baum zu verändern.

In [5]:
from lib.mytree import *

# Hier wird ein neuer Baum erzeugt. Diesem Baum wird gerade die Wurzel
# übergeben, die bereits eine erste Frage enthält.
# Die Frage hier lautet: Ist der Wert kleiner als 80?
# Die 0 gibt an um welche Spalte es sich handelt, da wir im Moment nur auf das
# Gewicht schauen, haben alle den Wert 0.
dt = DesicionTree(
    Node(Question(0, 80)))

# Hier holen wir uns von dem Baum den Wurzelknoten, und hängen als linkes Kind
# ein Blatt an. Das machen wir weil alles was mit der Frage: Ist das Gewicht
# kleiner als 80 beantwortet werden kann, ein Apfel ist.
dt.root.add_left_child(Leaf('Apfel'))

# Wir holen wieder den Wurzel Knoten, und fügen das rechte Kind hinzu. Dies ist
# ein normaler Knoten, da wir hier noch eine weitere Frage stellen müssen.
# Die Frage hier lautet: Ist das Gewicht kleiner als 160?
dt.root.add_right_child(
    Node(Question(0, 160)))

# Wir fügen dem rechten Kind des Wurzelknotens ein linkes Kind an, welches ein
# Blatt ist. Hier handelt es sich um Bananen.
dt.root.right.add_left_child(Leaf('Banane'))
dt.root.right.add_right_child(Leaf('Apfel'))


# Der Code hier, geht über den Datensatz und klassifiziert alle Datenpunkte so
# wie sie durch den Baum klassifiziert werden.
for data in df.to_numpy():
    print(data, dt.predict(data))

[117 'Banane'] Banane
[130 'Banane'] Banane
[234 'Apfel'] Apfel
[221 'Apfel'] Apfel
[239 'Apfel'] Apfel
[122 'Banane'] Banane
[200 'Apfel'] Apfel
[92 'Banane'] Banane
[187 'Apfel'] Apfel
[276 'Apfel'] Apfel
[89 'Banane'] Banane
[110 'Banane'] Banane
[240 'Apfel'] Apfel
[212 'Apfel'] Apfel
[232 'Apfel'] Apfel
[115 'Banane'] Banane
[50 'Apfel'] Apfel
[75 'Apfel'] Apfel
[62 'Apfel'] Apfel
[88 'Apfel'] Banane


## Toll

Das ist ja schön und gut, aber das ganze scheint ein wenig aufwendig für so ein
einfaches erfundenes Beispiel zu sein...

Nun betrachten wir ein Datensatz der nicht mehr ganz so einfach klassifiziert
werden kann.

**Aufgabe:**
> Führen Sie die nächste Zelle aus, und diskutieren Sie mit Ihrem Sitznachbarn
> was Sie beobachten. Wie können Sie den neuen Datensatz klassifizieren?

In [19]:
df = pd.DataFrame([
    [117, 82, 'Banane'],
    [130, 81, 'Banane'],
    [234, 95, 'Apfel'],
    [221, 70, 'Apfel'],
    [239, 86, 'Apfel'],
    [122, 87, 'Banane'],
    [200, 62, 'Apfel'],
    [92, 43, 'Banane'],
    [187, 115, 'Apfel'],
    [276, 99, 'Apfel'],
    [89, 82, 'Banane'],
    [110, 61, 'Banane'],
    [240, 84, 'Apfel'],
    [212, 111, 'Apfel'],
    [232, 92, 'Apfel'],
    [115, 80, 'Banane'],
    [90, 120, 'Apfel'],
    [112, 130, 'Apfel'],
    [105, 122, 'Apfel'],
    [99, 128, 'Apfel'],
])

bananas = df[df[2] == 'Banane']
apples = df[df[2] == 'Apfel']
fig = plt.figure()
ax = fig.add_subplot()

ax.scatter(bananas[0], bananas[1], color='yellow')
ax.scatter(apples[0], apples[1], color='green')

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x7f0931c37fd0>

Sie sehen dass Sie nun 2 verschiedene Grössen brauchen um eine Klassifizierung
der Daten zu erreichen.

**Aufgabe:**
> Schreiben Sie Code der Ihnen einen Baum erzeugt der diesen Datensatz
> Klassifiziert.
>
> **Tipp:** Kopieren Sie den Code von oben, und passen Ihn so an dass er für
> den neuen Datensatz funktioniert.
>
> **Tipp:** Wenn Sie bei `Question` eine 1 statt eine 0 verwenden, betrachtet
> er die zweite Spalte.

Sie sehen nun dass es auch möglich ist kompliziertere Datensätze mit diesem
recht einfachen Algorithmus zu klassifizieren. Sie können auch noch mehrere
Kriterien in den Datensatz einbauen. Bis zu 3 Dimensionen können wir sogar noch
graphisch Darstellen. Sie könnten auch noch komplexere Datensätze nehmen, das
wäre für den Algorithmus kein Problem, es wird jedoch für uns schwierig das
ganze einfach zu sehen.

**Aufgabe:**
> In der nächsten Zelle finden Sie Code der Ihnen ein Datensatz mit 3
> Dimensionen beschreibt. Nehmen Sie den Code als Vorlage und erstellen Sie
> Ihren eigenen Datensatz mit bis zu 3 Dimensionen.
> 
> Erstellen Sie einen Entscheidungsbaum der Ihren Datensatz klassifizieren
> kann.

In [20]:
df = pd.DataFrame([
    [117, 82, 12, 'Banane'],
    [130, 81, 15, 'Banane'],
    [234, 95, 53, 'Apfel'],
    [221, 70, 52, 'Apfel'],
    [239, 86, 61, 'Apfel'],
    [122, 87, 23, 'Banane'],
    [200, 62, 52, 'Apfel'],
    [92, 43, 9, 'Banane'],
    [187, 115, 56, 'Apfel'],
    [276, 99, 42, 'Apfel'],
    [89, 82, 15, 'Banane'],
    [110, 61, 11, 'Banane'],
    [240, 84, 63, 'Apfel'],
    [212, 111, 54, 'Apfel'],
    [232, 92, 34, 'Apfel'],
    [115, 80, 21, 'Banane'],
    [90, 120, 45, 'Apfel'],
    [112, 130, 43, 'Apfel'],
    [105, 122, 40, 'Apfel'],
    [99, 128, 47, 'Apfel'],
])

bananas = df[df[3] == 'Banane']
apples = df[df[3] == 'Apfel']
fig = plt.figure()
ax = fig.add_subplot(projection='3d')

ax.scatter(bananas[0], bananas[1], bananas[2], color='yellow')
ax.scatter(apples[0], apples[1], apples[2], color='green')

<IPython.core.display.Javascript object>

<mpl_toolkits.mplot3d.art3d.Path3DCollection at 0x7f0931bbde80>

Bis jetzt haben wir den Baum immer von Hand erstellt. Man kann den Baum aber
auch automatisch erstellen. Dieser automatische Teil ist dass was man in der KI
dann als lernen bezeichnet.

**Aufgabe:**
> Diskutieren Sie mit Ihrem Sitznachbarn wie so ein Algorithmus aussehen
> könnte. Versuchen Sie dazu Ihr vorgehen wie Sie die letzten Bäume erstellt
> haben, als einen Prozess zu beschreiben.
>
> Verwenden Sie den Prozess um den Datensatz den Sie vorhin erstellt haben zu
> klassifizieren.

Das ganze scheint recht einfach zu sein für KI...

**Aufgabe:**
> Diskutieren Sie mit Ihrem Sitznachbarn mögliche Anwendungen von
> Entscheidungsbäumen.
>
> Machen Sie auch eine Internetrecherche zur Verwendung von
> Entscheidungsbäumen, und finden Sie heraus was *Random Forests* sind und was
> die mit Entscheidungsbäumen zu tun haben.