# Wie können Marienkäfern von Raupen unterschieden werden?


Wir haben zwei **Klassen** von Insekten: 
- "Marienkäfer"
- "Raupe" 

<td> 
    <img src="Bilder\marienkaefer.jpg" alt="Drawing" style="width: 300px; float: left;"  hspace=40 /> 
    <img src="Bilder\raupe.jpg" alt="Drawing" style="width: 300px; float: left;" hspace=40/>
</td>


Die **Merkmale** die man zur Erkennung heranziehen könnte sind vielfältig. Man könnte z. B. Farben, Größe, Fortbewegungsgeschwindigket und vieles mehr anschauen. Da wir aber ein möglichst einfaches Beispiel betrachten wollen schauen wir uns nur folgende Eigenschaften der Insekten an:
- "Breite"
- "Länge"

## Welche **Breiten** und **Längen** sind typisch für Marienkäfer und Raupen?

Beispielhaft können wir uns einmal die Maße von zwei Raupen und einem Marienkäfer anschauen: 

![Käfer messen](Bilder\kaefer_messen.png)

<div style="background-color: yellow; padding: 5px 20px 20px">
    
### Tipps zum Umgang mit diesem Jupyter-Notebook
Jede Zelle mit "Code" muss ausgeführt werden. Dies kann man auf zwei Arten machen:
- Klick auf den oberen **"Run"-Button**
- Drücke gleichzeitig die Tasten **"Strg"** + **"Enter"**

# Daten einlesen mit Python

In [1]:
# Bibliothek pandas importieren
import pandas as pd

<div style="background-color: yellow; padding: 5px 20px 20px">
    
**Hintergrundwissen:**
*pandas* ist eine Programmbibliothek für die Programmiersprache Python, die Hilfsmittel für die Verwaltung von Daten und deren Analyse anbietet. Insbesondere enthält sie Datenstrukturen und Operatoren für den Zugriff auf numerische Tabellen und Zeitreihen. 

In [2]:
# Dieser Quelltext ist nicht prüfungsrelevant.
# weitere Bibliotheken werden zur späteren Visualisierung importiert
from plotly.offline import iplot
import cufflinks as cf
cf.go_offline()

import plotly.graph_objects as go
layoutVorgabe = go.Layout(xaxis={'title':'Breite','range':[-0.01,1.01]},
                   yaxis={'title':'Länge','range':[-0.01,1.01]},
                   height=810,
                   width=810)

In [3]:
# Datensatz einlesen
# Die Datei "Käfer.csv" ist eine Datei, in der Datensätze zeilenweise aufgeführt sind.
# Jede Spalte ist durch ein Semikolon (";") getrennt.
df_käfer = pd.read_csv('Käfer.csv', sep=';')

# zeige den Anfang des Datensatzes "df_käfer" an
df_käfer.head()

Unnamed: 0,Breite,Länge,Insekt
0,0.48,0.38,Marienkäfer
1,0.32,0.74,Raupe
2,0.49,0.27,Marienkäfer
3,0.58,0.46,Marienkäfer
4,0.11,0.58,Raupe


<div style="background-color: lightblue; padding: 5px 20px 20px">

### Vertiefungsaufgabe für die Schnellen
*Öffne die Datei "Käfer.csv" mit einem Texteditor und analysiere den Aufbau.*

## Wie kann ich mir den gesamten Datensatz ausgeben lassen?

In [4]:
# Einstellung zur Anzeige aller Datensätze (Zeilen)
pd.set_option('display.max_rows', None)
# Einstellung zur Anzeige aller Spalten
pd.set_option('display.max_columns', None)

# Datensatz ausgeben
df_käfer

Unnamed: 0,Breite,Länge,Insekt
0,0.48,0.38,Marienkäfer
1,0.32,0.74,Raupe
2,0.49,0.27,Marienkäfer
3,0.58,0.46,Marienkäfer
4,0.11,0.58,Raupe
5,0.41,0.32,Marienkäfer
6,0.32,0.83,Raupe
7,0.45,0.31,Marienkäfer
8,0.58,0.42,Marienkäfer
9,0.37,0.95,Raupe


## Wie kann ich den Datensatz sortieren?

In [5]:
# sortiere die Datensätze nach einer Spalte (aufsteigend) mit Ausgabe
df_käfer.sort_values(by='Insekt')

Unnamed: 0,Breite,Länge,Insekt
0,0.48,0.38,Marienkäfer
147,0.38,0.22,Marienkäfer
150,0.37,0.26,Marienkäfer
89,0.61,0.42,Marienkäfer
88,0.51,0.25,Marienkäfer
87,0.68,0.36,Marienkäfer
152,0.38,0.27,Marienkäfer
155,0.69,0.48,Marienkäfer
81,0.43,0.25,Marienkäfer
156,0.59,0.47,Marienkäfer


<div style="background-color: lightblue; padding: 5px 20px 20px">
    
### Vertiefungsaufgabe für die Schnellen
*Sortiere die Datensätze nach der Breite und lasse Dir alle Datensätze ausgeben.*

In [6]:
#bitte Quelltext für Vertiefungsaufgabe hier einfügen




# Daten visualisieren mit Python

In der Folgenden Zelle wird dieser Datensatz als Streudiagramm (Scatterchart) visualisiert. 
Mit diesem Streudiagramm können wir zunächst analysieren, wie die Eigenschaft der unterschiedlichen Insekten sind.

In [7]:
# Dieser Quelltext ist nicht prüfungsrelevant.
df_käfer.iplot('scatter', mode = 'markers', layout = layoutVorgabe,
               x = 'Breite', 
               y = 'Länge',
               categories = 'Insekt')

<div style="background-color: lightblue; padding: 5px 20px 20px">

Im Datensatz <code>df_käfer</code> sind 100 Marienkäfer und 100 Raupen erfasst worden. 

**Aufgaben:**
    
1. *Beschreibe das Streudiagramm.*
2. *Erläutere anhand der im Streudiagramm dargestellten Daten, was sich über Raupen und Käufer aussagen lässt.*

**Bitte füge Deine Antworten hier ein:**

*zu 1)*

*zu 2)*


---

# Entscheidungsbäume - Decision Trees

In [8]:
# Dieser Quelltext ist nicht prüfungsrelevant.
# Import einer Bibliothek für einen Entscheidungsbaum
from PyTree import ClassificationTree as ct
# Entscheidungsbaum für den Datensatz "df_käfer" für die Eigenschaft "Insekt" erstellen.
tree_käfer = ct.DecisionTree()
tree_käfer.grow_tree(df_käfer, 'Insekt')

# Entscheidungsbaum ausgeben
tree_käfer.print_tree()
tree_käfer.tree_graph

ModuleNotFoundError: No module named 'PyTree'

In [None]:
# Dieser Quelltext ist nicht prüfungsrelevant.
# Ziel: Ausgabe einer graphischen Übersicht für die Klassifizierung eines Insekts nach Breite und Länge

heatmap=pd.DataFrame()

for x in range(10):
    heatmap[str(x/10)] = [tree_käfer.query(pd.Series(data=[y/10,x/10], index=['Breite', 'Länge'])) for y in range(10)]

heatmap.replace(['Marienkäfer', 'Raupe'], [-1,1]).iplot('heatmap', xTitle='Breite', yTitle ='Länge', colorscale = 'RdBu')

---

Dieser Teil ab hier kann noch überarbeitet werden.

---

# Das Neuronale Netz

Das Problem diese beiden Insektentypen anhand von Länge und Breite zu klassifizieren ist nicht besonders kompliziert, aber sehr gut geeignet, um daran ein relativ einfaches Künstliches Neuronales Netz nachzuvollziehen.

Im folgenden wollen wir nachvollziehen, wie ein künstliches Neuronalen Netz (KNN) Daten nach dem Feedforward-Prinzip verarbeitet und jeweils einer Klasse (Raupe, Marienkäfer) zuordnen kann.

Das von uns betrachtete KNN kann verschieden Arten von Insekten anhand von Länge und Breite klassifizieren.

## Neuronen

Wir betrachten im folgenden ein Künstliches Neuronales Netz, das aus **4 Neuronen** besteht. Diese 4 Neuronen sind angeordnet in **3 Layern**.

Der **Input Layer** besteht aus 2 Neuronen <code>I1</code> und <code>I2</code>, der **Hidden Layer** besteht aus nur einem Neuron <code>H1</code> und der **Output Layer** besteht ebenfalls aus nur einem Neuron <code>O1</code>.

Das Neuronale Netz bekommt als Eingabe (Input) 2 Werte, nämlich die Länge und Breite eines Insekts. Diese Werte werden dann durch das Neuronale Netz verarbeitet und durch verschiedene Berechnungen in einen Ausgabewert (Output) umgewandelt. Dieser Ausgabetwert gibt an welches Insekt das Künstliche Neuronale Netz hinter den Eingabewerten vermutet.


<td> <img src="Bilder\KNN_Insekt.png" alt="Drawing" style="width: 200px; float: left;"/> </td>


## Kantengewichte 

Außer den Neuronen und dem Aufbau der Layer sind noch weitere Dinge wichtig, damit des Künstliche Neuronale Netz funktionieren kann. Die **Kantengewichte** sind Zahlenwerte, die an jeder Verbindung zwischen zwei Neuronen stehen. Im oben abgebildeten KNN gibt es die drei Kantengewichte <code>w1</code>,
<code>w2</code> und <code>w3</code>. Diese konkreten Werte für unser KNN stehen in der folgenden Zelle.


In [None]:
#Festlegung der Kantengewichte

w1 = 3.7

w2 = -3.6

w3 = 3.2

Die Kantengewichte wirken zunächst willkürlich. Diese Kantengewichte sind aber das Ergebnis eines Lernprozesses basierend auf dem Datensatz <code>df_käfer</code>. Wie genau der Lernprozess funktioniert schauen wir uns zunächst nicht an. Um später den Lernprozess verstehen zu können, schauen wir uns zunächst an wie ein fertiges Künstliches Neuronales Netz arbeitet.

Neben den **Neuronen** und den **Kantengewichten** ist noch eine weitere Sache wichtig für das Künstliche Neuronale Netz. Jedes Neuron besitzt noch eine **Aktivierungsfunktion**.

## Aktivierungsfunktion

Die Aktivierungsfunktion, die in unserem KNN zum Einsatz kommt ist der Tangens Hyperbolicus oder auch kurz <code>tanh</code>.

Die Funktionsgleich lautet:

$$\large{tanh(x) = 1 - \frac{2}{e^{2x}+1}}$$

Das sieht ziemlich kompliziert aus! Ist es aber garnicht, denn der genaue Funktionsterm ist nicht so wichtig für uns, da wir die <code>tanh</code> ganz einfach aus der <code>numpy</code>  Bibliothek importieren können.


Die Aktivierungsfunktion ist dafür verantwortlich was ein Neuron ausgibt, d.h. ob es ein Signal feuert oder nicht.


<td> <img src="Bilder\Aktivierungsfkt.png" alt="Drawing" style="width: 200px; float: left;"/> </td>

Schauen wir uns die Funktion <code>tanh</code> mal an wie der Funktionsgraph aussieht....

In [None]:
#tanh
from numpy import tanh
df_tanh = pd.DataFrame()
df_tanh['x']=[x/100 for x in range(-500, 500)]
df_tanh['y']=[tanh(x/100) for x in range(-500, 500)]
df_tanh.iplot(x='x', y='y')

D.h. ein Neuron ist nichts anderes als eine mathematische Funktion die einen x-Wert als Input bekommt und einen y-Wert ausgibt. 

Theoretisch können verschiedene Neuronen auch verschiedenen Aktivierungsfunktionen haben, aber in unserem Beispiel benötigen wir nur die <code>tanh</code> Funktion.

In [None]:
#Importieren tanh von numpy
from numpy import tanh

Führe die folgende Zelle aus, um eine Visualisierung des Funktionsgraphen der Funktion zu sehen.

<div style="background-color: lightblue; padding: 5px 20px 20px">

**Aufgabe:** 

Beschreibe den Verlauf und Kennzeichnenede Werte der Funktion <code>tanh</code>. 

In der folgenden Zelle kannst du die Funktion mit verschiedenen Eingabewerten ausprobieren.

In [None]:
x = 0.5

tanh(x)

ANTWORT HIER EINFÜGEN

# Den Output berechnen - Das Feed-Forward-Prinzip

Wir haben weiter oben die Kantengewichte  <code>w1</code>, <code>w2</code> und <code>w3</code> definiert und kennen nun unsere Aktivierungsfunktion <code>tanh</code>.

Als nächstes schauen wir uns den Verarbeitungsprozess des KNN an. Wir schauen uns also genauer an wie aus den Inputwerten <code>x1</code> und <code>x2</code> ein Outputwert <code>y</code> wird. Dies funktioniert nach dem sogenannten Feed-Forward-Prinzip, was soviel heißt wie "vorwärts durchlaufen".

<video src="Videos\knn_feed_forward.mp4" width="600" 
    autobuffer autoplay controls>

</video>

In [None]:
df_käfer.head()

Wir geben zunächst als Inputwerte die Breite und die Länge des ersten Käfers ein. Der erste Käfer ist ein Marienkäfer.

(Übrigens: Das Beispiel ist zwar konstruiert, aber wir nehmen an, dass die Breite der Marienkäfer mit ausgestreckten Flügeln gemessen wird, sodass manche Marienkäfer deutlich breiter als lang sein können. ;-D )

## Input Layer

Der Input Layer ist immer etwas besonders, da er keine besondere Aktivierungsfunktion enthält. D. h. in den Neuronen des Input Layers werden die Inputdaten einfach weitergegeben und nicht durch eine Aktivierungsfunktion wie z. B. tanh verarbeitet.


In [None]:
#Breite
x1 = 0.6

#Länge
x2 = 0.3

In [None]:
print(x1)

print(x2)

## Hidden Layer

Nun durchlaufen die Outputwerte der Neuronen <code>I1</code> und <code>I2</code> die Kanten mit den Gewichten <code>w1</code> und <code>w2</code>. 

An jeder Kante wird der Output des vorherigen Layers mit dem Kantengewicht multipliziert. Die Summe über alle Kanten bildet den Input für das Neuron des nächsten Layers.



In [None]:
w1 * x1 + w2 * x2




Nun haben wir den Inputwert für den Hidden Layer. In diesem Layer wird die Aktivierungsfunktion <code>tanh</code> angewandt, um den Output zu generieren. 


In [None]:
tanh(w1 * x1 + w2 * x2)

## Output Layer

Nun durchlaufen der Outputwert des Neurons <code>H1</code> die Kante mit dem Gewicht <code>w3</code>. 

Da nur eine Kante zwischen Hidden Layer und Output Layer existiert muss dieses mal keine Summe gebildet werden, sondern nur ein Produkt.


In [None]:
w3 * tanh(w1 * x1 + w2 * x2)



Zu guter letzt kommt das Output Neuron, in dem abermals die Funktion tanh angewandt wird um einen Output zu liefern.


In [None]:
y = tanh(w3 * tanh(w1 * x1 + w2 * x2))

<code>y</code> ist der Output des Neurons <code>O1</code> und somit gleichzeitig der Outputwert des kompletten Künstlichen Neuronalen Netzes. 

Lasse dir in der folgenden Zelle <code>y</code> anzeigen.

In [None]:
display(y)

Der korrekte Output ist <code>-0.9866615584087107</code>. Falls bei dir ein anderer Output herauskommt muss in den vorherigen Schritten etwas schief gelaufen sein. 

Falls das Ergebnis nicht übereinstimmt überprüfe deine vorherigen Rechnungen.

<div style="background-color: lightblue; padding: 5px 20px 20px">

**Aufgabe:** 

Was könnte dieser Outputwert bedeuten?

Ändere ggf. oben die Inputwerte für <code>x1</code> und <code>x2</code> und führe die Zellen erneut aus. So bekommst du eine Idee was das KNN für andere Inputwerte liefert.


ANTWORT HIER EINFÜGEN

# Den Output des Neuronalen Netzes visualisieren


<div style="background-color: lightblue; padding: 5px 20px 20px">

**Aufgabe:** 

Damit man nicht jedes mal mehrere Zellen ausführen muss um einen Output zu berechnen benötigen wir eine Funktion.

Implementiere diese Funktion, die als Input <code>x1</code> und <code>x2</code> bekommt und <code>y</code> als Output liefert.

Definiere innerhalb der Funktion die Gewichte <code>w1</code>, <code>w2</code> und <code>w3</code>

In [None]:
def knn_output(x1, x2):
    w1 = 3.7
    w2 = -3.6
    w3 = 3.2
    y = tanh(w3*tanh(w1*x1+w2*x2))
    return y

In [None]:
#zum testen
knn_output(0.6, 0.3)

Falls die Funktion <code>knn_output</code> korrekt funktioniert, kann mit dem ausführen der folgenden Zelle eine Übersicht über verschiedene Outputs erstellt werden. 

In [None]:
#Übersicht über verschiedene Outputs erstellen
ergebnisse = pd.DataFrame(index = [y/10 for y in reversed(range(10))])

for x in range(10):
    ergebnisse[str(x/10)] = [knn_output(y/10,x/10) for y in reversed(range(10))]

ergebnisse#.T

## Outputwerte als Heatmap Visualisieren

Um die Übersicht über die Outputwerte etwas anschaulicher zu machen kann man alle Outputs auch als "Heatmap" anzeigen lassen.

Auf der x-Achse steht die Breite, auf der y-Achse die Länge und in der Mitte ist die Heatmap unterschiedlich eingefärbt, je nachdem welchen Output das KNN liefert.

In [None]:
ergebnisse.iplot('heatmap', xTitle='Breite', yTitle ='Länge', colorscale='RdBu')

## Feinere Übersicht über die Outputs des KNN

In [None]:
heatmap=pd.DataFrame()

for x in range(100):
    heatmap[str(x/100)] = [knn_output(y/100,x/100) for y in range(100)]

heatmap.index = [y/100 for y in range(100)]

heatmap.iplot('heatmap', xTitle='Breite', yTitle ='Länge', colorscale='RdBu', layout=layout)

<div style="background-color: lightblue; padding: 5px 20px 20px">

**Aufgabe:** 

Versuche die Heatmap zu interpretieren. Ist Sie sinnvoll? 

Schaue dir dafür auch nochmal das Streudiagramm des Datensatzes <code>df_käfer</code> weiter oben an.

(Hinweis: Wenn du mit der Maus über die Heatmap fährst werden verschiedene Werte angezeigt)

ANTWORT HIER EINFÜGEN

## Performance des KNN bewerten

<div style="background-color: lightblue; padding: 5px 20px 20px">

**Aufgabe:** 

Wir wollen nun herausfinden wie gut das KNN in Bezug auf die Trainingsdaten funktioniert. 

Wie kann man die Performance des KNN messen?

Überlege dir eine Auswertungsmethode und setze diese um. 

### Vorhersagegenauigkeit / Fehlklassifikationsrate

In [None]:
#Erstelle Spalte mit interpretierten Outputs des KNN
Outputs=[]

for i in range(len(df_käfer)):
    
    output = knn_output(df_käfer.iloc[i]['Breite'],df_käfer.iloc[i]['Länge'])
    
    if output < 0:
        Outputs.append('Marienkäfer')
    elif output >= 0:
        Outputs.append('Raupe')

        
df_käfer_test = df_käfer.copy()
df_käfer_test['Outputs'] = Outputs

df_käfer_test.head()

In [None]:
#Vergleiche Outputs mit tatsächlichen Werten
df_käfer_test[df_käfer_test['Insekt'] != df_käfer_test['Outputs']]

In [None]:
#Berechne wie viele Beispiele korrekt klassifiziert werden 
sum(df_käfer_test['Insekt'] == df_käfer_test['Outputs'])

### Mittlere Numerische Abweichung

In [None]:
Outputs=[]

for i in range(len(df_käfer)):
    
    Outputs.append(knn_output(df_käfer.iloc[i]['Breite'],df_käfer.iloc[i]['Länge']))
    
df_käfer_test2 = df_käfer.replace(['Marienkäfer', 'Raupe'],[-1,1])
df_käfer_test2['Outputs'] = Outputs

df_käfer_test2.head()

In [None]:
df_käfer_test2['Insekt'] - df_käfer_test2['Outputs']

In [None]:
sum(abs(df_käfer_test2['Insekt'] - df_käfer_test2['Outputs']))

In [None]:
abs(df_käfer_test2['Insekt'] - df_käfer_test2['Outputs']).mean()

In [None]:
df_käfer.iplot('scatter', mode = 'markers', layout = layoutVorgabe,
               x = 'Breite', 
               y = 'Länge',
               categories = 'Insekt')