# Wie können Marienkäfer von Raupen unterschieden werden?

**Die Daten: Grundlage für das Lernen**

Wir haben zwei **Klassen** von Insekten: 
- <CODE>Marienkäfer</CODE>
- <CODE>Raupe</CODE>

<td> 
    <img src="Bilder\marienkaefer.jpg" alt="Drawing" style="width: 300px; float: left;"  hspace=40 /> 
    <img src="Bilder\raupe.jpg" alt="Drawing" style="width: 300px; float: left;" hspace=40/>
</td>


Wir als Menschen können natürlich sehr einfach Marienkäfer von Raupen unterscheiden, da wir mit unseren Augen viele Details auf den ersten Blick erkennen können, und die Bilder, die unsere Augen erfassen, im Gehirn als Ganzes verarbeiten.

Der Computer benötigt zu Unterscheidung jedoch genau festgelegte **Merkmale**.

Die Merkmale, die man zur Erkennung heranziehen könnte sind vielfältig. Man könnte z. B. 
- Farben 
- Größe
- Fortbewegungsgeschwindigkeit
- Gewicht

und vieles mehr anschauen. 

Da wir aber ein möglichst einfaches Beispiel betrachten wollen, schauen wir uns nur folgende Eigenschaften der Insekten an:
- "Breite"
- "Länge"

## Welche **Breiten** und **Längen** sind typisch für Marienkäfer und Raupen?

Beispielhaft können wir uns einmal die Maße eines Marienkäfers anschauen: 


<img src="Bilder/kaefer_messen_mm.png" alt="Käfer messen" style="width: 300px; float: center;" hspace=40/>

<div class="alert alert-block alert-success">

Uns liegt ein Datensatz für 20 Marienkäfer und Raupen vor. Diese Daten benutzen wir, um das System zu **trainieren**, damit es später unbekannte Insekten als Käfer bzw. Raupe erkennen kann.

<div class="alert alert-block alert-warning">
    
### *Aufgabe:*
    
Öffne die Datei [Kaefer_20_int_mm.csv](Daten/Kaefer_20_int_mm.csv) - sie liegt in dem Unterordner `Daten` -  mit einem Texteditor. Analysiere und beschreibe den Aufbau der Datei.

<div class="alert alert-block alert-info">
    
**In Feldern, die diese Hintergrundfarbe haben, kannst du Lösungstexte zu den Aufgaben, Beobachtungen sowie deine eigenen Kommentare  eingeben:**

*Klicke dazu doppelt auf diese Zelle, um sie zu öffnen, und schreibe deinen Text.*


*Beende Deine Eingabe, indem du diese Zelle wie hier unterhalb beschrieben ausführst.*
</div>

<div class="alert alert-block alert-success">
    
#### Tipps zum Umgang mit diesem Jupyter-Notebook
Jede Zelle mit "Code" muss ausgeführt werden. Auch Zellen mit beschreibenden Texten können bearbeitet und anschließend ausgeführt (neu dargestellt) werden.
    
Dies kann man auf zwei Arten machen:
- Klick auf den oberen **"Run"-Button**

oder
- Drücke gleichzeitig die Tasten **"Strg"** + **"Enter"**

<div class="alert alert-block alert-info">    

Schreibe jetzt hier einen beliebigen Text hinein.
    
</div>

## Das System bekommt die Daten

<div class="alert alert-block alert-success">

Die Daten aus der csv-Datei müssen in dieses System eingelesen werden, damit sie von Python-Befehlen bearbeitet werden können.
    
Man benötigt dazu Hilfsmittel. Das sind sog. **Funktionen**, die in einer **Bibliothek** enthalten sind. Diese Bibliothek muss man zuvor laden

### Jetzt werden die Daten eingelesen.

<div class="alert alert-block alert-info">    
   
    
**Führe dazu die folgende Zelle aus!**
    
Die Bibliothek mit dem Namen `pandas`wird dann geladen und kann anschließend unter dem Namen `pd`benutzt werden.

<div class="alert alert-block alert-success">
    
**Hintergrundwissen:**
`pandas` ist eine Programmbibliothek für die Programmiersprache Python, die Hilfsmittel für die Verwaltung von Daten und deren Analyse anbietet. Insbesondere enthält sie Datenstrukturen und Operatoren für den Zugriff auf numerische Tabellen und Zeitreihen. 
    
**Und jetzt bitte die folgende Zelle ausführen!**

In [None]:
# Bibliothek pandas importieren
import pandas as pd

# Textausgabe
print("Gut gemacht!")

<div class="alert alert-block alert-success">
    
Jetzt endlich können die Daten aus der Datei `Kaefer_20_int_mm.csv` eingelesen werden.
    
- In der Datei `Kaefer_20_int_mm.csv` sind die Datensätze zeilenweise aufgeführt.
- Die Einträge in den Spalten sind jeweils durch ein Semikolon (";") getrennt.
    
**Und jetzt bitte die folgende Zelle ausführen!** 
- Die Daten werden dann eingelesen und (zur Sicherheit) ausgegeben.

In [None]:
df_kaefer = pd.read_csv("Daten/Kaefer_20_int_mm.csv", sep=";")

display(df_kaefer)

<div class="alert alert-block alert-success">

*Kann man anhand der Länge bzw. Breite der Insekten vielleicht Raupen von Marienkäfern unterscheiden?*

Dazu können wir die Daten versuchsweise in einer anderen Reihenfolge ausgeben, z.B. sortiert nach der Art `Länge`:

#### Wie kann ich den Datensatz sortieren?

In [None]:
# sortiere die Datensätze nach einer Spalte (aufsteigend) und zeige dann alle an
sortInsekt = df_kaefer.sort_values(by="Breite")
display(sortInsekt)

<div class="alert alert-block alert-warning">
    
##### *Aufgabe:*
    
Was beobachtest Du?

<div class="alert alert-block alert-info">
    
Schreibe jetzt hier Deine Beobachtung hin.
    
</div>

<div class="alert alert-block alert-warning">
    
##### *Aufgabe:*
    
Sortiere die Datensätze nach der **Breite** und lasse Dir alle Datensätze ausgeben.

In [None]:
sortBreite = df_kaefer.sort_values(by="Breite")
display(sortBreite)

<div class="alert alert-block alert-info">
    
Schreibe jetzt hier Deine Beobachtung hin.
    
</div>

<div class="alert alert-block alert-warning">
    
##### *Aufgabe:*
    
Sortiere die Datensätze auch nach der Art des Insektes und lasse Dir alle Datensätze ausgeben. Beobachte dann.

In [None]:
sortInsekt = df_kaefer.sort_values(by="Insekt")
display(sortInsekt)

<div class="alert alert-block alert-info">
    
Schreibe jetzt hier Deine Beobachtung hin.
    
</div>