# Einführung
Klassen sind Mengen von Objekten, die sich eine gemeinsame Eigenschaft teilen. Jedoch ist das zur Einteilung herangezogene Merkmal nicht immer beobachtbar. Ein Klassifikationsalgorithmus soll nun einem neuen Objekt mit unbekannter Klasse eine solche zuordnen, indem beobeachtbare Merkmale herangezogen werden.

## Inhaltsverzeichnis
- [Beispiel](#Beispiel)
- [Trainings- und Testdaten](#Trainings--und-Testdaten)

## Beispiel
Am einfachsten lässt sich Klassifikation veranschaulichen, wenn Daten nur zwei Dimensionen und eine Kennzahl besitzen. Die folgende Zelle stellt Ihnen Daten zur Größe und Gewicht von $2.000$ Menschen dar. Die Farbe repräsentiert das Geschlecht der jeweiligen Person. (Die Daten entstammen dem Datensatz [weight-height.csv](https://www.kaggle.com/datasets/mustafaali96/weight-height). Es wurden zufällig $2.000$ Zeilen entnommen und ins metrische System konvertiert.)

In [None]:
import pandas as pd
import plotly.express as px

df = pd.read_csv('cl_weightheight.csv')
px.scatter(df, x='weight', y='height', color='gender')

Die Aufgabe des Klassifikators ist es nun, neu hinzugekommenen Personen unbekannten Geschlechts ein solches zuzordnen. Als Basis dieser Zuordnung sind ausschließlich Größe und Gewicht bekannt.

1. $110 kg, 185cm$
2. $50 kg, 160cm$
3. $70 kg, 170cm$

Vermutlich fällt es Ihnen auch ohne Blick auf den Graphen leicht, die ersten beiden Personen relativ treffsicher einem Geschlecht zuzuordnen. Der dritte Mensch hingegen fällt jedoch genau in den Bereich, in dem sich beide Punktwolken vermischen - es könnte sich also um einen unterdurchschnittlich schweren und großen Mann, aber auch um eine überdurchschnittlich große und schwere Frau handeln.

Klassifikatoren übernehmen diese Aufgabe auf einer mathematischen, durch den Computer berechenbaren Basis. In diesem Kapitel werden Ihnen deshalb Methoden vorgestellt, die mit Hilfe vorgegebener Beispiele lernen, Unterscheidungen zu treffen. Sie werden auch sehen, wie die Entscheidungen eines trainierten Klassifikators bewertet werden können, wenn er beispielsweise mit unscharfen Fällen wie der dritten Person konfrontiert wird.

## Trainings- und Testdaten
Sie werden im Verlauf des Kapitels feststellen, dass die zum Einsatz kommenden Datensätze vor dem Lernen des Klassifikators aufgeteilt werden. Zum Einsatz kommt dabei die Funktion `train_test_split` aus dem Paket `scikit-learn`, welche sowohl NumPy Arrays wie auch Pandas DataFrames aufteilen kann.

In [None]:
from sklearn.model_selection import train_test_split
df_train, df_test = train_test_split(df, test_size=0.25)

len(df), len(df_train), len(df_test)

Den Namen entsprechend wird der Trainingsdatensatz für das Training und der Testdatensatz für die Überprüfung des Lernerfolgs eingesetzt. Verwenden Sie die selbe Menge für beide Schritte, besteht die Möglichkeit, dass der Klassifikator den Trainingsdatensatz "auswendig lernt". Stattdessen soll der Klassifikator jedoch verallgemeinern, sodass auch neu hinzukommende Daten korrekt eingeordnet werden.

Stellen Sie sich analog einen Studenten vor, der für eine bevorstehende Prüfung lernt. Alte Klausuren dienen dabei als Trainingsdatensatz. Gibt es nur wenige Aufgaben, kann auswendig lernen und wiedergeben der alten Lösungen effizienter sein als sie zu verstehen und den Lösungsansatz zu verallgemeinern. Nach einer bestandenen Prüfung erwartet man in aller Regel jedoch genau letzteres - Lösungsstrategien sollten auf neue Probleme angewendet werden können. Prüfer werden sich also davor hüten, die Bewertung von Aufgaben abhängig zu machen, die dem Lernenden alle bereits zur Verfügung standen.

Gerade im Bereich des tiefen Lernens geschieht es jedoch schnell, dass die Netzkapazität ausreicht, um auch zunächst umfangreich erscheinende Mengen an Trainingsdaten auswendig zu lernen. Man spricht dann von *Overfitting*. Wenn der Fehler bei der Klassifikation von Trainingsbeispielen kontinuierlich sinkt, während er in Zusammenhang mit den Testbeispielen steigt, ist dies ein starkes Indiz. (Der Prüfling wäre in diesem Fall im Stande alle alten Klausuren zügig zu lösen und würde trotzdem durchfallen.)

Zu welchen Anteilen Trainings- und Testdaten gewählt werden sollten hängt indes stark von deren Anzahl, der Komplexität des Klassifikators, der gewählten Lernmethode und weiteren Faktoren ab. Beim tiefen Lernen wird gelegentlich sogar eine dritte Teilmenge zur Validierung der Parameter genutzt. Im Allgemeinen ist eine Aufteilung, die grob $75$ Prozent des Datensatzes den Trainingsdaten zuordnet, ein guter Anfang.

Achten Sie zudem darauf, dass die Daten vor der Aufteilung zufällig gemischt werden. Sind bei der Erhebung zuerst Frauen und anschließend Männer untersucht worden und sie wählen das letzte Viertel als Testdatensatz, enthält dieser ansonsten nur die Werte der Herren.