# Regression

Ein __Regressionsverfahren__ in der KI (Künstlichen Intelligenz) bezeichnet eine Methode des __überwachten Lernens__ (_supervised learning_), bei der ein Modell auf Basis von Trainingsdaten eine _kontinuierliche_ Ausgabe vorhersagt. Das Ziel ist es, eine Funktion zu finden, die die Beziehung zwischen Eingangsvariablen und Zielvariablen (Target) beschreibt.

Die Regression unterscheidet sich von der __Klassifizierung__ dadurch, dass es bei letzterer nur eine endliche Zahl von möglichen Ausgaben gibt (die Klassen). Ein Klassifizierer soll Eingabedaten genau einer dieser vorgegebenen Klassen zuordnen. Bei einer Regression sind dagegen alle (evtl. mehrdimensionalen) Werte zulässig.

## Das Problem

Es liegt eine Menge Daten __X__ mit dazugehörenden Werten __y__ vor. Wir nehmen nun an, dass es einen (einfachen) funktionalen Zusammenhang zwischen den Daten gibt. Das ist unser __Modell__. Unsere Aufgabe ist es nun, eine Funktion zu finden, die _am besten_ zu den vorgegebenen Daten passt. Diese Funktion kann etwa ein Polynom sein, aber auch eine ganz andere Form der Zuordnung.

## Mathematische Beschreibung

Eine mathematische Beschreibung des Problem könnte so aussehen:

Gegeben sind zwei Mengen von jeweils $k$ Elementen

$$X = \{x_1,x_2,\cdots,x_k\} \,\,\, \text{und} \,\,\,  y = \{y_1,y_2,\cdots,y_k\},$$

wobei die Elemente $x_i$ von $X$ $M$-dimensionale Vektoren aus dem $\mathbb{R}^M$ und die Elemente $y_i$ von $y$ $N$-dimensionale Vektoren aus dem $\mathbb{R}^N$ sind.

Gesucht ist eine stetige Funktion 

$$F: \mathbb{R}^M \rightarrow \mathbb{R}^N,$$ so dass $$F(x_i) \approx y_i$$ gilt. 

$F$ soll also einen vermuteten funktionalen Zusammenhang zwischen $X$ und $y$ "möglichst gut approximieren". Dies lässt sich noch genauer definieren:

Ist $\mathscr{L}$ eine Funktion, die die Güte der Approximation bestimmt (die sogenannte __Loss-Function__). so ist die Funktion $F$ gesucht, die $\mathscr{L}$ unter allen anderen Funktionen minimiert; d.h. $\mathscr{L}(F)$ ist minimal.



## Computertechnische Beschreibung

Die mathematische (und etwas abstrakte) Formulierung lässt sich Schritt für Schitt in eine Anweisung für die Entwicklung eines Computer-Programms übersetzen:

Zu vorhandenen Datensätzen __X__ und __y__  mit gleich vielen Zeilen, wobei jede Zeile (die Eingabedaten) in  __X__ aus $M$ Daten (Features) besteht, und die entsprechende Zeile aus $y$ (den _Targets_) entspricht mit jeweils $N$ Daten.

Wir sollen eine Methode `predict` entwickeln, deren Eingabe jeweils eine Zeile aus __X__ ist und deren Ausgabe _ungefähr_ gleich der entsprechenden Zeile aus __y__ sein soll:

$$\text{predict}(x_i) \approx y_i$$ 

Um die Qualität von `predict`zu testen, gibt es eine Methode `score`, die `predict` sowie Testdaten __X_test__ und __y_test__ als Argumente besitzt. Wir stellen an `predict` die Anforderung, dass sie in `score` eingesetzt einen maximalen (oder sehr großen Wert) ergibt: 

$$\text{score}(\text{pedict,X,y}) = \text{maximal}$$