# Begriffe 3 - Die Verlustfunktion

Wir haben bei unseren ersten Schritten in der Linearen Regression gesehen, dass sich die Aufgabe zurückführen ließ auf die Minimierung einer Funktion, die zwar sehr viele Parameter haben kann, aber einen einzelnen Zahlenwert liefert. Wir haben dies damals als eine Art Distanz angesehen. In der Künstlichen Intelligenz ist aber der Begriff **Verlustfunktion** (*loss function*) gebräuchlich. Was für ein Verlust? Nun, gehen wir bei der Linearen Regression von dentatsächlich gemessenen Punkten aus zur Gerade über, so verlieren wir auch etwas an Information. Statt der real gemessenen Punkte, die allerdings auch eine sehr große und unhandliche Menge darstellen kann, haben wir nun eine handliche Ausgleichsgerade, mit der wir Punkte abschätzen oder *vorhersagen* können, die gar nicht gemessen wurden. Geht die Ausgleichsgerade hingegen perfekt durch alle drei Punkte, so beträgt die Verlustfunktion exakt Null.

Dass wird häufig ein Problem auf die Minimierung einer Funktion zurückführen können, ermöglicht es uns, die bekannten Verfahren aus der Mathematik einsetzen zu können. Wir suchen einfach die Nullstellen der Ableitung, wenn möglich durch direkte Rechnung, ansonsten durch das *Gradientenabstiegsverfahren*. Dieses Verfahren ist universell; das ursprüngliche Problem wird so "nebenbei" gelöst, ohne das ein individueller Algorithmus entwickelt werden muss. (Umgekehrt folgt leider, dass die eigentliche Lösung des Problems nicht einfach "verstanden werden kann")

Die richtige Wahl für die Verlustfunktion ist also entscheidend. Wir stellen hier einige typische Kandidaten vor.

### Regressionsprobleme --> Mittlere Fehlerquadratsumme

Bei Regressionproblemen geht es darum, ein kontinuierliche Variable vorherzusagen, etwa Temperaturen oder Börsenkurse, und dies auf Basis vorgegebener Werte. Konkret: Sind uns $N$ Wertepaare $(x_1,y_1), \ldots, (x_N,y_N)$ vorgegeben, wobei die $x_k$ auch mehrere Dimensionen haben dürfen, so suchen wir eine lineare Funktion $F$, die diese Punkte *möglichst genau approximiert*. Wir haben dies dann quantifiziert, in dem wir zu einer gegebenen Funktion $F$ die Abweichungen von den erwartetene Werten $y_k$ quadriert und aufsummiert haben. Dadurch haben wir eine Funktion $\mathcal{L}$ für $F$ erhalten:

$$\mathcal{L}(F) := \sum_{k=1}^N (F(x_k) - y_k)^2$$

Diese Funktion heißt **Fehlerquadratsumme**. Sie wird für große $N$ natürlich immer größer, und so benutzt man meist die *normierte* Version:

$$\mathcal{L}(F) := \frac{1}{N} \sum_{k=1}^N (F(x_k) - y_k)^2.$$

In dieser Form wird die Funktion **Mittlere Fehlerquadratsumme** (*Mean Squared Error* - **MSE function**) genannt.

Diese Funktion ist optimal für unser Problem:

* Sie berücksichtigt alle Punktepaare
* Abweichungen gehen immer positiv in die Summe ein
* Sie bestraft größere Abstände stärker als kleine



### Klassifizierungsprobleme ---> Mittlere Kreuzentropie

Völlig anderer Natur als Regressionsproblem sind **Klassifizierungsaufgaben**. Hierbei geht es darum, Daten voneinander zu unterscheiden und zu trennen. Dies können Tierfotos sein, wo nach "Hund" oder "Katze" unterschieden werden muss, oder beim *Iris-Datensatz* die Iris-Sorte nach den Abmessungen der Blätter erkannt werden soll. Hier gibt es mitunter keine klaren Entscheidungen, wenn etwa ein sehr kleiner Hund fast wie eine Katze aussieht, oder man ein besonders großes Exemplar einer sonst kleinen Iris erwischt hat. In diesen Fällen werden nur noch Wahrscheinlichkeitsaussagen getätigt, in der Form "Dies ist zu 80 % ein Hund, und zu 20 % eine Katze". Solche Antworten würde ein **Klassifizierer** liefern, den wir suchen.

Es ist klar, dass unsere Fehlerquadratsumme uns hier nicht weiterhilft. Stattdessen werden wir bei der Statistik fündig.