# Methode der kleinsten Quadrate
Die Methode der kleinsten Quadrate gilt als **das** Standardverfahren zur Ausgleichsrechnung. Ursprünglich von Adrien-Marie Legendre im Jahr 1805 zur Berechnung von Kometenbahnen veröffentlicht, wird es allerdings häufiger mit Carl Friedrich Gauß in Verbindung gebracht. Dieser entwickelte es wohl zwischen 1795 und 1798 und verwendete es bereits 1801 zur Berechnung der Bahn des Zwergplaneten Ceres aus verschiedenen Beobachtungen, veröffentlichte es aber erst 1809.

## Inhaltsverzeichnis
- [Das Verfahren](#Das-Verfahren)
- [Umsetzung in Pandas](#Umsetzung-in-Pandas)
- [Umsetzung mit Plotly](#Umsetzung-mit-Plotly)

## Das Verfahren
Das Verfahren basiert auf der Minimierung der im letzten Abschnitt eingeführten Residuen, welche die Differenz vom vorhergesagten zum tatsächlichen $y$-Wert beschreiben. Für einen Punkt $(x_i, y_i)$ und einer Ausgleichsfunktion $f(x)$ gilt also:

$$ y_i = f(x_i) - \epsilon_i $$

Im Falle einer Ausgleichsgeraden mit den Parametern $\alpha$ (statt $n$) und $\beta$ (statt $m$) reduziert sich diese Gleichung auf:

$$ y_i = \alpha + \beta * x_i - \epsilon_i $$

Als Optimierungskriterium wird die Summe der quadratischen Residuen $R^2$ herangezogen:

$$ R^2 = \sum_{i=1}^{n} \epsilon_i^2 = \sum_{i=1}^{n} (\alpha + \beta * x_i - y_i)^2 $$

Unser Ziel ist es nun $\alpha$ und $\beta$ so zu wählen, dass $R^2$ minimal wird. Drückt man $R^2$ als Funktion in Abhängigkeit der Parameter $\alpha$ und $\beta$ aus, ergibt sich auch direkt ein Vorteil gegenüber der älteren *Methode der kleinsten absoluten Abweichungen*:

$$ f_\epsilon(\alpha, \beta) = \sum_{i=1}^{n} (\alpha + \beta * x_i - y_i)^2 $$

Diese Funktion ist differenzierbar, sodass beide partiellen Ableitungen gebildet werden können:

$$ \frac{\partial}{\partial \alpha} f_{\epsilon}(\alpha, \beta) = 2 * \sum_{i=1}^{n} \beta x_i + \alpha - y_i $$
$$ \frac{\partial}{\partial \beta} f_{\epsilon}(\alpha, \beta) = 2 * \sum_{i=1}^{n} x_i * (\beta x_i + \alpha - y_i) $$

Zur Bestimmung des Minimums werden die Nullstellen beider Ableitungen gesucht. Auflösen nach $\alpha$ und $\beta$ ergibt dann:

$$ \beta = \dfrac{\sum_{i=1}^{n} (x_i - \overline{x}) * (y_i - \overline{y})}{\sum_{i=1}^{n} (x_i - \overline{x})^2} $$
$$ \alpha = \overline{y} - \beta \overline{x} $$

Im Fall einer Ausgleichsgeraden lassen sich $\alpha$ und $\beta$ also sogar als geschlossener Ausdruck angeben. Beachten Sie, dass mindestens ein $x_i$ existieren muss, das nicht dem Durchschnitt entspricht. (Es müssen also mindestens zwei unterschiedliche Werte für $x$ existieren.)

## Umsetzung in Pandas
Zur Veranschaulichung laden wir erneut die benötigten Bibliotheken und den am Ende des letzten Abschnitts präsentierten Datensatz.

In [None]:
import pandas as pd
import plotly.express as px

from draw import draw_regression, R_squared

In [None]:
df = pd.read_csv('height_weight.csv', index_col='index').sample(250, random_state=5)

Da die Lösungen für $\alpha$ und $\beta$ in einer geschlossenen Form angegeben werden können, ist die Umsetzung sehr einfach zu bewerkstelligen. $x\_$ und $y\_$ stehen dabei für die Durchschnitte (`mean`) der jeweiligen Spalten.

In [None]:
x = df['height']
y = df['weight']
x_ = x.mean()
y_ = y.mean()

beta = ((x - x_) * (y - y_)).sum() / ((x - x_) ** 2).sum()
alpha = y_ - beta * x_

alpha, beta

Die entstehende Gerade sieht dann wie folgt aus.

In [None]:
fig = px.scatter(df, x='height', y='weight')
draw_regression(fig, alpha, beta)

Vergleicht man die Ergebnisse für $R^2$ für die durch die Methode der kleinsten Quadrate ermittelten Werte mit den Werten im vorangegangenen Abschnitt, ergibt sich das Folgende:

In [None]:
R_squared(df['height'], df['weight'], alpha, beta)

In [None]:
R_squared(df['height'], df['weight'], -30, 0.5)

## Umsetzung mit Plotly
Plotly selbst bietet eine integrierte Funktion zur linearen Regression. Übergeben Sie dazu beim Aufruf der Funktion `scatter` den Parameter `trendline`. `ols` steht dabei für gewöhnliche kleinste Quadrate (**O**rdinary **L**east **S**quares).

In [None]:
px.scatter(df, x='height', y='weight', trendline='ols')