# **Modelle**

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# Übersicht der Lerneinheit

## Lernziele

In dieser Einheit können Sie folgende Kompetenzen erwerben:
* unterscheiden zwischen Beobachtung, Hypothese, Theorie, und Modell
* die Bildung von Modellen auf Grundlage einfacher Theorien nachvollziehen
* einfache Modelle anhand von Beobachtungen qualitativ und quantitativ beurteilen
* Residuen berechnen, darstellen, und interpretieren
* Modellfehler mit verschiedenen Methoden berechnen und interpretieren

## Lerninhalte

Folgende Themen sind Inhalt dieser Lerneinheit:
* Beschreibung von naturwissenschaftlichen Phänomenen
* physikalische Gesetzmäßigkeiten und Vereinfachung
* Klassifizierung von naturwissenschaftlichen Modellen
* Anforderungen an "gute", naturwissenschaftlich fundierte Modelle
* Quantifizierung von Modellfehlern

# Naturwissenschaft

In diesem Abschnitt behandeln wir:
* die Naturwissenschaftliche Methode
    - Eigenschaften und Prozess des Erkenntnisgewinns
    - Definition der Begriffe Beobachtung, Hypothese, Experiment, Theorie, und Modell
* beispielhafter Erkenntnisgewinn über den freien Fall
    - Demonstration des iterativen Prozesses
    - Entwicklung eines Modells aus der Gravitationstheorie

## Die (Natur-)wissenschaftliche Methode

* die Natur ist komplex
    * Phänomene können nicht "wie sie sind" in ihrer Gänze erfasst werden
    * wir müssen uns in der Welt zurechtfinden
    * rein intuitive Vorstellungen sind von begrenztem Nutzen

* Wissenschaft organisiert Wissen über die Natur
    * versucht, die Natur in ihrer Komplexität zu beschreiben und vorherzusagen
    * *neutral*: Beschreibung *unabhängig* von Anwendung oder politischen Werten
    * *rigoros*: Akkurate Beschreibung ohne Widersprüche unter Nutzung aller verfügbaren Daten
    * *systematisch*: wohldefiniertes Vorgehen in allen Bereichen und Schritten

* die *Wissenschaftliche Methode* ist ein definierter Prozess, um Wissen zu generieren
    * nicht selbst Gegenstand der Wissenschaft
    * Gegenstand der (Wissenschafts-)Philosophie
    * *iteratives* Vorgehen: Beobachtung — Hypothese — Experiment

* *Wissen* entsteht aus diesem Prozess
    * Bildung von möglichst verständlichen und mächtigen Theorien
    * Grundlage für effektive Manipulation der Natur zum eigenen Vorteil ("Engineering")
    * beinhaltet Wissen um Anwendbarkeit, Vereinfachungen, Grenzen

### Beobachtung
Nimm einzelner Aspekte der Umwelt wahr und denke darüber nach.
* kann zufällig auftreten oder gezielt gesucht werden
* erzwingt Verbindung zwischen Realität und Theorie

### Hypothese
Formalisiere Ideen über mögliche Regelmäßigkeiten.
* unbewiesene, kleinteilige Aussagen über Beobachtungen
* unter welchen Bedingungen könnte welche Beobachtung die Regel sein?

### Experiment
Prüfe Hypothesen unter kontrollierten Bedingungen.
* Einschränkung der Umgebung auf durch Hypothesen vorgegebene Bedingungen
* Beobachtung der Umgebung unter diesen Bedingungen
* Falsifikation oder Verifikation der Hypothese

### Theorie
Bündle und vereinheitliche experimentell verifizierte Hypothesen.
* kohärentes, experimentell verifiziertes Gedankengebäude
* Beschreibung in eleganter, allgemeingültiger Form
* abzugrenzen von alltagssprachlicher Verwendung des Wortes
    * wissenschaftlich gesicherte Erkenntnis vs. "nur (m)eine Theorie"

In den Naturwissenschaften werden Theorien meistens in Form von Gleichungen formuliert.
- Gleichungen enthalten *Parameter* und *Konstanten*
   - macht Vorhersagen auf Grundlage der eingesetzten Werte
   - muss *berechenbar* sein
- ermöglicht *quantitativen* Vergleich mit Experiment

Beispiele für aktuelle naturwissenschaftliche Theorien sind:

* Thermodynamik
* Allgemeine Relativitätstheorie
* Quantenfeldtheorie
* Kristallfeldtheorie
* Theorie des Treibhauseffekts
* Evolutionstheorie

### Modell
Leite aus einer Theorie eine vereinfachte Beschreibung ab.

* Abbildung der *wesentlichen Aspekte* eines Phänomens
* Beschränkung auf wohldefinierte Bedingungen
* Vernachlässigung irrelevanter Aspekte
* quantitative Vorhersage von Beobachtungen unter Umgebungsbedingungen
* häufig bereits im Zuge der Hypothesenbildung und von Experimenten verwendet

## Beispiel: die "Wissenschaft" des freien Falls

### Beobachtung

...

### Hypothese

...

### Experiment

...

### Beobachtung

In [None]:
...

In [None]:
...

### Hypothese

Wir könnten auf Grundlage dieser Beobachtung folgende Hypothese formulieren:

...

### Experiment

Zur Prüfung dieser Hypothese könnten wir folgendes Experiment durchführen:

...

### Theorie

Durch wiederholte Beobachtungen, Experimente, und angepasste Hypothesen lässt sich eine *Theorie der Gravitation* entwickeln. Hier ist es eine *physikalische* Theorie, mit Formelzeichen:

$$ F = G \frac{m_A m_B}{r^2}$$

* $F$: Kraft, die zwischen zwei Objekten wirkt
* $m_A$, $m_B$: Massen der Objekte
* $G$: [Gravitationskonstante](https://physics.nist.gov/cgi-bin/cuu/Value?bg) $= 6.67430 \times 10^{-11}\mathrm{m^3 \cdot kg^{-1} \cdot s^{-1}}$
* $r$: Abstand der Objekte zueinander

Zusätzlich benötigen wir noch eine Theorie der *klassischen Mechanik*, die beschreibt, wie ein Gegenstand durch eine wirkende Kraft beschleunigt wird. Diese Theorie können wir schon vorher oder gleichzeitig entwickelt haben:

$$F = m \cdot \frac{\mathrm{d}^2}{\mathrm{d} t^2} r(t)$$

Bei dieser Gleichung handelt es sich um den eine *Differentialgleichung 2. Ordnung*. Mit ihr kann die Beschleunigung bei Wirkung einer Kraft $F$ auf eine Masse $m$ berechnet werden.

#### Bemerkungen

- Für die Entwicklung des Gravitationsgesetzes waren deutlich umfangreichere Beobachtungen notwendig als die über den (freien) Fall eines Apfels. Eine guten und recht unterhaltsamen Überblick darüber gibt Ihnen die [Vorlesung von Richard Feynman an der Cornell Universität](https://www.youtube.com/watch?v=j3mhkYbznBk&list=PLez3PPtnpncQLg_H7f6T9yJmJ2aCIBUHS) aus dem Jahre 1964.

# Klassifizierung von Modellen

In diesem Abschnitt behandeln wir:
* drei Dimensionen der Klassifizierung von Modellen
* Anwendung an zwei beispielhaften Modellen

## Deterministisch vs. Stochastisch

In *deterministischen* Modellen ist das Ergebnis des Modells vollständig durch die Parameters des Modells und die Angangsbedingungen bestimmt.

*Stochastische* Modelle sind inhärent vom Zufall anhängig. Derselbe Satz an Parameterwerten und Anfangsbedingungen liefert jeweils unterschiedliche Ergebnisse.

## Kontinuierlich vs. Diskret

* Physiker und Philosophen auch untereinander uneins, ob die Natur grundlegend *diskret* oder *kontinuierlich* ist
    - Modelle können frei wählen
    - Beispiel Quantenmechanik: *sowohl* diskret *als auch* kontinuierlich
* im Alltag beides beobachtet:
    - viele Prozesse scheinen kontinuierlich
    - *Anzahl* von Dingen (und Menschen) eher diskret
* *Diskretisierung*: Näherung von kontinuierlichen Prozessen als Abfolge diskreter Schritte
    - meist feste, manchmal variable Schrittweite
    - Beispiel: Einteilung von Zeit in Jahre, Tage, Sekunden

## Klassifikation vs. Regression

### Klassifikation

Ein Klassifikationsmodell ordnet Eingabedaten verschiedenen Kategorien zu. Dazu werden für i.d.R. Eigenschaften der Messpunkte aus dem Datensatz verwendet (z.B. Alter, Gewicht oder Koerpergroesse) um diese einzelnen Kategorien zuzuweisen.

Beipiele für Klassifikationsaufgaben sind:

- Handelt es sich bei deiner E-Mail um Spam?
- Zuordnung handschriftlicher Symbole zu bekannten Symbolen aus einer Liste.
- Bestimmung der Art ein Tumors: bösartig oder gutartig?

### Regression

Regressionsmodelle werden verwendet um den Zusammenhang zwischen einer abhängigen Variable (z.B. einer Messgröße) und einer (oder mehreren) unabhängigen Variablen zu beschreiben. Letztere sind die Größen, die bei einer Messung variiert werden und in deren Abhängigkeit die Messgröße aufgenommen wird.

Regressionsmodelle haben folgende Bestandteile:
- Freie Parameter $\beta_j$ mit $j = 1, \dots, M$
    - häufig in einem Vektor $\vec{\beta}$ zusammengefasst
    - häufig *reelle Zahlen*, können aber beliebigen Typs sein
- unabhängige Variablen $X_i$
    - z.B. Zeit oder unterschiedliche Bedingungen
- abhängige Variablen $Y_i$
    - die eigentliche Messgröße
- Fehlerterme $\varepsilon_i$. Diese sind zumeist nicht direkt aus den Daten ersichtlich und sind in der Messgröße enthalten.

$$
Y_i = f(X_i, \vec{\beta}) + \varepsilon_i, \qquad i = 1,\dots, N
$$
Dabei ist $N$ die Anzahl an Messwerten.

Ziel der Regressionsanalyse ist die Bestimmung der freien Parameter $\vec{\beta}~$. Sind diese Parameter bestimmt, können mit dem Regressionsmodell Aussagen über Daten getroffen werden, die *nicht* in dem Datensatz enthalten sind, der zur Bestimmung der freien Parameter verwendet wurde.

Das einfachste Regressionsmodell ist die *lineare Regression*. In diesem Fall hat $f$ die Form
$$
f(X_i, \vec{\beta}) = \beta_0 + \beta_1 X_i 
$$
Hier sind $\beta_0$ der Ordinaten-Abschnitt und $\beta_1$ die Steigung.

## Beispiele

### Freier Fall

Wenn wir ein Modell des freien Falls entwickeln wollen, könnten wir folgende Ansätze verfolgen:

...

### Bevölkerungswachstum

Wir betrachten die Größe einer Population als Funktion der Zeit:

$N_t, N_{t+1}, N_{t + 2}, \dots$

Die Änderung $\Delta N$ der Populationsgröße zwischen zwei Zeitpunkten ergibt sich aus folgenden Einflüssen:

$$
\Delta N = N_{t + 1} - N_t = B - D + I - E
$$

- $B$, $D$: Geburten und Todesfälle
- $I$, $E$: Immigration und Emigration

In einer abgeschlossenen Population gilt $I = E = 0$ und somit:

$N_{t+1} = N_t + B - D$

Nimmt man an, dass die Anzahl der Geburten und Todesfälle konstanten Raten folgen, $B = b N$ und $D = d N$ ($b, d \in  [0, 1)$), so kann man diese Gleichung wie folgt umformen:

$$
N_{t + 1} = N_t + N_t\left(\frac{B_t}{N_t} + \frac{D_t}{N_t}\right) = N_t + N_t(b_t - d_t) = N_t(1 + (b_t - d_t)) = \lambda_t N_t,
$$

wobei $\lambda_t = 1 + (b_t - d_t)$ ist.

Wir stellen folgendes fest:

- $\lambda_t > 1$: Wachstum der Population
- $\lambda_t = 1$: Population stabil
- $\lambda_t < 1$: Abnahme der Population

In [None]:
def population_model(growth: callable, n_0: float = 1.0, ) -> float:
    n = n_0
    while True:
        n *= growth(n)
        yield n

#### Bemerkungen

Dieses Modell kann wie folgt klassifiziert werden:

...

Um ein paar Messdaten zu simulieren, nehmen wir eine Startpopulation $N_0 = 1000$ sowie für die Wachstumsrate $\lambda_t$ einen *diskreten stochastischen Prozess* an:
    
$$
\lambda_t \equiv \lambda = 
\begin{cases}
0.9~\text{mit}~p = 1 / 2\\
1.1~\text{mit}~p = 1 / 2
\end{cases}
$$

In [None]:
...

Die Vorhersagen mit dieser Wahl lassen sich simulieren:

In [None]:
...

In [None]:
fig, axes = plt.subplots(1, 4, sharex="row", sharey="row", figsize=(20, 4))
axes[0].set_ylabel("population size")

for axis, column in zip(axes, population.columns):
    population[column].plot.line(ax = axis)
    axis.set_xlabel("time / arb. units")
    axis.axhline(y=n_0, color="black", linestyle="--", linewidth=0.5)

#### Bemerkungen

...

# Annahmen und Grenzen

In diesem Anschnitt behandeln wir:
* den Prozess der Modellbildung
    * am Beispiel des freien Falls
    * grundlegende Hypothesen und/oder Theorien
    * Ziele des Modells
    * Annahmen, Näherungen, und Vernachlässigung
* Grenzen von Modellen

## Modellbildung

### Grundlage und Ziel

*Grundlage* ist unsere Theorie der Gravitation und der Mechanik. Zwischen zwei beliebigen Körpern $A$ und $B$ gilt:

$$ F = G \frac{m_A m_B}{r^2} = m_A \cdot \frac{\mathrm{d}^2}{\mathrm{d} t^2} h_A(t) = m_B \cdot \frac{\mathrm{d}^2}{\mathrm{d} t^2} h_B(t)$$

*Ziel* ist die Vorhersage der Bewegung des Balles.

* Bestimmung der Bewegungsgleichung $h_A(t)$
* es gibt viele Massen, die sich alle bewegen
    - räumliche Ausdehnung
    - mit zahlreichen internen Bestandteilen

### Vereinfachung

* je eine Differenzialgleichung für alle Paare von Massen
* unbekannte Anfangsbedingungen
* Lösung ist praktisch unmöglich
* zur Vereinfachung: Annahmen treffen, Näherungen vornehmen, Aspekte vernachlässigen

Wir treffen folgende *Annahmen*:

...

Wir machen folgende *Näherungen*:

...

Wir *vernachlässigen* folgende Aspekte:

...

Damit erhalten wir folgende Gleichung aus unserer Theorie:


$$ - m \frac{G M_\mathrm{E}}{R_\mathrm{E}^2} = m\frac{\mathrm{d}^2}{\mathrm{d}t^2}(R_\mathrm{E} + h)$$

Wir führen noch folgende Abkürzung ein: $g = \frac{G M_\mathrm{E}}{R_\mathrm{E}^2} \approx 9.81 ~\mathrm{m}\cdot\mathrm{s}^{-2}$. Das ist die allseits bekannte (und auch beliebte?) *Erdbeschleunigung*.

Die vereinfachte Bewegungsgleichung hat dann die finale Form:

$$ - m g = m\frac{\mathrm{d}^2h}{\mathrm{d}t^2} = m \frac{\mathrm{d}v}{\mathrm{d}t}$$

### Lösung der Bewegungsgleichungen

Die resultierende DGL können wir nun in zwei Schritten mit den Anfangsbedingungen $v(t=0) = v_0 = 0 ~ \mathrm{m}\cdot \mathrm{s}^{-1}$ und $h(t=0) = h_0$ integieren:

**Geschwindigkeits-Zeit Gesetz**
$$
m \int\limits_{0}^{t} \frac{\mathrm{d}v}{\mathrm{d}t'} \mathrm{d}t' = - m g \int\limits_{0}^t \mathrm{d}t'
\Longleftrightarrow
m\left(v(t) - v(t=0)\right) = - m g t
\Longleftrightarrow
v(t) = - g t
$$

**Weg-Zeit Gesetz**
$$
\int\limits_{0}^{t} \frac{\mathrm{d}h}{\mathrm{d}t'} \mathrm{d}t' = - g \int\limits_{0}^{t} t' \mathrm{d} t'
\Longleftrightarrow
h(t) - h(t=0) = - \frac{1}{2}g t^2
\Longleftrightarrow
h(t) = h_0 - \frac{1}{2} g t^2
$$


### Grenzen des Modells

Die Grenzen des Modells ergeben sich aus der Theorie und den Vereinfachungen:

...

### Bemerkungen

...

## Free Parameters

- undetermined variables in a model
  - value is not predicted or constrained by underlying theory
  - must be estimated from the data
- free parameters need a *reason*
  - existence follows from underlying theory or constraints
- *kind* of relationship is known (ex. linear, quadratic), but *size* of effect is unknown

### Example model: motion of a car

$$x(t) = x_0 + v t$$

- $x_0$ might be a fixed parameter
  - initial position relative to measurement apparatus
  - measured or derived independently
- $v$ might be a free parameter
  - reasoning: objects in motion will stay in motion (Newton's first law)
  - must be determined from data
  - gives otherwise inaccessible information

### Parameter-free models

gold standard in physics: models *without* free parameters
- only physical constants enter
- examples:
    - ab initio quantum chemistry methods
    - density functional theory

> In desperation I asked Fermi whether he was not impressed by the agreement between our calculated numbers and his measured numbers. He replied, “How many arbitrary parameters did you use for your calculations?” I thought for a moment about our cut-off procedures and said, “Four.” He said, “I remember my friend Johnny von Neumann used to say, with four parameters I can fit an elephant, and with five I can make him wiggle his trunk.” With that, the conversation was over.

Dyson, F.: A meeting with Enrico Fermi. *Nature* **427**, 297 (2004). https://doi.org/10.1038/427297a

# Model Error and Cost Functions

Next, we will...

1. think about indicators for the quality of models
    - qualitative vs. quantitative indicators
    - the residual
    - the cost function
2. define models with free parameters
    - why and when they're (not) useful
    - optimization
3. learn about and motivate typical cost functions
    - for regression tasks
    - for classification tasks

## *Qualitative* Indicators

A sound scientific model...
- provides explanation/understanding
- makes *predictions*
- is consistent with underlying scientific theory
- is consistent over its domain of application
- is simple

These indicators can differentiate between *kinds* of models:
- example: $h(t) = -1 - 0.15 t^2~~~~$ vs. $~~~~h(t) = 0.1 - t$
- what kind of situation are we modeling?
- how does our model derive from scientific laws?
- does the model respect all constraints?

In [None]:
def quadratic_model(t):
    return -1 - 0.15 * t**2

In [None]:
def linear_model(t):
    return 0.1 - t

In [None]:
from utils.utils import h, t, visualize_model

In [None]:
f, m = visualize_model(t, h, model=quadratic_model)

In [None]:
f, m = visualize_model(t, h, model=linear_model)

## *Quantitative* indicators

From here on, we will...
- assume we have $N$ observations of pairs $(x \in X, y \in Y)$

- denote the $i$th observation as $(x_i, y_i)$
  - independent (input) variable(s) $x_i$
  - dependent (output) variable(s) $y_i$

- denote the model as $m: X \to Y$
  - models are taken from a (potentially vast) space $M$ of possible models

- denote the model predictions as $\hat{y}_i = m(x_i)$

### The Residual

- difference between observed values and model prediction
  - $y_i - \hat{y}_i$
- parts of the data which the model does not explain:
  - neglected or approximated terms
  - random measurement error
  - data points outside the model domain or constraints
  - poorly fitted model

In [None]:
np.random.seed(1)
x = pd.Series(10 * np.random.rand(1000))
y = x.transform(lambda z: -z + np.random.randn())

In [None]:
figure = visualize_model(
    x, y, linear_model, plot_residual=True, residual_histogram=True
)
plt.show()

### The *Cost Function* ("Loss Function")

- quantify the error as a single scalar value
    - does the model describe the data well?
    - what is the perfect value of its parameters?
    - how can the model be *improved*?    

- denote the cost function as $J$
  - maps model (with parameters) and observations to a real number
  - $J: M \times X \times Y \to \mathbb{R}$
  - many cost functions only need $\hat{Y}$ and $Y$

### Training a model

- models can be *optimized*
  - choose parameters to minimize the cost function
  - depends on cost function
  - depends on observations
  - process is called *fitting* or *training* the model

By optimization we obtain a model *without* free parameters which makes good predictions on unknown data.

- prerequisites:
    - a model $m$ with free parameters
    - observations $(x\in X, y \in Y)$
    - a cost function $J: M\times X \times Y \to \mathbb{R}$

## Typical cost functions

Training a model makes heavy use of the cost function supplied.

We will examine the process in-depth, but first we will take a look at common cost functions and their properties.

### Linear Regression: Mean Squared Error

Suppose we have $N$ data points $(x_i, y_i)$, and a model $m: X \to Y$ with predictions $\hat{y}_i$.

We denote the *prediction* of the model at point $x_i$, which is $m(x_i)$, as $\hat{y}_i$. Then the mean squared error of that model is given by:
$$J(\hat{y}, y) = \frac{1}{N} \sum_{i=1}^N \left(y_i - \hat{y}_i\right)^2$$

In [None]:
figure, metrics = visualize_model(t, h, model=lambda x: -x - 0.1, errorbars=True)
print(';  '.join(f'{key}: {value}' for key, value in metrics.items()))

#### Notes

...

### Classification: Logistic regression

- dependent variable is *discrete* True/False (e.g. pass/fail, alive/dead, win/lose, ...)
- independent (input) variable(s) may be continuous
    - e.g. number of hours studied, blood loss, game score
- model needs to output a *probability* $p$ of getting True
  - strictly $p \in (0, 1)$: probabilities cannot be negative or greater than one

In [None]:
from utils.utils import x, y

visualize_model(x, y)
plt.show()

- a linear model would map inputs to a scalar $\in \mathbb{R}$:
  - $q = a_0 + a_1 x$, as in linear regression

- The *logistic function* can map these to $(0, 1)$:
$$\hat{y} = \frac{1}{1 + \mathrm{e}^{-q}} = \frac{1}{1 + \mathrm{e}^{-(a_0 + a_1 x)}}$$

In [None]:
def logistic_function(q: float) -> float:
    """The logistic function maps real numbers to (0, 1)"""
    return 1 / (1 + np.exp(-q))


from utils.utils import plot_model

figure, axis = plt.subplots(figsize=(12, 6))
plot_model(axis, logistic_function, x_min=-6, x_max=6, label='logistic function')
plt.legend()
plt.show()

#### Cost function for logistic regression: Average cross-entropy
  
relates (predicted) probability and (binary) observation
- "How much uncertainty remains?", colloquially: "$- \log (\Delta y)$"
- equivalently: $\begin{cases}
-\log(\hat{y}) & \text{if } y = 1\\
-\log(1-\hat{y}) & \text{if } y = 0\\
\end{cases}
$
- equivalently: $-(y \log(\hat{y}) + (1-y) \log(1-\hat{y}))$

In [None]:
figure, axis = plt.subplots(figsize=(10, 6))
plot_model(
    axis,
    model=lambda y: -np.log(y),
    x_min=0,
    x_max=1,
    label='loss when True',
    color='orange',
)
plot_model(
    axis,
    model=lambda y: -np.log(1 - y),
    x_min=0,
    x_max=1,
    label='loss when False',
    color='blue',
)
axis.set_xlabel('predicted value')
axis.set_ylabel('loss')
plt.legend()
plt.show()

- average cross entropy then averages over all data points:
$$J(\hat{y}, y) = \frac{-1}{N} \sum_{i=1}^{N} y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)$$

- desirable properties:
  - 0 loss for correct classification
  - increases monotonically
  - without bounds

In [None]:
visualize_model(
    x=x, y=y, model=lambda x: 1 / (1 + np.exp(-0.65 * (x - 20))), errorbars=True
)

"Why not mean squared error?"
- underpenalizes even strong misclassifications: Error is capped at 1
- not "convex" for logistic models

https://towardsdatascience.com/why-not-mse-as-a-loss-function-for-logistic-regression-589816b5e03c

### Other examples
- hinge loss (for classification)
- Kullback-Leibler divergence (for probability distributions)
- regularization (to punish large or non-zero parameters)

## Summary
- some models have free parameters
- quantitative indicators can then compare different values
- for linear regression: Mean Squared Error
- for classification: cross-entropy

### Up next: Fitting
- how do we optimize a model, given data and a cost function?