# Einführung Statistik

Heute wollen wir uns mit ein paar Grundlagen der Statistik befassen.
Statistik kann uns helfen, Daten auf einfache Weise zu beschreiben und zu erklären. 

---

### Lernziele
* Mittelwert, Varianz und Standardabweichung in Python berechnen.
* Den Unterschied zwischen einer Regression und einer Klassifikation verstehen.
* Sie verstehen die Funktion einer linearen Regression und die Bedeutung ihrer Koeffizienten.
* Sie verstehen den *Mean Squared Error* und die Lossfunktion.
* Sie wissen was eine logistische Regression und wie sie mit der linearen Regression zusammenhängt.
* Sie wissen was der Binary Cross Entropy Loss aussagt und können verschiedene Metriken, wie die Accuracy und ROC-AUC, erklären.
---

In [None]:
import numpy as np
from random import shuffle
import pandas as pd
%matplotlib inline
np.set_printoptions(suppress=True)

Wir können uns zum Beispiel die Abiturnoten einer bestimmten Klasse ansehen:

In [None]:
abi_klasse = [1.64, 2.35, 1.88, 2.48, 2.16, 3.92, 2.16, 2. , 1.76, 2.82, 1.81,
              2.59, 3.03, 1.7 , 2.87, 3.21, 2.65, 1.97, 1.2, 1.67, 1.77, 1.98,
              3.4 , 1.31, 1.72, 2.05, 1.12, 1.56, 2.01, 2.1 ]

Es ist jedoch sehr schwierig, sich nur mit Hilfe der Daten einen Überblick zu verschaffen.
Es ist einfacher, sich die Noten aufzuzeichnen.


<img src='Img/intro_stats/noten_1.png'></img>

Obwohl Sie nun einen besseren Überblick haben, kann es schwierig sein, zwei Klassen zu vergleichen.

<img src='Img/intro_stats/noten2.1.png'></img>

Wir können *density plots* verwenden, um die Verteilung einfach darzustellen. Hier wird die y-Achse verwendet, um die Dichte darzustellen. Das heißt, je höher die Kurve an einem Punkt ist, desto mehr Datenpunkte befinden sich an diesem Punkt.

<img src='Img/intro_stats/noten_3.1.png'></img>
Oft reicht eine rein visuelle Betrachtung nicht aus, um eindeutige Entscheidungen zu treffen.
Hierfür werden Metriken benötigt, die die Verteilung der Datenpunkte beschreiben, wie z. B. die Abinoten.

Am bekanntesten ist wohl der Mittelwert, genauer gesagt das arithmetische Mittel. Es beschreibt den Durchschnitt einer Verteilung von Datenpunkten. 
Und um das arithmetische Mittel zu berechnen, wird die Summe aller Werte durch die Anzahl der Werte geteilt.


$$\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$$

Der Mittelwert wird oft mit $\bar{x}$ bezeichnet.
Berechnen Sie das arithmetische Mittel in Python für die Abiklasse. *Ohne Numpy zu verwenden*.

In [None]:
mean_abiklasse = _____________# Formel für den Mittelwert
mean_abiklasse

<details>
<summary><b>Lösung:</b></summary>
    
```python 
mean_abiklasse = sum(abi_klasse)/len(abi_klasse)
```
</details>

Der Mittelwert reicht jedoch nicht aus, um eine Verteilung von Werten angemessen zu beschreiben. Die beiden [Normalverteilungen](https://de.statista.com/statistik/lexikon/definition/95/normalverteilung/) haben im Beispiel den gleichen Mittelwert und sind dennoch nicht identisch verteilt. 
<img src='Img/intro_stats/noten_3.png'></img>

Wir können sehen, dass die rote Verteilung viel enger ist als die schwarze. Das heißt, die Werte der roten Gruppe liegen näher an ihrem Mittelwert als die der schwarzen Gruppe.

Die Breite einer Verteilung wird durch die Varianz gemessen. Die Varianz misst den durchschnittlichen Abstand der Werte zu ihrem Mittelwert. 
Die Varianz ($s^2$) wird wie folgt berechnet:

$$s^2 = \frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2$$

Man beachte, dass nicht die Differenz ($x_i-\bar{x}$) summiert wird, sondern das Quadrat ($x_i -\bar{x})^2$ der Differenz. Größere Abstände haben also einen größeren Einfluss auf die Varianz. 

Berechnen Sie die Varianz der `abi_klasse`:

In [None]:
quadrate = 0
for x in abi_klasse:
    quadrate = quadrate +((_____-______)**___)
varianz_abiklasse = quadrate/len(______) 
varianz_abiklasse

<details>
<summary><b>Lösung:</b></summary>

    
```python
for x in abi_klasse:
    quadrate = quadrate +((x-mean_abiklasse)**2)
varianz_abiklasse = quadrate/len(abi_klasse)     
```
</details>    


<details>
<summary><b>Lösung: mit list comprehension</b></summary>

```python
sum([(x - mean_abiklasse)**2 for x in abi_klasse])/(len(abi_klasse))
```    
</details>   

Statt der Varianz wird häufig die Standardabweichung als Maß für die *Breite* einer Verteilung verwendet. Die Standardabweichung erhält man, indem man die Wurzel aus der Varianz zieht. Dadurch wird das Maß der Varianz auf die Skala der ursprünglichen Verteilung gebracht.

In [None]:
std_abiklasse = __________ # Berechnen Sie die Standardabweichung
std_abiklasse 

<details>
<summary><b>Lösung:</b></summary>
    
```python
std_abiklasse= varianz_abiklasse**(0.5)
```
</details>    

Natürlich gibt es alle Funktionen auch schon in `numpy`: `np.mean()`, `np.std()`, `np.var()`

In [None]:
import numpy as np
print("Mittelwert: ", np.mean(abi_klasse))
print("Varianz: ", np.var(abi_klasse))
print("Standard Abweichung: ", np.std(abi_klasse))


Mit dem Maß der Varianz/Standard Abweichung und dem Mittelwert können wir bereits einige Verteilungen beschreiben. Natürlich nicht alle, z.B. bei multimodalen Verteilungen würde man noch mehr Informationen benötigen. 

<img src='Img/intro_stats/noten_4.png'></img>

## Inferentielle Statistik 

Wir wollen jedoch nicht immer nur Daten beschreiben, sondern auch Informationen aus diesen Daten gewinnen. Mit Hilfe der Korrelation können wir zum Beispiel das Verhältnis von Größe zu Gewicht beschreiben. Je größer ein Mensch ist, desto schwerer ist er. Dieses Modell ist natürlich nicht perfekt, das Körpergewicht ist natürlich nicht nur von der Körpergröße abhängig. Es gibt es große leichte Menschen und kleine schwere. Aber es existiert eine grundlegende Tendenz.  

<table><tr>
<td> <img src='Img/intro_stats/reg_1.png' alt="Drawing" style="width: 250px;"/> </td>
<td> <img src='Img/intro_stats/reg_2.png' alt="Drawing" style="width: 250px;"/> </td>
</tr></table>

<br>
<br>

**Wir können die Beziehung mit einer linearen Regression beschreiben.**
Die Geradengleichung $y = mx+t$ (oder $y = ax+b$) kennen Sie vielleicht noch aus der Schule. 

<br>



- $x$ ist die Eingangsvariable, in unserem Fall die Körpergröße
- $y$ ist die Variable, die es zu vorhersagen gilt (Körpergewicht)
- $m$ beschreibt die Steigung der Geraden
- $t$ bezeichnet den y-Achsenabschnitt, den Wert von $y$ bei $x=0$

<img src='Img/intro_stats/reg_3.png' alt="Drawing" width="500"/>

Angenommen, die Gleichung der Regressionsgeraden wäre $y=0,3x+21$, dann würde für das 
Beispiel das Gewicht einer Person mit einer Körpergröße von 180 cm 75 kg betragen 
($0,3\cdot180+21)$.Der Wert für $m$ ($0,3$) gibt an, um wie viel $y$ zunimmt, wenn $x$ um 1 zunimmt.
Laut dem Modell nimmt also das Körpergewicht einer Person um 0,3 kg zu, wenn die Körpergrößer sich um 1 cm erhöht. 

Der Wert für $t$ gibt an, wie viel eine Person wiegt, die 0 cm groß ist ($x=0$). Im Falle der Körpergröße macht es wenig Sinn, den Wert für $t$ zu interpretieren. Nehmen wir aber an, wir schätzen den Wert eines Hauses auf der Grundlage der Größe der Terrasse. Der Wert für $t$ gibt den Wert eines Hauses an, wenn die Größe der Terrasse $0$ beträgt. Der Wert eines Hauses ohne Terrasse ist also $t$.

Zurück zum eigentlichen Beispiel: 

Natürlich wiegt nicht jeder 180 cm große Mensch 66 kg. Dies ist nur der vorhergesagte Wert 
unserer Regressionsgleichung. Um dies deutlich zu machen, schreiben wir $\hat{y}$ anstelle von $y$.
Damit wird die Geradengleichung $\hat{y}=mx+t$.

---

Schreiben Sie eine Funktion, die das Gewicht anhand der oben beschriebenen Geradengleichung berechnet.



In [None]:
def reg(x,m,t):
    _________# Was soll diese Funktion ausgeben?

<details>
<summary><b>Lösung:</b></summary>
    
```python
def reg(x,m,t):
    return m*x+t
```
</details>    


Die Variable `x` enthält die Körpergrößen in cm von 5 Personen. Berechne für diese fünf Personen das Gewicht mit Hilfe der Funktion `reg`. 

In [None]:
x = [182,167,198,132,178]
y_hat = [reg(__,__,__) for ___ in _____ ]
y_hat

<details>
<summary><b>Lösung:</b></summary>
    
```python
y_hat = [reg(groesse,0.3,21) for groesse in x ]
```
</details>    

Wie bereits erwähnt, sind die Werte nur eine Schätzung des Gewichts und weichen vom tatsächlichen Gewicht der Person ab. Um zu beurteilen, wie gut unser Modell das Gewicht bestimmen kann, benötigen wir auch das tatsächlich gemessene Gewicht der Personen. Diese sind in `y` gegeben. Wir können zum Beispiel die Differenz zwischen `y_hat` und `y` berechnen. Dazu müssen wir aber zunächst die Listen in `numpy`-Arrays umwandeln:

In [None]:
y = np.array([78.2,68.3, 81.0,64.3, 70.1 ])
y_hat = np.array(y_hat)
residual = y - ___ # was ziehen wir von y ab?
residual

Diese Differenz zwischen dem tatsächlichen und dem vorhergesagten Wert ($y - \hat{y}$) wird auch als Residuum bezeichnet. Als Symbol für das Residuum wird meist das kleine Epsilon ($\epsilon$) verwendet, mit dem die Größe des Fehlers (**E**rror) der Vorhersage gemessen wird. 

<img src='Img/intro_stats/reg_4.png' alt="Drawing" width="500"/>

Um zum Beispiel abzuschätzen, wie gut ein Modell insgesamt ist, könnten wir einfach die Residuen summieren.

In [None]:
sum(residual)

Wie Sie sehen können, liegt der Wert sehr nahe bei Null. Eigentlich ein sehr kleiner Fehler. Das Problem ist jedoch, dass die Residuen sowohl positiv als auch negativ sein können. Das heißt, wenn man sie zusammenzählt, heben sie sich gegenseitig auf. Sie werden immer Werte nahe Null erhalten. Um dies zu vermeiden, summieren wir nicht die Residuen, sondern, wie bei der Varianz, die Quadrate der Residuen. $$\sum_{i=1}^{n}(y_i-\hat{y}_i)^2$$ 

Die Summe allein würde jedoch dazu führen, dass Modelle mit mehr Datenpunkten, d. h. mit einem größeren $n$, automatisch größere Fehlersummen aufweisen. Daher nehmen wir statt der Summe den Mittelwert der Quadrate: $\frac{1}{n}\sum_{i=1}^{n}(y_-\hat{y}_i)^2$. Dieser Wert, der als *Mean Squared Error* (MSE) bezeichnet wird, ist nützlich, um die Güte der Vorhersagen zu beurteilen. Wenn ein Modell einen kleinen MSE aufweist, kann man daraus schließen, dass die Residuen klein sein müssen, d. h. die Unterschiede zwischen den vorhergesagten und den wahren Werten sind gering. 

Wie bei der Varianz und der Standardabweichung gibt es auch den mittleren quadratischen Fehler (Root Mean Squared Error, RMSE). Wie Sie sich denken können, wird dafür einfach die Wurzel aus dem MSE genommen. Schreiben Sie eine Funktion, die den RMSE berechnen kann. Sie könne `numpy` verwenden, d.h. Sie brauchen keinen `for-loop`.

In [None]:
def RMSE(y,y_hat):
   MSE = np.sum(__________________) /len(_____) # Hier wird der MSE berechnet, 
   return ___________ # Wir wollen nicht den MSE, sonder den RMSE. Konvertieren Sie den MSE zum RMSE
RMSE(y, y_hat)    

<details>
<summary><b>Lösung:</b></summary>
    
```python
def RMSE(y,y_hat):
   MSE = np.sum((y-y_hat)**2)/len(y)
   return np.sqrt(MSE) 
```
</details>    

Beim maschinellen Lernen oder im Bereich der Optimierung im Allgemeinen werden Funktionen wie der RMSE auch als Lossfunktionen bezeichnet. Sie messen, wie gut ein Modell, bzw. dessen Parameter, zu den Daten passt. Den durch die Lossfunktion berechnete Loss gilt es zu minimieren. 

## Beispiel

Bisher hat man Ihnen immer die Parameter `m` und `t` vorgegeben. In Wirklichkeit müssen Sie diese selbst berechnen. Im folgenden Beispiel beschäftigen wir uns mit der Vorhersage des Siedepunkts. Dazu verwenden wir einen Datensatz des amerikanischen *National Institute of Standards and Technology*. In dem Datensatz sind die Siedetemperaturen für 72 einfache Alkohole erfasst. Zusätzlich ist das Molekulargewicht und die Anzahl der Kohlenstoffe angegeben. 
Der Datensatz befindet sich in dem Ordner `../data/boilingpoints/`.

In [None]:
data = pd.read_csv('https://uni-muenster.sciebo.de/s/qGVs59xsnWKKuIf/download').values
print("Größe der Daten: ",data.shape)
data[:10,:] 

Der Datensatz besteht aus 72 Zeilen und drei Spalten. Jede Zeile steht für einen Alkohol und die drei Spalten enthalten Information für einer der drei Deskriptoren. Die erste Spalte enthält die Siedepunkte, die zweite das Molekulargewicht und die dritte Spalte die Anzahl der Kohlenstoffe. 

Unser Ziel ist es, den Siedepunkt anhand des Molekulargewichts vorherzusagen.
Zunächst speichern wir die erste Spalte (Siedepunkte) in der Variablen `y` und die zweite Spalte in der Variablen `x`.

In [None]:
y = data[:,0] # y ist unsere zu vorhersagende Variable (Siedepunkte)
x = data[:,1:2] # Wir könnten auch data[:,1] benutzen, verhält sich aber leicht anders.

In [None]:
print(data[:5,1])
print(data[:5,1:2])

Sie sehen, dass wir in dem Beispiel dieselben Werte auswählen, aber in der ersten Variante reduzieren wir die Spalte auf ein 1-dimensionales Array der Größe `(72)`. Also ein Vektor der Länge 72. Einige der Funktionen, die für eine lineare Regression notwendig sind, erwarten, dass unsere Variable `x` in Form eines 2-dimensionalen Arrays vorliegt. Deshalb wählen wir die Spalte mit `data[:,1:2]` aus. Dadruch behalten wir die 2D-Struktur des `arrays` bei.

Man kann die Daten auch plotten, dazu benutzen wir die Bibliothek `matplotlib`. Mit der Funktion `plt.plot()` kann man schnell einfache Diagramme erstellen. Hier muss man nur angeben, welche Werte auf die x-Achse gehören (erste Position in der Funktion), dann angeben, was auf die y-Achse gehört (zweite Position). Schließlich können Sie noch angeben, ob die einzelnen Werte als Punkt `"o"` oder verbunden mit einer Linie `"-"` gezeichnet werden sollen.

In [None]:
from matplotlib import pyplot as plt
plt.plot(x, y, "o")

Es ist deutlich zu erkennen, dass mit zunehmendem Gewicht auch der Siedepunkt der Alkohole steigt. 

In der nächsten Zelle berechnen wir die linearen Regressionsparameter, die zu den Daten passen. 
Hierfür benötigen wir die Python-Bibliothek `sklearn`, die viele Funktionen für statistische Analysen und maschinelles Lernen bietet.

Unabhängig davon, welches `sklearn`-Modell man verwenden möchte, bleibt die allgemeine Struktur die gleiche. 
Zunächst muss der Typ des Modells definiert werden.
Mit `model = LinearRegression()` wird Python angewiesen, ein lineares Regressionsmodell zu erstellen.

Als Nächstes muss das Modell auf die Daten `(x,y)` *zugepasst* werden. Dies geschieht mit der Anweisung `model.fit(x,y)`. Dieser Schritt führt zur Berechnung der Regressionsparameter.

Die geschätzen Parameter erhalten wir über `model.coef_[0]` für die Steigung (`m`) und `model.intercept_` für den y-Achsenabschnitt (`t`).


In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x,y) # berechnet die Regressions Gerade
m = model.coef_[0] # Wir können m und t aus model() erhalten.
t = model.intercept_

print(m,t)

Berechnen Sie mit den Parametern `y_hat` und dann den RMSE. Da wir jetzt `np.arrays` verwenden, ist kein `for-loop` erforderlich.


In [None]:
y_hat = reg(data[:,1], ___ , ____)
RMSE(y, ____) 

<details>
<summary><b>Lösung:</b></summary>
    
```python
y_hat = reg(data[:,1], m , t)
RMSE(y, y_hat) 
```
</details>    

Können Sie andere Werte für "m" und "t" finden, die zu einem niedrigeren RMSE führen?  

In [None]:
y_hat = reg(data[:,1], ____  ,  _____  )
RMSE(y, y_hat) 

Tatsächlich funktioniert dies nicht. Wenn wir von einer linearen Regression sprechen, meinen wir meist eine *ordinary least-square*-Regression. Wie der Name schon sagt, minimiert diese Regression die Quadrate, also den Fehler der Regressionsgeraden. Das heißt, die Regressionslinie ist die optimale Linie, die für diesen Datensatz gefunden werden kann. Mit anderen Worten: Eine OLS-Regressionslinie minimiert den (R)MSE.

## Multiple Regression

Die lineare Regression kann auch mit mehr als einer $x$-Variablen durchgeführt werden. Die Formel erweitert sich zu:

$$\hat{y}= \beta_0 +\beta_1x_1 +\beta_2x_2$$

Im Allgemeinen hat sich die Schreibweise mit $\beta$ durchgesetzt. Dabei steht $\beta_0$ für das $t$ und $\beta_1$ für den zur ersten Input $x_1$ gehörenden Regressionskoeffizienten.

An der Interpretation dieser Koeffizienten ändert sich jedoch nichts.

Wir können sowohl die Anzahl der Kohlenstoffe als auch das Gewicht verwenden, um die Siedepunkte vorherzusagen.

Damit dies funktioniert, müssen Sie zunächst nicht nur die zweite, sondern auch die dritte Spalte von `data` in `x` auswählen:

In [None]:
x = data[:,1: ___ ] # Welche Spalten nehmen Sie mit nach x
x

<details>
<summary><b>Lösung:</b></summary>
    
```python
x = data[:,1:3]
```
</details>    

Sie können jetzt die Regressionskoeffizienten wieder mit `LinearRegression` schätzen lassen.

In [None]:
model_2 = LinearRegression()
model_2.fit(x,y) # berechnet die Regressions Gerade
print(model_2.coef_, model_2.intercept_ ) 

Wie Sie sehen, erhalten Sie jetzt insgesamt 3 Parameter. Der Regressionskoeffizient für das molekulare Gewicht ist `-4.65` und für die Anzahl der Kohlenstoff `83.18`. `sklearn` hat auch eine Funktion `predict()`. Mit ihr können wir automatisch Vorhersagen mit den zuvor geschätzten Parametern machen. In der folgenden zele benutzten wir diese FUnktion, um `y_hat` für die `x` Werte zuberechnen. 

In [None]:
y_hat = model_2.predict(x)
RMSE(y, y_hat) 

Durch die Verwendung einer weiteren Variable in der Regression konnten wir den Loss (RMSE) fast halbieren. Das bedeutet, dass das Modell mit zwei Inputvariablen zu deutlich besseren Vorhersagen führt als das erste Modell mit nur einer Eingangsvariablen.

# Logistische Regression

Es gibt auch Probleme, bei denen nicht exakte Werte vorhergesagt werden sollen. Wir wollen zum Beispiel entscheiden, ob ein Patient auf die Intensivstation muss oder nicht. Hier müssen wir nur zwischen `JA` und `NEIN` entscheiden. Mathematisch gesehen würden wir jedoch von `1` oder `0` sprechen. Wenn ein Datenpunkt zu einer von zwei Gruppen gehören kann, wprechen wir von einer **binären Klassifizierung**. 

Hier haben wir ein Beispiel eines Basketballspielers, der aus verschiedenen Entfernungen auf den Korb wirft. 
Wenn er einen Korb erzielt, wird dieser Wurf mit einer `1` bewertet. Trifft er nicht, wird dieser Wurf mit einer `0` bewertet.

In [None]:
körbe = np.array([1,1,1,1,1,1,0,1,0,1,1,0,0,1,1,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0])    
distanz = np.array([0.,1.,2.,3.,4.,5.,6.,7.,8.,9.,10.,11.,12.,13.,14.,
                    15.,16.,17.,18.,19.,20.,21.,22.,23.,24.,25.,26.,27.,28.,29.])

Es ist möglich, eine einfache Regressionsgerade zu berechnen, die aber wegen der binären Variable $y$ nicht sehr gut zu den Daten passt. Eine Lösung ist die logistische Regression. Hier wird eine Sigmoidfunktion "nach" der linearen Regression verwendet, um die vorhergesagten Werte zu transformieren. 

<table><tr>
<td> <img src='Img/intro_stats/log1.png' alt="Drawing" style="width: 250px;"/> </td>
<td> <img src='Img/intro_stats/log2.png' alt="Drawing" style="width: 250px;"/> </td>
<td> <img src='Img/intro_stats/log3.png' alt="Drawing" style="width: 250px;"/> </td>
</tr></table>
<br>


---

<center>
<h2>Sigmoid Funktion</h2>
</center>

Die Sigmoid Funktion ist eine nicht lineare Funktion. Mathematische wird die Sigmoid Funktion so geschrieben:
$$sigmoid(z)= \frac{1}{1+e^{-z}}$$

Um zu verstehen, was es genau macht, können Sie sich das Beispiel ansehen.

<td> <img src='Img/intro_stats/sigmoid.png' alt="Drawing" style="width: 250px;"/> 
    
Auf der x-Achse befinden sich Werte zwischen -6 und 6, **bevor** die Sigmoidfunktion auf diese Werte angewendet wird. Auf der y-Achse sind die gleichen Werte zu sehen, aber diesmal nach Anwendung der Sigmoidfunktion. 
Alle Werte liegen jetzt zwischen 0 und 1. Werte, die vorher sehr weit von 0 entfernt waren, liegen jetzt sehr nahe bei `0` oder `1`.
    
Die Form dieser Funktion passt viel besser zu einer binären Klassifizierung.

Um eine logistische Regression durchzuführen, können wir auf das bereits gelernt aufbauen.
Wir haben die gleiche Situation, wir wollen eine Vorhersage für `y` anhand unserer Inputs `x` machen.     

Dazu setzen wir einfach die Werte aus der linearen Regression in die Sigmoidfunktion ein.
$$ z = mx+t $$
$$\hat{y} = sigmoid(z) = \frac{1}{1+e^{-z}} = \frac{1}{1+e^{-(mx+t)}} $$    

Berechnen Sie nun `z` durch Anwendung der `reg` auf die Werte `distanz`. Da Sie nun `numpy` verwenden können, benötigen Sie keinen `for-loop` mehr.
Für das Beispiel mit dem Basketballspieler sind die folgenden Parameter gegeben:
- `m` = -0.8
- `t` = 7

Berechnet nun `z` indem ihr die `reg` auf die Werte der Distanz anwenden.
Da Sie jetzt `numpy` benutzen können brauchen Sie keinen for-loop mehr.

In [None]:
z = reg(____)  # diesmal heißt unsere input variable nicht x
z

<details>
<summary><b>Lösung:</b></summary>

```python
z = reg(distanz,-0.8,7) 
```
</details>    

Als nächstes brauchen Sie die Sigmoid-Funktion. Schreibe dafür eine Funktion in Python mit `numpy`. $e^x$ kann als `np.exp(x)` mit `numpy` geschrieben werden.

In [None]:
def sigmoid(wert):
    return 1/(___________) # Hier den Nenner der sigmoid Funktion einfügen

<details>
<summary><b>Lösung:</b></summary>
    
```python
def sigmoid(wert):
    return 1/(1+np.exp(-wert))
```
</details>    

Im letzten Schritt berechnen Sie `y_hat` mithilfe von `z` und der `sigmoid` Funktion. 

In [None]:
y_hat = sigmoid(_____)# Welchen Input braucht die Sigmoid Funktion?
y_hat

<details>
<summary><b>Lösung:</b></summary>
    
```python
y_hat = sigmoid(z)
```
</details>    

Wie Sie sehen können, liegen alle Werte jetzt zwischen `0` und `1`. Eigentlich wollten wir Werte, die genau `0` oder `1` sind, nicht Werte dazwischen. Tatsächlich können die Werte von `y_hat` als eine Art von Wahrscheinlichkeit verstanden werden. Ein vorhergesagter Wert von `0,99908895` bedeutet, dass der Basketballer, dem Modell zufolge, in 0,99% der Fälle einen Korb erzielt. Umgekehrt bedeutet ein Wert von 0,00135852, dass nach dem Modell nur eine Wahrscheinlichkeit von 0,14 % besteht, einen Korb zu erzielen.

In der folgenden Abbildung sind die vorhergesagten Werte zusammen mit den vorhergesagten Bildern dargestellt. 

<img src='Img/intro_stats/log4.png' alt="Zeichnung" width="500px"/> 

Normalerweise werden die Wahrscheinlichkeiten so interpretiert, dass das Modell ab einem Wert `>=0,5` eine `1`, also einen Treffer, und darunter eine `0` (Fehlwurf) vorhersagt.

So können wir die Accuracy (deutsch: Genauigkeit) des Modells anhand des Prozentsatzes der korrekt klassifizierten Würfe beurteilen. 
Zuerst runden wir `y_hat`. Dadurch erhalten wir nur `0` und `1` als Vorhersagen.

In [None]:
pred = np.round(y_hat)
pred

Sie können jetzt vergleichen, ob `pred` mit der ursprünglichen `y` Variable `körbe` übereinstimmt. 

In [None]:
pred==körbe

Schreibe eine Funktion, die die Genauigkeit/Accuracy (Prozentsatz der richtig klassifizierten Würfe) berechnet. Denken Sie daran, dass `booleans`, d.h. `True` und `False`, in Python auch als `1` bzw. `0` zählen.

In [None]:
def accuracy(y_true, y_pred):
    return np.sum(y_true==___) / len(____) 

<details>
<summary><b>Lösung:</b></summary>
    
```python
def accuracy(y_true, y_pred):
    return np.sum(y_true==y_pred)/len(y_true)
```
</details> 

In [None]:
accuracy(körbe, pred)

## Binary Cross Entropy Loss

Eine Accuracy von 0,73 bedeutet, dass das Modell in 73 % der Fälle das richtige Ergebnis vorhersagt. Ähnlich wie der RMSE ist dies eine Metrik zur Einschätzung, wie gut unser Modell ist.

Oft wird jedoch nicht nur eine Metrik verwendet. Der Vorteil der Accuarcy ist, dass sie sehr einfach zu interpretieren ist. Aber einige mathematische Eigenschaften der Accuracy machen sie für bestimmte maschinelle Lernverfahren ungeeignet. Daher werden in der Regel mindestens zwei verschiedene Metriken verwendet. 

Die in der Klassifikation zusätzlich verwendete Metrik ist der **Cross Entropy** Loss. Im Falle eines binären Klassifikationsproblems spricht man üblicherweise von **Binary Cross Entropy** (BCE) Loss. 

$$Loss =-\frac{1}{n}\sum_{i=0}^n[y_i\cdot log(\hat{y}_i) + (1-y_i)\cdot log(1-\hat{y}_i)]$$

Die Formel sieht auf den ersten Blick sehr kompliziert aus, ist aber anhand von Beispielen relativ einfach zu verstehen.
Nehmen wir an, wir wollen den Loss für nur einen Datenpunkt berechnen, z.B. für einen einzelnen Wurf des Basketballspielers. Dann ist $n = 1$ und die obige Formel vereinfacht sich:


$$Loss =-[y_i\cdot log(\hat{y}_i) + (1-y_i)\cdot log(1-\hat{y}_i)]$$


##### Angenommen der Basketballer hat den Wurf nicht getroffen, dann ist $y_i=0$.

<img src='Img/intro_stats/bce_1.gif' alt="Drawing" width= "500px" style="display:block; margin:auto"/> 

Daraus resultiert:

$$\begin{align}
Loss&=-(0\cdot log(\hat{y}_i) + (1-0)\cdot log(1-\hat{y}_i))\\
&=-log(1-\hat{y}_i)
\end{align}
$$


Das heißt, der Loss für diesen Wurf ist der $log$ der Differenz von 1 und $\hat{y}$ (die vorhergesagte Wahrscheinlichkeit).

Sie können ausprobieren, was mit dem Loss für verschiedene Wahrscheinlichkeiten passiert. Denken Sie daran, dass der wahre Wert $y_i=0$ ist. Ein gutes Modell würde also eine geringe Wahrscheinlichkeit vorhersagen, so dass ein geringer Loss zu erwarten ist.

In [None]:
# setzen Sie verschieden Wahrscheinlichkeiten in die Formel unten ein und schauen Sie was mit dem Loss passiert.

- np.log(1 - 0.___ ) 


Zunächst einmal werden Sie feststellen, dass der Loss immer negativ ist, weshalb in der eigentlichen Formel von oben ein Minus steht, um den Loss wieder positiv zu machen. 

Sie können sehen, dass sich der Loss bei besonders hohen Wahrscheinlichkeiten von Null entfernt. Bei besonders kleinen Wahrscheinlichkeiten geht der Loss gegen Null. Das bedeutet, dass der Loss umso größer ist, je "falscher" unser Modell ist, und das ist genau das, was wir wollen.

##### Angenommen unser Basketballer hat den Wurf getroffen, dann ist $y_i=1$
<img src='Img/intro_stats/bce_2.gif' alt="Drawing" width= "500px" style="display:block; margin:auto"/>

$$
\begin{align}Loss &=-(1\cdot log(\hat{y}_i) + (1-1)\cdot log(1-\hat{y}_i))\\
Loss &=-log(\hat{y}_i)
\end{align}
$$

Dieses Mal bleibt ein anderer, aber immer noch einfacher Teil der Formel übrig.
Versuchen Sie auch diesen Term mit verschiedenen Wahrscheinlichkeiten. 
Diesmal wäre eine Wahrscheinlichkeit nahe bei 1 richtig, was zu einem kleinen Loss führen sollte.

In [None]:
-np.log(0.___)# setzen Sie hier verschiedene Wahrscheinlichkeiten ein

Auch hier nimmt der Loss zu, je weiter sich die Wahrscheinlichkeit vom wahren Wert entfernt. 

Der Loss ist daher nur komplex genug, um sowohl einen wahren Wert von `1` als auch `0` abzudecken.  Der Faktor $log$ wird verwendet, damit Werte, die weiter vom wahren Wert entfernt sind, einen überproportionalen Einfluss auf den Loss haben. Der zurvor ignorierte Teil der Formel $\frac{1}{n}\sum_{i=1}^n$ berechnet nur den Durchschnitt über alle Datenpunkte im Datensatz. 

Im Folgenden wird die Formel für den BCE mit `numpy` definiert.

In [None]:
def BCE(y_true, y_hat):
    return -np.mean(y_true*np.log(y_hat) +(1-y_true)* np.log(1-y_hat))

In [None]:
BCE(körbe, y_hat)

## ROC-AUC 

Als letztes stellen wir die ROC-AUC als Alternative zur Accuracy vor. Die AUC kennen Sie vielleicht von einer HPLC oder NMR. Er bezeichnet die *Area under Curve*, d. h. die Fläche unter einer Kurve. In diesem Fall geht es um die Fläche unter der ROC-Kurve. 

Bevor wir uns näher mit dieser ROC-Kurve befassen, sollten wir klären, warum wir überhaupt eine Alternative für Accuarcy verwenden. 

Nehmen wir an, Sie schreiben ein Programm, das zwischen Hunden und Katzen unterscheiden soll.
Sie haben neun Bilder von Hunden und nur eines von einer Katze. 

<img src='Img/intro_stats/catvdogs.png' alt="Zeichnung" width="500px"/> 

In [None]:
y = np.array(["HUND", "KATZE", "HUND","HUND","HUND","HUND","HUND","HUND","HUND","HUND"])

Es gibt einen großen Unterschied zwischen der Anzahl von Katzen und Hunden im Datensatz. 
Können Sie einen Weg finden, immer eine Vorhersage-Accuracy von 90% zu erreichen, ohne die Bilder jemals gesehen zu haben, und sie zufällig angeordnet sind?
Die Funktion "shuffle" ordnet die Elemente jedes Mal in zufälliger Reihenfolge an.

In [None]:
shuffle(y) # ordnet die Elemente im Array zufällig an 
y_pred = np.array([___,____,____,____,_____,_____,____,____,____,_____])# schreiben sie hier ihre Antwort
accuracy(y, y_pred)

<details>
<summary><b>Lösung:</b></summary>
    
```python
y_pred = np.array(["HUND", "HUND", "HUND","HUND","HUND","HUND","HUND","HUND","HUND", "HUND"]) 
```
</details> 

Wenn Sie jedes Bild einfach als Hund klassifizieren, erhalten Sie  immer eine Accuracy von 0.9. 
Das bedeutet, dass ein Modell, das nichts im Bild erkennt, eine Genauigkeit von 0,9 erreichen kann. 
Wir können also anhand der Genauigkeit nicht wirklich sagen, ob unser Modell etwas gelernt hat oder einfach nur immer `DOG` erkennt. 
Je größer das Ungleichgewicht zwischen den verschiedenen Klassen ist (*class imbalance*), z. B. "Hund" gegenüber "Katze", desto weniger wertvoll ist die Genauigkeit als Metrik. 

Es gibt alternative Metriken, die für Klassifizierungen mit *class imbalance* besser geeignet sind. Eine davon ist die ROC-AUC.

ROC ist die Receiver-Operator-Charakteristik, eine Kurve, die das Verhältnis zwischen der *wahren positiven Rate* und der *falsch positiven Rate* beschreibt. Der AUC ist die Fläche unter der ROC-Kurve.

<img src='Img/intro_stats/roc_auc.png' alt="Drawing" width= "300px"/> 

*Was bedeuten True und False Positve Rate?*<br><br>
Angenommen wir hätten Hunde als `1` und Katze als `0` codiert. Die True-Positive-Rate (TPR) würde dann den Prozentsatz der korrekt identifizierten Hundebilder wiedergeben.<br><br>
$$TPR = \frac{\textrm{Anzahl korrekt klassifizierten Hunde Bilder}}{\textrm{Anzahl aller Hunde Bilder}}$$

Angenommen, das Modell erkennt jedes Bild als Hund, wie hoch ist dann die True Positive Rate?

In [None]:
TPR = ___/___ 
TPR

<details>
<summary><b>Lösung:</b></summary>
    
```python
TPR = 9/9
```
</details> 

Wie Sie sich vorstellen können, ist die Falsch-Positiv-Rate (FPR) sehr ähnlich. Hier nehemn wir diesmal die Katzen.

$$FPR= \frac{\textrm{Anzahl Katzen, die als Hund klassifiziert wurden}}{\textrm{Anzahl aller Katzen Bilder}}$$

Angenommen das Model erkennt jedes Bild als Hund, was ist die True Positive Rate?

In [None]:
FPR = ___/___
FPR

<details>
<summary><b>Lösung:</b></summary>
    
```python
FPR = 1/1
```
</details> 

Nun etwas förmlicher:  Der ROC-AUC gibt Auskunft über das Verhältnis zwischen der Performance eines Modells bei Hunden und der Performance bei Katzen. Die Berechnung des ROC AUC ist etwas komplizierter als die Berechnung von FPR und TPR. 
Aber es ist wichtig, diese Abhängigkeiten zu kennen. 
Ein ROC-AUC-Wert liegt immer zwischen 0 und 1. 1 bedeutet eine perfekte Klassifizierung, und ein Wert von 0,5 bedeutet eine reine Zufallsentscheidung. 
Um den ROC-AUC zu berechnen, können wir die Funktion `roc_auc_score` von `sklearn` verwenden. 

In [None]:
from sklearn.metrics import roc_auc_score
y_true = np.array([1,0,1,1,1,1,1,1,1,1]) # Wir haben diesmal Hunde und Katzen in 1 und 0 umcodiert
y_pred = np.array([1,1,1,1,1,1,1,1,1,1])
roc_auc_score(y_true ,y_pred )

Sie können sehen, dass der ROC-AUC-Wert nur 0,5 beträgt. Das Modell ist nicht besser als eine Zufallsentscheidung.
In der Praxis arbeiten wir jedoch mit vorhergesagten Wahrscheinlichkeiten, d. h. mit Werten zwischen 0 und 1, anstatt nur mit `0` und `1`. Dies kann auch zur Berechnung des ROC-AUC-Scores verwendet werden.

Versuchen Sie, die Wahrscheinlichkeiten für die Katze (zweite Position) zu ändern.
Denken Sie daran, dass wir ein Bild ab einem Wert von 0,5 als Hund klassifizieren. 

In [None]:
y_true = np.array([1,0,1,1,1,1,1,1,1,1]) # Wir haben diesmal Hunde und Katzen in 1 und 0 umcodiert
y_hat = np.array([0.91,____,0.99,0.99,0.99,0.98,0.8,0.7,0.8,0.97])
roc_auc_score(y_true ,y_hat )

# Übungsaufgabe

Bitte zur Benotung abgeben!

Es gibt auch logistische Regressionen mit mehr als einer `x`-Variable. 

Die Daten basieren auf dem *Iris-Datensatz*. 
[Hier](https://en.wikipedia.org/wiki/Iris_flower_data_set) gibt es mehr Informationen darüber.
Das Ziel ist es, zwischen zwei Arten von Irisblüten zu unterscheiden. *Iris setosa* (`0`) vs. *Iris versicolor* (`1`).

Die Modellparameter sind bereits geschätzt worden. In den folgenden Zellen sind drei Regressionskoeffizienten angegeben.

Ihre Aufgabe ist es, diese Koeffizienten zu verwenden, um zu sehen wie gut das Modell funktioniert. Sie bestimmen die Zugehörigkeit von fünf Blumen (`x`). Sie können die Schätzungen des Modells mit den wahren Werten in `y` vergleichen. 

`beta_1` gehört natürlich zu der Variablen in der ersten Spalte von `x` usw.

In [None]:
beta_1 = 3.0786959
beta_2 = -3.0220097
beta_0 = -7.306345489594484


x =  np.array([[5.1, 3.5],
               [5. , 3.6],
               [5.4, 3.4],
               [6.7, 3.1],
               [5.1, 2.5]])

y = np.array([0,0,0,1,1])

Berechnen Sie zunächst `z`:

In [None]:
z = beta_0 + ___*____ +_____*______

Konvertieren Sie `z` zu Wahrscheinlichkeiten mit der `sigmoid` Funktion:

In [None]:
y_hat = _____
y_hat

Berechnen sie die Genaugigkeit/Accuracy:

In [None]:
y_pred = _____(y_hat)
accuracy(______,____)

Als letzes berechnen Sie noch den ROC-AUC:

In [None]:
# write your calculation of the ROC-AUC here