# Logistische Regression

## Unterschied Regression <-> Klassifikation/Klassifizierung

> 2 Kategorien in "Supervised Learning"

### Regression:

> Vorhersagen bei denen Label(*Zielvariable*) **kontinuierlich** ist: $y \in \mathbb{R}$

* Lineare Regression
* Regressionsbäume

$\Rightarrow$ Vorhersage Umsatz, Temperatur, Größe, ...

### Klassifikation/Klassifizierung

> Vorhersagen, bei denen Label **kategorisch** ist: $y \in {0,...,k}$

* Logitische Regression
* Entscheidungsbäume
* Ensemble-Bäume
* Neuronale Netze/Deep Learning

$\Rightarrow$ Bestimmte Farben, Bestimmte Kategorien an Tieren, ...

1. **Binäre Klassifizierung**: Genau 2 Labels(X oder Y $\rightarrow$ 0 oder 1)
2. **Mehrklassen Klassifiezierung**: Mehr als 2 Kategorien(A, B oder C $\rightarrow$ 0, 1 oder k)

## Logistische Funktion

> Funktion die auf den Wertebereich $[0,1]$ abbildet

$f(x)= \frac{1}{1+e^{-x}}; f: \mathbb{R} \rightarrow [0,1]$

* Anstelle von Geraden, bei logistischer Regression logistische Funktion als Vorhersagefunktion genutzt:

1. Ein Feature: $f(x)= \frac{1}{1+e^-{w_0+w_1x}}$
2. Mehrere Features: $f(x)= \frac{1}{1+e^{-(w_0+w_1x + w_2x_2 + .... + w_nx_n}}$

Dabei jeweils:

1. $w_n$: Parameter des Modells, die gerlent werden müssen($\Rightarrow$ *Gradient Descent*)
2. $x_n$: Features des Datenpunkts(Tiername, Preis,...)

### Vorhersage durch logistische Regression

Muster dabei:

Gegeben | Gesucht
--- | ---
Feature $x_1$: 44 | Label abc $y=0$
Feature $x_2$: 179| Label qwe $y=1$
... | ....
Feature $x_n$: ... | Label xyz ...

Gewichten aus bereits trainierten Models: $w_0 = -30; w_1 = 0.2; w_2 = 0.13$

$\Rightarrow f(x) = \frac{1}{1+e^{-(30+0.2*44+0.13*179)}} = 0.887$

$\rightarrow$ x mit der Wahrscheinlichkeit 0.887 dem Label *qwe* zuzuordnen.

Fachwörter:

* *Klassenzugehörigkeit*: Zu welcher konkreten Klasse als Output gehört die Vorhersage an
* *Decision boundary*: Grenze für die Zuordnung zu einer bestimmten Klasse

### Modelltraining bei der logistischen Regression

Wie bei linearen Regression:

1. **Kostenfunkton $J(w)$** definieren, welche den Vorhersagefehler auf Trainingsdaten in Abhängigkeit der Modellparameter $w$ angibt
2. Kostenfunktion mit hilfe von **Gradient Descent** minimieren, um Minimum der Funktion finden(Optimalen Parametern $\hat{w}$)

#### Kostenfunktion

> Beschreibt Vorhersagefehler auf $n$ Trainingsdaten in Abhängigkeit von $w$

1. Lineare Regression: MSE(See Chapter 2)
2. Logistische Regression:
* Cross Entropy: $J(w) = - \sum_{i=1}^n y_ilog(f(x_i)) + (1-y_i)log(1-f(x_i))$
* Cross Entropy bestraft Klassifikation härter
* Kostenfunktion konvex $\rightarrow$ Minimum durch Gardient Descent bstimmt werden. Mit Log. Reg. & MSE nicht möglich.

<!-- TODO Gradient descent speicalliy -->

#### Evaluierung

* Nicht wie lineare Regression über Kostenfunkton, sondern über Klassenzugehörigkeit

Evaluierungsmetriken:

1. Accuracy
2. Precision & Recall
3. F1-Score

##### Entscheidungsfälle

Abhängig von durch Modell vorhergesagten Klassen & Label des Datenpunkts:

Fall | Vorhersage | Label | Bezeichnung
--- | --- | --- | --- 
1 | 1 | 1 | True Positive  
2 | 1 | 0 | False Positive
3 | 0 | 1 | False Negative
4 | 0 | 0 | True Negative

* Bei Eval., für jeden Datenpunkt in Testdaten bestmmt, welcher Entscheidungsfall eintritt. Nach Muster:

Vorhersage | Label | Fall
--- | --- | ---
... | ... | tp/fp/fn/tn

#### Accuracy

> Vorhersagen möglichst **genau** sein

* Gute Vorhersagen: tp || tn
* Schlechte Vorhersagen: fp || fn

$accuracy = \frac{true \: positives \: + \: true \: negatives}{all}$

$\Rightarrow$ Wie viel Prozent d. Vorhersagen sind korrekt?

#### Precision

> Vorhersagen möglichst **präzise** sein

$precision = \frac{true \: positives}{true positives \: + \: false \: positives}$

$\Rightarrow$ Wie viel Prozent d. Vorhersagen positiven Fälle("1") sind auch wirklich positiv?

#### Recall

> Vorhersagen möglichst **hohe Trefferquote** haben

$recall = \frac{true \: positives}{true positives \: + \: false \: negatives}$

$\Rightarrow$ Wie viel Prozent d. Vorhersagen positiven Fälle("1") erkennt das Modell?

#### Unterschied Precision & Recall

<img  style="display: block; margin: auto;" src="https://upload.wikimedia.org/wikipedia/commons/thumb/2/26/Precisionrecall.svg/525px-Precisionrecall.svg.png" width="400" height="400" />

Quelle: https://en.wikipedia.org/wiki/Precision_and_recall

#### F1 Score

> Vorhersagen möglichst **hohe Trefferquote** haben als auch **präzise** sein

$F_1 = 2* \frac{precision \: * \: recall}{precision \: + \: recall}$

## Multinominale Logistische Regression

> Klassifikation bei mehr als 2 Klassen: Lerne $k$ logistische Regressionsmodelle

* Vorhersage für Datenpunkt $\hat{=}$ Klasse für welche das zugehörige Modell die höchste Vorhersagewahrscheinlichkeit ausgibt.

$x` \Rightarrow max(f_i(x`))$

* Precision & Recall können nicht bestimmt werden
* Accuracy schon: $accuracy = \frac{korrekte \: Vorhersagen}{alle \: Vorhersagen}$
* Auch **Confusion Matrix genutzt**:

. | Vorhersage 1 | Vorhersage 2 | Vorhersage 3
--- | --- | --- | ---
Label 1 | Wahrsch. X | Wahrsch. Y | Wahrsch. Z
Label 2 | Wahrsch. A | Wahrsch. B | Wahrsch. C
Label 3 | Wahrsch. Q | Wahrsch. W | Wahrsch. E

* Diagonale Einträge $\hat{=}$ Anteil der Korrekten Vorhersagen für jeweilige Klasse
* Siehe: https://en.wikipedia.org/wiki/Confusion_matrix für Beispiele

## Feature importance

> Wie wichtig jeweilige Feature für Vorhersage ist

* Bei linearer & logistischer Reression, Feature importance direkt an Gewichten der Features abgelesen werden:

1. $Hohes \: Gewicht \Rightarrow Hohe \: Feature \: Importance$
2. $Niedriges \: Gewicht \Rightarrow Niedrige \: Feature \: Importance$

In [77]:
# 1. Load data set and check it out

# Using the candy dataset: https://www.kaggle.com/fivethirtyeight/the-ultimate-halloween-candy-power-ranking/
# Question to make prediction on: Is given candy chocolate?
import pandas as pd
df = pd.read_csv('./datasets/candy-data.csv')

# Remove not needed name
df = df[['fruity','caramel','peanutyalmondy','nougat','crispedricewafer','hard', 'bar','pluribus','sugarpercent','pricepercent','winpercent','chocolate']] 	
df.head()

Unnamed: 0,fruity,caramel,peanutyalmondy,nougat,crispedricewafer,hard,bar,pluribus,sugarpercent,pricepercent,winpercent,chocolate
0,0,1,0,0,1,0,1,0,0.732,0.86,66.971725,1
1,0,0,0,1,0,0,1,0,0.604,0.511,67.602936,1
2,0,0,0,0,0,0,0,0,0.011,0.116,32.261086,0
3,0,0,0,0,0,0,0,0,0.011,0.511,46.116505,0
4,1,0,0,0,0,0,0,0,0.906,0.511,52.341465,0


In [78]:
# 2. Split into test and training data

# In comparison to 1) we'll now use sklearn
from sklearn.model_selection import train_test_split

trainingSet, testSet = train_test_split(df, test_size=0.2, random_state=0) # 80/20 Split
# Manually create splits, as we want to predict chocolate
X_train = trainingSet[['fruity','caramel','peanutyalmondy','nougat','crispedricewafer','hard', 'bar','pluribus','sugarpercent','pricepercent','winpercent']] 	
y_train = trainingSet["chocolate"]

X_test = testSet[['fruity','caramel','peanutyalmondy','nougat','crispedricewafer','hard', 'bar','pluribus','sugarpercent','pricepercent','winpercent']] 	
y_test = testSet["chocolate"]

print(f'Our training data size: {str(len(X_train))}')
print(f'Our test data size: {str(len(y_test))}')

Our training data size: 68
Our test data size: 17


In [79]:
# 3. Train model using logistic regression

from sklearn.linear_model import LogisticRegression

logisticRegr = LogisticRegression(max_iter=1000) # Gradient Descent with max. 1000 Steps
logisticRegr.fit(X_train, y_train)

LogisticRegression(max_iter=1000)

In [80]:
# 4. Create prediction
y_prediction = logisticRegr.predict(X_test)

In [82]:
# 5. Calculate accuracy, precision and recall with prediction
from sklearn.metrics import accuracy_score, precision_score, recall_score
test_accuracy = accuracy_score(y_test, y_prediction)
test_precision = precision_score(y_test, y_prediction)
test_recall = recall_score(y_test, y_prediction)

print(f'Accuracy: {round(test_accuracy*100)}%\nPrecision: {round(test_precision*100)}%\nRecall: {test_recall}')

Accuracy: 94.0%
Precision: 100.0%
Recall: 0.75


In [84]:
# 6. Run confussion matrix to determnine accuracy of classification
from sklearn.metrics import classification_report, confusion_matrix

confusion_matrix(y_test, y_prediction)
print(classification_report(y_test, y_prediction))

              precision    recall  f1-score   support

           0       0.93      1.00      0.96        13
           1       1.00      0.75      0.86         4

    accuracy                           0.94        17
   macro avg       0.96      0.88      0.91        17
weighted avg       0.95      0.94      0.94        17

