# Kapitel 6 - Logistic Regression

## 6.1. Kapitelübersicht <a class="anchor" id="6-1"/>

Bis jetzt hatten wir bei unseren Klassifizierungen nur den Vectorizer ausgetauscht. In diesem Kapitel schauen wir uns ein neues Klassifizierungsverfahren an, <b>Logistic Regression</b>. Wir werden Logistic Regression mit Naive Bayes vergleichen und dafür die Evaluierungstechniken aus dem vorherigen Kapitel nutzen.

<b>Abschnittsübersicht</b><br>

[6.1. Kapitelübersicht](#6-1)<br>
[6.2. Linear Regression](#6-2)<br>
[6.3. Logistic Regression](#6-3)<br>
[6.3.1. Intuition der Logistic Regression](#6-3-1)<br>
[6.3.2. Voraussagen mit Logistic Regression ](#6-3-2)<br>
[6.3.3. Logistic Regression mit mehr als zwei Klassen](#6-3-3)<br>
[6.4. Logistic Regression vs. Naive Bayes](#6-4)<br>

Am Ende dieses Kapitel werden wir folgende Themen behandelt und/oder vertieft haben:
- Intuition der Linear Regression
- Logistic Regression: Intuition und Formel
- Logistische Funktion bzw. Sigmoid Funktion
- Softmax Funktion
- Maximum likelihood estimation
- Multiple Binary Logistic Regression
- Multinomial Logistic Regression
- Implementierung von Logistic Regression in Scikit learn

### 6.2. Linear Regression<a class="anchor" id="6-2"/>

<b>Regression</b> ist ein Überbegriff für statistische Analyseverfahren, bei der die Beziehung von Variablen gefunden und modelliert werden soll. Eines der bekanntesten Regressionverfahren ist <b>Linear Regression</b>. Um <b>Logistic Regression</b> besser verstehen zu können, ist ein Vergleich mit dem ähnlichen Modell Linear Regression sinnvoll. Dabei soll nur die grobe Intuition der Linear Regression dargestellt werden, die von der Logistic Regression übernommen und weitergeführt wird.<br>
<b>Linear Regression</b> (deutsch: Lineare Regression) ist eigentlich eine Technik aus der Statistik. Im Bereich des Machine Learning ist es nicht unüblich, dass Techniken aus der Statistik für Modellierungen verwendet werden. Es gibt verschiedene Varianten der Linear Regression, wir schauen uns hier nur die Simple Linear Regression an. <b>Simple Linear Regression</b> (deutsch: Lineare Einfachregression) ist ein <i>lineares Modell</i>, welches annimmt, dass eine lineare Beziehung zwischen einer Inputvariablen $ x $ und einer einzelnen Outputvariable $ y $ herrscht. Dieses Modell kann folgendermaßen repräsentiert werden:<br>

$ y = B0 + B1 \cdot x $<br>

y = Output, der vorausgesagt wird<br>
x = Input<br>
B0 = Bias Koeffizient<br>
B1 = Koeffizient für x<br>

Wir können diese Formel benutzen, um Voraussagen für Variablen zu treffen. Angenommen, wir versuchen das Gewicht eines Menschen anhand seiner Größe vorauszusagen. Das Gewicht ist hier $y$ und die Größe $x$. Wir setzen dies in unsere Formel ein:<br>

$ Gewicht = B0 + B1 \cdot Größe $<br>

Für B0 und B1 setzen wir nun 0.1 und 0.5. Das Ziel der Simple Linear Regression ist es, diese beiden Werte nach und nach anzupassen, damit sie besser auf unsere Daten passen.<br>

$ Gewicht = 0.1 + 0.5 \cdot 182 $<br>
$ Gewicht = 91.1 $<br>

Graphisch kann man sich die Simple Linear Regression folgendermaßen vorstellen:

<img src="https://files.realpython.com/media/fig-lin-reg.a506035b654a.png" alt="Linear Regression example" width="450px" align="left"/>

## 6.3. Logistic Regression <a class="anchor" id="6-3"/>

<b>Logistic Regression</b> (deutsch: Logistische Regression) ist eigentlich ein mathematisches Modell, welches aus der Statistik kommt und auf der <b>logistischen Funktion</b> (auch <b>Sigmoid Funktion</b> genannt) basiert. Diese Funktion ist eine "S"-förmige Kurve und verwandelt jeden Input-Wert in einen Wert zwischen 0 und 1. 
<br>

$ f(x) = \frac{1}{1\ +\ e^{-x}}$<br>


<img src="https://hvidberrrg.github.io/deep_learning/activation_functions/assets/sigmoid_function.png" alt="logistic function" style="width:350px;" align="left">

Die Logistic Regression berechnet die <i>Wahrscheinlichkeit</i>, dass ein Input der vorgegebenen Klasse zugehört. Diese vorgegebene Klasse ist oft einfach die erste Klasse. Ist bei einer binären Klassifikation die Wahrscheinlichkeit $ P > 0.5 $, wurde die vorgegebene Klasse vorausgesagt, ist $ P <= 0.5 $, wurde sie nicht vorausgesagt. Auch wenn die Logistische Regression das Wort "Regression" im Namen hat, ist es kein Regressionsverfahren, sondern ein Klassifizierungsverfahren.<br>

Die Formel für die Logistic Regression ähnelt der <b>Linear Regression</b>:<br>

$ y = \frac{e^{(B0\ +\ B1 \cdot x)}}{1\ +\ e^{(B0\ +\ B1 \cdot x)}}$<br>

$B0$ ist erneut der Bias Koeffizient und $B1$ ist der Koeffizient für den einfachen Inputwert $x$. Der große Unterschied zur Linear Regression besteht darin, dass man als Ergebnis der Logistic Regression einen Wert zwischen 0 und 1 erhält, während bei der Linear Regression das Ergebnis ein numerischer Wert ist, der kleiner als 0 oder größer als 1 sein kann. Da uns die Logistic Regression noch einmal beim Kapitel über Deep Learning begegnen wird (Kapitel 11 TODO), schauen wir uns die Formel und die Intuition dahinter genauer an. Dies machen wir anhand eines Beispiels.<br>

### 6.3.1. Intuition der Logistic Regression <a class="anchor" id="6-3-1"/>

Angenommen wir haben zwei Klassen: "Erwachsener" und "Kind". Wir wollen nun anhand der Körpergröße die Wahrscheinlichkeit $P$ modellieren, ob es sich bei einer gegebenen Körpergröße um einen Erwachsenen oder ein Kind handelt. Dies können wir so formulieren:<br>

$ P(Klasse=Erwachsener|Größe) $<br>

Alternativ können wir die Wahrscheinlichkeit auch so formulieren, dass ein Input $x$ zu einer Klasse $y$ gehört. Die Klasse "Erwachsener" ist hier gleich 1 und die Klasse "Kind" ist hier gleich 0. Der Input $x$ ist hier gleich der Körpergröße.<br>

$ P(x) = P(y=1|x) $<br>

Das setzen wir in die Formel für Logistic Regression ein und erhalten folgende Gleichung:<br>

$ P(x) = \frac{e^{(B0\ +\ B1 \cdot x)}}{1\ +\ e^{(B0\ +\ B1 \cdot x)}}$<br>

Ohne auf die Mathematik einzugehen, die dahinter steht, können wir diese Gleichung in folgende Gleichung umformen ($ln$ ist hier der natürliche Logarithmus):<br>

$ ln(\frac{P(x)}{1\ -\ P(x)}) = B0\ +\ B1 \cdot x $<br>

Somit gleicht der rechte Teil der Gleichung der Formel für die <b> Simple Linear Regression</b>. Der linke Teil ist der Logarithmus der Wahrscheinlichkeit für die vorgegebene Klasse (hier "Erwachsener").<br>

Wir haben nun ein Problem: $x$ und $y$ sind bekannte Werte, doch wie bestimmen wir die Betawerte $B0$ und $B1$? Diese beiden Koeffizienten werden durch unsere Trainingsdaten "erlernt". Dazu brauchen wir einen <b>Lernalgorithmus</b>. Wir verwenden die <b>Maximum-likelihood estimation</b>-Methode (kurz: MLE). Dieser Algorithmus hat seine Ursprünge ebenfalls in der Statistik und ist ein parametrisches Schätzverfahren. Auch hier gehen wir nicht näher auf die Mathematik hinter MLE ein. Für den Moment reicht es zu wissen, dass MLE mithilfe eines <i>Minimierungsalgorithmus</i> versucht, die optimalen Werte für die Koeffizienten für die Trainingsdaten zu finden, indem die Fehlerrate der falschen Zuweisungen minimiert wird. Optimale Werte für die Koeffizienten wären in unserem Fall Werte, die sehr nah an 1 (hier: "Erwachsener") und sehr nahe an 0 (hier: "Kind") liegen. 

### 6.3.2. Voraussagen mit Logistic Regression <a class="anchor" id="6-3-2"/>

Wir nehmen nun an, dass wir die <b>MLE</b>-Methode auf unseren Datensatz angewendet haben. Als Ergebnis erhielten wir für $B0 = -100$ und für $B1 = 0.6$. Wir bekommen nun die Korpergröße "150cm" und sollen anhand unseres Logistic Regression Modells voraussagen, ob dies eher die Größe eines Erwachsenen oder eines Kindes ist. Dies schreiben wir folgendermaßen:<br>

$ P(Erwachsener|Größe=150)$<br>

Nun setzen wir dies in die Formel für Logistic Regression ein:<br>

$ y = \frac{e^{(B0\ +\ B1 \cdot x)}}{1\ +\ e^{(B0\ +\ B1 \cdot x)}}
    \\ = \frac{e^{(-100\ +\ 0.6 \cdot 150)}}{1\ +\ e^{(-100\ +\ 0.6 \cdot 150)}}
    \\ = 0.000045398$ <br>
    
Die Wahrscheinlichkeit, dass die Person mit der Größe 150cm ein Erwachsener ist, tendiert laut unser Formel gegen 0. Nehmen wir als zweites Beispiel eine Person mit der Größe 180cm:<br>

$ P(Erwachsener|Größe=180)$<br>

Nun setzen wir dies in die Formel für Logistic Regression ein:<br>

$ y = \frac{e^{(B0\ +\ B1 \cdot x)}}{1\ +\ e^{(B0\ +\ B1 \cdot x)}}
    \\ = \frac{e^{(-100\ +\ 0.6 \cdot 180)}}{1\ +\ e^{(-100\ +\ 0.6 \cdot 180)}}
    \\ = 0,99966465$ <br>
    
Die Wahrscheinlichkeit, dass die Person mit der Größe 180cm ein Erwachsener ist, tendiert laut unser Formel gegen 1, d.h. die Wahrscheinlichkeit ist sehr hoch, dass sie ein Erwachsener ist.

### 6.3.3. Logistic Regression mit mehr als zwei Klassen <a class="anchor" id="6-3-3"/>

In unserem Beispiel hatten wir die <b>binary Logistic Regression</b> (deutsch: binäre Logistische Regression) behandelt, die nur mit zwei Klassen arbeitet. <b>Multiclass Logistic Regression</b> kann Voraussagen für mehr als zwei Klassen treffen. Es existieren mehrere Ansätze, Multiclass Logistic Regression anzuwenden:<br>

<b>Multiple Binary Logistic Regression</b> (auch <b>One vs. Rest Logistic Regression</b> genannt): Hierbei wird auf die binary Logistic Regression zurückgegriffen: Bei der Voraussage einer Klasse werden alle anderen Klasse temporär in einer Klasse zusammengefasst. Dies wird für jede Klasse wiederholt und für jede Kombination wird eine binary Logistic Regression berechnet. Die Voraussage mit dem höchsten Wert wird dann als Klassenzuweisung verwendet.<br>


<b>Multinomial Logistic Regression</b>: Bei der Multinomial Logistic Regression wird die logistische Funktion bzw. die Sigmoid-Funktion durch die <b>Softmax-Funktion</b> ausgetauscht. Die Formel für die Softmax-Funktion ist:<br>

$ \text{Softmax}(y_i) = \frac{e^{y_i}}{\sum_{j} e^{y_j}}$ <br>

Die Softmax-Funktion wandelt Zahlen in Wahrscheinlichkeiten um, deren Summe 1.0 ergibt. Es ist eine Normalisierungsfunktion, die gebraucht wird, wenn mehr als zwei Klassen klassifiziert werden müssen. Für einen Input $x$ wird ein Wert $s_k(x)$ für jede Klasse $k$ berechnet. Bei 10 Klassen erhalten wir also 10 Werte. Die Wahrscheinlichkeit für jede Klasse wird dann mit der Softmax-Funktion berechnet, der die Werte $s_k(x)$ für jede Klasse $k$ übergeben werden.<br>

Der Unterschied zwischen diesen beiden Methoden ist, dass bei der Multiple Binary Classification für jede Klasse ein Klassifikationsverfahren berechnet wird und diese dann kombiniert werden. Bei der Multinomial Logistic Regression hingegen werden alle Klassen nur einem Klassifizierungsverfahren übergeben.

## 6.4. Logistic Regression vs. Naive Bayes <a class="anchor" id="6-4"/>

In [1]:
import pandas as pd
corpus = pd.read_csv("tutorialdata/corpora/wikicorpus_v2.csv", index_col=0)

Logistic Regression wird ähnlich wie Naive Bayes implementiert. Die Ausführung des Codeblocks dauert ein paar Sekunden. Anschließend implementieren wir Naive Bayes noch einmal und vergleichen die beiden Verfahren miteinander.

#### Logistic Regression

In [2]:
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score
from sklearn.model_selection import cross_val_score

import numpy as np


labels = LabelEncoder().fit_transform(corpus["category"])
vector  = TfidfVectorizer().fit_transform(corpus["text"])


X_train, X_test, y_train, y_test = train_test_split(vector, 
                                                    labels, 
                                                    test_size=0.2, 
                                                    train_size=0.8,
                                                    random_state=42)


# Logistic Regression
lr_classifier = LogisticRegression()
lr = lr_classifier.fit(X_train, y_train)

# cross validation des Trainingsdatensatzes
lr_scores = cross_val_score(lr_classifier, vector, labels, cv=3)
lr_mean = np.mean(lr_scores)

print("Der Mittelwert der cross validation bei der  Klassifizierung " 
      + f" mit Logistic Regression ist {str(np.around(lr_mean, decimals=3))}."
      + "\n")


# F1-score des Testdatensatzes
y_pred = lr_classifier.predict(X_test)
lr_f1 = f1_score(y_test, y_pred, average="micro")

print("Der F1-score für die Klassifizierung mit Logistic regression ist "
      + f"{str(np.around(lr_f1, decimals=3))}.")



Der Mittelwert der cross validation bei der  Klassifizierung  mit Logistic Regression ist 0.904.

Der F1-score für die Klassifizierung mit Logistic regression ist 0.934.


#### Naive Bayes

In [7]:
from sklearn.naive_bayes import MultinomialNB

# Multinomial Naive Bayes
mnb_classifier = MultinomialNB()
mnb = mnb_classifier.fit(X_train, y_train)

# cross validation des Trainingsdatensatzes
mnb_scores = cross_val_score(mnb_classifier, vector, labels, cv=3)
mnb_mean = np.mean(mnb_scores)

print("Der Mittelwert der cross validation bei der  Klassifizierung " 
      + f" mit Multinomial Naive Bayes ist {str(np.around(mnb_mean, decimals=3))}."
      + "\n")


# F1-score des Testdatensatzes
y_pred = mnb_classifier.predict(X_test)
mnb_f1 = f1_score(y_test, y_pred, average="micro")

print("Der F1-score für die Klassifizierung mit Multinomial Naive Bayes ist "
      + f"{str(np.around(mnb_f1, decimals=3))}.")

Der Mittelwert der cross validation bei der  Klassifizierung  mit Multinomial Naive Bayes ist 0.859.

Der F1-score für die Klassifizierung mit Multinomial Naive Bayes ist 0.87.


Die Werte zeigen eindeutig, dass Logistic Regression besser klassifiziert als Naive Bayes. Wir erhalten einen F1-score von 0.934 und bei der cross validation einen Mittelwert von 0.904.

Logistic Regression wird im Bereich des NLP häufig als Alternative zum Naive Bayes verwendet. Der Vorteil liegt darin, dass Logistic Regression keine Unabhängigkeit der Features voraussetzt (siehe Kapitel 3). Logistic Regression ist jedoch deutlicher komplexer als Naive Bayes und braucht mehr Zeit bei der Ausführung. Vor allem bei vielen Klassen kann Logistic Regression sehr viel Zeit in Anspruch nehmen.