# Logistische Regression mit Scikit-Learn

## Lernziele

```{admonition} Lernziele
:class: hint
* TODO
```


## LogisticRegression

Scikit-Learn bietet ein logistisches Regressionsmodell an, bei dem verschiedene Gradientenverfahren im Hintergrund die Gewichte bestimmen, die zu einer minimalen mittleren Kostenfunktion führen. Die Dokumentation zu dem logistischen Regressionsmodell findet sich hier: [scikit-learn.org LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html). 

Wir wenden nun das Scikit-Learn-modell auf unser Beispiel der binären
Klassifikation Ligazugehörigkeit abhängig vom Marktwert deutscher Fußballvereine
an. Dazu wiederholen laden wir die Daten und filtern zunächst nach Vereinen der
2. Bundesliga oder der 3. Liga.

In [9]:
# import all data
import pandas as pd
data_raw = pd.read_csv('data/20220801_Marktwert_Bundesliga.csv', skiprows=5, header=0, index_col=0)

# filter wrt 2. Bundesliga and 3. Liga
filter = data_raw['Ligazugehörigkeit'].isin(['2. Bundesliga', '3. Liga']) 
data = data_raw[filter].copy(())

# print all data samples
data.head(38)

Unnamed: 0_level_0,Ligazugehörigkeit,Wert,Kadergröße
Verein,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Hamburger SV,2. Bundesliga,34.85,28
Arminia Bielefeld,2. Bundesliga,31.1,26
SpVgg Greuther Fürth,2. Bundesliga,24.55,27
FC St. Pauli,2. Bundesliga,23.5,28
Fortuna Düsseldorf,2. Bundesliga,19.55,23
Hannover 96,2. Bundesliga,22.6,28
1.FC Nürnberg,2. Bundesliga,23.25,27
SV Darmstadt 98,2. Bundesliga,18.93,26
Karlsruher SC,2. Bundesliga,16.95,30
1.FC Heidenheim 1846,2. Bundesliga,16.65,27


Als nächstes formulieren wir das Klassifikationsproblem: Gegeben ist ein Verein mit seinem Marktwert. Spielt der Verein in der 2. Bundesliga?

Die Klasse `2. Bundesliga` wird in den Daten als `1` codiert, da der ML-Algorithmus nur mit numerischen Daten arbeiten kann. Den String `3. Liga` ersetzen wir in den Trainingsdaten durch eine `0`. 

In [10]:
# encode categorical data
data.replace('2. Bundesliga', 1, inplace=True)
data.replace('3. Liga', 0, inplace=True)

Jetzt können wir das logistische Regressionsmodell laden:

In [12]:
from sklearn.linear_model import LogisticRegression

logistic_regression = LogisticRegression()

Die Daten werden jetzt in Matrizen gepackt und in Trainings- und Testdaten unterteilt:

In [33]:
import numpy as np
from sklearn.model_selection import train_test_split

X = data['Wert'].values
y = data['Ligazugehörigkeit'].values

X_train, X_test, y_train, y_test = train_test_split(X[:, np.newaxis], y, random_state=0)

Danach können wir das logistische Regressionsmodell trainieren:

In [32]:
logistic_regression.fit(X_train, y_train)
logistic_regression.score(X_test, y_test)

1.0

90 % der Testdaten werden korrekt klassifiziert. Mit einer anderen Aufteilung in
Trainings- und Testdaten können wir auch höhere Erkennungsraten erzielen.
Beispielsweise führt ein Split mit `random_state=1` zu einer 100 % genauen
Klassifikation der Testdaten.

In [34]:
coefficents = logistic_regression.coef_

print(coefficents)

[[0.64151168]]
