<figure>
  <IMG SRC="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d5/Fachhochschule_Südwestfalen_20xx_logo.svg/320px-Fachhochschule_Südwestfalen_20xx_logo.svg.png" WIDTH=250 ALIGN="right">
</figure>

# Machine Learning
### Sommersemester 2023
Prof. Dr. Heiner Giefers

## Aufgabe zur Logistischen Regression

### Aufgabe: Kreditbewertung

Der Datensatz *Kreditscoring zur Klassifikation von Kreditnehmern. 2010. Open Data LMU. (https://doi.org/10.5282/ubm/data.23)* beinhaltet 1000 Datensätze, die Vergaben von Privatkrediten beschreiben.
Die Spalten beschreiben verschiedene Merkmale, die die Art des Kredits sowie die Eigenschaften der Kunden beschreiben.
Beispiele sind Höhe und Laufzeiten der Darlehn sowie das Alter und das Beschäftigungsverhältnis der Kreditnehmer.
Die binäre Zielgröße (auch *Dummy Variable* genannt) bildet die Spalte `kredit`.
Der Wert `1` bedeutet, dass für den entsprechenden Datenpunkt der Kredit zurückgezahlt wurde.
Entsprechend bedeutet `kredit=0`, dass der Kredit nicht ordnungsgemäß zurückgezahlt wurde.

Aufgrund dieser Datenbasis kann nun ein System entwickelt werden, dass für eine anstehende Kreditvergabe vorhersagt, ob der Kredit zurückgezalt wird.

Wir importieren zuerst die Pandas Bibliothek und laden den Datensatz `kredit.csv` in einen `DataFrame`.

In [None]:
import pandas as pd
import os
import urllib.request

url = "https://github.com/fhswf/aki-ml/raw/main/p3/kredit.csv"
dfile = "./kredit.csv"

if not os.path.isfile(dfile):
    urllib.request.urlretrieve(url, dfile)

In [None]:
import pandas as pd
df = pd.read_csv("kredit.csv")
df.head(10)

Mit `df.info()` und `df.describe()` erhalten wir einige Informationen über den Datensatz.

In [None]:
df.info()

In [None]:
df.describe()

Wir teilen nun die kompletten Daten in einen Trainings- und einen Test-Datensatz auf.
Dazu kann man die Methode `train_test_split()` aus dem Modul `sklearn.model_selection` verwendet werden.
Der Parameter `test_size` legt den Anteil der Daten im Test-Datensatz fest.
Die Aufteilung der Datenpunkte erfolgt zufällig.
Falls Sie immer die gleiche Aufteilung vornehmen wollen (damit die Ergebnisse vergleichbar sind) können Sie durch Festlegen des Parameters `random_state` erzwingen, dass immer die gleichen Folgen von Zufallszahlen erzeugt werden.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df.iloc[:,1:],df.iloc[:,0],test_size=0.3, random_state=0)

Wenn Sie testen wollen, wie gut das Modell mit einer Auswahl der Merkmale funktioniert, können Sie die Spalten im Datensatz entsprechend einschränken.

In [None]:
from sklearn.model_selection import train_test_split
features = ["laufkont","rate","moral","buerge","sparkont"]
X_train_s, X_test_s, y_train_s, y_test_s = train_test_split(df[features],df.iloc[:,0],test_size=0.3, random_state=0)

**Aufgabe:** Bestimmen Sie folgende Werte:
- m_train: Die Anzahl der Datenpunkte im Trainings-Datensatz
- m_test: Die Anzahl der Datenpunkte im Test-Datensatz
- X_dim: Die Anzahl der Attribute (unabhängige Variablen)

In [None]:
m_train = None
m_test = None
X_dim = None
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
# Test Cell
#----------

assert m_train + m_test, X_dim == (df[features]).shape

Für die Modellbildung verwenden wir nun wieder `sklearn`, diesmal mit einem logistischen Regressionsmodell.

Die Modellparameter können über die Attribute `intercept_` und `coef_` abgerufen werden.
Üblicherweise interessieren den Programmierer diese Werte nicht.
Die Schätzung für einen neuen Datenpunkt kann ja ganz einfach mit der Funktion `predict()` berechnet werden.
Für uns sind die Informationen allerdings interessant, wenn wir die Methode `fit()` händisch nachprogrammieren wollen und so die jeweiligen gelernten Modellparameter miteinander vergleichen können.

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()

model.fit(X_train,y_train)

params = model.intercept_ +  model.coef_[0]
params

Nachdem wir das Modell mit den den Trainingsdaten trainiert haben, verwenden wir den Testdatensatz um die Qualität des Modells zu bewerten.
Eine Genauigkeit (*accuracy*) von 75% bedeutet, dass für 3 von 4 Krediten korrekt vorhergesagt werden konnte, ob ein Kredit vom Bankkunden ordnungsgemäß zurückgezahlt wurde.

In [None]:
import numpy as np
y_pred = model.predict(X_test)
acc_train = np.sum((y_pred==y_test)*1)/len(y_test)
print("Genauigkeit (Testdaten): %.2f%%" % (acc_train*100))

Die Interpretation des Ergebnisses, also die Einschätzung, ob die Genauigkeit gut oder schlecht ist, obliegt nun den Experten für das konkrete Anwendungsfeld, in diesem Fall den Kreditexperten der Bank.

**Frage:** Was würden Sie sagen, ist das Ergebnis *gut*? Ist die Genauigkeit hier eine gute Metrik, um die Qualität des Klassifikators zu bewerten?