<figure>
  <IMG SRC="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d5/Fachhochschule_Südwestfalen_20xx_logo.svg/320px-Fachhochschule_Südwestfalen_20xx_logo.svg.png" WIDTH=250 ALIGN="right">
</figure>

# Einführung Machine Learning
### Sommersemester 2023
Prof. Dr. Heiner Giefers

## Aufgabe zur Logistischen Regression

### Aufgabe: Kreditbewertung

Der Datensatz *Kreditscoring zur Klassifikation von Kreditnehmern. 2010. Open Data LMU. (https://doi.org/10.5282/ubm/data.23)* beinhaltet 1000 Datensätze, die Vergaben von Privatkrediten beschreiben.
Die Spalten beschreiben verschiedene [Merkmale](https://data.ub.uni-muenchen.de/23/1/DETAILS.html), die die Art des Kredits sowie die Eigenschaften der Kunden beschreiben.
Beispiele sind Höhe und Laufzeiten der Darlehn sowie das Alter und das Beschäftigungsverhältnis der Kreditnehmer.
Die binäre Zielgröße (auch *Dummy Variable* genannt) bildet die Spalte `kredit`.
Der Wert `1` bedeutet, dass für den entsprechenden Datenpunkt der Kredit zurückgezahlt wurde.
Entsprechend bedeutet `kredit=0`, dass der Kredit nicht ordnungsgemäß zurückgezahlt wurde.

Aufgrund dieser Datenbasis kann nun ein System entwickelt werden, dass für eine anstehende Kreditvergabe vorhersagt, ob der Kredit zurückgezalt wird.

Wir importieren zuerst die Pandas Bibliothek und laden den Datensatz `kredit.csv` in einen `DataFrame`.

In [None]:
import pandas as pd
import os
import urllib.request

url = "https://github.com/fhswf/datasets/raw/main/kredit.csv"
dfile = "./kredit.csv"

if not os.path.isfile(dfile):
    urllib.request.urlretrieve(url, dfile)

In [None]:
import pandas as pd
df = pd.read_csv("kredit.csv")
df.head(10)

Mit `df.info()` und `df.describe()` erhalten wir einige Informationen über den Datensatz.

In [None]:
df.info()

In [None]:
df.describe()

Wir teilen nun die kompletten Daten in einen Trainings- und einen Test-Datensatz auf.
Dazu kann die Methode `train_test_split()` aus dem Modul `sklearn.model_selection` verwendet werden.
Der Parameter `test_size` legt den Anteil des Daten im Test-Datensatz fest.
Die Aufteilung der Datenpunkte erfolgt zufällig.
Falls Sie immer die gleiche Aufteilung vornehmen wollen (damit die Ergebnisse vergleichbar sind) können Sie durch Festlegen des Parameters `random_state` erzwingen, dass immer die gleichen Folgen von Zufallszahlen erzeugt werden.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df.iloc[:,1:],df.iloc[:,0],test_size=0.3, random_state=0)

In [None]:
df.corr().kredit.abs().sort_values()

Wenn Sie testen wollen, wie gut das Modell mit einer Auswahl der Merkmale funktioniert, können Sie die Spalten im Datensatz entsprechend einschränken.

In [None]:
from sklearn.model_selection import train_test_split
features = ["sparkont","rate"]
X_train, X_test, y_train, y_test = train_test_split(df[features],df.iloc[:,0],test_size=0.3, random_state=0)

Für die Modellbildung verwenden wir nun wieder `sklearn`, diesmal mit einem logistischen Regressionsmodell.

Die Modellparameter können über die Attribute `intercept_` und `coef_` abgerufen werden.
Üblicherweise interessieren den Programmierer diese Werte nicht.
die Schätzung für einen neuen Datenpunkt kann ja ganz einfach mit der Funktion `predict()` berechnet werden.
Für uns sind die Informationen allerdings interessant, wenn wir die Methode `fit()` händisch nachprogrammieren wollen und so die jeweiligen gelerneten Modellparameter miteinander vergleichen können.

In [None]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(X_train,y_train)

model.intercept_,  model.coef_[0]

Nachdem Wir das Modell mit den Trainingsdaten trainiert haben, verwenden wir den Testdatensatz um die Qualität des Modells zu bewerten.
Eine Vorhersagegenauigkeit von 66,6% bedeutet, dass für 2 von 3 Krediten korrekt vorhergesagt werden konnte, ob ein Kredit vom Bankkunden ordnungsgemäß zurückgezahlt wurde.

In [None]:
import numpy as np
y_pred = model.predict(X_test)
acc_train = np.sum((y_pred==y_test)*1)/len(y_test)
print("Accuracy (Testdaten): %.2f%%" % (acc_train*100))

**Aufgabe:** **Verwenden nun alle Merkmale des Datensatzes in einem neuen Modell und berechnen Sie die *Classification Accuracy* für dieses Modell.**

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

**Aufgabe:** **Verwenden Sie die oben beschrieben Techniken, um Entscheidungsgrenzen für einen zufällig erzeugten Datensatz zu berechnen.**

In [None]:
from sklearn.datasets import make_blobs
import numpy as np
import matplotlib.pyplot as plt


# generating two-class dataset
X, y = make_blobs(n_samples=100, centers=2, n_features=2, center_box = (-5, 5))
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Spectral)

**(a)** Teilen Sie den Datensatz auf (70% Training, 30% Test):
- `X_train`: training dataset
- `X_test`: test dataset
- `y_train`: training labels
- `y_test`: test labels

In [None]:
X_train, X_test, y_train, y_test = [None]*4
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
# Test Cell
#----------

assert np.vstack((X_train, X_test)) in X and np.hstack((y_train, y_test)) in y
assert y_train.size/y.size == 0.7

**(b)** Verwenden Sie die *sklearn*-Klasse `LogisticRegression` um ein Modell für den Datensatz zu bilden. Trainieren Sie das Modell mit den oben festgelegten Trainingsdaten.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
# Test Cell
#----------

assert type(logreg) == LogisticRegression
assert logreg.intercept_, 'Trainieren Sie das Modell mit den Daten!'

Wir visualisieren nun den Datensatz um darzustellen, wie gut unser Modell klassifiziert:

In [None]:
# Plotting decision regions
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01),np.arange(y_min, y_max, 0.01))

Z = logreg.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.4, cmap=plt.cm.Spectral)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Spectral)
plt.xlabel(r"$\Theta_0$", fontsize=14)
plt.ylabel(r"$\Theta_1$", fontsize=14)
plt.show()

**(c)** Testen Sie die Vorhersagegenauigkeit (*accuracy*) des Modells mit den Testdaten:

In [None]:
y_pred = None
acc_test = None

# YOUR CODE HERE
raise NotImplementedError()

print("accuracy: %.2f%%" % acc_test)

In [None]:
# Test Cell
#----------

assert y_pred.shape == y_test.shape
### BEGIN HIDDEN TEST
assert acc_test == 100-np.sum(np.abs(y_pred-y_test))*100/len(y_pred)
### END HIDDEN TEST

### Multiklassen-Klassifikation 

Die logistische Regression liefert uns Ergebnisse für binäre Zielvariablen.
Oftmals wollen wir aber mehr als 2 Klassen unterscheiden.

Eine Möglichkeit, um Multiklassen-Klassifikation mit logistischen Regression umzusetzen, ist die sogenannte *One-vs-all Klassifikation*.
Dabei werden für `n` Klassen `n` separate, binäre Klassifikationsprobleme definiert, bei denen jeweils nur die betrachtete Klasse den Zielwert `1` zugeteilt bekommt, und für alle anderen Klassen der Zielwert `0` angenommen wird.

Scikit-Learn unterstüzt Multiklassen-Klassifikation in der Klasse `LogisticRegression` über den Parameter `multi_class`.
Setzt man : `multi_class="ovr"` führt die Funktion `fit` je eine logistische Regression für jedes Label nach dem *one-vs-all* (oder auch *one-vs-rest*, ovr) Prinzip aus.

In der folgenden Code-Zelle erzeugen wir 3 Punktwolken.
Alle Punkte einer "Wolke" sollen zu einer bestimmten Klasse gehören.

In [None]:
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
from pandas import DataFrame
# generate 2d classification dataset
X, y = make_blobs(n_samples=100, centers=3, n_features=2, random_state=10, cluster_std=2.5)
# scatter plot, dots colored by class value
df = DataFrame(dict(x=X[:,0], y=X[:,1], label=y))
colors = {0:'red', 1:'blue', 2:'green'}
markers = {0:'o', 1:'x', 2:'^'}
fig, ax = plt.subplots()
grouped = df.groupby('label')
for key, group in grouped:
    group.plot(ax=ax, kind='scatter', x='x', y='y', label=key, marker=markers[key], color=colors[key])
    
plt.legend(loc='upper right', prop={'size': 12})
plt.savefig("LogistischeRegression20.png",transparent=True, dpi=300)
plt.show()

Nun wenden wir ein logistisches Regressionsmodell auf die Datenbasis an.

In [None]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LogisticRegression

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3, random_state=0)

model = LogisticRegression(solver='lbfgs',multi_class="ovr")

model.fit(X_train,y_train)

model.intercept_ , model.coef_


Der folgende Graph zeigt die Entscheidungsgrenzen für das Klassifikationsmodell.
Alle Punkte innerhalb eines Bereiches werden der jeweiligen Klasse zugeordnet.

In [None]:
i=0
xx = np.linspace(X_train[:,0].min()-1, X_train[:,0].max()+1, 300)
yy = np.linspace(X_train[:,1].min()-1, X_train[:,1].max()+1, 300)
XX, YY = np.meshgrid(xx,yy)
ZZ = model.predict(np.c_[XX.ravel(), YY.ravel()])
ZZ = ZZ.reshape(XX.shape)

yyy = model.intercept_[0] + model.coef_[0][0]*xx + model.coef_[0][1]*yy

colors = {0:'red', 1:'blue', 2:'green'}
markers = {0:'o', 1:'x', 2:'^'}
fig, ax = plt.subplots()
grouped = df.groupby('label')
#plt.pcolormesh(XX, YY, ZZ, cmap=plt.cm.Set3)
for key, group in grouped:
    group.plot(ax=ax, kind='scatter', x='x', y='y', label=key, marker=markers[key], color=colors[key])
    

plt.contour(XX, YY, ZZ, cmap=plt.cm.Blues)
plt.legend(loc='upper right', prop={'size': 12})
plt.savefig("LogistischeRegression21.png",transparent=True, dpi=300)
plt.show()

## Optionale Aufgabe: Ziffernerkennung

Im folgenden Beispiel laden wir einen Datensatz, in dem handschriftliche Ziffern mit einer Auflösung von 8x8 Pixeln als Graustufenbilder abgelegt sind. Die Pixel sind dabei als eindimensionales Array gespeichert und daher vor dem Anzeigen in ein 8x8 Array umgeformt werden.

Zunächst führen wir eine binäre Klassifikation durch. Dazu laden wir nur die Bilder der Nullen und Einsen in unseren Datensatz `X` (Pixel) und `y` (Label).

In [None]:
from sklearn.datasets import load_digits
import matplotlib.pyplot as plt
from random import randint

digits = load_digits(as_frame=True).frame
digits = digits[np.logical_or(digits.target == 0, digits.target == 1)]
X = digits.drop("target", axis=1).values
y = digits.target.values


def plot_digits(X,y):
    fig, axes = plt.subplots(2, 5, figsize=(8,4))
    for i in range(10):
        idx = randint(0,X.shape[0]-1)
        ax = axes[i//5, i%5]
        ax.imshow(X[idx].reshape(8,8), cmap='gray')
        ax.set_title(f'Klasse {y[idx]}')
    plt.tight_layout()
    
plot_digits(X,y)


Wie immer teilen wir auch hier den Datensatz auf, um Testdaten vorzubehalten.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Nun wenden wir die Logistische Regression an, um die Ziffen zu klassifizieren. Die `score`-Methode liefert uns die *Accuracy*.

In [None]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression().fit(X_train, y_train)
model.score(X_test, y_test)

**Aufgabe: Führen Sie die Klassikation nun erneut durch, aber mit den Ziffern 1 und 8. Ist das Ergebnis immer noch so gut?**

In [None]:
# YOUR CODE HERE
raise NotImplementedError()


**Aufgabe: Führen Sie nun eine Multiklassen-Klassikation für die Ziffern von 0 bis 9 durch und berechnen Sie die Accuracy.**

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

**Aufgabe: Geben Sie die Konfusionsmatrix für das Multiklassen-Modell aus.**

In [None]:
# YOUR CODE HERE
raise NotImplementedError()