## Grundlagen Maschineller Lernverfahren | ML_INF19A | 2021
**Datum: 19.10.2021**

# Logistische Regression

In [None]:
# Biliotheken laden

import numpy as np
import matplotlib.pyplot as plt

# Zufall "beeinflussen"
np.random.seed(2020)

## Datensatz erstellen

In [None]:
# Lade Bibliothek
from sklearn.datasets import load_iris

In [None]:
# Lade Datensatz
iris = load_iris()

In [None]:
# Separiere Daten
X = iris["data"][:,(2,3)]
y = iris["target"]

In [None]:
# Anzeige der Trainingsdaten
print(X,y)

In [None]:
# Filtere die Dateninstanzen heraus die zur Klasse 0 und 1 gehören

X = X[(y==0) | (y==1)]
y = y[(y==0) | (y==1)]

In [None]:
# Visualisiere die Daten

plt.plot(X[:, 0][y==0], X[:, 1][y==0], "bv")
plt.plot(X[:, 0][y==1], X[:, 1][y==1], "go")

In [None]:
# Erstelle Datenmengen für Training und Validierung
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

## Anwendung

In [None]:
# Lade Bibliothek
from sklearn.linear_model import LogisticRegression

# Erstelle Instanz
log_reg = LogisticRegression()


In [None]:
# Trainiere
log_reg.fit(X_train,y_train)

# Vorhersage auf Validierungsdaten
y_pred1 = log_reg.predict(X_test)

# Analysiere gelernte Parameter
b = log_reg.intercept_
w = log_reg.coef_

print(b,w)

In [None]:
# Berechne Accuracy
from sklearn.metrics import accuracy_score
accuracy_score(y_test,y_pred1)

In [None]:
# Zeichne Trennlinie
Xline = np.linspace(1,5,100)
plt.plot(X[:, 0][y==0], X[:, 1][y==0], "bv")
plt.plot(X[:, 0][y==1], X[:, 1][y==1], "go")
plt.plot(Xline, -(b + w[0,0]*Xline)/w[0,1],'r')

## SGDClassifier (als LogReg)

In [None]:
# Lade Modell
from sklearn.linear_model import SGDClassifier

# Erstelle Instanz
sgd = SGDClassifier(loss="log")

# Trainiere
sgd.fit(X_train,y_train)

# Vorhersage
y_pred_sgd = sgd.predict(X_test)

# Analysiere gelernte Parameter
b_sgd = sgd.intercept_
w_sgd = sgd.coef_

print(b_sgd,w_sgd)

In [None]:
# Visualisiere

Xline = np.linspace(1,5,100)
plt.plot(X[:, 0][y==0], X[:, 1][y==0], "bv")
plt.plot(X[:, 0][y==1], X[:, 1][y==1], "go")
plt.plot(Xline, -(b_sgd + w_sgd[0,0]*Xline)/w_sgd[0,1],'m')
plt.plot(Xline, -(b + w[0,0]*Xline)/w[0,1],'r')

# MultiClass

In [None]:
#Separiere Daten und Labels
X_ml = iris["data"][:,(2,3)]
y_ml = iris["target"]

In [None]:
y_ml

In [None]:
# Visualisiere alle Daten (insg. 3 Klassen)
plt.figure(figsize=(15,9))
plt.plot(X_ml[:, 0][y_ml==0], X_ml[:, 1][y_ml==0], "bv")
plt.plot(X_ml[:, 0][y_ml==1], X_ml[:, 1][y_ml==1], "go")
plt.plot(X_ml[:, 0][y_ml==2], X_ml[:, 1][y_ml==2], "m^")

In [None]:
# Erstelle Datenmengen für Training und Validierung
X_train_ml, X_test_ml, y_train_ml, y_test_ml = train_test_split(X_ml, y_ml, test_size = 0.3)

### Build-In Funktion

In [None]:
# Erstelle Instanz des Klassifizierers
log_reg_ovr = LogisticRegression(multi_class='ovr') # default = 'auto' -> Dokumentation

In [None]:
# Trainiere
log_reg_ovr.fit(X_train_ml,y_train_ml)

# Vorhersage auf Validierungsdaten
y_pred_ovr = log_reg_ovr.predict(X_test_ml)

# Analysiere gelernte Parameter
b_ovr = log_reg_ovr.intercept_
w_ovr = log_reg_ovr.coef_

# Zeige Parameter für jedes gelernte Modell an (insg. 3 Modelle)
print(b_ovr,w_ovr)

In [None]:
#b_ovr.shape

In [None]:
#w_ovr.shape

In [None]:
# Zeichne Trennlinie
Xline = np.linspace(1,7,100)

plt.figure(figsize=(15,9))
plt.plot(X_ml[:, 0][y_ml==0], X_ml[:, 1][y_ml==0], "bv")
plt.plot(X_ml[:, 0][y_ml==1], X_ml[:, 1][y_ml==1], "go")
plt.plot(X_ml[:, 0][y_ml==2], X_ml[:, 1][y_ml==2], "m^")

plt.plot(Xline, -(b_ovr[0] + w_ovr[0,0]*Xline)/w_ovr[0,1],'b')
plt.plot(Xline, -(b_ovr[1] + w_ovr[1,0]*Xline)/w_ovr[1,1],'g')
plt.plot(Xline, -(b_ovr[2] + w_ovr[2,0]*Xline)/w_ovr[2,1],'m')

### Explizite One-vs-Rest (OvR) Strategie

In [None]:
# Lade Bibliothek
from sklearn.multiclass import OneVsRestClassifier

In [None]:
# Erstelle Instanz für LogRegression
log_reg_2 = LogisticRegression()

# Erstelle Instanz der OvR "Strategie"
ovr_clf = OneVsRestClassifier(log_reg_2)

In [None]:
# Training
ovr_clf.fit(X_ml,y_ml)

In [None]:
# Welche Klassen wurden verwendet?
ovr_clf.classes_

In [None]:
# Zugriff auf die einzelnen Modelle der OvR Strategie
ovr_clf.estimators_

In [None]:
# Zeige die Parameter der einzelnen Modelle der OvR Strategie
print(ovr_clf.estimators_[0].intercept_, ovr_clf.estimators_[0].coef_)
print(ovr_clf.estimators_[1].intercept_, ovr_clf.estimators_[1].coef_)
print(ovr_clf.estimators_[2].intercept_, ovr_clf.estimators_[2].coef_)

In [None]:
# Erinnerung: Build-In OvR bei LogRegression
b_ovr, w_ovr

In [None]:
# Separiere einzelne Parameter
b_ovr_strategy_0, w_ovr_strategy_0 = ovr_clf.estimators_[0].intercept_, ovr_clf.estimators_[0].coef_
b_ovr_strategy_1, w_ovr_strategy_1 = ovr_clf.estimators_[1].intercept_, ovr_clf.estimators_[1].coef_
b_ovr_strategy_2, w_ovr_strategy_2 = ovr_clf.estimators_[2].intercept_, ovr_clf.estimators_[2].coef_

In [None]:
# Zeichne Trennlinie
Xline = np.linspace(1,7,100)

plt.figure(figsize=(15,9))

# Zeichne Datenpunkte
plt.plot(X_ml[:, 0][y_ml==0], X_ml[:, 1][y_ml==0], "bv")
plt.plot(X_ml[:, 0][y_ml==1], X_ml[:, 1][y_ml==1], "go")
plt.plot(X_ml[:, 0][y_ml==2], X_ml[:, 1][y_ml==2], "m^")

# Zeichne Trenngeraden der Build-In Strategie als durchgängige Linie
plt.plot(Xline, -(b_ovr[0] + w_ovr[0,0]*Xline)/w_ovr[0,1],'b')
plt.plot(Xline, -(b_ovr[1] + w_ovr[1,0]*Xline)/w_ovr[1,1],'g')
plt.plot(Xline, -(b_ovr[2] + w_ovr[2,0]*Xline)/w_ovr[2,1],'m')

# Zeichne Trenngeraden der OvR Strategie als gepunktete Linie
plt.plot(Xline, -(b_ovr_strategy_0 + w_ovr_strategy_0[0,0]*Xline)/w_ovr_strategy_0[0,1],'b.')
plt.plot(Xline, -(b_ovr_strategy_1 + w_ovr_strategy_1[0,0]*Xline)/w_ovr_strategy_1[0,1],'g.')
plt.plot(Xline, -(b_ovr_strategy_2 + w_ovr_strategy_2[0,0]*Xline)/w_ovr_strategy_2[0,1],'m.')

# PolynomialFeatures

In [None]:
# Lade Bibliotheken
from sklearn.preprocessing import PolynomialFeatures
from sklearn.datasets import make_circles # https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_circles.html

In [None]:
# Erstelle Datensatz
data = make_circles()

X = data[0]
y = data[1]

In [None]:
# Zeichne Datenpunkte
plt.figure(figsize=(15,9))
plt.plot(X[:,0][y==0],X[:,1][y==0],'s')
plt.plot(X[:,0][y==1],X[:,1][y==1],'o')

In [None]:
#X

In [None]:
# Transformiere Inputdaten für Modell in ein Polynom 2. Grades
poly_features = PolynomialFeatures(degree=2)
Xpoly = poly_features.fit_transform(X)

In [None]:
#Xpoly

In [None]:
# Splitte Datenmenge für Training und Test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)
Xpoly_train, Xpoly_test, ypoly_train, ypoly_test = train_test_split(Xpoly, y, test_size = 0.2)

In [None]:
# Erstelle eine Instanz für das LogReg Modell
log_reg = LogisticRegression()

In [None]:
# Verwende die ursprünglich Datenmenge mit dem LogReg Modell
log_reg.fit(X_train, y_train)
y_pred_pf_1 = log_reg.predict(X_test)

# Bewerte das Modell
print("Accuracy: ",accuracy_score(y_pred_pf_1,y_test))

# Analysiere die Parameter
print(log_reg.intercept_,log_reg.coef_)

In [None]:
# Verwende die transformierte Datenmenge 
log_reg.fit(Xpoly_train, ypoly_train)
y_pred_pf_2 = log_reg.predict(Xpoly_test)

# Bewerte das Modell
print("Accuracy: ", accuracy_score(y_pred_pf_2,ypoly_test))

# Analysiere die Parameter
print(log_reg.intercept_,log_reg.coef_)