## Grundlagen Maschineller Lernverfahren | INF20A | 2022

**Datum: 28.10.2022**

Ressourcen:

- https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html


# Linear Regression


In [None]:
# Lade notwendigen Bibliotheken

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
sns.set()

In [None]:
#Setup Pseudo Zufallszahlen

np.random.seed(2020)

In [None]:
# Daten erstellen

X = 2*np.random.rand(100,1) # Zufallswerte für die X-Achse
y = 4 + 3*X + np.random.rand(100,1) # Zufallswerte für die Y-Achse (folgt der Geradengleichung y = 3*X + 4)

In [None]:
# "Format" der erzeugten Daten anzeigen

X.shape

In [None]:
# Daten anzeigen
plt.plot(X,y,'b.')
plt.xlabel("x")
plt.ylabel("y")
plt.show()

In [None]:
# Erstelle zwei (neue) X-Werte zum Testen

X_unknown = np.array([[0],[2]])

In [None]:
# Lade Bibliothek

from sklearn.linear_model import LinearRegression

In [None]:
# Erstelle LR Modell

lin_reg = LinearRegression()

In [None]:
# Trainiere das Modell

lin_reg.fit(X,y)

In [None]:
# Lasse das Modell eine Vorhersage zu den neuen X-Werten treffen

y_pred = lin_reg.predict(X_unknown)

In [None]:
# Zeige die Vorhersage an

y_pred

In [None]:
# Analyse des Modell

b = lin_reg.intercept_ # w0
w = lin_reg.coef_ # w1...n

print("w0 = %f\t/\t w1 = %f" % (b,w))

Hier gilt also konkret:

$h_w(x) = b + m*x = w0 + w_1*x_1 \approx 4.56 + 2.9*x$

(Beachte: Daten wurden gemäß der Gleichung y = 4 + 3\*x erstellt -> also nicht so schlecht approximiert)


In [None]:
# Erstelle X Werte für das Zeichnen einer Geraden
Xline = np.linspace(0,2,100)
# print(Xline)

In [None]:
# Plot der Datenmenge, der Geraden und der beiden neuen X_unknown Werte
plt.plot(X,y,'b.')
plt.plot(X_unknown[0,0], y_pred[0,0],'r^')
plt.plot(X_unknown[1,0], y_pred[1,0],'r^')
plt.xlabel("x")
plt.ylabel("y")
plt.plot(Xline, w[0]*Xline + b,'g')

plt.show()

## Polynomial Regression


In [None]:
# Setup

m = 100 # Anzahl Datenpunkte
X = 6*np.random.rand(m,1)-3
y = 0.5 * X**2 + X + 2 + np.random.randn(m,1) # Polynom vom Grad 2

Die Daten werden also gemäß der folgenden Gleichung erzeugt:

$y= 0.5*X^2 + X + 2$


In [None]:
# Daten darstellen
plt.plot(X,y,'b.')
plt.xlabel("x")
plt.ylabel("y")
plt.show()

In [None]:
# Versuche die dargestellten Daten mit einer "simplen" Geraden anzugleichen

from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(X,y)

b = lin_reg.intercept_ #w0
w = lin_reg.coef_ #w1

print("w0 = %f\t/\t w1 = %f" % (b,w))

# Sagt das Modell für die trainierten X Werte die richtigen Y Werte vorher?
y_pred = lin_reg.predict(X)

#print(y_pred)

In [None]:
# X-Werte für die zu zeichnende Gerade
Xline = np.linspace(-4,4,100)

In [None]:
# Zeichne die Datenpunkte, die Vorhersage und die abgeleitete Gerade
plt.plot(X,y,'b.')
plt.plot(Xline, w[0]*Xline + b,'r')
plt.plot(X,y_pred,'m-')

plt.show()

In [None]:
# Berechnen mittleren quad. Fehler (MSE)

from sklearn.metrics import mean_squared_error

# Rufe Funktion mit Zielvariable und vorhergesagten Werten auf
mean_squared_error(y,y_pred)

In [None]:
# Lade Bibliothek für polynomielle Feature

from sklearn.preprocessing import PolynomialFeatures

In [None]:
# Wende polynomielle Features auf X Werte an

poly_features = PolynomialFeatures(degree=2, include_bias=False) # Hier: Polynom vom Grad 2
X_poly = poly_features.fit_transform(X) # Erstellt neuen Vektor mit "angepassten" Werten

Vorher:

> $w_0 + w_1*x_1$

Nach Anwendung der poly. Features:

> $w_0 + w_1*x_1 + w_2*x_2$ mit $x_2 = x_1^2$


In [None]:
# Vergleich der X-Werte ( = Feature)
print(X)
print(X_poly)

In [None]:
# Erstelle ein neue Modell und trainiere es mit den angepassten Werten
lin_reg_poly = LinearRegression()
lin_reg_poly.fit(X_poly,y) # y bleibt gleich!

In [None]:
# Zeige gelernte Parameter

b = lin_reg_poly.intercept_
w = lin_reg_poly.coef_

print("w0 = %f\t/\t w = %s"  % (b,w[0]))

In [None]:
# Prüfe Vorhersage

y_pred_poly = lin_reg_poly.predict(X_poly)

In [None]:
# Zeichne
plt.plot(X,y,'b.')
plt.plot(X,y_pred_poly,'r.')
plt.show()

In [None]:
# Berechnen mittleren quad. Fehler (MSE)
mean_squared_error(y, y_pred_poly)

# Selbststudium

Im folgenden wird noch kurz gezeigt wie man "Pipelines" nutzt.
Damit lassen sich mehrere Schritte (z.B. PolynomialFeatures und die anschließende Lineare Regression) einfach zusammenfassen.

Mehr Infos dazu gibt es hier: https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.make_pipeline.html


In [None]:
# Lade Bibliothek
from sklearn.pipeline import make_pipeline

# Erstelle eine Pipeline namens "model"
#     Teil 1: PolynomialFeatures
#     Teil 2: Lineare Regression
model = make_pipeline(PolynomialFeatures(degree=2), LinearRegression())

# Nun lassen sich die ehemals zwei Schritte einfach in einem Schritt zusammenfassen
model.fit(X, y)

# Vorhersage
y_pred = model.predict(X)

# Zeichnen
plt.plot(X,y,'b.')
plt.plot(X, y_pred,'r.')
plt.show()

# MSE berechnen
print(mean_squared_error(y, y_pred))



Vergleiche die Ergebnisse verschiedener Polynome


In [None]:
plt_color = ['m','g','r']

for d in range(3): # Achtung: startet mit 0 !
    d += 1
    model = make_pipeline(PolynomialFeatures(degree=d), LinearRegression())
    model.fit(X, y)
    y_pred = model.predict(X)
    plt.plot(X, y_pred,'b.', color=plt_color[d-1])
    print("Degree %d:\t MSE = %2.4f" % (d, mean_squared_error(y, y_pred)))

plt.show()