<figure>
  <IMG SRC="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d5/Fachhochschule_Südwestfalen_20xx_logo.svg/320px-Fachhochschule_Südwestfalen_20xx_logo.svg.png" WIDTH=250 ALIGN="right">
</figure>

# Machine Learning
### Sommersemester 2023
Prof. Dr. Heiner Giefers

## Lineare Regression

Der einfachste Fall der Lineraen Regression ist die Vorhersage einer (*abhängigen*) Variablen durch **eine** *unabhängige* Variable.
Dieser Spezialfall wird daher auch *einfache Lineare Regression* (ELR) oder *univariate Lineare Regression* genannt.

Wir wollen die ELR an einem einfachen Datensatz erproben.
Dazu generieren wir uns $N=30$ Datenpunkte im Bereich $x\in[0,10]$.
Die $y$-Werte sollen grob entlang einer Geraden liegen.
Wir wählen für die Gerade eine Steigung von $2$ und den Achsenabschnitt $-5$.

Natürlich sollen die Punkte nicht alle **auf** dieser Geraden liegen.
Daher fügen wir noch einen kleinen *Störfaktor* ein.
Wir addieren zu jedem $y$-Wert einen zufälligen normalverteilten Wert mit Mittelwert 0 und Varianz 2.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
np.random.seed(42)
N = 30
x = 10 * np.random.rand(N)
y = 2 * x - 5 + np.random.normal(0, 2, N)
plt.scatter(x, y);
plt.show()

Wir können nun die *Scikit-Learn* Klasse `LinearRegression` verwenden, um ein ELR Modell für den Datensatz aufzustellen.
Mit der `fit`-Methode passen wir das Modell an den Datensatz an.

*Hinweis:* Die `fit`-Methode erwartet ein 2-dimensionales Feld als ersten Parameter. Unser `x` ist aber ein eindimensionales Array. Wir ändern daher mit der `reshape`-Methode die Dimension von `x` vor dem Aufruf von `fit` um.

In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
x = x.reshape((-1,1))
model.fit(x, y)

print("Steigung:       ", model.coef_[0])
print("Achsenabschnitt:", model.intercept_)



Wir können nun die Modellfunktion plotten indem wir zunächst einige neue Datenpunkte erzeugen (`xplot`) und für diese Punkte den $y$-Wert über die `predict`-Methode schätzen.

Wir sehen, dass die Gerade die blauen Datenpukte unseres Trainingsdatensatzes sehr gut generalisiert.

In [None]:
xplot = np.linspace(0, 10, 20).reshape((-1,1))
yplot = model.predict(xplot)

plt.scatter(x, y)
plt.plot(xplot, yplot, c='r')
plt.show()

Der ``LinearRegression`` Schätzer kann nicht nur auf univariate Probleme angewendet werden, sondern er funktioniert auch für mehrere unabhängige Variablen.
Die Modellfunktion einer allgemeinen (*multivariaten*) linearen Regression lautet:
$$
\hat{y} = a_0 + a_1 x_1 + a_2 x_2 + \cdots + a_n x_n
$$

Dabei sind die $x_i$ die einzelnen unabhängigen Variablen, die Werte $a_i$ sind die zu trainierenden Modellparameter.
Der Parameter $a_0$, den wir beim univariaten Modell *Achsenabschnitt* genannt haben, heißt auch *Bias*-Parameter.
Es ist der einzige Parameter, der unabhängig von den Variablen ins Modell eingeht.

$\hat{y}$ ist der geschätzte Wert der Zielvariablen für den Vektor $\textbf{x}$.
Für unsere Trainingsdaten kennen wir den jeweiligen exakten Wert $y$.
Über einen Vergleich von $\hat{y}$ und $y$ kann man feststellen, wie *gut* die Schätzung der Modellfunktion ist.

In [None]:
np.random.seed(123)
N = 30

# X ist eine 30x3-Matrix mit gleichverteilten
# Zufallswerten aus [0,10]
X = 10 * np.random.rand(N, 3)

# noise ist eine Vektor mit 30 Elementen
# aus der Normalverteilung N(0,1)
noise = np.random.normal(0, 1, N)

# Wir berechnen die Werte in y als Skalarprodukte aus dem Parameter-
# [1.5, -2., 1.] und den Zeilen von X.
# Als Achsenabschnitt (Bias Parameter) wählen wir 0.5
y = .5 + np.dot(X, [1.5, -2., 1.])

# Zu den exakten Ergebnissen addieren wir nun noch ein Rauschen
y = y + noise



In [None]:
fig, axs = plt.subplots(1, 3, figsize=(15,8))
__x = np.linspace(0,10)
axs[0].scatter(X[:,0], y)
axs[1].scatter(X[:,1], y)
axs[2].scatter(X[:,2], y)
axs[0].set_ylabel('y')
axs[0].set_xlabel(r'$x_0$')
axs[1].set_xlabel(r'$x_1$')
axs[2].set_xlabel(r'$x_2$')
plt.show()

**Aufgabe:** Trainieren Sie ein `LinearRegression` Modell mit dem Datensatz `X` und geben Sie die gelernten Modellparameter $a_0$ bis $a_3$ aus.

In [None]:
model = None
# YOUR CODE HERE
raise NotImplementedError()

### California Housing

Im folgenden Beispiel verwenden wir einen Datensatz zu Immobilienpreisen in den USA für die Demonstration von Regressions-Aufgaben.
Die Daten wurden 1990 bei der US-Volkszählung gesammelt und beschreiben Eigenschaften der Wohnverhältnisse in Bezirken des Bundesstaats Kalifornien.
Die Zielvariable ist der Median des Hauswertes, angegeben in Hunderttausend Dollar.

In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression
import pandas as pd
from sklearn.datasets import fetch_california_housing

#print(dataset.DESCR)
dataset = fetch_california_housing()
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
df.head()

Der Datensatz enthält folgende Merkmale:
- **MedInc:** Median des Einkommens im Bezirk
- **HouseAge:** Median des Hausalters im Bezirk
- **AveRooms:** Durchschnittliche Anzahl der Zimmer pro Haushalt
- **AveBedrms:** Durchschnittliche Anzahl der Schlafzimmer pro Haushalt
- **Population:** Anzahl Bewohner*innen im Bezirk
- **AveOccup:** Durchschnittliche Anzahl der Haushaltsmitglieder
- **Latitude:** Breitengrad des Bezirks
- **Longitude:** Längengrad des Bezirks

Die Zielvariable `target` ist der Preis der jeweiligen Häuser in Hunderttausend US-Dollar

In [None]:
preise = dataset.target
print(f"Der Wert der Häuser reicht von {int(np.min(preise)*1000)} bis {int(np.max(preise)*1000)} USD")
print(f"Im Mittel kosten die Häuser {int(np.mean(preise)*1000)} USD")

**Aufgabe:** Teilen Sie den Datensatz in einen Trainings- und einen Testdatensatz auf. Der Umfang der Trainingsdaten soll 70% der Gesamtdaten sein.

In [None]:
X_train, X_test, y_train, y_test = (None, None, None, None)
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
assert 68 < X_train.size * 100 / (X_test.size + X_train.size) < 72, "Keine 70% Trainingsdaten"

**Aufgabe:** Verwenden Sie die Trainingsdaten, um ein lineares Regressionsmodell `model` zu trainieren.
Berechnen Sie damit eine Schätzung `y_vorhersage` für die Testdaten.
Danach berechnen wir den *mittleren absoluten Fehler* und überprüfen damit, wie gut unser Modell die Preise der Häuser schätzen kann.

In [None]:
from sklearn.metrics import mean_absolute_percentage_error

model = None
y_vorhersage = None
# YOUR CODE HERE
raise NotImplementedError()

mittlerer_fehler = np.sum(np.abs(y_vorhersage-y_test))/len(y_vorhersage)
print(f"Der mittlere Fehler der Vorhersage liegt bei {int(mittlerer_fehler*100000)} USD")

err_percent = mean_absolute_percentage_error(y_test, y_vorhersage)
print(f"Damit liegen wir im Mittel ca. {int(err_percent*100)}% daneben")

## Quellen:
[1] Jake VanderPlas, [*Python Data Science Handbook*](https://jakevdp.github.io/PythonDataScienceHandbook), O'Reilly, 2016.\
[2] Wolf Riepl, [*Machine Learning mit R und caret: GBM optimieren (Gradient Boosting Machine)*](https://statistik-dresden.de/archives/14967), Artikel auf https://statistik-dresden.de,  Veröffentlicht am 23.01.2018 (zugegriffen am 27.04.2021)