# Data Mining in der technischen Anwendung
## Übungsblatt 03

In [19]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn import linear_model
from sklearn.preprocessing import PolynomialFeatures

### Aufgabe 1: Lineare Regression

In dieser Aufgabe sollen Sie sich näher mit linearer Regression befassen. Gegeben sind *m* Datenpunkte im $\mathbb{R^2}$ (siehe Tabelle 1) und das allgemeine lineare Regressionsmodell: $y_0 = a_0 + a_1*x_1$ für i = 1 $\ldots$ m

|**x**|**y**|
| --- | --- |
|  1  |  2  |
|  2  |  4  |    
|  3  |  2  |
|  4  |  3  |
|  5  |  5  |
|  6  |  7  |
|  7  |  4  |
|  8  |  9  |
|  9  |  7  |

$a)$ Stellen Sie die zu minimierende Funktion (bzgl. des euklidischen Fehlermaßes) auf, um die Regressionsgerade auf den oben angegebenen Punkten zu finden.

$\mathbb{E}(x,y)=\sum_{i=1}^{m} (-y_i+a_0+a_1*x_i)^2$

$b)$ Geben Sie als Lösung eine allgemeine Gleichung zur Bestimmung der Regressionsgerade im $\mathbb{R}^2$ an (mit Rechenweg). Lösen Sie daraufhin für die gegebenen Werte (siehe Tabelle) das Minimierungsproblem.

$\partial_x \mathbb{E}(x,y)=\sum_{i=1}^m 2a_1(-y_i+a_0+a_1*x_i)$


$\partial_x \mathbb{E}(x,y)=\sum_{i=1}^m 2a_1(-y_i+a_0+a_1*x_i)$
\begin{align*}
r_i&=-y_i+a_0+a_1*x_i\\
r_{i,\,j}&=\frac{\partial r_i}{\partial_{a_j}} \qquad\forall \, j \in \{0,1\}\\
r_{i,\,j}&=\begin{cases} 1 & j=0 \\ x_i & j=1\end{cases}
\end{align*}
$$D=\begin{pmatrix} 1 & x_1 \\ 1 & x_2 \\ \vdots & \vdots \\ 1 & x_m\end{pmatrix},r=\begin{pmatrix} r_1 \\ r_2 \\ \vdots \\ r_m\end{pmatrix},a=\begin{pmatrix} a_1 \\ a_2\end{pmatrix}$$
Iterationsvorschrift: $a_{i+1}=a_i-(D^T \cdot D)^{-1} \cdot D^T \cdot r$
$$D^T\cdot D=\begin{pmatrix}m & c:=\sum_{i=1}^m x_i \\  \sum_{i=1}^m x_i &  d:=\sum_{i=1}^m x_i^2\end{pmatrix}$$
$$(D^T\cdot D)^{-1}=\frac{1}{m d-c^2}\begin{pmatrix}d & -c\\  -c &  m \end{pmatrix}$$
$$a_{i+1}=a_i-\frac{1}{m d-c^2}\begin{pmatrix}d & -c\\  -c &  m \end{pmatrix} \cdot \begin{pmatrix}1 & 1 & \cdots & 1\\  x_1 & x_2 & \cdots & x_m \end{pmatrix} \cdot r$$
$$a_{i+1}=a_i-\frac{1}{m d-c^2} \begin{pmatrix}d-c*x_1 & d-c*x_2 & \cdots & d-c*x_m\\  m*x_1-c & m*x_2-c & \cdots & m*x_m-c \end{pmatrix} \cdot r$$
$$a_{i+1}=a_i-\frac{1}{m d-c^2} \begin{pmatrix}m d+c*\sum_{i=1}^{m} x_i*r_i\\ -m c+m* \sum_{i=1}^{m} x_i*r_i \end{pmatrix}$$

$c)$ Wie groß ist der Trainingsfehler, den Ihr lineares Modell macht?

In [23]:
# Hier den Code zur Berechnung des Fehlers einfuegen

$d)$ Geben Sie eine Laufzeit-Abschätzung für die Berechnung des linearen Modells an.

Komplexitätsklasse entspricht ...

### Aufgabe 2: Lineare Regression mit Python

**Führen Sie auf Grundlage des Datensatzes aus Aufgabe 1 eine lineare Regression mit Hilfe von Python durch und überprüfen Sie ihr zuvor gefundenes Modell auf Korrektheit.**

$a)$ Importieren Sie den Datensatz *LinReg.csv* wie üblich aus ihrem *data*-Ordner.

In [36]:
import numpy as np
import pandas as pd
dataRaw=pd.read_csv('data/LinReg.csv', sep=';', )
data = np.array(dataRaw)
dimension=data.shape;
a=np.array([0.5,0.5]) #initial value
m=dimension[0]
r=np.empty(m);
D=np.empty([m,2])
c=0;
d=0;
frac=1;
sumxr=0;
for i in range(m):
    r[i]=-data[i,1]+a[0]+a[1]*data[i,0];
    D[i,0]=1
    D[i,1]=data[i,0]
    c+=data[i,0]
    d+=data[i,0]*data[i,0]
    frac=1/(m*d-c*c)
    sumxr+=data[i,0]*r[i]
for i in range(1000):
    a=a-frac*np.array([m*d+c*sumxr,-m*c+m*sumxr])
print(r)
print(a)

[-1.  -2.5  0.  -0.5 -2.  -3.5  0.  -4.5 -2. ]
[ 3000.5  2300.5]


$b)$ Lesen Sie z.B. unter http://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html nach wie eine Lineare Regression mit Python zu realisieren ist und führen Sie diese mit den Daten des LinReg Datensatzes durch.

In [None]:
# Hier den Sourcode einfuegen

$c)$ Werten Sie das gelernte Modell anhand des Datensatzes aus. Berechnen Sie folgende Kennwerte:
1. root mean squared error
2. absolute error
3. relative error
4. correlation

Kennwerte:

In [None]:
# Hier den Sourcode einfuegen

$d)$ Visualisieren Sie die Regressionsgerade und passen Sie die Achsenlimits entsprechend an die Enthaltenen Werte an:

In [None]:
# Hier den Sourcode einfuegen

## Aufgabe 3:

Eine polynomiale Regression stellt eine Spezialform einer linearen Regression dar, in welcher der Zusammenhang zwischen den $\textbf{x}$-Werten und $\textbf{y}$ mittels eines Polynoms *n*-ter Ordnung modelliert wird. Gegeben seien wiederum $m$ Datenpunkte und gesucht ist somit ein Polynom $p(x)$ mit Grad $n < m-1$, so dass der quadratische Fehler 
$ \sum_{i=0}^m {p((x_i)-y_i)}^2$ minimal wird. Die unbekannten Koeffizienten $a_0,a_1,\cdots,a_n$ des entsprechenden linearen Modells
$y_i = a_0 + a_1*x_i + a_2*x_i^2 + a_3*x_i^3 + \cdots + a_n*x_i^n$ mit $i=1..m$, können mit Hilfe eines Least-Squares-Ansatzes gefunden werden. Hierzu muss das Modell als ein System von linearen Gleichungen geschrieben werden (Matrixschreibweise $\textbf{y} = \textbf{X} * \textbf{a}$):

$\underbrace{\begin {bmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{bmatrix}}_{\textbf{y}} = \underbrace{\begin{bmatrix} 1 & x_1 & x_1 ^ 2 & \dots & x_1 ^ n \\ 1 & x_2 & x_2^2 & \dots & x_2^n \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_m & x_m^2 & \dots & x_m^n \end{bmatrix}}_{\textbf{X}} * \underbrace{\begin{bmatrix} a_0 \\ a_1 \\ a_2 \\ \vdots \\ a_n \end{bmatrix}}_{\textbf{a}}$ 

Der kleinste-Quadrate-Ansatz fährt so zu einem linearem Ausgleichsproblem der Form $\min_{\textbf{a}}||\textbf{X}*\textbf{a} - \textbf{y}||^{2}$.

In Python können Sie die polynomiale Regression durchführen, indem Sie die Matrix für die lineare Regression um die entsprechenden Polynome erweitern.

Zum Testen Ihres Modells verwenden Sie die Datensätze *PolyReg.csv* und *PolyReg2.csv*, die sie in ihren *data*-Ordner kopieren. Beantworten Sie nachfolgende Fragen:

1. Welche Kennwerte(RMSE, abs. Fehler,...) liefert das polynomielle Modell bei einem Polynomgrad von $n=1$ auf den zwei Datensätzen?
2. Variieren Sie den Polynomgrad um für jeden der zwei Datensätze den "am besten passenden" Polynomgrad, im Sinne der Kennwerte, zu ermitteln. Begründen Sie Ihre Entscheidung. Erweitern Sie die Methode aus $3.1$ nach Möglichkeit zu einer Funktion, damit sie möglichst einfach die Koeffizienten für höhere Grade bestimmen können.
3. Zusatzfrage: Warum stellt ein polynomiales Regressionsmodell ein lineares Modell dar?

In [24]:
# Hier den Sourcode einfuegen fuer 3.1

In [None]:
# Hier den Sourcode einfuegen fuer 3.2

$3.3:$ Ein polynomiale Regression entspricht einem linearen Modell, da ...