![download.png](attachment:download.png)

**Baustein:** Regression

**Subbaustein:** Übung: Einfache Lineare Regressions

**Version:** 1.0, **Lizenz:** <a rel="license" href="http://creativecommons.org/licenses/by-nc-nd/4.0/">CC BY-NC-ND 4.0</a>

***

# Part 3/3 - Übung: Einfache Lineare Regressions

In der Lehrveranstaltung **REG-T00 Lineare Regression: Problemstellung, Ausgleichsgerade, Quadratischer Fehler** haben Sie die Methode der kleinsten Quadrate kennengelernt, um eine Regression mit linearem Zusammenhang für einen gegebenen zweidimensionalen Datensatz abzuleiten. Damit konnten Sie den Einfluss einer Größe auf eine andere messen und Vorhersagen zu einer Größe basierend auf einer anderen treffen.

In der Fortsetzung, **REG-T01 Exkurs: Regressionsmodelle, Modell- und Datenqualität**, haben Sie erfahren, wie man die lineare Regression im höherdimensionalen Raum anwendet und die Ergebnisse der Regression bewertet.

In dieser Übung zielen wir darauf ab, dieses Wissen zu vertiefen. Mit einem exemplarischen Datensatz sollen Sie die einfache lineare Regression durchführen, die Ergebnisse interpretieren und evaluieren. Dabei soll eine Gegenüberstellung mit nicht-linearen Formen der Regression erfolgen. Folgende Datensätze stehen Ihnen zur Verfügung:

- REG-D00.csv (Trainingsdaten, lineare Verteilung)
- REG-D01.csv (Trainingsdaten, kubische Verteilung)
- REG-D02.csv (Testdaten)


## Importieren aller notewendigen Bibliotheken
---

In [13]:
%load_ext autoreload
%autoreload 2

# Eine Bibliothek zur effizienten Anwendung mathematischer Operationen auf Array
import numpy as np
# Pandas ist ein schnelles, leistungsstarkes, flexibles und benutzerfreundliches Open-Source-Tool zur Datenanalyse und -manipulation.
import pandas as pd
# Zur Erstellung statischer, animierter und interaktiver Visualisierungen
import matplotlib.pyplot as plt
# Bibliothek für die Datenanalyse
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.linear_model import SGDRegressor

# selbst definierte .py files (siehe Ordner "utils")
from utils.Utils import WidgetsGradientDescent

import warnings
warnings.filterwarnings('ignore')

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## <font color='green'>Übung 1: Methoder der kleinsten Quadrate</font>
---
In dieser Übungsaufgabe soll die Methode der einfachen linearen Regression angewendet, interpretiert und bewertet werden. Sie ist entweder im Data-Science-Programm „Orange“ umzusetzen oder mithilfe von Python und der Scikit-learn-Bibliothek zu realisieren, um für einen gegebenen x-Wert (die unabhängige Variable oder der Regressor) den korrespondierenden y-Wert (die abhängige Variable oder der Regressand) vorherzusagen.

### Info: Angaben zum Datensatz:
Jede Zeile in der CSV-Datei gibt einen Datenpunkt wieder, mit Ausnahme der ersten Zeile. Diese beschreibt die einzelnen Werte eines jeden Datenpunktes. Die ersten 4 Zeilen des Datensatzes *REG-D00.csv* sehen wie folgt aus:<br />

#Eisverkäufe,#Todesfälle<br />
0.074, 0.080<br />
0.049, 0.103<br />
0.082, 0.069<br />

Formatiert sieht der Auszug folgendermaßen aus:

| #Eisverkäufe | #Todesfälle |
|---|---|
| 0.074 | 0.080 |
| 0.049 | 0.103 |
| 0.082 | 0.069 |

Daraus lässt sich nun ableiten, dass dieser Datensatz zwei Features besitzt (#Eisverkäufe, #Todesfälle). Jedes Feature wird durch eine Spalte im Datensatz ausgedrückt. Jeder Datenpunkt hingegen wird durch eine Reihe ausgedrückt und besteht aus zwei Instanzen der oben genannten Features, die durch Kommata separiert werden, d.h. das Komma dient als **Delimiter**. Somit besteht der erste Datenpunkt aus dem 2-Tupel (0.074, 0.080). Die Datenpunkte sind bereits standardisiert.

Folgende Einschränkungen gelten pro Datenpunkt $x$:
$$
x\in [0,1]\times[0,1]
$$

### <font color='brown'>Aufgabe 1.1 Datenzugriff und -visualisierung</font>
---
Laden Sie den Datensatz REG-D00 und visualisieren Sie ihn als zweidimensionalen Scatterplot. Beschriften Sie die Achsen, falls keine Bezeichnung gegeben ist.

### <font color='brown'>Lösung 1.1</font>
---

In [None]:
# TODO

### <font color='brown'>Aufgabe 1.2 Datenstatistik</font>
---
Der Datensatz **REG-D00** enthält zwei Variablen: **#Eisverkäufe** und **#Todesfälle**. Wir wollen zweiteres anhand ersteres voraussagen. Lassen Sie sich zuerst statistische Informationen wie Anzahl der Datenpunkte und den Mittelwert ausgeben.

### <font color='brown'>Lösung 1.2</font>
---

In [None]:
# TODO

### <font color='brown'>Aufgabe 1.3 Anwendung der Regression</font>
---
Da die Daten nun vorbereitet sind, kann nun die Regression angewandt werden. Da es sich hierbei um eine einfache lineare Regression handelt, wird eine Gerade berechnet, die durch den y-Achsenabschnitt $\beta_0$ und die Steigung in x-Richtung $\beta_1$ definiert ist. Führen Sie die Regression aus. Ermitteln Sie hierbei die beiden Koeffizienten und visualisieren Sie die Regressionsgerade. (**Optional**) Visualisieren Sie zusätzlich die Fehler jedes einzelnen Datenpunktes zur Regressionsgeraden.

### <font color='brown'>Lösung 1.3</font>
---

In [None]:
# TODO

### <font color='brown'>Aufgabe 1.4 Vorhersage</font>
---
Wir wollen nun mithilfe des trainierten Modells eine Vorhersage für 3 weitere $x$-Werte treffen und die zugehörigen $y$-Werte ermitteln. Diese sind im Datensatz **REG-D02** zu finden. Visualisieren Sie die Trainingsdaten, die Regressionsgerade, den Groundtruth aus **REG-D02** und die Vorhersagen der unabhängigen Variablen aus **REG-D02**.

### <font color='brown'>Lösung 1.4</font>
---

In [None]:
# TODO

### <font color='brown'>Aufgabe 1.5 Beurteilung des Modellgrades</font>
---
Bei der einfachen linearen Regression entsteht ein Polynom ersten Grades. Ändern Sie nun den Grad (2, 3, 4) und diskutieren Sie ob wesentliche Änderungen bei der Vorraussage Funktion zu beobachten sind. Bewerten Sie das Regressionsmodell zum einen anhand der Trainingsdaten als auch anhand der Testdaten. Visualisieren Sie die Datenpunkte, die Regressionsgerade, die Testdaten (x,y) und die prädizierten y-Werte für die x-Werte aus den Testdaten (x, prediction).

### <font color='brown'>Lösung 1.5</font>
---

In [None]:
# TODO

### <font color='brown'>Aufgabe 1.6 Nicht-lineare Datenverteilung</font>
---
Nun soll ein weiterer Datensatz (REG-D01) betrachtet werden. In diesem sind die Daten etwas anders angeordnet. Wir wollen mit dieser Aufgabe verdeutlichen, dass lineare Modelle nicht unbedingt für alle Datensätze die beste Wahl sind und klarmachen, dass man sich vorher überlegen muss, welches Modell infrage kommt. 
- Laden Sie den Datensatz REG-D01 und schauen Sie sich die Datenpunkte an. Welchen Unterschied sehen Sie im Bezug zum ersten Datensatz?
- Führen Sie nun eine einfache lineare Regression (Polynom ersten Grades) aus und plotten Sie die Regressionsgerade. Nutzen Sie die Gütemaße MAE und RMSE und den Fehler der Trainingdaten auszugeben.  
- Erhöhen Sie nun den Grad des Regressionspolynom um die Gütemaße zu optimieren. Welcher Grad scheint die besten Ergebnisse zu liefern.
- Diskutieren Sie, ob es wichtig ist den Datensatz vorher zu visualisieren und sich zu überlegen, welches Modell oder auch welcher Grad geeignet ist. 

### <font color='brown'>Lösung 1.6</font>
---

In [None]:
# TODO

## <font color='green'>Übung 2: Gradientenabstiegsverfahren</font>
---
Neben der Methode der kleinsten Quadrate lassen sich die Koeffizienten des einfachen linearen Regressionsmodells auch über das **Gradientenabstiegsverfahren** berechnen. Hierbei werden die Koeffizienten nicht direkt berechnet, sondern iterativ angenähert.

### <font color='brown'>Aufgabe 2.1 Datenzugriff, -visualisierung und -vorbereitung</font>
---
Die Schritte aus den Aufgaben 1.1 und 1.2 zum Datenzugriff, Datenvisualisierung und Datenvorbereitung sind hier äquivalent am Datensatz **REG-D00** anzuwenden.

### <font color='brown'>Lösung 2.1</font>
---

In [None]:
# TODO

### <font color='brown'>Aufgabe 2.2 Gradientenabstieg</font>
---
Nun soll das Gradientenabstiegsverfahren verwendet werden um die Koeffizienten der einfachen linearen Regression zu schätzen. Vergleichen sie die Koeffizienten aus dem Gradient Descent mit den Koeffizienten aus der Methode der kleinsten Quadrate.

### <font color='brown'>Lösung 2.2</font>
---

In [None]:
# TODO

### <font color='brown'>Aufgabe 2.3 Visualisierung und Vergleich</font>
---
Nutzen Sie das Widget *WidgetsGradientDescent* um das Verhalten des Gradient Descent zu visualisieren. Variieren Sie die Parameter und diskutieren Sie, wie diese die Konvergenz beinflussen.

In [14]:
# Angabe des relativen Pfades der CSV-Datei
input_file = "datasets/REG-D00.csv"
# Erstellung des DataFrames; Hierbei wird Zeile 0 durch die Angabe "header = 0" als Zeile definiert, die die Featurenamen und den Anfang der Daten angibt
df = pd.read_csv(input_file, header = 0)
X = df[['#Eisverkäufe' , '#Todesfälle']].values
WidgetsGradientDescent(X)

interactive(children=(IntSlider(value=1, continuous_update=False, description='Step', max=1000, min=1, style=S…

<utils.Utils.WidgetsGradientDescent at 0x29a5e90d0>