# **Übung 8a** Programmierung mit Python mit Anwendungen aus dem Maschinellen Lernen



## Aufgabe 1
Diese Übung soll ein erweitertes Bild zum Training von neuronalen Netzen liefern.
Unter anderem sollen folgende Themen angeschnitten werden:
- Batching und Datasets
- Netzwerkdesign

Als Startpunkt dient der in `sklearn` integrierte Diabetes-Datensatz. Mehr Information dazu erhalten Sie in der Ausgabe der nächsten Zelle.
Es werden auch folgende relevante Variablen erzeugt:
- Der Datensatz: `diabetes`
- Daraus erzeugte Trainingsdaten: `X_train, X_test, y_train, y_test`

In [None]:
import plotly.express as px
import plotly.graph_objects as go

import numpy as np

import pandas as pd

import torch
from torch import nn
from torch.nn import functional as F
import torch.utils.data as Data
from torch import optim

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

import seaborn as sns
import tqdm
from matplotlib import pyplot as plt

diabetes = datasets.load_diabetes()
X, y = diabetes.data, diabetes.target
X = X.astype(np.float32)
y = y.astype(np.float32)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

USE_GPU = False

n_samples, n_features = X.shape
print(diabetes['DESCR'])

**Aufgabe 1.0 (PyTorch)** | Im Folgenden wurde der `TransformedTargetRegressor` auf das Problem angewandt. Dies soll Ihnen als Anhaltspunkt für einen *schon-ganz-guten* Regressor dienen. 

Es stellt sich die Frage: Kann das Ergebnis durch den Einsatz eines neuronalen Netzes weiter verbessert werden? Die folgenden Aufgaben sind als Guideline gedacht. Sie müssen sich nicht daran halten.

Falls gewollt oder nötig: Zur ersten Analyse von Daten eignen sich bei wenigen (1-5) Features `sns.pairplot` oder bei mehr (5-25) Features `sns.heatmap`.

```
Beispiel:
sns.pairplot(df)
sns.heatmap(df.corr(), annot=True)
```

In [None]:
from sklearn.compose import TransformedTargetRegressor
from sklearn.linear_model import RidgeCV
from sklearn.preprocessing import QuantileTransformer

regr_trans = TransformedTargetRegressor(
    regressor=RidgeCV(),
    transformer=QuantileTransformer(
        n_quantiles=257, output_distribution='uniform'))

regr_trans.fit(X_train, y_train)
y_pred = regr_trans.predict(X_test)

def showRes(y_pred, y_target):
  fig = px.scatter(x=y_pred, y=y_target, color=np.abs(y_pred-y_target), width=500, height=500)
  fig.add_shape(type="line",
                x0=0, 
                y0=0, 
                x1=350, 
                y1=350)
  fig.update_layout(
      xaxis_title="prediction",
      yaxis_title="actual",
      title = f"MAE: {mean_absolute_error(y_target, y_pred):.1f} - MSE: {mean_squared_error(y_target, y_pred):.1f} - R2: {r2_score(y_target, y_pred):.3f}",
      coloraxis_colorbar_title_text = 'Distance',
  )
  fig.show()
  print("MAE:", mean_absolute_error(y_target, y_pred))
  print("MSE:", mean_squared_error(y_target, y_pred))
  print("R2:", r2_score(y_target, y_pred))
  
showRes(y_pred, y_test)

**Aufgabe 1.1 (PyTorch)** | Erzeugen Sie sich einen [DataGenerator](https://pytorch.org/tutorials/beginner/basics/data_tutorial.html#creating-a-custom-dataset-for-your-files). Dieser kann von einem [DataLoader](https://pytorch.org/tutorials/beginner/basics/data_tutorial.html#preparing-your-data-for-training-with-dataloaders) konsumiert werden, welcher häufig verwendete Basisfunktionalität für das Training und Testing liefert.
- Dataloader(IO)
- Batching
- Shuffle
- Parallelität
- Sampling


In [None]:
## ADD CODE HERE

**Aufgabe 1.2 (PyTorch)** | Erzeugen Sie sich eine [Modell](https://pytorch.org/tutorials/beginner/basics/buildmodel_tutorial.html#define-the-class), versuchen Sie verschiedene `Linear`-Layer, jeweils mit Aktivierungsfunktionen zu verbinden.

Als Referenz:
- 2-6 Linear-Layer
- 5-250 Features je Layer
- Aktivierungsfunktionen: Tanh, Sigmoid, ReLU, SiLU, ..

In [None]:
## ADD CODE HERE

**Aufgabe 1.3 (PyTorch)** | [Trainieren](https://pytorch.org/tutorials/beginner/basics/optimization_tutorial.html#full-implementation) Sie ihr Modell.
- Testen Sie Batching
- Speichern Sie auch den Test-Loss 
- Zeigen Sie den Trainingsverlauf an

In [None]:
## ADD CODE HERE

**Aufgabe 1.4 (PyTorch)** | Erzeugen Sie sich die Ausgaben aus `Aufgabe 1.0` und vergleichen Sie die Ergebnisse. Konnten die Werte verbessert werden?

In [None]:
## ADD CODE HERE