# Wolfgang Rosenstiel Forum für KI

## Was ist Maschinelles Lernen?

## Eine Antwort (Arthur Samuel)

Maschinelles Lernen ist ein Feld der Künstlichen Intelligenz. Es wendet statistische Techniken an, um Computern die Fähigkeit zu verleihen, aus Daten zu lernen, ohne explizit programmiert zu sein.

## Andere Antwort (nach Andrew Glassner)

- Techniken, die Information aus Daten extrahieren
- *Daten:* alles was man messen und aufzeichnen kann
- *Information:* was wir interessant finden

<img src="img/ag/Figure-01-001.png">

<img src="img/ag/Figure-01-002.png">

## Andere Antwort (frei nach François Chollet)

- Ein Teilgebiet der künstlichen Intelligenz
- KI: Automatisierung von Aufgaben, die bisher nur Menschen erledigen konnten
  - Das geht auch mit regelbasierten Systemen
  - Beispiel: Schach, Expertensystem
- ML: Der Teil der KI, der versucht Verhalten zu verbessern, wenn mehr Daten zur Verfügung stehen

### Regelbasierte Systeme: Feature Engineering

Extraktion von relevanten Features aus Daten.

<img src="img/ag/Figure-01-003.png" style="width: 40%; margin-left: auto; margin-right: auto;">

<img src="img/ag/Figure-01-004.png" style="width: 20%; margin-left: auto; margin-right: auto;">

## Nochmal François Chollet

- Traditionelles Programmieren:
    - Wir programmieren eine Lösung für ein Problem:
    - Regeln + Daten $\Rightarrow$ Antworten
- ML:
    - Wir extrahieren Regeln aus (gelabelten) Daten
    - Daten + Antworten $\Rightarrow$ Regeln

# Was ist Deep Learning

- Eine Form von ML, die auf künstlichen neuronalen Netzen basiert
- Im Deep Learning erfolgt die Berechnung in "Schichten", die immer algemeinere Features extrahieren
- Deep Learning benötigt weniger Feature Engineering als andere Ansätze
- Braucht aber (meistens) mehr Daten!

## Klassifizierung

<img src="img/ag/Figure-01-022.png" style="float: right;width: 40%;"/>


- Viele Daten, vorgegebene Menge an möglichen Werten
- Weise jedem Datensatz einen oder mehrere Labels zu

In [None]:
from fastai.vision.all import *
path = untar_data(URLs.PETS)/'images'

def is_cat(x): return x[0].isupper()
dls = ImageDataLoaders.from_name_func(
    path, get_image_files(path), valid_pct=0.2, seed=42,
    label_func=is_cat, item_tfms=Resize(224))

learn = cnn_learner(dls, resnet34, metrics=error_rate)
learn.fine_tune(1)

## Clustering

<img src="img/ag/Figure-01-013.jpg" style="float: right;width: 40%;"/>

- Viele Datenpunkte
- Finde heraus, welche "ähnlich" sind

Often mit "unsupervised" Learning


## Regression

<img src="img/ag/Figure-01-011.png" style="float: right;width: 40%;"/>

- Lerne numerische Beziehungen
- Wie hängt das Gehalt von Jahren Berufserfahrung ab?

## Geocoding / Toponym-Auflösung

<img src="img/france.jpg" style="float: right;width: 40%;"/>

<div style="float: left; width: 60%;">

<br/>

- Finde Koordinaten, die zum Vorkommen von Namen in Text gehören
- Inverses Geocoding: Welcher Ortsname gehört zu Koordinaten

</div>

## (Extractive) Question Answering

<img src="img/question-mark.jpg" style="float: right;width: 30%;"/>


- Textdokument, Frage basierend auf dem Dokument
- Extrahiere die Antwort aus dem Dokument

# Vorgehensweise beim Supervised Learning

<img src="img/ag/Figure-01-007.png" style="float: right;width: 40%; padding: 20pt;"/>

- Modell: Algorithmus mitveränderbaren<br/>
  Parametern
- Datenpunkte mit Labels
- Generalisiere die Information<br/>
  in den gelabelten Daten
- Verbessere die Performance des<br/>
  Systems durch "Tunen" der Parameter

### Einfaches Beispiel: Lineare Regression

- Ein einziges numerisches Feature
- Ein numerisches Label
- Wir versuchen eine lineare Funktion der Form $y = w x + b$ zu finden, die "möglichst gut passt"

#### Daten

- Wir erzeugen uns für dieses Beispiel synthetische Daten:

In [None]:
import torch
num_samples = 80

plt.scatter(range(num_samples), torch.rand(num_samples), color='orange')
plt.scatter(range(num_samples), torch.randn(num_samples), color='blue');

In [None]:
plt.figure(figsize=(15, 4))
plt.subplot(1, 2, 1)
plt.hist(torch.rand(100 * num_samples).numpy(), bins=num_samples, color='orange')
plt.subplot(1, 2, 2)
plt.hist(torch.randn(100 * num_samples).numpy(), bins=num_samples, color='blue');

In [None]:

x = torch.rand(num_samples) * 10
y = 5 * x - 10 + 5 * torch.randn(num_samples)
x[:5], y[:5]

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 5))
plt.scatter(x, y);

### Realistischer

<img src="img/ag/Figure-01-007.png" style="width: 70%; margin-left: auto; margin-right: auto;"/>

### Anpassen eines Linearen Modells

In [None]:
def model(x, w, b):
    return w * x + b

### Bestimmen der Qualität: Loss

- Verschiedene Varianten: 
- RMSE
- MSE 
- MAE

In [None]:
def loss_fn(y_pred, y_true):
    squared_diffs = (y_pred - y_true) ** 2
    return squared_diffs.mean()

## Evaluierung/Test

<img src="img/ag/Figure-01-009.png" style="width: 70%; margin-left: auto; margin-right: auto;"/>

### Evaluieren des Modells:
(Hinweis: Broadcasting)

In [None]:
w = torch.tensor(1.0)
b = torch.tensor(0.0)
w, b

In [None]:
y_pred = model(x, w, b)
y_true = y
y_pred[:5], y_true[:5]

In [None]:
loss = loss_fn(y_pred, y_true)
loss.item()

## Training

<br/>
<img src="img/ag/Figure-01-008.png" style="width: 100%;"/>

## Wie updaten wir die Parameter?

<img src="img/ag/Figure-05-006.png" style="width: 50%; margin-left: auto; margin-right: auto; 0"/>

## Wie updaten wir die Parameter?

<img src="img/ag/Figure-05-007.png" style="width: 50%; margin-left: auto; margin-right: auto; 0"/>

In [None]:
def update_parameter(p, rate_of_change, learning_rate = 1e-2):
    p -= learning_rate * rate_of_change

### Mathematisch
$$\nabla_{w, b} L = \Bigl(\frac{\partial L}{\partial w}, \frac{\partial L}{\partial b} \Bigr)
= \Bigl(\frac{\partial L}{\partial m}\cdot\frac{\partial m}{\partial w},
\frac{\partial L}{\partial m} \cdot \frac{\partial m}{\partial b} \Bigr)$$

In [None]:
def model(x, w, b):
    return w * x + b

In [None]:
def dmodel_dw(x, w, b):
    return x
def dmodel_db(x, w, b):
    return 1.0

$$\nabla_{w, b} L 
= \Bigl(\frac{\partial L}{\partial m}\cdot\frac{\partial m}{\partial w},
\frac{\partial L}{\partial m} \cdot \frac{\partial m}{\partial b} \Bigr)$$

In [None]:
def gradient_fn(x, y_pred, y_true, w, b):
    dloss_dm = 2 * (y_pred - y_true) / y_pred.size(0)
    dm_dw = dloss_dm * dmodel_dw(x, w, b)
    dm_db = dloss_dm * dmodel_db(x, w, b)
    return torch.stack([dm_dw.sum(), dm_db.sum()])

## Training

<br/>
<img src="img/ag/Figure-01-008.png" style="width: 100%;"/>

### Die Training-Loop

In [None]:
def training_loop(n_epochs, learning_rate, params, x, y_true):
    for epoch in range(1, n_epochs + 1):
        w, b = params
        # _.forward()
        y_pred = model(x, w, b)
        loss = loss_fn(y_pred, y_true)
        gradient = gradient_fn(x, y_pred, y_true, w, b)
        # _.backward()
        params = params - learning_rate * gradient
        if epoch < 5 or epoch % (n_epochs // 10) == 0:
            print(f"Epoch {epoch:4}: loss = {loss.item():8.3f} "
                  f"(w = {w.item():6.3f}, b = {b.item():6.3f}, "
                  f"gradient = ({gradient[0]:.3f}, {gradient[1]:.3f})")
    return params

In [None]:
training_loop(
    n_epochs=100,
    learning_rate=0.1,
    params=torch.tensor([1.0, 0.0]),
    x=x,
    y_true=y
)

## Wie viel updaten wir die Parameter?

<img src="img/ag/Figure-19-013.png" style="width: 80%; margin-left: auto; margin-right: auto; 0"/>

## Wie viel updaten wir die Parameter?

<img src="img/ag/Figure-19-014.png" style="width: 80%; margin-left: auto; margin-right: auto; 0"/>


## Wie viel updaten wir die Parameter?

<img src="img/ag/Figure-19-015.png" style="width: 80%; margin-left: auto; margin-right: auto; 0"/>


## Wie viel updaten wir die Parameter?

<img src="img/ag/Figure-19-016.png" style="width: 80%; margin-left: auto; margin-right: auto; 0"/>

In [None]:
training_loop(
    n_epochs=100,
    learning_rate=0.01,
    params=torch.tensor([1.0, 0.0]),
    x=x,
    y_true=y
)

In [None]:
params = training_loop(
    n_epochs=1000,
    learning_rate=1e-2,
    params=torch.tensor([1.0, 0.0]),
    x=x,
    y_true=y
)

In [None]:
y_pred = model(x, *params)
plt.figure(figsize=(12, 5))
plt.scatter(x, y)
plt.scatter(x, y_pred);

# Mini Workshop

- Notebook 010x Workshop Einführung
- Abschnitt "Lineare Regression"

*Hinweis:* Bitte versuchen Sie die Lösung so weit wie möglich ohne Bezugnahme auf dieses Notebook zu lösen.

### Normalisieren der Inputs


In [None]:
x_mean = x.mean()
x_std = x.std()
y_mean = y.mean()
y_std = y.std()
x_mean, x_std, y_mean, y_std

In [None]:
x_norm = (x - x_mean) / x_std
y_norm = (y - y_mean) / y_std
y_norm[:5], y_norm.mean(), y_norm.std()

In [None]:
params = training_loop(
    n_epochs=1000,
    learning_rate=1e-2,
    params=torch.tensor([1.0, 0.0]),
    x=x_norm,
    y_true=y_norm
)

In [None]:
y_pred = model(x_norm, *params) * y_std + y_mean
plt.figure(figsize=(12, 5))
plt.scatter(x, y)
plt.scatter(x_norm * x_std + x_mean, y_pred);

# Mini Workshop

- Notebook 010x Workshop Einführung
- Abschnitt "Normierte Parameter"

# Autograd

Das Berechnen der Gradienten ist mühsam und fehleranfällig.

PyTorch kann das für uns übernehmen.

In [None]:
def model(x, w, b):
    return w * x + b

def loss_fn(y_pred, y_true):
    squared_diffs = (y_pred - y_true) ** 2
    return squared_diffs.mean()

In [None]:
params = torch.tensor([1.0, 0.0], requires_grad=True)

In [None]:
params.grad

In [None]:
loss = loss_fn(model(x, *params), y)
loss.backward()

params.grad

Was passiert, wenn wir die Loss-Funktion mehrmals auswerten?

In [None]:
loss = loss_fn(model(x, *params), y)
loss.backward()

params.grad

In [None]:
if params.grad is not None:
    params.grad.zero_()

In [None]:
params.grad

In [None]:
def training_loop(n_epochs, learning_rate, params, x, y_true):
    for epoch in range(1, n_epochs + 1):
        if params.grad is not None:
            params.grad.zero_()
            
        # model.forward()
        y_pred = model(x, *params)
        loss = loss_fn(y_pred, y_true)
        loss.backward()
        
        with torch.no_grad():
            params -= learning_rate * params.grad
            if epoch < 5 or epoch % (n_epochs // 10) == 0:
                print(f"Epoch {epoch:4}: loss = {loss.item():8.3f} "
                      f"(w = {params[0].item():6.3f}, b = {params[1].item():6.3f}, "
                      f"gradient = ({params.grad[0]:.3f}, {params.grad[1]:.3f})")

In [None]:
training_loop(
    n_epochs=1000,
    learning_rate=1e-2,
    params=torch.tensor([1.0, 0.0], requires_grad=True),
    x=x,
    y_true=y
)

# Mini Workshop

- Notebook 010x Workshop Einführung
- Abschnitt "Autograd"

# Optimierer

- Pytorch hat mehrere Optimierungsstrategien
- Diese arbeiten auf Batches

In [None]:
import torch.optim as optim
[name for name in dir(optim) if name[0] != '_']

In [None]:
params = torch.tensor([1.0, 0.0], requires_grad=True)
learning_rate = 0.01
optimizer = optim.SGD([params], lr=learning_rate)
optimizer

In [None]:
y_pred = model(x, *params)
loss = loss_fn(y_pred, y_true)
loss.backward()
optimizer.step()
params

In [None]:
y_pred = model(x, *params)
loss = loss_fn(y_pred, y_true)
optimizer.zero_grad()
loss.backward()
optimizer.step()
params

In [None]:
def training_loop(n_epochs, optimizer, params, x, y_true):
    for epoch in range(1, n_epochs + 1):
        # model.forward()
        y_pred = model(x, *params)
        loss = loss_fn(y_pred, y_true)
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        if epoch < 5 or epoch % (n_epochs // 10) == 0:
            print(f"Epoch {epoch:4}: loss = v{loss.item():8.3f} "
                  f"(w = {params[0].item():6.3f}, b = {params[1].item():6.3f}, "
                  f"gradient = ({params.grad[0]:.3f}, {params.grad[1]:.3f})")

In [None]:
params = torch.tensor([1.0, 0.0], requires_grad=True)
learning_rate = 0.01
optimizer = optim.SGD([params], lr=learning_rate)
training_loop(
    n_epochs=1000,
    optimizer=optimizer,
    params=params,
    x=x,
    y_true=y
)

In [None]:
params = torch.tensor([1.0, 0.0], requires_grad=True)
learning_rate = 1
optimizer = optim.Adam([params], lr=learning_rate)
training_loop(
    n_epochs=1000,
    optimizer=optimizer,
    params=params,
    x=x,
    y_true=y
)

# Randomisierung, Test/Validation/Train Split

In [None]:
import math
n_samples = x.shape[0]
n_validation = math.floor(0.2 * n_samples)

shuffled_indices = torch.randperm(n_samples)
shuffled_indices[:5]

In [None]:
train_indices = shuffled_indices[:-n_validation]
validation_indices = shuffled_indices[-n_validation:]
train_indices[:5], validation_indices[:5]

In [None]:
train_x = x[train_indices]
train_y = y[train_indices]
validation_x = x[validation_indices]
validation_y = y[validation_indices]

In [None]:
def training_loop(n_epochs, optimizer, params, x_train, y_train, x_val, y_val):
    for epoch in range(1, n_epochs + 1):
        y_train_pred = model(x_train, *params)
        loss_train = loss_fn(y_train_pred, y_train)

        y_val_pred = model(x_val, *params)
        loss_val = loss_fn(y_val_pred, y_val)
        
        optimizer.zero_grad()
        loss_train.backward()
        optimizer.step()
        
        if epoch < 5 or epoch % (n_epochs // 10) == 0:
            print(f"Epoch {epoch:4}: training loss = {loss_train.item():8.3f}, "
                  f"validation loss = {loss_val.item():8.3f}")

In [None]:
params = torch.tensor([1.0, 0.0], requires_grad=True)
learning_rate = 0.01
optimizer = optim.SGD([params], lr=learning_rate)
training_loop(
    n_epochs=1000,
    optimizer=optimizer,
    params=params,
    x_train=train_x,
    y_train=train_y,
    x_val=validation_x,
    y_val=validation_y
)

# Mini Workshop

- Notebook 010x Workshop Einführung
- Abschnitt "Optimierer, Randomisierung"

# Pytorch Module und Batches

In [None]:
import torch.nn as nn
linear_model = nn.Linear(1, 1, bias=True)
linear_model(torch.tensor([1.0]))

In [None]:
# Fehler
# linear_model(x)

In [None]:
x.shape, x.unsqueeze(-1).shape

In [None]:
linear_model(x.unsqueeze(-1))[:5]

*Hinweis:* Bei Modulen definiert man `forward()`, ruft sie aber als Funktion auf.

In [None]:
linear_model.weight

In [None]:
linear_model.bias

In [None]:
linear_model = nn.Linear(1, 1)
optimizer = optim.SGD(
    linear_model.parameters(),
    lr=0.01
)

In [None]:
list(linear_model.parameters())

In [None]:
def training_loop(n_epochs, optimizer, model, loss_fn, x_train, y_train, x_val, y_val):
    for epoch in range(1, n_epochs + 1):
        y_train_pred = model(x_train)
        loss_train = loss_fn(y_train_pred, y_train)

        y_val_pred = model(x_val)
        loss_val = loss_fn(y_val_pred, y_val)
        
        optimizer.zero_grad()
        loss_train.backward()
        optimizer.step()
        
        if epoch < 5 or epoch % (n_epochs // 10) == 0:
            print(f"Epoch {epoch:4}: training loss = {loss_train.item():8.3f}, "
                  f"validation loss = {loss_val.item():8.3f}")

In [None]:
linear_model = nn.Linear(1, 1)
optimizer = optim.SGD(
    linear_model.parameters(),
    lr=0.01
)

In [None]:
training_loop(
    n_epochs=1000,
    optimizer=optimizer,
    model=linear_model,
    loss_fn=nn.MSELoss(),
    x_train=train_x.unsqueeze(-1),
    y_train=train_y.unsqueeze(-1),
    x_val=validation_x.unsqueeze(-1),
    y_val=validation_y.unsqueeze(-1)
)

# Mini Workshop

- Notebook 010x Workshop Einführung
- Abschnitt "Module, Batching"