# Machine Learning Escape Game
---

# Regression

<div style="display: flex; align-items: flex-start; gap: 2rem;">
  <div style="flex: 1;">
    <p style="margin-bottom: 1rem;">
      „Juhuu!“, ruft ihr erleichtert, als sich der Bildschirm öffnet. Doch plötzlich öffnen sich die Türen des Raums, mehrere Roboter blockieren die Ausgänge hinter euch und kommen auf euch zu. Sie sehen alles andere als freundlich aus. Nervös schaut ihr euch an, während Beep hektisch den ganzen Raum absucht und seine Leuchten wild flackern.
    </p>
    <p>
      Ihr dreht euch wieder zu den Robotern um und analysiert die Situation. Die Roboter stürmen auf euch zu und teilen sich geschickt auf euch auf.
    </p>
  </div>
  <img src="images/ml_intro/Roboter_Raum1.jpg" alt="roterKnopf" style="width: 20%;"/>
</div>

<div style="display: flex; align-items: flex-start; gap: 2rem;">
  <div style="flex: 1;">
    <p style="margin-bottom: 1rem;">
      <strong>Beep:</strong> "Ihr müsst hier schnell raus! Ich habe einen Luftschacht gefunden, durch den ihr entkommen könnt. Aber dazu müsst ihr den roten Knopf erreichen, um den Luftschacht zu öffnen."
    </p>
    <p>
      <strong>Sarah:</strong> "Die Roboter wollen uns fangen und der schnellste Roboter scheint es auch auf die schnellste Person abgesehen zu haben! Aber woher wissen die Roboter, wer von uns wie schnell ist?"
    </p>
  </div>
  <img src="images/ml_intro/red_button.jpg" alt="roterKnopf" style="width: 20%;"/>
</div>

**Ben:** "Ich glaube sie denken, dass diejenigen von uns, die größer sind, auch schneller rennen können!

**Beep:** "Vermutlich berechnen sie wie schnell ihr seid. Ich habe online einen Datensatz gefunden mit der Körpergröße und Geschwindigkeit von über 20 Kindern. Hier, schaut es euch selbst an. Jeder blaue Punkt stellt die Körpergröße und Geschwindigkeit von eines Kindes dar." 

In [None]:
import sys
import os

%matplotlib widget

sys.path.append(os.path.abspath("src"))

from regression.linear_regression import plot_data, lineare_regression

plot_data()

**Sarah:** "Ah, ich verstehe. Anhand der Daten sehe ich, dass eine größere Person normalerweise auch schneller ist. Aber ich verstehe immer noch nicht, wie sie meine Geschwindigkeit bestimmen können. Ich bin 145 cm groß und dafür gibt es überhaupt keine Daten."

**Beep:** "Das stimmt. Aber du könntest versuchen, eine gerade Linie durch die Datenpunkte zu legen. Die Gerade sollte dabei so gut es geht zwischen allen Werten liegen, also nach oben und unten einen möglichst kleinen Abstand zu den Datenpunkten haben."

**Ben:** "Das können wir probieren! Und danach können wir direkt von der Geraden ablesen, wie schnell eine Person mit einer bestimmten Körpergröße warscheinlich ist. Auch für dich Sarah!"


## Aufgabe
---
Wenn dir lineare Funktionen bereits ein Begriff sind, darfst du direkt mit der nächsten Aufgabe weitermachen. Falls nicht, hole dir bitte vorne ein Arbeitsblatt und bearbeite dieses zuerst.

## Aufgabe
---
Verändere die Steigung und den y-Achsen Abschnitt der Geraden so, dass ein möglichst kleiner Abstand von der Geraden zu den Datenpunkten entsteht. Um dies besser abschätzen zu können, wird automatisch der Fehlerwert berechnet, indem die Abstände von jedem Punkt zur Gerade quadriert und aufsummiert werden. Je kleiner also der Fehlerwert ist, desto besser ist die Gerade platziert. Die beste Gerade kann durch einen Klick auf 'Zeige Regressionsgerade' angezeigt werden.

In [None]:
lineare_regression()

Die Daten können sehr gut mit einer Geraden beschrieben werden. Das bedeutet, dass der Zusammenhang zwischen der Körpergröße und der Geschwindigkeit ziemlich sicher linear ist. Eine gleiche Veränderung in x-Richtung führt also immer zu einer Veränderung um einen festen Wert in y-Richtung. In unserem Beispiel ist eine um 1 cm größere Person normalerweise auch um 0.33 km/h schneller, wenn man eine optimale Gerade annimmt.

**Sarah:** "Interessant! Mit Hilfe der Geraden kann ich jetzt auch Werte für meine Körpergröße ablesen."

**Ben:** "Ja schon, aber wie wurde die optimale Gerade bestimmt?"

**Beep:** "Die optimale Gerade habe ich mit einer linearen Regression bestimmt. Schaue dir dazu die folgende Abbildung an."

<img src="images/ml_intro/ML-Input-Output.png" alt="Graph" style="width: 40%; display: block; margin: auto;"/>
<br>

"In unserem Beispiel sehen die Roboter unsere Körpergrößen und bestimmen daraus unsere Geschwindigkeit. Die Körpergröße ist also die Eingabe und die Geschwindigkeit die Ausgabe."

**Sarah:** "Ja, schon klar, das hatten wir schon. Aber wie funktioniert es genau?"

**Beep:** "Geduld. Jeder Roboter sammelt Datenpunkte, die blauen Punkte in der Abbildung oben. Jeder dieser Punkte besteht aus zusammengehörigen Ein- und Ausgabewerten. Ein Datenpunkt ist zum Beispiel die Körpergröße und die Geschwindigkeit von Hanna. Insgesamt haben die Roboter nicht nur die Daten von Hanna, sondern auch von Hans, Laura und vielen weiteren Personen. All diese Datenpunkte werden verwendet, um den Zusammenhang zwischen Körpergröße und Geschwindigkeit zu lernen..."

<img src="images/ml_intro/ML-Training.png" alt="Graph" style="width: 25%; display: block; margin: auto;"/>
<br>

"In unserem Beispiel nehmen die Roboter an, dass die Geschwindigkeit mit der Körpergröße steigt und zwar linear. Linear bedeutet: Für jeden zusätzlichen Zentimeter Körpergröße ändert sich die Geschwindigkeit um einen festen Betrag. Ein linearer Zusammenhang kann sehr gut mit einer Geraden, die die allgemeine Form `Output = m * Input + c` hat, beschrieben werden. Jetzt werden die Werte für `m` und `c` so bestimmt, dass die Gerade möglichst nahe an den Datenpunkten liegt. Den Prozess, die besten Werte für `m` und `c` zu bestimmen nennt man auch Training."

Für jeden zusätzlichen Zentimeter Körpergröße ändert sich die Geschwindigkeit um einen festen Betrag.

<img src="images/ml_intro/ML-Training_combined.png" alt="Graph" style="width: 25%; display: block; margin: auto;"/>
<br>

**Ben:** "Verstehe! Bestimmen die Roboter die Gerade auch durch ausprobieren?"

**Beep:** "Bei einer Geraden gibt es zwei Möglichkeiten. Die erste Möglichkeit ist, die Werte für `m`und `c` exakt zu berechnen, sodass der Fehler möglichst gering ist. Dazu bestimmt man mathematisch die Werte für `m` und `c`, bei denen der Fehler minimal ist. 

Die zweite Möglichkeit ist – wie du schon vermutet hast – ein schrittweises Ausprobieren. Dabei startet man mit zufälligen Werten für `m` und `c` und versucht dann mithilfe bestimmter Verfahren (beispielsweise dem Gradientenabstiegsverfahren), den Fehler systematisch zu verringern. Wird der Fehler von Versuch zu Versuch kleiner, ist das ein Zeichen dafür, dass der Prozess in die richtige Richtung läuft – also macht man weiter. Am Ende entsteht so ein Modell, also eine Geradengleichung, die möglichst genau zu den vorhandenen Daten passt. Das Training endet, wenn die Gerade genau genug ist oder wenn eine bestimmte Anzahl an Versuchen durchgeführt wurde.

Du kannst auch noch einmal nach oben schauen: Die optimale Gerade der Roboter hatte die Werte `m = 0,33` und `c = -25,74`."

<img src="images/ml_intro/ML-Modell.png" alt="Graph" style="width: 40%; display: block; margin: auto;"/>
<br>

**Beep:** "Die bestimmte Gerade kann nun verwendet werden, um Vorhersagen zu treffen. Also dazu, für beliebige Körpergrößen die Geschwindigkeit zu berechnen."

**Ben:** "Hmm... ich bin zwar nicht besonders groß, nur 150 cm, aber trotzdem sehr schnell. Das heißt, bei mir hätten die Roboter nicht recht."

**Beep:** "Das stimmt! Wenige Personen entsprechen genau der Geraden, es gibt immer Fälle, in denen Personen für ihre Körpergröße besonders schnell oder langsam sind. Die Gerade des Modells macht jedoch bei vielen Personen insgesamt den kleinsten Fehler. Das heißt aber auch, dass sie bei jemandem wie dir die Geschwindigkeit nicht perfekt vorhersagen können. Aber hätten wir 100 Kinder, die so groß sind wie du, und wir würden die Geschwindigkeit dieser Kinder messen, dann würden die Datenpunkte der meisten Kinder sehr nah an der Geraden liegen und die Datenpunkte weniger Kinder weit weg, so wie bei dir."

## Aufgabe: Flucht in die Freiheit
---

<div style="display: flex; align-items: flex-start; gap: 2rem;">
  <div style="flex: 1;">
    <p style="margin-bottom: 1rem;">
      <strong>Sarah:</strong> "Das ist ja alles schön und gut, aber wir wissen immer noch nicht, wer von uns diesen Knopf drücken soll."
    </p>
    <p>
      <strong>Beep:</strong> "Ich zeige euch noch einmal die Daten von vorhin und habe auch eure Daten nun in die Abbildung eingezeichnet."
    </p>
  </div>
  <img src="images/ml_intro/red_button.jpg" alt="roterKnopf" style="width: 20%;"/>
</div>


Schaue dir die Abbildung an. Wer von ihnen sollte rennen, um den Knopf zu drücken – Ben oder Sarah?  
Begründe deine Entscheidung anhand der Abbildung. Erkläre, wer deiner Meinung nach bessere Chancen hat, den Robotern zu entkommen, und warum.

In [None]:
from regression.linear_regression import zeige_lineare_regression
zeige_lineare_regression()

## Aufgabe
---

Sarah, Ben und Beep haben nun bestimmt, wer rennen muss, damit sie entkomen.  
Nun fragt **Sarah:** "Gibt es noch mehr Beispiele für lineare Zusammenhänge? Was könnte man mit einer Geraden noch gut vorhersagen?"

Hilf Ben und Sarah und markiere alle Beispiele für lineare Zusammenhänge. Wenn du bereit bist, drücke auf "Auswerten".


In [None]:
from regression.linear_relations import linear_relations

linear_relations()

## Zusatzaufgabe 1
---

**Ben:** "Anscheinend sind nicht alle Zusammenhänge linear. Fällt dir noch ein Beispiel für einen nicht linearen Zusammenhang ein?"

**Sarah:** "Ah, ich weiß! Wenn wir von den Robotern wegrennen, dann können wir am Anfang noch ganz schnell rennen. Aber je länger ich renne, desto langsamer werde ich... Ich brauche für die ersten 10m nur 3 Sekunden, aber für 20m schon 8 Sekunden, weil ich nicht unendlich lange in der gleichen Geschwindigketi laufen kann! Was ist das für ein Zusammenhang zwischen Strecke und Zeit?"

**Ben:** "Dieser Zusammenhang ist auf jeden Fall nicht linear, sonst würdest du für jede 10 Meter, die dazukommen, einfach 3 Sekunden länger brauchen, also für 20 Meter 6 Sekunden. Ich vermute, dieser Zusammenhang ist quadratisch und kann mit Hilfe der Fomel `Output = m*Input^2 + n*Input + c` beschrieben werden. Der Input wird hier also zusätzlich quadriert. Übrigens nennt man diese Formeln, mit denen wir den Zusammenhang zwischen Input und Output beschreiben wollen, auch Modelle. Wenn die Modelle schon trainiert wurden, also in unserem Fall, wenn die optimalen Werte für die Variablen `m`, `n` und `c` schon bestimmt wurden, heißen sie auch trainierte Modelle. Neben linearen und quadratischen Modellen gibt es noch viele weiter wie beispielsweise polynomiale Modelle oder neuronale Netze."

Schaue dir die Datenpunkte (Strecke und benötigte Zeit) genau an. Die Werte für Ben und Sarah sind in lila markiert. Zeige anschließend das lineare und quadratische Modell an und beantworte die Frage unter der Abbildung.

In [None]:
from regression.quadratic_regression import model_selection, quadratic_regression
quadratic_regression()
model_selection()

## Zusatzaufgabe 2
---
(a) Welche Werte für die Steigung m und den Y-Achsenabschnitt c hat der blaue Funktionsgraphen in der unteren Abbildung?
Trage die Werte für m und c in die Felder unten ein und klicke auf "Zeichne Gerade".
Ist deine Angabe richtig, dann wird der neu konstruierte Funktionsgraph (orange) genau über den Bestehenden gelegt.

In [None]:
from regression.m_and_c import m_and_c_plot

m_and_c_plot()

(b) Der Python Code um den blauen Funktionsraphen zu erzeugen besteht im Gunde aus zwei Teilen:
1. Die Definition des Funktionsgraphen mittels m und c
2. Das visuelle Darstellen des Funktionsgraphen
   
Ergänze den fehlenden Code (# TODO...) und führe ihn anschließend aus um deine eigene Gerade zu zeichnen.

In [None]:
import matplotlib.pyplot as plt
import numpy as np


def funktionsgraph(x):
    # TODO definiere deine Funktionsgraphen: y = 
    return y

def visualisieren():
    x = np.linspace(-1, 11, 100)
    y = funktionsgraph(x)
    fig, ax = plt.subplots()
    ax.plot(x, y, linewidth=2, color='tab:blue')
    plt.xlim(0, 10)
    plt.show()

visualisieren()

# Machine Learning Klassifizierung von Bildern

Nachdem der Knopf gedrück wurde, öffnete sich ein Luftschacht. Schnell klettert ihr rein und beginnt zu rutschen. Nach kurzer Zeit landet ihr unsanft. 

**Sarah:** „Oh, ist das alles staubig hier – und so dunkel“

Beep schaltet ein helles Licht ein.

**Ben:** „Es scheint verlassen zu sein – was ist das hier?"

**Sarah:** „Es sieht aus wie ein Geheimarchiv! Schaut euch mal diese ganzen Blätter an! Die sind voller Daten!“

<img src="images/classification/testing_doors/robot3_nr1_gef.png" width="250"/> <img src="images/classification/testing_doors/robot1_nr3_gef.png" width="250"/> <img src="images/classification/testing_doors/robot2_nr3_har.png" width="250"/>

**Sarah:** "Ich habe dort drüben Ordner gesehen, da stand etwas von Robotereigenschaften drauf. Lass uns die Ordner mal genauer anschauen."

**Sarah**: Der geheimnisvolle Ordner hat ein Schloss. Um ihn zu öffnen, brauchen wir den richtigen Zahlencode."

Schaut auf dem Tisch liegt ein Blatt auf dem ein Zahlenrätsel steht.

**Ben**: "Gibt es ein Muster?"

**Sarah**: "Wenn  wir den richtigen Code finden, können wir das Schloss öffnen und herausfinden, was im Ordner steht?"

In [None]:
from regression.password import password

password(puzzle=False)