# Machine-Learning

## Überwachtes Lernen; Regressionsgerade ohne Bias

### Die Daten

![Schuhe](Bilder/Schuh.png "Schuhe")

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

***Stell dir vor, du möchtest dir ein Paar neue Schuhe kaufen, hast aber keine Ahnung, welche Schuhgröße du hast.***

In Europa gibt es Schuhgrößen, die *irgendwie* zwischen ungefähr 30 und 48 liegen. Aber was ist für dich die passende Größe?

Du kannst natürlich die Länge deines Fußes messen: ca. 26 cm vielleicht! Doch was hilft das?

Also machen wir doch einmal ein Experiment in deiner Klasse, also:
1. Eine Tabelle anlegen!
1. Jedes Kind soll seinen Schuh ausziehen;
2. die Fußlänge messen;
2. die Schuhgröße (am Schuh) ablesen;
2. die Daten in der Tabelle notieren.

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Es könnte sich dabei vielleicht die folgende Tabelle ergeben:

Fusslaenge (in cm)| Schuhgroesse (EU-Norm)
:---: | :---:
27 | 42
27.5 | 43
23.5 | 37
21.5 | 34
23 | 36
28.5 | 44
24.5 | 38
24.4 | 37
28.6 | 44
28.4 | 43


<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Natürlich könntest du jetzt raten (oder klug interpolieren), um deine richtige Größe zu finden. Doch wir wollen ein Programm erstellen, das einen allgemeinen Zusammenhang zwischen den Tabellenspalten aus den Beispielen ***lernt***.

### Visualisieren

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Dazu lassen wir die Daten (in einer Datei mit dem Namen **schuhe.txt** abgelegt) in ein Koordinatensystem eintragen:

In [None]:
# Das ist eine Bibliothek, mir der man Zeichnungen anfertigen kann
import matplotlib.pyplot as plt

# Das ist eine Bibliothek, mir der man Listen verwalten kann
import numpy as np


In [None]:
# dies ist ein Tool zum Testen.
from nose.tools import assert_equal, assert_almost_equal

In [None]:
def zeigen_1(datname):
    x_left, x_right, y_left, y_right = 15, 30, 30, 50 # Grenzen der Koordinatenachsen

    plt.axis([x_left, x_right, y_left, y_right]) # Achsen zeichnen
    plt.xticks(fontsize=15) # Unterteilung der x-Achse
    plt.yticks(fontsize=15) # Unterteilung der y-Achse
    plt.xlabel("Fußlänge", fontsize=18) # Beschriftung der x-Achse
    plt.ylabel("Schuhgröße", fontsize=18) # Beschriftung der y-Achse

    # Die Datei wird eingelesen und die beiden Spalten als Listen in X und Y abgelegt. 
    # Die erste Zeile der Datei wird überlesen
    X, Y = np.loadtxt (datname, skiprows=1, unpack=True)

    plt.plot (X, Y, "r.") # die Daten werden als rote Punkte dargestellt
    plt.show() # Die Graphik wird angezeigt

In [None]:
zeigen_1 ("../Daten/schuhe.txt")

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Man erkennt irgendwie einen Zusammenhang! Aber
1. Ist der Zusammenhang in einer Art *Formel* auszudrücken?
2. Und kann auch der Computer diesen Zusammenhang entdecken?

### Vorhersage; ein erster Versuch

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Es scheint so, als ob ungefähr eine Gerade geeignet wäre, den Zusammenhang auszudrücken.

Also ein erster Versuch:
> Eine Gerade durch den Koordinatenursprung mit Steigung $m$ hat die Gradengleichung $y = m\cdot x$

Das können wir als Python-Funktion ausdrücken (dabei kann der Parameter X sogar eine ganze Liste von Zahlen sein):

In [None]:
def vorhersage (X, m):
    return X*m

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Wir können ja den Wert von $m$ einmal raten und die Gerade anschießend einzeichnen (wir vergrößern dazu den Diagrammausschnitt so, dass der Koordinatenursprung sichtbar wird).

In [None]:
def zeigen_2 (datname, m = 0):
    x_left, x_right, y_left, y_right = -1, 30, -1, 50 # Grenzen der Koordinatenachsen

    plt.axis([x_left, x_right, y_left, y_right]) # Achsen zeichnen
    plt.xticks(fontsize=15) # Unterteilung der x-Achse
    plt.yticks(fontsize=15) # Unterteilung der y-Achse
    plt.xlabel("Fußlänge", fontsize=18) # Beschriftung der x-Achse
    plt.ylabel("Schuhgröße", fontsize=18) # Beschriftung der y-Achse

    # Die Datei wird eingelesen und die beiden Spalten als Listen in X und Y abgelegt. 
    # Die erste Zeile der Datei wird überlesen
    X, Y = np.loadtxt (datname, skiprows=1, unpack=True)

    plt.plot (X, Y, "r.") # die Daten werden als rote Punkte dargestellt
    plt.plot ([0, x_right], [0, vorhersage(x_right, m)], linewidth=1.0, color="b")
    plt.show() # Die Graphik wird angezeigt

<div style="background-color: lightblue; padding: 5px 20px 20px">

#### Aufgabe: 

Probier doch mit dem Wert von $m$ ein wenig herum!

In [None]:
zeigen_2 ("../Daten/schuhe.txt", m = 1.2)

### Fehler

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Nehmen wir jetzt einmal an, wir haben für m einen Wert von 1.2 getestet. Das scheint nicht gut zu passen! Doch kann man denn irgendwie messen, wie groß der *Fehler* ist?

Der Fuß mit Länge 23.5 benutzte einen Schuh der Größe 37 (das ist die 3-te Zeile in der Tabelle). 

In [None]:
FUSS, SCHUH = np.loadtxt ("../Daten/schuhe.txt", skiprows=1, unpack=True)

In [None]:
FUSS[2] # Achtung: die Indizes beginnen mit 0

In [None]:
SCHUH[2]

<div style="background-color: lightblue; padding: 5px 20px 20px">

#### Aufgabe: 

Wie groß ist die Vorhersage für den `FUSS[2]`? Gib den Wert in der folgenden Zelle ein.

In [None]:
vorher = 1000  # Hier deine Lösung eintragen; dann diese und die folgende Zelle ausführen.

In [None]:
try:
    vorher
except NameError:
    raise NameError("Es gibt keine Variable 'vorher'. Weise den Wert einer Variablen mit diesem Namen zu.")

error = False

try:
    assert_equal(vorher, 28.2)
except AssertionError:
    error = True

if not error:
    print("👍 Sehr gut!")
else:
    print("👎 Leider falsch.")

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Den korrekten Wert kann man natürlich auch vom Python-System errechnen lassen:

In [None]:
vorhersage (FUSS[2], 1.2)

<div style="background-color: lightblue; padding: 5px 20px 20px">


#### Aufgabe: 

Wie groß ist jetzt der Fehler? Gib in der kommenden Zelle den richtigen Wert ein.

In [None]:
fehl = 1000 # Hier deine Lösung eintragen; dann diese und die folgende Zelle ausführen.

In [None]:
try:
    fehl
except NameError:
    raise NameError("Es gibt keine Variable 'y'. Weise den Wert einer Variablen mit diesem Namen zu.")

error = False

try:
    assert_equal(abs(fehl), 8.8)
except AssertionError:
    error = True

if not error:
    print("👍 Sehr gut!")
else:
    print("👎 Leider falsch.")

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Den korrekten Wert kann man natürlich auch vom Python-System errechnen lassen:

In [None]:
vorhersage (FUSS[2], 1.2) - SCHUH[2]

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Man kann sogar die Fehler aller Tabelleneinträge auflisten:

In [None]:
print (vorhersage (FUSS, 1.2) - SCHUH)

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Alle Fehler könnten wir jetzt aufsummieren, um sozusagen den Gesamtfehler zu ermitteln:

In [None]:
sum (vorhersage (FUSS, 1.2) - SCHUH)

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Jedoch ist es dabei problematisch, den Fehler mit Hilfe der Differenz zu messen. Denn vielleicht sind einige der Fehler positiv, andere negativ, so dass sie sich irgendwie aufheben werden und wir so meinen, einen sehr kleinen Fehler zu machen.

Man könnte jetzt den Absolutwert der Differenz als Fehler benutzen, doch hat es sich als sinnvoll erwiesen, die Differenzen zu quadrieren (dann ergibt sich ja auch immer ein nicht-negativer Wert). 

Also machen wir alle Rechnungen erneut:

In [None]:
(vorhersage (FUSS[2], 1.2) - SCHUH[2])**2

In [None]:
print ((vorhersage (FUSS, 1.2) - SCHUH)**2)

In [None]:
sum ((vorhersage (FUSS, 1.2) - SCHUH)**2)

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Und statt der Summe aller Fehler könnten wir auch den Durchschnittlichen Fehler nutzen, um von der Anzahl der Tabelleneinträge unabhängig zu sein:

In [None]:
np.average ((vorhersage (FUSS, 1.2) - SCHUH)**2)

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Das könnten wir in einer Python-Definition ausdrücken:

In [None]:
def fehler (X, Y, m):
    return np.average ((vorhersage (X, m) - Y)**2)

### Training

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Die Idee besteht jetzt darin, den Wert von m so zu verändern, dass der Fehler möglichst gering wird. 

Dazu beginnt man mit einem willkürlichen Wert für m und verändert diesen Wert schrittweise nach oben bzw. unten, bis eine Veränderung keinen Fortschritt mehr bringt.

Man sagt dann, dass man ***trainiert***.

In [None]:
def training (X, Y, iterationen, lernrate, anzeige = False):
    m = 0
    for i in range(iterationen):
        aktuellerFehler = fehler(X, Y, m)
        if anzeige:
            print("w: %.3f =>Iteration: %4d => Loss: %.6f" % (m, i, aktuellerFehler))

        if fehler (X, Y, m + lernrate) < aktuellerFehler:
            m += lernrate
        elif fehler (X, Y, m - lernrate) < aktuellerFehler:
            m -= lernrate
    return m

In [None]:
steigung = training (FUSS, SCHUH, iterationen = 20, lernrate = 0.01, anzeige = True)
print ("Vermutete Steigung =", steigung)

<div style="background-color: lightblue; padding: 5px 20px 20px">


#### Aufgabe: 

Führe in der folgenden Zelle die Trainingsphase mit mehr Iterationen und/oder mit anderen Lernraten aus und beobachte das Ergebnis. 

**Tipp:** 
   
Wenn die Test-Ausgabe bei vielen Iterationen stört, kannst du den 3-ten Parameter auf den Wert `False` setzen oder auch ganz weglassen!

In [None]:
steigung = training (FUSS, SCHUH, iterationen = 20, lernrate = 0.01, anzeige = True)
print ("Vermutete Steigung =", steigung)

In [None]:
import seaborn as sns

In [None]:
def zeigen_3 (datname, iterationen, lernrate):
    X, Y = np.loadtxt (datname, skiprows=1, unpack=True)
    m = training (X, Y, iterationen, lernrate)
    sns.set()
    plt.plot(X, Y, "r.")
    plt.xticks(fontsize=15)
    plt.yticks(fontsize=15)
    plt.xlabel("Fußlänge (F)", fontsize=30)
    plt.ylabel("Schuhgröße (S)", fontsize=30)
    x_left, x_right, y_left, y_right = 0, 30, 0, 50
    plt.axis([x_left, x_right, y_left, y_right])
    wert = vorhersage(x_right, m)
    plt.plot([0, x_right], [0, wert], linewidth=1.0, color="k")
    plt.show()
    print("Der Zusammenhang ist etwa S = %.3f * F" % m)


In [None]:
zeigen_3 ("../Daten/schuhe.txt", iterationen = 1000, lernrate = 0.01)

### Wie geht es weiter?

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

In Wirklichkeit ist der vorhergesagte Wert ein wenig zu klein (das sieht man nicht so deutlich); in der Definition der europäischen Schuhgrößen muss man zu der Fußlänge noch einige Millimeter zufügen, damit der Fuß Platz hat, sich zu bewegen.

Aber das fällt ja hier kaum auf!

Doch es gibt auch Datenmengen, bei denen zwar eine Gerade als Vorhersage dient, die jedoch nicht durch den Koordinatenursprung verläuft. Das wird im folgenden Kapitel erörtert.
