# Können wir wohl Fußball spielen?


## Vorbereitung

<div class="alert alert-block alert-success">

Uns liegt also ein Datensatz für die letzten 14 Wochen vor. Die jeweiligen Temperaturen und die werte für die Luftfeuchtigkeit sind in der Tabelle eingetragen. Daneben wurde jeweils vermerkt, ob ein Fußballspiel stattgefunden hat.

Diese Daten benutzen wir, um das System zu trainieren, damit es später voraussagen kann, ob es zu einem Spiel kommt.
    
**Alle Fragen, die sich mit der Benutzung von Jupyter-Notebooks sowie dem Umgang mit Daten beschäftigen, werden in dem Kapitel über die Raupen/Marienkäfer behandelt. Schau dort bei Bedarf nochmal hinein.**


<div class="alert alert-block alert-info">

Zur Vorbereitung werden wieder einige notwendige Bibliotheken sowie die Daten eingelesen.
    
**Führe also die folgenden beiden Zellen aus:**

In [None]:
import pandas as pd
import plotly.express as px
from PyTree import ClassificationTree as ct
import ipywidgets as widgets



color_map = {'Temperatur': 'orange', 'Luftfeuchtigkeit': 'lightblue'}

data_x = "Temperatur"
data_y = "Luftfeuchtigkeit"
target = "Spielen"
breite=800
hoehe=600
bereich_x=[20, 29]
bereich_y=[60, 100]

In [None]:
df_fussball = pd.read_csv("Daten/spielen.csv", sep=";")

display(df_fussball)

## Entscheidungsbaum

<div class="alert alert-block alert-success">

Die Idee vom **Schwellenwert** kann man auch anders darstellen. 
    
Betrachten wir nochmal das Streudiagramm mit dem Schwellenwert `Luftfeuchtigkeit 75':

In [None]:
schwellenwert = 83

def fehlersumme_l(threshold):
    tree = ct.DecisionTree(target=target, data=df_fussball)
    tree.manual_split(attribute="Luftfeuchtigkeit", threshold=threshold, node_nr=1)
    return tree.calculate_errors(data=df_fussball)


fig = px.scatter(
    df_fussball,
    x=data_x,
    y=data_y,
    color=target,
    color_discrete_map=color_map,
    width=breite,
    height=hoehe,
    range_x=bereich_x,
    range_y=bereich_y,
)

fig.update_traces(marker=dict(size=10, line=dict(width=1, color="black")))

fig.update_layout(
    shapes=[
        dict(
            type="line",
            yref="y1",
            y0=schwellenwert,
            y1=schwellenwert,
            xref="x1",
            x0=bereich_x[0],
            x1=bereich_x[1],
            line=dict(color="Red", width=1),
        )
    ]
)

fig.add_annotation(
    x=21,
    y=schwellenwert,
    text="Schwellenwert der Länge=" + str(schwellenwert),
    showarrow=True,
    xshift=20,
)

fig.add_annotation(
    x=21,
    y=schwellenwert,
    text="Fehler: " + str(fehlersumme_l(schwellenwert)),
    showarrow=False,
    yshift=50,
)


fig.show()

<div class="alert alert-block alert-warning">

#### *Aufgabe:*

- Beschreibe, wie die Anzahl der Fehler zu begründen ist.
- Ändere den Wert des Schwellenwertes ab und beobachte dabei jeweils die Anzahl der Fehler.

<div class="alert alert-block alert-success">

Das kann jetzt auch wie folgt dargestellt werden:

In [None]:
tree = ct.DecisionTree(target=target, data=df_fussball)
tree.manual_split(attribute="Luftfeuchtigkeit", threshold=83, node_nr=1)
tree.print_tree()

<div class="alert alert-block alert-success">

Eine solche Darstellung nennen wir **Entschidungsbaum** (engl.: **Decision Tree**). 
    
In dem blau-unterlegten Rechteck (das gehört eigentlich nicht zu dem Baum) findet man Angaben, die für das Verständnis der Darstellung wichtig sind.

<div class="alert alert-block alert-warning">

#### *Aufgabe:*

Beschreibe, welche Informationen hier erkennbar sind.

<div class="alert alert-block alert-info">
    
Schreibe jetzt hier Deine Beobachtung hin.
    
- In dem blauen Rechteck:
    - ???
- In dem weissen Rechteck Nr. 1:
   - ??? 
- In dem linken gelben Rechteck Nr. 2:
   - ??? 
- In dem rechten gelben Rechteck Nr. 3:
    - ???
</div>

<div class="alert alert-block alert-success">

- Die drei rechteckigen Kästen sind sog. **Knoten**. Diese Knoten enthalten wichtige Informationen.
    - Der oberste (in der Graphik weiß dargestellt) Knoten heißt **Wurzelknoten**.
    - Es gibt in dem dargestellten Entscheidungsbaum drei Knoten; zur Unterscheidung haben sie Nummern 1, 2 und 3


<div class="alert alert-block alert-success">

Du kannst dir hier für verschiedene Schwellenwerte den jeweiligen Entscheidungsbaum ansehen:

In [None]:
slider_l = widgets.FloatSlider(
    value=83,
    min=61,
    max=99,
    step=0.5,
    description="",
    layout=widgets.Layout(width="30%"),
)

def makeTree_l(schwellenwert):
    tree = ct.DecisionTree(target=target, data=df_fussball)
    tree.manual_split(attribute="Luftfeuchtigkeit", threshold=schwellenwert, node_nr=1)
    return tree

def on_value_change_l(event):

    with output_l:
        output_l.clear_output()
        sw_l = event["new"]
        tree = makeTree_l(sw_l)
        display (tree.print_tree())


slider_l.observe(on_value_change_l, names="value")

output_l = widgets.Output ();
display(
    widgets.HBox([widgets.Label("Schwellenwert für die Luftfeuchtigkeit"), slider_l, output_l])
)
sw_l = 83
tree = makeTree_l(sw_l)
with output_l:
    display (tree.print_tree())

<div class="alert alert-block alert-warning">

#### *Aufgabe:* 
    
Bestätige anhand dieser dynamischen Graphik, dass der Schwellenwert für die Luftfeuchtigkeit tatsächlich 81 oder 82 ist, wenn die Anzahl der Fehler minimal sein soll.

<div class="alert alert-block alert-warning">

#### *Aufgabe:* 
    
Finde anhand dieser dynamischen Graphik heraus, wie viele Fehlklassifikationen für den Schwellenwert 

1. `Luftfeuchtigkeit = 70`
2. `Luftfeuchtigkeit = 90`
    
    
entstehen.

1. Für einen Schwellenwert von 70 gibt es 4 Fehler.
2. Für einen Schwellenwert von 90 werden alle(!) Werte als `ja` klassifiziert; dabei werden 5 Fehler gemacht.

<div class="alert alert-block alert-success">

Statt der Luftfeuchtigkeit können wir jetzt - wie in dem vorigen Notebook - auch die Temparatur als Kriterium nutzen:

In [None]:
slider_r = widgets.FloatSlider(
    value=25,
    min=21,
    max=29,
    step=0.5,
    description="",
    layout=widgets.Layout(width="30%"),
)

def makeTree_r(schwellenwert):
    tree = ct.DecisionTree(target=target, data=df_fussball)
    tree.manual_split(attribute="Temperatur", threshold=schwellenwert, node_nr=1)
    return tree

def on_value_change_r(event):

    with output_r:
        output_r.clear_output()
        sw_r = event["new"]
        tree = makeTree_r(sw_r)
        display (tree.print_tree())


slider_r.observe(on_value_change_r, names="value")

output_r = widgets.Output()

display(
    widgets.HBox([widgets.Label("Schwellenwert für die Temperatur"), slider_r, output_r])
)
sw_r = 25
tree = makeTree_r(sw_r)
with output_r:
    display (tree.print_tree())

<div class="alert alert-block alert-success">

Hier kannst du alle Variablen mit allen möglichen Schwellenwerten durchprobieren:

In [None]:
def show_tree(attribute, schwellenwert):

    tree = ct.DecisionTree(target=target, data=df_fussball)
    tree.manual_split(attribute=attribute, threshold=schwellenwert, node_nr=1)
    tree.print_tree()
    display(tree.tree_graph)

    return tree


tree_widget = widgets.interactive(
    show_tree,
    {"manual": True, "manual_name": "Erstelle Tree"},
    attribute = ["Luftfeuchtigkeit","Temparatur"],
    schwellenwert = (21, 99, 0.5)
)
tree_widget

## Weitere manuelle Datensplits

<div class="alert alert-block alert-success">

### Fazit bisher:
    
Wenn wir nur eine der beiden Variablen für einen Datensplit benutzen, ist die Wahl der Länge mit einem Schwellenwert von 0.51 offenbar optimal, obwohl dann immer noch 14 Fehler entstehen!
    
Hier nochmals das zugehörige Streudiagramm mit der horizontalen Trennlinie:

In [None]:
schwellenwert = 81

def fehlersumme_l(threshold):
    tree = ct.DecisionTree(target=target, data=df_fussball)
    tree.manual_split(attribute="Luftfeuchtigkeit", threshold=threshold, node_nr=1)
    return tree.calculate_errors(data=df_fussball)


fig = px.scatter(
    df_fussball,
    x=data_x,
    y=data_y,
    color=target,
    color_discrete_map=color_map,
    width=breite,
    height=hoehe,
    range_x=bereich_x,
    range_y=bereich_y,
)

fig.update_traces(marker=dict(size=10, line=dict(width=1, color="black")))

fig.update_layout(
    shapes=[
        dict(
            type="line",
            yref="y1",
            y0=schwellenwert,
            y1=schwellenwert,
            xref="x1",
            x0=bereich_x[0],
            x1=bereich_x[1],
            line=dict(color="Red", width=1),
        )
    ]
)

fig.add_annotation(
    x=21,
    y=schwellenwert,
    text="Schwellenwert der Länge=" + str(schwellenwert),
    showarrow=True,
    xshift=20,
)

fig.add_annotation(
    x=21,
    y=schwellenwert,
    text="Fehler: " + str(fehlersumme_l(schwellenwert)),
    showarrow=False,
    yshift=50,
)


fig.show()

<div class="alert alert-block alert-success">

Wir entdecken nur noch eine fehlerhafte Klassifikation:
- oberhalb der roten Linie sehen wir einen lilafarbigen Punkt.
    
Wir legen also fest:

In [None]:
besterSchwellenwert = 81

Der folgende Programmabschnitt ermöglicht es jetzt, einen weiteren Datensplit vorzunehmen. 

In [None]:
hor = besterSchwellenwert
SchwellenwertKnoten3 = 27

# Trainingsdaten einlesen -> "data frame df_käfer_trainingsdaten"
df_fussball_trainingsdaten = pd.read_csv('Daten/spielen.csv', sep=';')

# zeige den Anfang des Datensatzes "df_fussball_trainingsdaten" an
#print("Trainingsdaten")
#display(df_käfer_trainingsdaten)

# Entscheidungsbaum initialisieren mit Zielvariable (hier in Spalte "Spielen") und Trainingsdaten
tree6 = ct.DecisionTree(target = 'Spielen', data = df_fussball_trainingsdaten)

# threshold bedeutet Schwellenwert
tree6.manual_split(attribute = 'Luftfeuchtigkeit',  threshold = hor, node_nr = 1) 
#tree6.manual_split(attribute = 'Breite', threshold = SchwellenwertKnoten2, node_nr = 2) 
tree6.manual_split(attribute = 'Temperatur', threshold = SchwellenwertKnoten3, node_nr = 3) 


#Entscheidungsbaum ausgeben
tree6.print_tree()

<div class="alert alert-block alert-warning">

### *Aufgabe:*

Ändere den Schwellenwerte für den Knoten 3 so ab, dass möglichst wenige Fehlklassifikationen entstehen. schau dir dazu ggf. nochmal das Streudiagramm an.

<div class="alert alert-block alert-success">

Geeigneter Schwellenwerte im Knoten 3 ist z.B. 24.5


<div class="alert alert-block alert-success">

Das folgende Bild verdeutlicht diese Lösung: 

In [None]:
import plotly.express as px

hor = besterSchwellenwert
SchwellenwertKnoten3 = 24.5

tree = ct.DecisionTree(target="Spielen", data=df_fussball)

#fehlersumme = calc_errors(hor, tree, "Länge")
fehlersumme = tree.calculate_errors(data = df_fussball) 

color_map = {'Marienkäfer': 'orange', 'Raupe': 'lightblue'}

fig = px.scatter(
    df_fussball,
    x="Temperatur",
    y="Luftfeuchtigkeit",
    color="Spielen",
    color_discrete_map=color_map,
    width=800,
    height=600,
    range_x=[21,29],
    range_y=[65, 99],
    #size = 0.01
)

fig.update_traces(marker=dict(  #size=5, 
    line=dict(width=1, color='black')))

fig.add_annotation(x=0.8,
                   y=hor,
                   text="Fehler: " + str(fehlersumme),
                   showarrow=False,
                   yshift=25)

fig.add_annotation(
    x=0.8,
    y=hor,
    text="Schwellenwert: " + str(hor),
    showarrow=False,
    yshift=10,
    xshift=20,
)

fig.update_layout(shapes=[
    dict(
        type="line",
        yref='y1',
        y0=hor,
        y1=hor,
        xref='x1',
        x0=20,
        x1=29,
        line=dict(color="Red", width=2
                  #dash="",
                  )),
    dict(type="line",
         yref='y1',
         y0=hor,
         y1=100,
         xref='x1',
         x0=SchwellenwertKnoten3,
         x1=SchwellenwertKnoten3,
         line=dict(
             color="Black",
             width=2,
             dash="dashdot",
         ))
])

fig.show()

## Automatische Lösung

<div class="alert alert-block alert-success">

Eine Funktion `grow_tree` ist in der Lage, den kompletten Datensplit automatisch zu erzeugen:

In [None]:
tree = ct.DecisionTree(target = 'Spielen', data = df_fussball)
tree.grow_tree(df_fussball, 'Spielen',max_depth=2)
tree.print_tree()