# Decision Trees

## Einleitung
Bei den bisherigen Klassifikationsmethoden hatten wir angenommen, dass unsere Features reellwertig oder im Spezialfall diskret waren, also dass $X \subseteq \mathbb{R}^d$ bzw. $X \subseteq \mathbb{N}^d$. In beiden Fällen gibt es natürliche Distanzmetriken, wie z.B. die euklidische Norm $\|x− x'\|_2$. Mit Hilfe einer solchen Metrik kann z.B. bei KNN der bzw. die nächsten Nachbarn bestimmt werden.

## Nominale Features
Wir müssen jedoch auch den Fall betrachten, wenn $X$ nominal, das bedeutet diskret, jedoch ohne natürliche Distanzmetrik ist. Zum Beispiel wollen wir anhand der Features
- Farbe $X_{\text{Farbe}} = \{\text{rot, grün, gelb}\}$
- Form $X_{\text{Form}} = \{\text{rund, dünn}\}$
- Größe $X_{\text{Größe}} = \{\text{groß, mittel, klein}\}$
- Geschmack $X_{\text{Geschmack}} = \{\text{süß, sauer}\}$

verschiedene Obstsorten beschreiben.

Ein Objekt $x \in X$ wird demnach durch ein $d$-Tupel, in diesem Beispiel durch ein $4$-Tupel
$x = (x_1, x_2, x_3, x_4) \in X$
mit
$X = X_{\text{Farbe}} \times X_{\text{Form}} \times X_{\text{Größe}} \times X_{\text{Geschmack}}$.
So wäre ein Apfel etwa beschrieben durch $(\text{rot, rund, mittel, süß})$.

## Klassifikation
Bei der Klassifikation mit Entscheidungsbäumen befinden wir uns demnach in einem Szenario, bei welchem wir eine Funktion $f : X \rightarrow Y$ lernen wollen, wobei $X$ reell, diskret oder auch nominal ist und $Y = \{y_1, \ldots, y_m\}$ eine diskrete Menge von Klassen.

Bei Entscheidungsbäumen klassifiziert man nun Objekte anhand nominaler Kriterien mit Hilfe von Fragensequenzen, wobei die nächste Frage abhängt von der Antwort auf die aktuelle Frage. Wichtig dabei ist, dass die Antwort auf jede Frage nominal ist wie z.B. generell $\{\text{ja, nein}\}$ oder speziell $\{\text{rot, grün, gelb}\}$. Solche Sequenzen von Fragen werden systematisch in einem Entscheidungsbaum repräsentiert.

## Aufbau des Baums
Die Knoten des Baums sind systematische Fragen und die Kanten die jeweiligen Antwortmöglichkeiten. Die Blätter des Baums sind die Klassen. Die Klassifikation beginnt mit der Frage in der Wurzel des Baums und endet in einem Blatt, also einer Klasse. Die Kanten, die einen Knoten verlassen, müssen
- eindeutig und
- erschöpfend
sein, sodass immer genau einer Kante gefolgt wird.

## Entscheidungsbäume: Abbildung
Abbildung 1: Entscheidungsbaum zur Klassifikation von Eigenschaften nach Obstsorten. Die Blätter des Baums sind die Klassen (Obstsorten) und sind blau markiert. Abbildung adaptiert von [DHS00].

## Interpretierbarkeit
Eine Eigenschaft von Entscheidungsbäumen ist, dass sie sehr gut interpretierbar sind:
- Die Klassifikation einzelner Datenpunkte $x \in X$ kann vom Menschen nachvollzogen werden.
- Die Klassen $y \in Y$ selbst erhalten eine Beschreibung anhand von logischen Kriterien. Zum Beispiel:
  - Apfel = $(\text{Farbe} = \text{grün} \wedge \text{Größe} = \text{mittel})$
  - $\lor (\text{Farbe} = \text{rot} \wedge \text{Größe} = \text{mittel})$
  - $\Rightarrow (\text{Farbe} = \text{grün} \lor \text{Farbe} = \text{rot}) \wedge \text{Größe} = \text{mittel}$
- Entscheidungsbäume können daher auch durch explizites Vorwissen ergänzt werden.

## CART Framework
Wie wird nun ausgehend von
- einer Menge von Trainingsdaten $D \subseteq X \times Y$ und
- einer Menge von Entscheidungsfragen
ein Entscheidungsbaum gelernt? Ein Entscheidungsbaum teilt sukzessive die Menge $D$ in immer kleinere Teilmengen. Idealerweise endet jeder Pfad in einer reinen Menge, d.h. einer Menge $F \subseteq D$ für die gilt, dass alle Labels $y$ mit $(x, y) \in F$ gleich sind. Dies ist üblicherweise nicht der Fall und es muss geregelt werden, ob in solchen weitere Aufteilungen erfolgen sollen.

## Allgemeiner Lernalgorithmus
Allgemeiner Lernalgorithmus für Entscheidungsbäume mit Trainingsdaten $D$ und Menge an Fragen $Q$:

## Allgemeiner Lernalgorithmus
Allgemeiner Lernalgorithmus für Entscheidungsbäume mit Trainingsdaten $D$ und Menge an Fragen $Q$:

Algorithm 1 dtree(D, Q)
1: if stop_criteria(D) then
2: return LEAF(compute_class(D))
3: else
4: for each $q \in Q$ do
5: $S_q = \text{split}(D, q)$
6: $\Delta i_q = \text{compute_improvement}(D,S)$
7: end for
8: $b = \text{argmax}_{q | \Delta i_q>0} \Delta i_q$
9: return NODE(b,dtree($S^{(b)}_1, Q \backslash b$), dtree($S^{(b)}_2, Q \backslash b$), . . . )
10: end if

## CART Methodik
Das CART (Classification And Regression Tree) Framework bietet eine allgemeine Methodik um verschiedenste Arten von Entscheidungsbäumen zu generieren anhand von sechs grundlegenden Fragestellungen:
1. Wieviele Entscheidungsmöglichkeiten und damit Aufteilungen gibt es pro Knoten?
2. Welche Eigenschaften werden in einem Knoten getestet?
3. Wann soll ein Knoten zu einem Blatt werden?
4. Wie wird ein zu großer Baum gestutzt?
5. Wie soll einem unreinen Blatt eine Klasse zugeordnet werden?
6. Wie wird mit unvollständigen Daten umgegangen?

## Aufteilungen
Jede Entscheidung ist mit einem Split (Aufteilung) der Trainingsdaten verbunden. Die Anzahl der Splits kann frei gewählt werden und auch innerhalb eines Baums variieren. Bereits zwei Splits reichen im Allgemeinen aus, d.h. binäre Entscheidungsbäume sind universell. Die Entscheidung beeinflusst potentiell die Performance der Methodik und auch die Wahl der Eigenschaften.

## Entscheidungsbäume: Binärer Baum
Abbildung 2: Ein binärer Entscheidungsbaum zur Klassifikation von Eigenschaften nach Obstsorten. Die Blätter des Baums sind die Klassen (Obstsorten) und sind blau markiert. Positive Entscheidungen (ja) sind grün und negative Entscheidungen (nein) sind rot markiert. Abbildung adaptiert von [DHS00].

## Fragenauswahl und Knotenunreinheit
Hauptziel der Erstellung eines Entscheidungsbaums ist die Einfachheit, d.h. ein Baum mit möglichst wenigen Kanten und Knoten. Wir suchen daher für jeden Knoten die Frage, welche die resultierenden Datenmengen so rein wie möglich macht. Wir nähern uns formal dem Konzept der Reinheit durch das Gegenteil, der Unreinheit (Impurity). Wir bezeichnen mit $i(N)$ die Unreinheit in Knoten $N$ und es sollte gelten, dass
- $i(N) = 0$, falls alle Daten in Knoten $N$ die gleiche Klasse haben
- $i(N)$ groß, wenn alle Kategorien gleich häufig vertreten sind

## Unreinheit
Das bekannteste Maß für Unreinheit oder auch Unordnung ist die (Shannon-)Entropie definiert als
$i(N) = -\sum_{j=1}^m P(y_j) \log_2 P(y_j)$
wobei $P(y_j)$ die relative Häufigkeit der Klasse $y_j$ innerhalb der Trainingsdaten an Knoten $N$ bezeichnet.

## Beispiele für Unreinheit
- Schwarze und weiße Kugeln - Unrein: $p_\circ = p_\bullet = \frac{4}{8} \Rightarrow i(N) = -2 \cdot 0.5 \log_2 0.5 = 1$
- Schwarze und weiße Kugeln - Reiner: $p_\circ = \frac{1}{8}, p_\bullet = \frac{7}{8} \Rightarrow i(N) = -\frac{1}{8} \log_2 \frac{1}{8} - \frac{7}{8} \log_2 \frac{7}{8} \approx 0.54$
- Schwarze und weiße Kugeln - Rein: $p_\circ = 0, p_\bullet = 1 \Rightarrow i(N) = -1 \log_2 1 =0$


## Gini Unreinheit und Missclassification Impurity
Ein weiteres häufiges Maß ist die Gini Unreinheit definiert als
$i(N) = \sum_{i \neq j} P(y_i)P(y_j) = \frac{1}{2} \left(1 - \sum_{j=1}^m P^2(y_j) \right)$
und die Missclassification Impurity definiert als
$i(N) = 1 - \max_j P(y_j)$.

## Plots der Unreinheitsmaße
Abbildung 3: Plots der Unreinheitsmaße Entropie (orange), Gini Impurity (grün) und Missclassification Impurity (blau) in Abhängigkeit von der relativen (binären) Klassenzugehörigkeit $p = P(y_1) = 1 - P(y_2)$.

## Split-Heuristik
Wir betrachten der Einfachheit halber nur den Fall eines (bisher partiell bis zu einem Knoten $N$ erstellten) binären Baums und wollen wissen, welche Frage an diesem Knoten an die übrigen Testdaten gestellt werden sollte. Eine Heuristik in diesem Fall ist die Frage, welche den Rückgang bzgl. der Unreinheit definiert als
$\Delta i(N) = i(N) - P_P i(N_P) - P_N i(N_N)$
minimiert. $N_P$ und $N_N$ sind die positiven bzw. negativen Nachfolgeknoten von $N$ und $P_P = 1 - P_N$ ist der Anteil der Datenpunkte, die dem positiven Knoten zugeordnet werden.

## Nominale und reellwertige Features
Hinweise:
- Bei nominalen Features muss meist ein vollständiger Vergleich aller möglichen Fragen pro Knoten in allen Dimensionen durchgeführt werden. Im Beispiel der Obstklassifikation etwa $Größe = \text{klein}, \ldots, Größe = \text{groß}, Farbe = \text{rot}, \ldots, Farbe = \text{gelb}, Geschmack = \text{sauer}, \ldots$
- Bei diskreten und reellen Features werden oft Vergleiche der Art $x_i \leq c$ mit $c \in \mathbb{R}$ verwendet. Generell beschränkt sich der Suchraum für die Konstanten $c$ meist auf tatsächlich in den Trainingsdaten vorkommende Werte von $x_i$ oder gewichtete Mittel.

## Entscheidungsbaum-Beispiel
Wir wollen nun einen Entscheidungsbaum mit Hilfe der bisherigen Ideen (Entropie als Unreinheitsmaß) aufbauen.
Abbildung 4: Beispiel: Klassifikation von Süßigkeiten.
$i(N) = -\frac{1}{2} \log_2 \frac{1}{2} - \frac{1}{2} \log_2 \frac{1}{2} = 1$

## Auswahl der ersten Frage
Frage an der Wurzel $x_1 = \text{rot}$:
$i(L) = -\frac{1}{3} \log_2 \frac{1}{3} - \frac{2}{3} \log_2 \frac{2}{3} \approx 0.9183$
$i(R) = -\frac{2}{3} \log_2 \frac{2}{3} - \frac{1}{3} \log_2 \frac{1}{3} \approx 0.9183$
$\Delta i(N) \approx 1 - \frac{1}{2} \cdot 0.9183 - \frac{1}{2} \cdot 0.9183 \approx 0.0817$