# Programmieraufgaben zu 2.6 (Enscheidungsbäume)

---

## Programmieraufgabe 1

Seien ein Trainingsdatensatz $D^\text{train}$ und ein Testdatensatz $D^\text{test}$ gegeben durch;

$$
D^\text{train}=((37.5, 2), 1), ((36, 1), 0), ((39, 1), 1), ((37.5, 1), 0),((39, 0), 1), ((37.5, 0), 0), ((37.5, 1), 0), ((36, 2), 1)
\\
D^\text{test}=((36, 0), 0), ((37.5, 1), 0), ((39, 1), 1), ((39, 2), 0)
$$


**Aufgaben**: 

Trainieren Sie einen Entscheidungsbaum anhand von $D^\text{train}$ und nutzen Sie ihn, um die Beispiele aus $D^\text{test}$ zu klassifizieren.

1. Geben Sie die resultierenden Klassenzuweisungen für die Beispiele aus $D^\text{test}$ an.
2. Erstellen Sie die dazugehörige Konfusionsmatrix.

In [7]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix

D_train = [
    ((37.5, 2), 1),
    ((36, 1), 0),
    ((39, 1), 1),
    ((37.5, 1), 0),
    ((39, 0), 1),
    ((37.5, 0), 0),
    ((37.5, 1), 0),
    ((36, 2), 1),
]

x_vals_train = [d[0] for d in D_train]
y_hats_train = [d[1] for d in D_train]

clf_100 = DecisionTreeClassifier().fit(x_vals_train, y_hats_train)


D_test = [((36, 0), 0), ((37.5, 1), 0), ((39, 1), 1), ((39, 2), 0)]

x_vals_test = [d[0] for d in D_test]
y_hats_test = [d[1] for d in D_test]


print("--- Aufgabe 1 ---")
print(f"clf(D_test) = {clf_100.predict(x_vals_test)}")

print()

print("--- Aufgabe 2 ---")
confusion_matrix(y_hats_test, clf_100.predict(x_vals_test))

--- Aufgabe 1 ---
clf(D_test) = [0 0 1 1]

--- Aufgabe 2 ---


array([[2, 1],
       [0, 1]])

|           | clf=0 | clf=1 |
| --------- | ----- | ----- |
| **y=0**   | 2     |  1    |
| **y=1**   | 0     |  1    |

und damit

|           | y=1 | y= 0|
| --------- | --- | --- |
| **clf=1** | 1   |  1  |
| **clf=0** | 0   |  2  |

---

## Programmieraufgabe 2

Seien ein Trainingsdatensatz $D^\text{train}$ und ein Testdatensatz $D^\text{test}$ gegeben durch

$$
D^\text{train}=\{((37.5, 2), 1), ((36, 1), 0), ((39, 1), 1), ((37.5, 1), 0),((39, 0), 1), ((37.5, 0), 0), ((37.5, 1), 0), ((36, 2), 1)\}
\\
D^\text{test}=\{((36, 0), 0), ((37.5, 1), 0), ((39, 1), 1), ((39, 2), 0)\}
$$

Nutzen Sie Python und scikit-learn, um die folgenden Aufgaben zu bearbeiten.

**Aufgabe**:

- Trainieren Sie einen Entscheidungswald anhand von $D^\text{train}$ und nutzen Sie ihn, um die Beispiele aus $D^\text{test}$ zu klassifizieren.Dabei soll die Anzahl erstellter Entscheidungsbäume $100$ betragen.
    1. Geben Sie die resultierenden Klassenzuweisungen für die Beispiele aus $D^\text{test}$ an.
    2. Geben Sie außerdem die resultierende Genauigkeit und den $F1$-Wert an.
- Trainieren Sie nun zwei weitere Entscheidungswälder, einmal mit $10$ generierten Entscheidungsbäumen und einmal mit $1000$.
    1. Geben Sie die resultierenden Klassenzuweisungen für die Beispiele aus $D^\text{test}$ an.
    2. Geben Sie außerdem die resultierende Genauigkeit und den $F1$-Wert an.

In [16]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score

D_train = [
    ((37.5, 2), 1),
    ((36, 1), 0),
    ((39, 1), 1),
    ((37.5, 1), 0),
    ((39, 0), 1),
    ((37.5, 0), 0),
    ((37.5, 1), 0),
    ((36, 2), 1),
]

x_vals_train = [d[0] for d in D_train]
y_hats_train = [d[1] for d in D_train]

D_test = [((36, 0), 0), ((37.5, 1), 0), ((39, 1), 1), ((39, 2), 0)]
x_vals_test = [d[0] for d in D_test]
y_hats_test = [d[1] for d in D_test]


clf_10 = RandomForestClassifier(n_estimators=10).fit(x_vals_train, y_hats_train)
clf_100 = RandomForestClassifier(n_estimators=100).fit(x_vals_train, y_hats_train)
clf_1000 = RandomForestClassifier(n_estimators=1000).fit(x_vals_train, y_hats_train)
pred_clf_10 = clf_10.predict(x_vals_test)
pred_clf_100 = clf_100.predict(x_vals_test)
pred_clf_1000 = clf_1000.predict(x_vals_test)

print("--- Classification ---")
print(f"clf_10(D_test) = {pred_clf_10}")
print(f"clf_100(D_test) = {pred_clf_100}")
print(f"clf_1000(D_test) = {pred_clf_1000}")

print()

print("--- Accuracy ---")
print(f"acc(clf_10, D_test) = {accuracy_score(y_hats_test, pred_clf_10):0.3f}")
print(f"acc(clf_100, D_test) = {accuracy_score(y_hats_test, pred_clf_100):0.3f}")
print(f"acc(clf_1000, D_test) = {accuracy_score(y_hats_test, pred_clf_1000):0.3f}")

print()

print("--- F1-Score ---")
print(f"f_1(clf_10, D_test) = {f1_score(y_hats_test, pred_clf_10):0.3f}")
print(f"f_1(clf_100, D_test) = {f1_score(y_hats_test, pred_clf_100):0.3f}")
print(f"f_1(clf_1000, D_test) = {f1_score(y_hats_test, pred_clf_1000):0.3f}")

--- Classification ---
clf_10(D_test) = [0 0 1 1]
clf_100(D_test) = [0 0 1 1]
clf_1000(D_test) = [0 0 1 1]

--- Accuracy ---
acc(clf_10, D_test) = 0.750
acc(clf_100, D_test) = 0.750
acc(clf_1000, D_test) = 0.750

--- F1-Score ---
f_1(clf_10, D_test) = 0.667
f_1(clf_100, D_test) = 0.667
f_1(clf_1000, D_test) = 0.667
