<a href="https://colab.research.google.com/github/InSuLaTi0N/Informatik/blob/master/decision_trees_solution.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Version: 2021.11.19.

---



# Intelligent Systems - Decision Tree Learning

Aus der Vorlesung kennen wir die Formeln für die Restentropie (R), die Entropie (H) und den Information Gain (IG):

&nbsp;
$$R(T)= \sum_{i=1}^{\nu} \frac{|T_i|}{|T|} \cdot H(T_i)$$ 
&nbsp;
$$H(T_i) = \sum_{j=1}^{C} -p_j \cdot log_2(p_j)$$ 
&nbsp;
$$IG = H(T) - R(T)$$ 
&nbsp;

Die Restentropie ergibt sich also aus den gewichteten Entropien der Teilmengen der Beispielmenge, die sich durch die Aufteilung nach den Werten $1...\nu$ des gewählten Attributes ergeben. Die Entropie einer solchen Teilmenge wiederum ist abhänig vom Anteil der Bespiele in der Teilmenge, die für die Entscheidungen $1...C$ sprechen.

&nbsp;

Rufen Sie sich auch den Pseudocode für das Anlernen eines Decision Tree Models ins Gedächtnis:
![DTL](https://docs.google.com/uc?id=1U6sPhZkVc0VAykERjN0bJ3ImWU-zNtge)

# Aufgabe 1 - Vergleich von DTMs

Betrachten Sie ein Datenset aus $400$ Beispielen der Klasse $C_1$ und $400$ Beispielen der Klasse $C_2$.
Nehmen Sie an, ein Decision Tree Model (DTM) $A$ teilt diese Beispiele in $(300,100)$ für den ersten Blattknoten und $(100,300)$ für den zweiten Blattknoten, wobei $(n,m)$ bedeutet, dass $n$ Beispiele zu $C_1$ und $m$ Beispiele zu $C_2$ gehören.
Ein DTM $B$ teilt die Beispiele in $(200,400)$ und $(200,0)$.

1. Berechnen Sie für beide DTMs den Anteil der Beispiele, die falsch klassifiziert werden (Misclassification Rate).

2. Berechnen Sie den Information Gain für beide DTMs. Sie können die untenstehenden Code-Zellen als Taschenrechner verwenden. 

3. Gegeben seien Trainingsdaten, die aus Beispielen für alle möglichen Kombinationen zweier binärer Attribute $A$ und $B$ bestehen. Die Klasse (das Label) für jedes Beispiel ergibt sich aus der XOR-Funktion auf $A$ und $B$.
Wie sieht ein mit diesen Trainingsdaten trainierter Decision Tree aus? Der Baum wird anschließend zum Klassifizieren ungelabelter Daten (d.h. Klasse ist nicht bekannt) mit allen möglichen Werten für $A$ und $B$ verwendet. Die auf diese Weise klassifizierten Daten werden wiederum für das Trainieren eines neuen Decision Trees genutzt. Erhalten wir den gleichen Decision Tree?

## Lösung

### 1.1 Misclassification Rates
Für einen Blattknoten wird immer die Klasse vorhergesagt, welche die Majorität in diesem Knoten hat. Für leere Knoten wird die Majorität des Elternknotens verwendet.

**DTM $A$**

Von den $800$ Beispielen werden im ersten und zweiten Blattknoten jeweils $100$ Beispiele und damit insgesamt $100+100=200$ Beispiele falsch klassifiziert. Daher ist die Misclassification Rate $25\%$.

**DTM $B$**

Von den $800$ Beispielen werden im ersten Blattknoten $200$ und im zweiten Blattknoten keine, also insgesamt $200+0=200$ Beispiele falsch klassifiziert. Daher ist die Misclassification Rate $25\%$.

Beide Raten sind gleich. 

### 1.2 Information Gain

**DTM $A$:**

Entropie:
Da die Beispiele gleichverteilt sind,

$$H(T) = -0.5 \cdot log_2(0.5)+-0.5 \cdot log_2(0.5)) = 1$$

Restentropie:

Der erste Blattknoten hält den Anteil $0.5$ der Beispiele mit Wahrscheinlichkeiten $(0.75, 0.25)$.

Der zweite Blattknoten hält den Anteil $0.5$ der Beispiele mit Wahrscheinlichkeiten $(0.25, 0.75)$.

$$R= \left(0.5 \cdot \left(-0.25 \cdot log_2(0.25)+-0.75 \cdot log_2(0.75)\right)\right) + (0.5 \cdot \left(-0.25 \cdot log_2(0.25)+-0.75 \cdot log_2(0.75)\right))$$
$$R= -0.25 \cdot log_2(0.25)+-0.75 \cdot log_2(0.75) $$
$$R \approx 0.81$$


Information Gain:
$$IG=1-0.81 = 0.19$$

**DTM $B$:** 

Entropie:
Da die Beispiele gleichverteilt sind,

$$H(T) = -0.5 \cdot log_2(0.5)+-0.5 \cdot log_2(0.5)) = 1$$

Restentropie:

Der erste Blattknoten hält den Anteil $0.75$ der Beispiele mit Wahrscheinlichkeiten $(\frac{1}{3}, \frac{2}{3})$.

Der zweite Blattknoten hält den Anteil $0.25$ der Beispiele mit Wahrscheinlichkeiten $(1.00, 0.00)$.

$$R= (0.75 \cdot \left(-\frac{1}{3} \cdot log_2(\frac{1}{3})+-\frac{2}{3} \cdot log_2(\frac{2}{3})\right)) + (0.25 \cdot \left(-1 \cdot log_2(1)+-0 \cdot log_2(0)\right)$$

$$R= 0.75 \cdot \left(-\frac{1}{3} \cdot log_2(\frac{1}{3})+-\frac{2}{3} \cdot log_2(\frac{2}{3})\right) + 0.0$$

$$R\approx 0.69$$

Information Gain:
$$IG=1-0.69 = 0.31$$


In [None]:
from math import log2
ra = -0.25*log2(0.25) + -0.75*log2(0.75)
iga = 1 - ra

print("Remaining Entropy R for tree A: ", ra)
print("Information Gain for tree A: ", iga)

In [None]:
rb = 0.75 * ( -1/3*log2(1/3) + -2/3*log2(2/3) )
igb = 1 - rb
print("Remaining Entropy R for tree B", rb)
print("Information Gain for tree B: ", igb)

### 1.3 Decision Tree zur Klassifikation 

Die ursprünglichen Trainingsdaten sehen folgendermaßen aus (C ist die Klasse):

A | B | C  
--|---|---
1 | 1 | 0 
1 | 0 | 1
0 | 1 | 1 
0 | 0 | 0

Wir haben also keinen Informationsgewinn beim ersten Attribut, egal welches wir wählen: der Zufall (Implementierung) entscheidet, welches zuerst betrachtet wird. Eine möglicher Baum ist:

```
                 A == 0?

           /                \
       ja /                  \ nein
         /                    \

     B == 0?                 B == 0?

    /      \                /      \
ja /        \ nein      ja /        \ nein
  /          \            /          \
C=0          C=1        C=1           C=0 
```

Wird dieser Baum nun, wie in der Aufgabenstellung beschrieben, zur Klassifikation verwendet, wird die Klassenzuordnung wieder der XOR-Funktion entsprechen, da ja alle Attributkombinationen bereits im ersten Teil gegeben waren. Ein mit auf dieser Weise klassifizierten Daten trainierter Baum kann jetzt anders strukturiert sein ($\rightarrow$ Attribut B kann zuerst gewählt werden). An der Funktion des Baumes ändert sich aber nichts.


# Aufgabe 2 - Recursive Split Algorithm

Auf der Basis der Daten der amerikanischen Volkszählung wollen wir die folgenden zwei Klassen bestimmen.

    >50K$, <=50K$

Vervollständigen Sie dazu den untenstehenden Code.

 **Es gibt Blanks in den folgenden Funktionen**: 
- calc_entropy()
- calc_ig()
- majority()
- choose_best_attr()
- dtree_learning()
- dtree_classify()
- dtree_test()

**Die Attribute sind**: 

* **age**: continuous.  
* **workclass**: Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.  
* **fnlwgt**: continuous. (= final weight)
* **education**: Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.
* **education-num**:  continuous. 
* **marital-status**: Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse.  
* **occupation**: Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces.
* **relationship**: Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.  
* **race**: White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black. 
(Comment: this term is (was?) quite common in the american litrature, although ...  search the net for the debate in the U.S. and elsewhere.) 
* **sex**: Female, Male.  
* **capital-gain**: continuous.
* **capital-loss**: continuous.
* **capital-loss**: continuous.
* **capital-loss**: continuous.
* **hours-per-week**: continuous.
* **native-country**:  United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.

Wir benutzen keine kontinuierlichen Attribute. 

**Upload der Dateien für Google-Collaboratory**

Wir verwenden wget, um die benötigten Dateien hier in Google-Collaboratory verfügbar zu machen. Wget ist ein Programm, mit dem Dateien von HTTP-, HTTPS-, FTP- und FTPS-Servern abgerufen werden können. Wenn Sie ein Linux- oder Mac-Benutzer sind, ist wget normalerweise in der Standardinstallation enthalten. 

Hier im Colab can wget unabhängig vom Betriebssystem genutzt werden!

In [None]:
!wget https://cloudstore.zih.tu-dresden.de/index.php/s/gxBP63LNy9SgNFD/download -O adult.data.txt
!wget https://cloudstore.zih.tu-dresden.de/index.php/s/yw5ayzYk9g2bc3p/download -O adult.test.txt

Alternativ können Sie wie folgt vorgehen, um die Dateien verfügbar zu machen (hierzu müssen Sie in Ihren Google-Account eingeloggt sein):

1.   Speichern Sie die Dateien [*adult.data.txt*](https://sharing.crt-dresden.de/index.php/s/5Jo4xAZdpCW9uIM/download) und [*adult.test.txt*](https://sharing.crt-dresden.de/index.php/s/CZoJ0YdrsSmdOui/download) auf Ihrem Gerät
2.   Öffnen Sie die Navigation des Notebooks, und laden Sie die Dateien in Ihre Runtime hoch (Files, Upload)
3. Anschließend können Sie auf diese Dateien wie gewohnt aus Ihrem Python-Code zugreifen

In [None]:
!ls

##Lösung

In [None]:
""" Intelligent Systems TUD 2020, Ex.1

Decision Tree Learning:
Based on american census data you want to predict two classes of income of people:
>50K$, <=50K$.

We do not use continuous attributes for this first decision tree task.
"""
import numpy as np

__author__ = 'Benjamin Guthier'

from math import log


def openfile(path, fname):
    """opens the file at path+fname and returns a list of examples and attribute values.
    examples are returned as a list with one entry per example. Each entry then
    is a list of attribute values, one of them being the class label. The returned list attr
    contains one entry per attribute. Each entry is a list of possible values or an empty list
    for numeric attributes.
    """
    datafile = open(path + fname, "r")
    examples = []
    for line in datafile:
        line = line.strip()
        line = line.strip('.')
        # ignore empty lines. comments are marked with a |
        if len(line) == 0 or line[0] == '|':
            continue
        ex = [x.strip() for x in line.split(",")]
        examples.append(ex)
    attr = []
    for i in range(len(examples[0])):
        values = list({x[i] for x in examples})  # set of all different attribute values
        if values[0].isdigit():  # if the first value is a digit, assume all are numeric
            attr.append([])
        else:
            attr.append(values)

    return examples, attr


def calc_entropy(examples, cls_index):
    """calculates the entropy over all examples. The index of the class label in the example
    is given by cls_index. Can also be the index to an attribute.
    """
    global attr
    # get attributes of examples with index cls_index
    example_classifications = [example[cls_index] for example in examples]
    # get unique counts of example_attributes
    unique, counts = np.unique(example_classifications, return_counts=True)

    # normalize counts to total number of examples for getting probs
    probs = counts/len(examples)
    # print(probs)

    entropy = -np.sum(probs*np.log2(probs))

    return entropy


def calc_ig(examples, attr_index, cls_index):
    """Calculates the information gain over all examples for a specific attribute. The
    class index must be specified.

    uses calc_entropy
    """
    global attr
    # get attributes of examples with index attr_indx
    example_attributes = [example[attr_index] for example in examples]

    # get unique counts of example_attributes
    unique, counts = np.unique(example_attributes, return_counts=True)

    # example split
    remainder = 0
    for j in range(len(unique)):
        # get all examples with attribute unique[j]
        examples_unique = [example for example in examples if example[attr_index] == unique[j]]
        remainder += len(examples_unique)/len(examples)*calc_entropy(examples_unique, cls_index)
    return calc_entropy(examples, cls_index) - remainder


def majority(examples, attr_index):
    """Returns the value of attribute "attr_index" that occurs the most often in the examples."""
    # create a flat list of all attribute values (with duplicates, so we can count)
    attr_vals = [example[attr_index] for example in examples]

    # among all unique attribute values, find the maximum with regards to occurrence in the attr_vals list

    maj_attr_val = max(set(attr_vals), key=attr_vals.count)
    return maj_attr_val

def choose_best_attr(examples, attr_avail, cls_index):
    """Iterates over all available attributes, calculates their information gain and returns the one
    that achieves the highest. attr_avail is a list of booleans corresponding to the list of attributes.
    it is true if the attribute has not been used in the tree yet (and is not numeric).
    """
    igs = []  # list of information gains for each attribute

    for j in range(len(attr)):
        if attr_avail[j]:
            igs.append(calc_ig(examples, j, cls_index))
        else:
            igs.append(-1)

    return igs.index(max(igs))  # return index of the attribute with highest IG


def dtree_learning(examples, attr_avail, default, cls_index):
    """Implementation of the decition tree learning algorithm according to the pseudo code
    in the lecture. Receives the remaining examples, the remaining attributes (as boolean list),
    the default label and the index of the class label in the attribute vector.
    Returns the root node of the decision tree. 

    Each tree node is a tuple where the first entry is the index of the 
    attribute that has been used for the split. It is "None" for leaf nodes.
    The second entry is a list of subtrees of the same format. The subtrees are ordered in the
    same way as the attribute values in "attr". For leaf nodes, the second entry is the predicted class.

    uses choose_best_attr, majority, dtree_learning
    """
    global attr
    if len(examples) == 0:
        # is leaf
        # no examples left -> majority class prediction of parent
        return [None, default]
    elif len({x[cls_index] for x in examples}) == 1:
        # is leaf
        # uniform classes
        return [None, examples[0][cls_index]]
    elif attr_avail.count(True) == 0:
        # is leaf
        # no attribute left to split -> majority class prediction
        return [None, majority(examples, cls_index)]
    else:
        best = choose_best_attr(examples, attr_avail, cls_index)
        tree = [best, []]
        for v in attr[best]:
            examples_v = [x for x in examples if x[best] == v]
            # why is it important to make a copy and not change it directly?
            new_attr_avail = attr_avail.copy()
            new_attr_avail[best] = False
            subtree = dtree_learning(examples_v, new_attr_avail, majority(examples, cls_index), cls_index)
            tree[1].append(subtree)
        return tree


def dtree_classify(dtree, x):
    """Classifies a single example x using the given decision tree. Returns the predicted class label.
    """
    # attribute index of splitting attribute
    attr_split_index = dtree[0]

    if attr_split_index is not None:
        # get attribute value for example
        example_split_attr = x[attr_split_index]

        # subtree position
        subtree_pos = attr[attr_split_index].index(example_split_attr)

        return dtree_classify(dtree[1][subtree_pos], x)  # descend into subtree recursively
    else:
        return dtree[1]


def dtree_test(dtree, examples, cls_index):
    """Classify all examples using the given decision tree. Prints the achieved accuracy."""
    correct = 0
    for j in range(len(examples)):
        if dtree_classify(dtree, examples[j]) == examples[j][cls_index]:
            correct += 1

    print("{} out of {} correct ({:.2f}%)".format(correct, len(examples), correct / len(examples) * 100))


path = "./"  # directory of your data
datafile = "adult.data.txt"
testfile = "adult.test.txt"
examples, attr = openfile(path, datafile)  # load the training set
test, test_attr = openfile(path, testfile)  # load the test set
cls_index = len(attr) - 1  # the last attribute is assumed to be the class label
# attr_names = ["age", "workclass", "fnlwgt", "education", "education-num", "marital-status", "occupation", "relationship", "race", "sex", "capital-gain", "capital-loss", "hours-per-week", "native-country", "class"]

attr_avail = []  # marks which attributes are available for splitting (not numeric and not the class label)
for i in range(len(attr)):
    # the list attr[i] contains all possible values of attribute i. It is empty for numeric attributes.
    attr_avail.append(len(attr[i]) > 0 and i != cls_index)

# print(attr_avail)
dtree = dtree_learning(examples, attr_avail, [], cls_index)

print("Before removal of unknowns: ")
print("Training Set")
dtree_test(dtree, examples, cls_index)
print("Test Set")
dtree_test(dtree, test, cls_index)

# Extra task removal of unknowns
examples_removed = []
test_removed = []

for example in examples:
    # print(example.__contains__("?"))
    if not example.__contains__("?"):
        examples_removed.append(example)

for example in test:
    if not example.__contains__("?"):
        test_removed.append(example)

# print(len(examples_removed))
# print(len(test_removed))
dtree = dtree_learning(examples_removed, attr_avail, [], cls_index)

print("After removal of unknowns: ")
print("Training Set")
dtree_test(dtree, examples_removed, cls_index)
print("Test Set")
dtree_test(dtree, test_removed, cls_index)