# Decision Tree mit ID3
Implementieren Sie den Decision-Tree-Algorithmus ID3 mit dem gegebenen Grundgerüst. Beachten Sie für Ihre Bearbeitung bitte die folgenden Punkte:
- Bitte verwenden Sie in dieser Aufgabe die **Jupyter Notebook** Oberfläche und **nicht Jupyter Lab**. Ansonsten führt die Zeile ``%matplotlib notebook`` zu einem Fehler und muss durch ``%matplotlib inlne`` ersetzt werden. Dann ist jedoch kein vernünftiges Zoomen in die Bilder der Entscheidungsbäume innerhalb der Jupyter Oberfläche mehr möglich.
- Verwenden Sie den Datensatz *house-votes-84-with-header.csv*, den Sie zusammen mit einer kurzen Beschreibung im Moodle finden.
- Nicht jeder Record dieses Datensatzes hat für jedes Attribut einen Wert (mit *?* gekennzeichnet). Implementieren Sie daher Ihren ID3 Algorithmus so, dass er trotzdem eine sinnvolle Zuteilung trifft. Nähere Details dazu entnehmen Sie bitte dem [Paper von Quinlan](https://link.springer.com/article/10.1023%2FA%3A1022643204877).
- Im Paper wird vorgeschlagen nur aus einer Teilmenge der Trainingsdaten den Baum zu bilden, dem sogenannten "Window". Dieses soll dann iterativ vergrößert werden, bis alle nicht im Window befindlichen Daten vom durch das Window gebildeten Baum korrekt klassifiziert werden. Diese Nutzung des Windows brauch von Ihnen NICHT umgesetz werden. Bilden Sie den Entscheidungsbaum direkt mit den kompletten Trainingsdaten!
- Die in Abschnitt 5 beschriebene Behandlung von Rauschen sowie die in Abschnitt 7 vorgestellten Verbesserungen sollen Sie nicht umsetzen.
- **Abgabe bis zum 23.01.2023 23:59 Uhr.** Sie werden uns Ihren Algorithmus kurz vorführen, erklären und ggf. Fragen beantworten.

### Darstellung des Baumes
- Dieses mal ist das Ergebnis ein Baum. Damit Sie sich nicht mit der Darstellung aufhalten, finden sie im gegebenen Grundgerüst eine Methode, die den Baum darstellt.
- Bitte fügen Sie Ihrer Implementierung eine Methode hinzu, die den Baum als Dictionary repräsentiert. Das Dictionary für einen (Teil-)baum hat jeweils zwei Einträge:
    - Ein Eintrag *'node_name'* bildet auf den Namen des Knotens ab (das zu testende Attribut oder bei Blättern die Klassenentscheidung).
    - Ein Eintrag *'children'* bildet auf ein weiteres Dictionary ab. Dieses Dictionary enthält für jeden zu testenden Attributswert einen Eintrag, der auf den darunterliegenden Teilbaum abbildet.
    - Handelt es sich beim aktuellen Knoten um ein Blatt, so gibt es keinen *'children'*-Eintrag.
    - Bitte stellen Sie sicher, dass alle Einträge Strings sind.
- Um Entscheidungsbäume zu plotten benötigen Sie das package [pydot](https://pypi.python.org/pypi/pydot) und die Software [GraphViz](http://www.graphviz.org/). Sie müssen außerdem den 'bin'-Unterordner im Installationspfad von GraphViz zur *Path*-Umgebungsvariable hinzufügen. Bei Problemen mit der Installation melden sie sich bitte bei <stubbemann@cs.uni-kassel.de>.

### Verwendung der Bibliothek *pandas*
In dieser Aufgabe verwenden wir die Bibliothek *pandas*. Die zentrale Funktion dieser Bibliothek ist die Repräsentation und Manipulation von Datensätzen in sogenannten *DataFrames* analog zur Programmiersprache *R*. Ein DataFrame kann man sich wie eine Tabelle vorstellen, die pro Zeile eine Instanz des Datensatzes enthält. Die nach den Attributsnamen benannten Spalten der Tabelle enthalten die jeweiligen Attributswerte der Instanzen. Die Zeilen des DataFrames sind indiziert, typischerweise durch eine ID oder einen Timestamp. Eine Spalte eines DataFrames hat den Datentyp *Series* und enthält alle Indizes zusammen mit dem jeweiligen Spaltenwert sowie den Namen (das Attribut). Im folgenden laden wir den Datensatz für diese Aufgabe und zeigen ein paar Beispieloperationen. Falls Sie mehr Operationen kennenlernen möchten, lesen Sie den Artikel [10 Minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html).

### Zusätzliche Pakete
Sie dürfen zusätzlich die Pakete *math*, *random* und *numpy* verwenden.

### Erweiterungen für 6 ECTS
Bearbeiten Sie die folgenden Aufgaben nur, wenn Sie 6 ECTS benötigen!
- Implementieren Sie die Funktion "classification", welche den mittels train berechneten Decision Tree nutzt um die einzelnen Datenpunkte zu klassifizieren. Die Funktion soll eine Liste von Classlabels zurückgeben. Hier soll also der i-te Eintrag die Klassenentscheidung für den i-ten Datenpunkt darstellen.
- Um die Klassifikation von mittels Entscheidungsbäumen zu verbessern wird in der Praxis häufig ein Ensemble von Entscheidungsbäumen verwendet. Dabei wird jeder jeder Baum in der Praxis nur auf einen Teil der Trainingsdaten und der Attribute trainiert.
- Implementieren Sie die Funktion **ensemble**, welche auf Trainingsdaten *d_train* *n_trees* viele Bäume trainiert, welche jeweils einen Anteil von *data_ratio* Datenpunkten und *attributes_ratio* viele Attribute pro Baum zufällig auswählen. Dabei soll jeweils aufgerundet werden. Die Ergebnisliste soll für jeden Datenpunkt in *d_test* jeweils ein Dictionary zurückgeben, welches für jede Klasse die Wahrscheinlichkeit entält.
- Beispiel: Wir haben die Klassen "A" und "B" und wählen *data_ratio*=*attributes_ratio*=0.7 und *n_trees*=10. Dann sollen 10 Bäume mit jeweil 70% der Trainingsdaten und Attrbiute trainiert werden. Diese sollen jeweils zufällig gewählt werden. Taucht in der Ergebnisliste an 3.Stelle das Dictionary {"A": 0.7, "B": 0.3} auf, heißt dass, das der dritte Datenpunkt in den Trainingsdaten zu 70% zu Klasse "A" gehört, weil 7 von 10 Bäumen ihn so klassifizert haben.

In [2]:
import pandas as pd

In [3]:
# Read data from a csv-file.
df = pd.read_csv('house-votes-84-with-header.csv')

# Show the first n elements of the data-frame with optional parameter n (default n=5). 
df.head()

Unnamed: 0,class,handicapped-infants,water-project-cost-sharing,adoption-of-the-budget-resolution,physician-fee-freeze,el-salvador-aid,religious-groups-in-schools,anti-satellite-test-ban,aid-to-nicaraguan-contras,mx-missile,immigration,synfuels-corporation-cutback,education-spending,superfund-right-to-sue,crime,duty-free-exports,export-administration-act-south-africa
0,republican,n,y,n,y,y,y,n,n,n,y,?,y,y,y,n,y
1,republican,n,y,n,y,y,y,n,n,n,n,n,y,y,y,n,?
2,democrat,?,y,y,?,y,y,n,n,n,n,y,n,y,y,n,n
3,democrat,n,y,y,n,?,y,n,n,n,n,y,n,y,n,n,y
4,democrat,y,y,y,n,y,y,n,n,n,n,y,?,y,y,y,y


In [4]:
# Show number of rows (instances) and colums (attributes) of the data-set.
df.shape

(435, 17)

In [5]:
# Select a column.
labels = df['class']

# Get the unique values of a column. Returns a numpy array.
labels.unique()

array(['republican', 'democrat'], dtype=object)

In [7]:
# Select the subset of the data for which an attribute/a column has a given value. Returns a data-frame. 
df_democrats = df.loc[df['class'] == 'democrat']

In [12]:
#First replace the missing values with the up or down attribute von Datapoint
# copy dataset
copied_df = df.copy()
copied_df['class'].unique()

array(['republican', 'democrat'], dtype=object)

In [9]:
#todos:Data preprocessing:
# Ziel: replace missing values ('?') in dataset with the most frequent value of the same attribute within the same class in copy
for column in copied_df.columns:
    if column != 'class':  # Exclude the class label column
        # Iterate through each class ('republican', 'democrat')
        for class_value in copied_df['class'].unique():
            # Find the most common value for the current attribute within the current class, excluding '?'
            most_common_value = copied_df[(copied_df['class'] == class_value) & (copied_df[column] != '?')][column].mode().iloc[0]
            if not most_common_value:
                continue  # Skip if there is no mode value
            # Replace '?' with the most common value for rows where class matches
            copied_df.loc[(copied_df['class'] == class_value) & (copied_df[column] == '?'), column] = most_common_value

In [10]:
copied_df

Unnamed: 0,class,handicapped-infants,water-project-cost-sharing,adoption-of-the-budget-resolution,physician-fee-freeze,el-salvador-aid,religious-groups-in-schools,anti-satellite-test-ban,aid-to-nicaraguan-contras,mx-missile,immigration,synfuels-corporation-cutback,education-spending,superfund-right-to-sue,crime,duty-free-exports,export-administration-act-south-africa
0,republican,n,y,n,y,y,y,n,n,n,y,n,y,y,y,n,y
1,republican,n,y,n,y,y,y,n,n,n,n,n,y,y,y,n,y
2,democrat,y,y,y,n,y,y,n,n,n,n,y,n,y,y,n,n
3,democrat,n,y,y,n,n,y,n,n,n,n,y,n,y,n,n,y
4,democrat,y,y,y,n,y,y,n,n,n,n,y,n,y,y,y,y
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
430,republican,n,n,y,y,y,y,n,n,y,y,n,y,y,y,n,y
431,democrat,n,n,y,n,n,n,y,y,y,y,n,n,n,n,n,y
432,republican,n,y,n,y,y,y,n,n,n,n,y,y,y,y,n,y
433,republican,n,n,n,y,y,y,n,n,n,y,n,y,y,y,n,y


In [11]:
# Save copied_df to a CSV file
copied_df.to_csv('modified_house_votes.csv', index=False)

# Implementierung des Entscheidungsbaums
In diesem Teil implementieren Sie den ID3-Algorithmus.

In [20]:
import numpy as np
from math import ceil # To round up
import random # For sampling etc.

class DecisionTree():
    
    def __init__(self):
        self.children = []
        self.att_missing_val = '?'
        self.att_class = 'class'
        self.is_leaf = False
        # TODO Here you can also change class properties, if you do not need them.
    
    def train(self, data):
        """ Trains this classifier on a given pandas DataFrame.
        The data has categorical attributes and one binary class-attribute (i.e. there exist two classes)."""
        
        unique_classes = data[self.att_class].unique()
        n_classes = len(unique_classes)
        assert(n_classes in {1,2})
        
        # TODO
        #basis Fall:
        #1.Alle Trainingsdatensätze eines Knotens gehören zur selben Klasse.
        #2.Keine weiteren Splitattribute vorhanden.
    
    def to_dictionary(self):
        # TODO

In [21]:
#######Everything under this line is only needed for 6ECTS. Remove it if you just need 3ECTS!######    
def classification(self, data):
        """
        Uses the trained Decision tree to classify all data points of the given DataFrame.
        The data has categorical attributes and one binary class-attribute (i.e. there exist two classes).
        """
        # TODO
        pass

def ensemble(d_train,
             d_test,
             n_trees=10,
             data_ratio=0.7,
             attributes_ratio=0.7):
    """
    Train n_trees for classification, where every tree just uses a sample of the training data
    and the attributes.
    """
  # TODO
    pass

# Ausführung Ihres Algorithmus
Ab hier bitte nichts mehr ändern. Die Datei *plot_tree.py* enthält neben der Methode zum Plotten auch ein Beispiel für die erwartete Datenstruktur.

In [27]:
from plot_tree import plot_tree, example_tree_dict
%matplotlib notebook

# If you remove the comment symbol, you can test whether you've installed graphviz and pydot correctly.
plot_tree(example_tree_dict)

<IPython.core.display.Javascript object>

In [31]:
tree = DecisionTree()
tree.train(copied_df)
print(tree)

<__main__.DecisionTree object at 0x000001B0947DCB50>


In [33]:
plot_tree(tree.to_dictionary(tree))

TypeError: 'DecisionTree' object does not support item assignment

# Ausführung auf alternativem Datensatz
Hier können Sie Ihre Implementierung auf einem weiteren Datensatz testen.

In [None]:
df2 = pd.read_csv('id3-test.csv', header=None)
df2.rename(columns={0: 'class', 1: 'outlook', 2: 'temperature', 3: 'humidity', 4: 'windy'}, inplace='True')
df2 = df2.applymap(str)
df2.head()

In [None]:
tree2 = DecisionTree()
tree2.train(df2)
plot_tree(tree2.to_dictionary())

## Test for 6 ECTS 
Remove if you just need 3ECTS!

In [None]:
def confusion_matrix(predictions, targets):
    """ Returns a tuple (labels, m) where m is the confusion matrix and 
    labels is the list of matrix rows/columns in same order as in the matrix.
    Rows in the confusion matrix indicate the true target label
    whereas the columns indicate the predicted label of samples. """
    assert(len(predictions) == len(targets))
    
    # Map each label to an index.
    unique_vals = list(set(predictions).union(targets))
    mapping = {label: index for index, label in enumerate(unique_vals)}
    
    # Build and fill the confusion matrix.
    m = [[0]*len(mapping) for _ in range(len(mapping))]
    for p, t in zip(predictions, targets):
        row, col = mapping[t], mapping[p]
        m[row][col] += 1
    return unique_vals, m

def accuracy(predictions, targets):
    """ Calculates the accuracy for the given class predictions and true classes."""
    assert(len(predictions) == len(targets))
    n_correct = len([p for p,t in zip(predictions, targets) if p==t])
    return n_correct/len(predictions)

def split_data(df,
              test_size,
              random_state):
    #Shuffle data
    df = df.sample(frac=1,
                   random_state=random_state)
    # Split data
    k = ceil(len(df)*test_size)
    return df[:k], df[k:]

# Do train test split
d_train, d_test = split_data(df, test_size=0.5, random_state=42)
tree = DecisionTree()
tree.train(d_train)
labels = list(d_test["class"])
results = tree.classification(d_test)
classes, matrix = confusion_matrix(results, labels)
accuracy_score = accuracy(labels, results)
print('Confusion matrix:')
print(classes)
for row in matrix:
    print(row)
print('----------')
print("Accuracy: ", accuracy_score)

In [None]:
result = ensemble(d_train, d_test)
result

In [1]:
from IPython.display import display, HTML
display(HTML("<style>.container { width:85% !important; }</style>"))