# **Second assignment: Decision Trees**

Este notebook demonstra a construção e visualização de uma árvore de decisão, com a utilização do algoritmo ID3 para tal.<br/><br/>

## **Exemplo de utilização**

In [38]:
from Dataset import Dataset
from DecisionTree import DecisionTree
from Node import Node
from ID3 import ID3
import pandas as pd



# Lê o dataset weather
dataset = Dataset().readCSV('weather', True)

# Mostra o dataset weather
print('\nWeather Dataset:\n')
try:
    df = pd.read_csv('datasets/weather.csv')
    print(df.head())
except FileNotFoundError:
    print("File not found")


# Cria a árvore de decisão
weatherDecisionTree = DecisionTree(dataset)

# Mostra a árvore de decisão
print('\nWeather Tree:\n')
weatherDecisionTree.DFSPrint()
print("\n\n")



# Lê o dataset restaurant
dataset = Dataset().readCSV('restaurant', True)

# Mostra o dataset restaurant
print('\nRestaurant Dataset:\n')
try:
    df = pd.read_csv('datasets/restaurant.csv')
    print(df.head())
except FileNotFoundError:
    print("File not found")

# Cria a árvore de decisão
restaurantDecisionTree = DecisionTree(dataset)

# Mostra a árvore de decisão
print('\nRestaurant Tree:\n')
restaurantDecisionTree.DFSPrint()
print("\n\n")



# Lê o dataset iris
dataset = Dataset().readCSV('iris', True)

# Mostra o dataset iris
print('\nIris Dataset:\n')
try:
    df = pd.read_csv('datasets/iris.csv')
    print(df.head())
except FileNotFoundError:
    print("File not found")

# Cria a árvore de decisão
irisDecisionTree = DecisionTree(dataset)

# Mostra a árvore de decisão
print('\nIris Tree:\n')
irisDecisionTree.DFSPrint()



Weather Dataset:

   ID   Weather  Temp  Humidity  Windy Play
0   1     sunny    85        85  False   no
1   2     sunny    80        90   True   no
2   3  overcast    83        86  False  yes
3   4     rainy    70        96  False  yes
4   5     rainy    68        80  False  yes

Weather Tree:

<Temp>
	85: no
	80: no
	83: yes
	70: yes
	68: yes
	65: no
	64: yes
	72:
		<Weather>
			sunny: no
			overcast: yes
	69: yes
	75: yes
	81: yes
	71: no




Restaurant Dataset:

   ID  Alt  Bar  Fri  Hun   Pat Price Rain  Res    Type    Est Class
0  X1  Yes   No   No  Yes  Some   $$$   No  Yes  French   0-10   Yes
1  X2  Yes   No   No  Yes  Full     $   No   No    Thai  30-60    No
2  X3   No  Yes   No   No  Some     $   No   No  Burger   0-10   Yes
3  X4  Yes   No  Yes  Yes  Full     $   No   No    Thai  10-30   Yes
4  X5  Yes   No  Yes   No  Full   $$$   No  Yes  French    >60    No

Restaurant Tree:

<Pat>
	Some: Yes
	Full:
		<Res>
			Thai:
				<Fri>
					No: No
					Yes: Yes
			French: No
			

## **Estruturas de Dados: Nó**

In [39]:
class Node():

    def __init__(self, attribute, value, label, isClass = False):
        self.attribute = attribute
        self.isClass = isClass
        self.label = label
        self.value = value
        if (not isClass):
            self.neighbours = []

    def addNeighbour(self, neighbour):
        self.neighbours.append(neighbour)
    
    def getNeighbours(self):
        return self.neighbours
        
    def getAttribute(self):
        return self.attribute

    def getValue(self):
        return self.value

#### **Construtor da classe**

In [40]:
def __init__(self, attribute, value, label, isClass = False):
        self.attribute = attribute
        self.isClass = isClass
        self.label = label
        self.value = value
        if (not isClass):
            self.neighbours = []

Parâmetros:

- 'attribute': Representa o atributo pelo qual o nó é dividido. Se 'isClass' for 'True', este representa a classe final do nó.
- 'value': Representa o valor do nó.
- 'isClass': (Opcional, por omissão é False) Um valor booleano que nos indica se o nó representa uma classe final (folha).
- 'label': É o nome do atributo em questão.<br/><br/>

Atributos:

- Guarda todos os valores anteriormente mencionados (attribute, value, isClass, label).
- 'self.neighbours' - Inicializa uma lista vazia para guardar os vizinhos (filhos) do nó, caso não seja uma classe final (folha).<br/><br/>

#### **Métodos**

Todos os métodos desta estrutura de dados são apenas getters da informação já anteriormente apresentada.

In [41]:
def getNeighbours(self):
        return self.neighbours
        
def getAttribute(self):
    return self.attribute

def getValue(self):
    return self.value

No entanto, existe uma exceção no método 'addNeighbour':

In [42]:
def addNeighbour(self, neighbour):
        self.neighbours.append(neighbour)

Este método permite-nos de facto fazer alterações no nó. Com o mesmo podemos adicionar nós vizinhos à lista criada no dado nó.<br/><br/>

## **Decision Tree Learning Algorithm: ID3**

O seguinte código define uma classe 'ID3', para a construção de uma árvore de decisão usando o algoritmo ID3. Este algoritmo é um método fundamental na classificação de dados e para a tomada de decisões. 


In [43]:
import numpy as np

class ID3():  

    def __init__(self, dataset):
        self.dataset = dataset
        self.dataSetEntropy = self.__calcDatasetEntorpy()
        self.bestAtributte = self.__getBestGainAtributte()

    def __Entropy(self, X):
        sum = 0
        for i in X:
            if (X[i] == 1.0): return 0
            sum += -(X[i]) * np.log2(X[i])
        return sum
    
    def __calcDatasetEntorpy(self):
        values = {}
        for line in range(0, self.dataset.lines):
            value = self.dataset.getValue(line, self.dataset.cols-1)
            if (not (value in values)):
                values[value] = 1
            else:
                values[value] += 1

        for key in values:
            values[key] /= self.dataset.lines

        return self.__Entropy(values)
    
    def __getBestGainAtributte(self):
        maxGain = float('-inf')
        colMax = 0
        valuesMax = {}
        for j in range(0, self.dataset.cols-1):
            values = {}
            gain = self.dataSetEntropy
            for i in range(0, self.dataset.lines):
                value = self.dataset.getValue(i, j)

                if (not (value in values)):
                    values[value] = {"total": 0}
                
                classVar = self.dataset.getValue(i, self.dataset.cols-1)

                if (not (classVar in values[value])):
                    values[value][classVar] = 1
                else:
                    values[value][classVar] += 1
                
                values[value]["total"] += 1

            for key in values:
                for key2 in values[key]:
                    if key2 != "total":
                        values[key][key2] /= values[key]["total"]
                total = values[key].pop("total")
                gain -= (total/self.dataset.lines) * self.__Entropy(values[key])
                values[key]["total"] = total

            if (gain > maxGain):
                maxGain = gain
                colMax = j
                valuesMax = values

        return colMax, valuesMax

De seguida, iremos apresentar detalhadamente a classe e os métodos.<br/><br/>

### **Classe: 'ID3'**

A classe 'ID3' contém métodos para calcular a entropia de um dado conjunto de dados (dataset), determinar o melhor atributo para separar os dados, e inicializar a construção da árvore de decisão.<br/><br/>


#### **Construtor da classe**

In [44]:
def __init__(self, dataset):
    self.dataset = dataset
    self.dataSetEntropy = self.__calcDatasetEntropy()
    self.bestAtributte = self.__getBestGainAttribute()

Parâmetros:

- 'dataset' - Uma instância de um dataset do tipo csv.<br/><br/>

Atributos:

- 'self.dataset' - Guarda o dataset fornecido.
- 'self.dataSetEntropy' - Guarda a entropia de todo o dataset, calculado pelo método '__calcDatasetEntropy'.
- 'self.bestAttribute' - Guarda o melhor atributo para depois separar o dataset, calculado por '__getBestGainAttribute'.<br/><br/>

#### **Método: Entropia**

Este método calcula a entropia do dataset, que mede a incerteza do mesmo.

In [45]:
import numpy as np

class ID3():  

    def __init__(self, dataset):
        self.dataset = dataset
        self.dataSetEntropy = self.__calcDatasetEntorpy()
        self.bestAtributte = self.__getBestGainAtributte()

    def __Entropy(self, X):
        sum = 0
        for i in X:
            if (X[i] == 1.0): return 0
            sum += -(X[i]) * np.log2(X[i])
        return sum
    
    def __calcDatasetEntorpy(self):
        values = {}
        for line in range(0, self.dataset.lines):
            value = self.dataset.getValue(line, self.dataset.cols-1)
            if (not (value in values)):
                values[value] = 1
            else:
                values[value] += 1

        for key in values:
            values[key] /= self.dataset.lines

        return self.__Entropy(values)
    
    def __getBestGainAtributte(self):
        maxGain = float('-inf')
        colMax = 0
        valuesMax = {}
        for j in range(0, self.dataset.cols-1):
            values = {}
            gain = self.dataSetEntropy
            for i in range(0, self.dataset.lines):
                value = self.dataset.getValue(i, j)

                if (not (value in values)):
                    values[value] = {"total": 0}
                
                classVar = self.dataset.getValue(i, self.dataset.cols-1)

                if (not (classVar in values[value])):
                    values[value][classVar] = 1
                else:
                    values[value][classVar] += 1
                
                values[value]["total"] += 1

            for key in values:
                for key2 in values[key]:
                    if key2 != "total":
                        values[key][key2] /= values[key]["total"]
                total = values[key].pop("total")
                gain -= (total/self.dataset.lines) * self.__Entropy(values[key])
                values[key]["total"] = total

            if (gain > maxGain):
                maxGain = gain
                colMax = j
                valuesMax = values

        return colMax, valuesMax


Parâmetros:

- 'X' - Um dicionário que representa a distribuição de frequência das classes.<br/><br/>

Retorno:

- Retorna a entropia do dataset.<br/><br/>

**Cálculo da entropia:**

A entropia é calculada segundo a seguinte fórmula:<br/><br/>

$$H(X) = -\sum p(x) \log_2 p(x)$$

Onde p(x) é a probabilidade da classe x.<br/><br/>

#### **Método: Cálculo da Entropia**

Este método calcula a entropia do dataset inteiro, primeiro determinando a distribuição de frequência das classes e depois aplicando a fórmula de cálculo da entropia (conforme apresentada anteriormente).

In [46]:
def __calcDatasetEntorpy(self):
        values = {}
        for line in range(0, self.dataset.lines):
            value = self.dataset.getValue(line, self.dataset.cols-1)
            if (not (value in values)):
                values[value] = 1
            else:
                values[value] += 1

        for key in values:
            values[key] /= self.dataset.lines

        return self.__Entropy(values)                                              # Calculamos a entropia do dataset

Resumo:

1. É criado um dicionário 'values' vazio, onde iremos guardar a contagem de ocorrências de cada classe.

2. Percorremos cada linha do conjunto de dados, obtemos o valor de cada classe e atualizamos o dicionário 'values' para contar quantas vezes cada classe aparece no dataset.

Retorno:

- Retorna a entropia do dataset, invocando o método '__Entropy' apresentado anteriomente.<br/><br/>

#### **Método: Obter o atributo com maior ganho**

Este método determina qual o atributo (coluna) do dataset proporciona o maior ganho de informação. Este ganho é usado para decidir qual atributo usar para dividir os dados em cada nó da árvore de decisão.

In [47]:
def __getBestGainAtributte(self):
        maxGain = float('-inf')
        colMax = 0
        valuesMax = {}
        for j in range(0, self.dataset.cols-1):
            values = {}
            gain = self.dataSetEntropy
            for i in range(0, self.dataset.lines):
                value = self.dataset.getValue(i, j)

                if (not (value in values)):
                    values[value] = {"total": 0}
                
                classVar = self.dataset.getValue(i, self.dataset.cols-1)

                if (not (classVar in values[value])):
                    values[value][classVar] = 1
                else:
                    values[value][classVar] += 1
                
                values[value]["total"] += 1

            for key in values:
                for key2 in values[key]:
                    if key2 != "total":
                        values[key][key2] /= values[key]["total"]
                total = values[key].pop("total")
                gain -= (total/self.dataset.lines) * self.__Entropy(values[key])
                values[key]["total"] = total

            if (gain > maxGain):
                maxGain = gain
                colMax = j
                valuesMax = values

        return colMax, valuesMax

Resumo:

1. Iteramos sobre cada atributo (coluna) do dataset.

2. Contamos as ocorrências de cada valor do atributo e das classes.

3. Calculamos o ganho de informação para o atributo.

4. Atualizamos o maior ganho e a melhor coluna, se necessário.

Retorno:

- Retorna um tuplo '(colMax, valuesMax)', onde o colMax representa o index do atributo (coluna) com o maior ganho de informação e valuesMax.<br/><br/>

## **Árvore de Decisão**

Já definidos o ID3 e a estrutura de dados Node, podemos por fim definir a Árvore de Decisão.

In [48]:
from ID3 import ID3
from Node import Node
from Dataset import Dataset
import copy

class DecisionTree():

    def __init__(self, dataset):
        self.initialDataset = dataset
        self.root = self.__generateNode(dataset)

    def __generateNode(self, dataset, tabI=0, numRemovedColumns=0, value=None):
        attribute, values = ID3(dataset).bestAtributte
        node = Node(attribute, value, dataset.header[attribute])

        for key in values:
            isClass = False
            for key2 in values[key]:
                if (key2 != "total"):
                    if (values[key][key2] == 1.0):
                        node.addNeighbour(Node(key2, key, None, True))
                        isClass = True
                        break
            if (not isClass):
                #cuts the dataset
                datasetCopy = dataset.copy()
                linestoRemove = []
                for i in range(len(datasetCopy.array)):
                    if (datasetCopy.array[i][attribute] != key):
                        linestoRemove.append(i)

                for x in sorted(linestoRemove, reverse=True):
                    datasetCopy.removeLine(x)

                datasetCopy.removeColumn(attribute)

                # generates the child node
                node.addNeighbour(self.__generateNode(datasetCopy, tabI+2, numRemovedColumns+1, key))

        return node

    def DFSPrint(self, tabI = 0, node = None):
        
        if (node == None):
            node = self.root
        
        print('\t'*tabI + '<'+node.label+'>')
        
        for currentNode in node.getNeighbours():

            if (currentNode.isClass):
                print(('\t'*(tabI+1))+currentNode.getValue()+': ' + currentNode.getAttribute())

            else:
                print(('\t'*(tabI+1))+currentNode.getValue()+':')
                self.DFSPrint(tabI+2, currentNode)

    def classifyMultipleExamples(self, path, file):

        dataset = Dataset().readCSV(path, file, True, False)
        for line in range(dataset.lines):
            self.classifyExample(copy.deepcopy(dataset), line)

        return
    
    def classifyExample(self, dataset, line):

        actualNode = self.root
        value = dataset.array[line][actualNode.getAttribute()]

        while (actualNode.isClass != True):
            
            neighbours = actualNode.getNeighbours()
            
            found = False
            for node in (neighbours):
                if node.getValue() == value:
                    actualNode = node
                    found = True
                    break

            if (found == False): return -1

            if (actualNode.isClass != True):
                value = dataset.array[line][(actualNode.getAttribute())]
                dataset.removeColumn(actualNode.getAttribute())

        # print('Line ' + str(line+1) + ' Class: ' + actualNode.getAttribute())
    
        return actualNode.getAttribute()

#### **Construtor da classe**

In [49]:
def __init__(self, dataset):
        self.initialDataset = dataset
        self.root = self.__generateNode(dataset)                               

Parâmetros:

- 'dataset' - Uma instância de um dataset do tipo csv.<br/><br/>

Atributos:

- 'self.initialDataset' - Guarda o dataset original.
- 'self.root' - Armazena o nó raiz da árvore, gerado pela função '__generateNode'.

#### **Método: Criar nós**

O método faz uma construção recursiva da árvre de decisão, criando nós para os melhores atributos e nós filhos para os respetivos valores. Isto acontece até que todos os dados sejam classificados como folhas.

In [50]:
def __generateNode(self, dataset, tabI=0, numRemovedColumns=0, value=None):
        attribute, values = ID3(dataset).bestAtributte
        node = Node(attribute, value, dataset.header[attribute])

        for key in values:
            isClass = False
            for key2 in values[key]:
                if (key2 != "total"):
                    if (values[key][key2] == 1.0):
                        node.addNeighbour(Node(key2, key, None, True))
                        isClass = True
                        break
            if (not isClass):
                #cuts the dataset
                datasetCopy = dataset.copy()
                linestoRemove = []
                for i in range(len(datasetCopy.array)):
                    if (datasetCopy.array[i][attribute] != key):
                        linestoRemove.append(i)

                for x in sorted(linestoRemove, reverse=True):
                    datasetCopy.removeLine(x)

                datasetCopy.removeColumn(attribute)

                # generates the child node
                node.addNeighbour(self.__generateNode(datasetCopy, tabI+2, numRemovedColumns+1, key))

        return node                                                                # Retornamos o nó

Resumo:

1. Identificamos o melhor atributo para dividr os dados usando o algoritmo ID3.

2. Criamos um nó com esse atributo como raiz da subárvore.

3. Para cada valor do atributo, geramos nós filhos/folhas.

4. Os nós filhos representam ramificações da árvore com base nos próximos melhores atributos.<br/><br/>

Retorno:

- Retorna o nó raiz da árvore de decisão, que inclui recursivamente nós filhos para cada valor do melhor atributo identificado no dataset.<br/><br/>

#### **Método: Imprimir segundo um DFS**

O método imprime hierarquicamente a árvore de decisão, aplicando uma pesquisa em profundidade (DFS) na mesma.

In [51]:
def DFSPrint(self, tabI = 0, node = None):
        
        if (node == None):
            node = self.root
        
        print('\t'*tabI + '<'+node.label+'>')
        
        for currentNode in node.getNeighbours():

            if (currentNode.isClass):
                print(('\t'*(tabI+1))+currentNode.getValue()+': ' + currentNode.getAttribute())

            else:
                print(('\t'*(tabI+1))+currentNode.getValue()+':')
                self.DFSPrint(tabI+2, currentNode)                                                  # Chamamos a função recursivamente para imprimir os nós filhos

- Facilita a compreensão da estrutura da árvore de decisão.

- Permite uma visualização clara dos atributos e valores em cada nível da árvore.