# **Second assignment: Decision Trees**

Este notebook demonstra a construção e visualização de uma árvore de decisão, com a utilização do algoritmo ID3 para tal.<br/><br/> O main.py contem uma interface para utilização das ferramentas e features disponíveis.

## **Datasets**

### Weather Dataset

Decision Tree for normal dataset:

In [None]:
from Dataset import Dataset
from DecisionTree import DecisionTree

weatherDecisionTree = DecisionTree(Dataset().readCSV('datasets/', 'weather', True)) # Árvore do dataset (weather.csv)
weatherDecisionTree.DFSPrint()

Decision Tree for discretized dataset (for numerical values):

In [None]:
from Dataset import Dataset
from DecisionTree import DecisionTree

weatherDecisionBinning = DecisionTree(Dataset().readCSV('datasets/', 'weather', True, True, None, 3), True) # Árvore do dataset (weather.csv) com os valores numéricos discretizados
weatherDecisionBinning.DFSPrint()

### Restaurant Dataset

In [None]:
from Dataset import Dataset
from DecisionTree import DecisionTree

restaurantTree = DecisionTree(Dataset().readCSV('datasets/', 'restaurant', True)) # Árvore do dataset (restaurant.csv)
restaurantTree.DFSPrint()

### Iris Dataset

Decision Tree for discretized dataset:

In [None]:
from Dataset import Dataset
from DecisionTree import DecisionTree

irisDecisionTree = DecisionTree(Dataset().readCSV('datasets/', 'iris', True)) # Árvore do dataset (iris.csv)
irisDecisionTree.DFSPrint()

Decision Tree for discretized dataset (for numerical values):

In [None]:
from Dataset import Dataset
from DecisionTree import DecisionTree

irisDecisionTreeBinning = DecisionTree(Dataset().readCSV('datasets/', 'iris', True, True, None, 3), True) # Árvore do dataset (iris.csv) com os valores numéricos discretizados
irisDecisionTreeBinning.DFSPrint()

In [None]:
def genHeader():
    header = []

    # Formato -> coluna-linha
    for i in range (7):
        for j in range (6):
            pos = str(i) + '-' + str(j)
            header.append(pos)

    return header

fourgameTree = DecisionTree(Dataset().readCSV('datasets/', 'connect4', False, False, genHeader())) # Árvore do dataset (connect4.csv)
fourgameTree.DFSPrint()

## **Estruturas de Dados**

### **Node**

In [None]:
class Node():

    def __init__(self, attribute, value, label, isClass = False, counter = None):
        self.attribute = attribute
        self.isClass = isClass
        self.label = label
        self.value = value
        if (not isClass):
            self.neighbours = []
        else:
            self.counter = counter

    def addNeighbour(self, neighbour):
        self.neighbours.append(neighbour)
    
    def getNeighbours(self):
        return self.neighbours
        
    def getAttribute(self):
        return self.attribute

    def getValue(self):
        return self.value

#### Construtor da classe

In [None]:
def __init__(self, attribute, value, label, isClass = False, counter = None):
    self.attribute = attribute
    self.isClass = isClass
    self.label = label
    self.value = value
    if (not isClass):
        self.neighbours = []
    else:
        self.counter = counter

Atributos:

- 'attribute': Representa o atributo pelo qual o nó é dividido. Se 'isClass' for 'True', este representa a classe final do nó.

- 'value': Representa o valor do nó.

- 'isClass': (Opcional, por omissão é False) Um valor booleano que nos indica se o nó representa uma classe final (folha).

- 'label': Nome do atributo em questão.

- 'neighbours' - Inicializa uma lista vazia para guardar os vizinhos (filhos) do nó, caso não seja um nó classe (folha).

- 'counter' - Número de exemplos do dataset que levam ao valor indicado pelo nó caso seja classe<br/><br/>

#### Métodos

Todos os métodos desta estrutura de dados são apenas getters da informação já anteriormente apresentada.

In [None]:
def getNeighbours(self):
        return self.neighbours
        
def getAttribute(self):
    return self.attribute

def getValue(self):
    return self.value

No entanto, existe uma exceção no método 'addNeighbour':

In [None]:
def addNeighbour(self, neighbour):
        self.neighbours.append(neighbour)

Este método permite-nos de facto fazer alterações no nó. Com o mesmo podemos adicionar nós vizinhos à lista criada no dado nó.<br/><br/>

## **DataSet**

A classe seguinte, permite-nos manipular os dados do dataset como uma matriz.

In [None]:
import csv                                                                              
import copy                                                                             

class Dataset():

    def __init__(self, dataset=None, header=None):                                      
        if (dataset != None) and (header != None):                                      
            self.array = dataset                                                        
            self.header = header                                                        
            self.lines = len(self.array)                                                
            self.cols = len(self.array[0])                                              
    
    def readCSV(self, path, filename, hasId=False, hasHeader=True, headerInput=None):   
        csvFile = open(path + filename + '.csv', 'r')                                   
        reader = csv.reader(csvFile)                                                    

        if hasHeader:                                                                   
            self.header = next(reader)                                                  
            self.header.pop(0)                                                          
        else:
            self.header = headerInput                                                   

        self.array = []                                                                 
        for row in reader:                                                              
            self.array.append(row)                                                      

        if hasId:                                                                       
            for i in range(len(self.array)):                                            
                self.array[i].pop(0)                                                    

        self.lines = len(self.array)                                                    
        self.cols = len(self.array[0])                                                  
        return self                                                                     
    
    def getValue(self, line, col):                                                      
        return self.array[line][col]

    def copy(self):                                                                     
        return Dataset(copy.deepcopy(self.array), copy.deepcopy(self.header))
    
    def removeLine(self, line):                                                         
        self.array.pop(line)                                                            
        self.lines -= 1                                                                

    def removeColumn(self, col):                                                        
        if self.header: self.header.pop(col)                                            
        for i in range(len(self.array)):                                                
            self.array[i].pop(col)                                                     
        self.cols -= 1                                                                 

#### **Construtor da classe**

In [None]:
def __init__(self, dataset = None, header = None):                                  # Inicializa a classe Dataset com dataset e header opcionais
    if ((dataset != None) and (header != None)):                                    # Verifica se dataset e header não são None
        self.array = dataset                                                        # Atribui dataset ao atributo array da instância
        self.header = header                                                        # Atribui header ao atributo header da instância
        self.lines = len(self.array)                                                # Calcula e armazena o número de linhas do dataset
        self.cols = len(self.array[0])                                              # Calcula e armazena o número de colunas do dataset

#### **Atributos:**
- 'self.array': Armazena os dados do dataset. 

- 'self.header': Armazena os nomes das colunas.

- 'self.lines': Armazena o número de linhas no dataset.

- 'self.cols': Armazena o número de colunas no dataset.

#### **Métodos**

O método 'readCSV':
- Lê um arquivo CSV e carrega os seus dados para a instância do Dataset.

In [None]:
def readCSV(self, path, filename, hasId=False, hasHeader=True, headerInput = None, binCount = None): # Lê um arquivo CSV e carrega os dados no dataset
        csvFile = open(path+filename+'.csv', 'r')                                   # Abre o arquivo CSV no modo de leitura
        reader = csv.reader(csvFile)                                                # Cria um objeto reader para iterar sobre as linhas do CSV

        if (hasHeader == True):                                                     # Se o arquivo CSV tem um cabeçalho
            self.header = next(reader)                                              # Lê a primeira linha como cabeçalho
            self.header.pop(0)                                                      # Remove o primeiro elemento do cabeçalho (presumivelmente um ID)
        else:
            self.header = headerInput                                               # Se não houver cabeçalho, usa o headerInput fornecido

        self.array = []                                                             # Inicializa o array para armazenar os dados
        for row in reader:                                                          # Itera sobre as linhas restantes do CSV
            self.array.append(row)                                                  # Adiciona cada linha ao array

        if (hasId):                                                                 # Se as linhas têm um ID
            for i in range(len(self.array)):                                        # Itera sobre todas as linhas
                self.array[i].pop(0)                                                # Remove o primeiro elemento de cada linha (presumivelmente um ID)

        self.lines = len(self.array)                                                # Calcula e armazena o número de linhas do array
        self.cols = len(self.array[0])                                              # Calcula e armazena o número de colunas do array

        if (binCount != None):                                                      # Se binCount não for None                
            self.binning(binCount)                                                  # Chama a função binning com o valor de binCount
            
        return self                                                                 # Retorna a instância do dataset

O método 'getValue':
- Retorna o valor armazenado numa célula específica do dataset, identificada pelos índices da linha e coluna fornecidos.

In [None]:
def getValue(self, line, col):                                                      # Retorna o valor na linha e coluna especificadas
        return self.array[line][col]

O método 'copy':
- Este método retorna uma cópia profunda da instância do Dataset, garantindo que alterações na cópia não afetem o original.

In [None]:
def copy(self):                                                                     # Retorna uma cópia profunda do dataset
        return Dataset(copy.deepcopy(self.array), copy.deepcopy(self.header))

O método 'removeLine':
- Este método remove uma linha específica do dataset, identificada pelo índice fornecido.

In [None]:
def removeLine(self, line):                                                         # Remove a linha especificada do dataset
        self.array.pop(line)                                                        # Remove a linha do array
        self.lines -= 1                                                             # Decrementa o contador de linhas

O método 'removeColumn':
- Este método remove uma coluna específica do dataset, identificada pelo índice fornecido. Se existir um cabeçalho, ele também é atualizado.

In [None]:
def removeColumn(self, col):                                                        # Remove a coluna especificada do dataset
        if (self.header): self.header.pop(col)                                      # Se houver um cabeçalho, remove a coluna correspondente
        for i in range(len(self.array)):                                            # Itera sobre todas as linhas do array
            self.array[i].pop(col)                                                  # Remove a coluna de cada linha
        self.cols -= 1                                                              # Decrementa o contador de colunas

O método 'binning':
- Este método junta os valores númericos em "bin" (intervalos), diminuindo o tamanha do dataset mas levando a uma pequena perda de informação em alguns casos.

In [None]:
def binning(self, binCount):                                                        # Bins continuous data into discrete intervals.
    for col in range(self.cols - 1):                                                # Assuming last column is the target
        try:                                                                        # Check if column is numeric
            colData = [float(self.array[i][col]) for i in range(self.lines)]        # Convert column data to float
        except ValueError:                                                          # If column is not numeric, skip
            continue                                                                

        minVal, maxVal = min(colData), max(colData)                                 # Get min and max values of column
        binWidth = (maxVal - minVal) / binCount                                     # Calculate bin width
        bins = [minVal + i * binWidth for i in range(binCount + 1)]                 # Create bins

        for i in range(self.lines):                                                 # Iterate through rows
            value = float(self.array[i][col])                                       # Get value of cell
            for b in range(len(bins) - 1):                                          # Iterate through bins
                if (bins[b] <= value < bins[b + 1]):                                # Check if value is within bin
                    self.array[i][col] = f"{bins[b]:.2f}-{bins[b + 1]:.2f}"         # Replace value with bin range
                    break                                                           # Exit loop
                else:                                                               # If value is not within bin
                    self.array[i][col] = f"{bins[-2]:.2f}-{bins[-1]:.2f}"           # Replace value with last bin range

## **Decision Tree Learning Algorithm: ID3**

O seguinte código define uma classe 'ID3', para a construção de uma árvore de decisão usando o algoritmo ID3. Este algoritmo é um método fundamental na classificação de dados e para a tomada de decisões. 


In [None]:
import numpy as np

class ID3():  

    def __init__(self, dataset):
        self.dataset = dataset
        self.dataSetEntropy = self.__calcDatasetEntorpy()
        self.bestAtributte = self.__getBestGainAtributte()

    # Função de cálculo da entropia de determinado array com valores das classes 
    def __Entropy(self, X):
        sum = 0
        for i in X:
            if (X[i] == 1.0): return 0
            sum += -(X[i]) * np.log2(X[i])
        return sum
    
    # Função de cálculo da entropia do dataset
    def __calcDatasetEntorpy(self):
        values = {}
        for line in range(0, self.dataset.lines):
            value = self.dataset.getValue(line, self.dataset.cols-1)
            if (not (value in values)):
                values[value] = 1
            else:
                values[value] += 1

        for key in values:
            values[key] /= self.dataset.lines

        return self.__Entropy(values)
    
    # Função de decisão e escolha do melhor atributo do dataset apresentado
    def __getBestGainAtributte(self):
        maxGain = float('-inf')
        colMax = 0
        valuesMax = {}
        for j in range(0, self.dataset.cols-1):
            values = {}
            gain = self.dataSetEntropy
            for i in range(0, self.dataset.lines):
                value = self.dataset.getValue(i, j)

                if (not (value in values)):
                    values[value] = {"total": 0}
                
                classVar = self.dataset.getValue(i, self.dataset.cols-1)

                if (not (classVar in values[value])):
                    values[value][classVar] = 1
                else:
                    values[value][classVar] += 1
                
                values[value]["total"] += 1

            for key in values:
                for key2 in values[key]:
                    if key2 != "total":
                        values[key][key2] /= values[key]["total"]
                total = values[key].pop("total")
                gain -= (total/self.dataset.lines) * self.__Entropy(values[key])
                values[key]["total"] = total

            if (gain > maxGain):
                maxGain = gain
                colMax = j
                valuesMax = values

        return colMax, valuesMax

De seguida, iremos apresentar detalhadamente a classe e os métodos.<br/><br/>

### **Classe: 'ID3'**

A classe 'ID3' contém métodos para calcular a entropia de um dado conjunto de dados (dataset), determinar o melhor atributo para separar os dados, e inicializar a construção da árvore de decisão.<br/><br/>


#### **Construtor da classe**

In [None]:
def __init__(self, dataset):
    self.dataset = dataset
    self.dataSetEntropy = self.__calcDatasetEntropy()
    self.bestAtributte = self.__getBestGainAttribute()

Atributos:

- 'dataset' - Guarda o dataset fornecido (Instância da classe Dataset).

- 'dataSetEntropy' - Guarda a entropia de todo o dataset, calculado pelo método '__calcDatasetEntropy'.

- 'bestAttribute' - Guarda o melhor atributo do dataset (ou seja o atributo ganho máximo), calculado por '__getBestGainAttribute'.<br/><br/>

#### **Método: Entropia**

Este método calcula a entropia do dataset, que mede a incerteza do mesmo.

In [None]:
def __Entropy(self, X):
    sum = 0                                                                     # Inicializamos a soma com 0
    for i in X:                                                                 # Para cada elemento do dicionário X
        if (X[i] == 1.0): return 0                                              # Se o valor do elemento for 1, a entropia é 0
        sum += -(X[i]) * np.log2(X[i])                                          # Caso contrário, a soma fica com o simétrico do valor do elemento multiplicado pelo logaritmo de base 2 do valor do mesmo
    return sum                                                                  # Retornamos a soma


Parâmetros:

- 'X' - Um dicionário que representa a distribuição de frequência das classes.<br/><br/>

Retorno:

- Retorna a entropia do dataset.<br/><br/>

**Cálculo da entropia:**

A entropia é calculada segundo a seguinte fórmula:<br/><br/>

$$H(X) = -\sum p(x) \log_2 p(x)$$

Onde p(x) é a probabilidade da classe x.<br/><br/>

#### **Método: Cálculo da Entropia**

Este método calcula a entropia do dataset inteiro, primeiro determinando a distribuição de frequência das classes e depois aplicando a fórmula de cálculo da entropia (conforme apresentada anteriormente).

In [None]:
def __calcDatasetEntropy(self):
    values = {}                                                                 # Dicionário para guardar a contagem de ocorrencias de cada classe
    for line in range(0, self.dataset.lines):                                   # Para cada linha do dataset                
        value = self.dataset.getValue(line, self.dataset.cols - 1)              # Obtemos o valor da classe
        if (not (value in values)):
            values[value] = 1                                                   # Se o valor ainda não estiver no dicionário, inicialziamos com o valor 1
        else:
            values[value] += 1                                                  # Caso já esteja no dicionário, incrementamos o valor em 1

    for key in values:                                                          # Para cada par chave-valor no dicionário                                           
        values[key] /= self.dataset.lines                                       # Calculamos a probabilidade de cada classe dividindo o número de ocorrencias pelo número total de linhas

    return self.__Entropy(values)                                               # Calculamos a entropia do dataset

Resumo:

1. É criado um dicionário 'values' vazio, onde iremos guardar a contagem de ocorrências de cada classe.

2. Percorremos cada linha do conjunto de dados, obtemos o valor de cada classe e atualizamos o dicionário 'values' para contar quantas vezes cada classe aparece no dataset.

Retorno:

- Retorna a entropia do dataset, invocando o método '__Entropy' apresentado anteriomente.<br/><br/>

#### **Método: Obter o atributo com maior ganho**

Este método determina qual o atributo (coluna) do dataset proporciona o maior ganho de informação. Este ganho é usado para decidir qual atributo usar para dividir os dados em cada nó da árvore de decisão.

In [None]:
def __getBestGainAttribute(self):
    maxGain = float('-inf')                                                     # Inicializamos o ganho máximo com o menor valor possível, para garantir que qualquer ganho seja maior
    colMax = 0                                                                  # Inicializamos colmax a 0, que representa o índice da coluna com o maior ganho                         
    valuesMax = {}                                                              # Inicializamos valuesMax como um dicionário vazio, que guardará os valores de cada atributo da coluna com o maior ganho
    for j in range(0, self.dataset.colls - 1):                                  # Para cada coluna do dataset, exceto a última (que contém as classes)
        values = {}                                                             # Inicializamos um dicionário vazio para guardar os valores de cada valor do atributo
        gain = self.dataSetEntropy                                              # Inicializamos o ganho com a entropia do dataset
        for i in range(0, self.dataset.lines):                                  # Para cada linha do dataset
            value = self.dataset.getValue(i, j)                                 # Obtemos o valor do atributo na coluna j

            if (not (value in values)):                                         # Se o valor ainda não estiver no dicionário de valores                                  
                values[value] = {"total": 0}                                    # Inicializamos o valor no dicionário com um dicionário vazio, que guardará a contagem de cada classe

            classVar = self.dataset.getValue(i, self.dataset.colls - 1)         # Obtemos o valor da classe

            if (not (classVar in values[value])):                               # Se a classe ainda não estiver no dicionário do valor do atributo
                values[value][classVar] = 1                                     # Inicializamos a classe no dicionário do valor value com o valor 1
            else:                                                               # Caso contrário
                values[value][classVar] += 1                                    # Incrementamos o valor da classe no dicionário do valor value

            values[value]["total"] += 1                                         # Incrementamos o total de valores do atributo

        for key in values:                                                      # Para cada chave no dicionário de valores                            
            for key2 in values[key]:                                            # Para cada chave no dicionário de valores do atributo                      
                if key2 != "total":                                             # Se a chave não for "total"                            
                    values[key][key2] /= values[key]["total"]                   # Calculamos a probabilidade de cada classe dividindo o número de ocorrências pelo número total de valores do atributo
            total = values[key].pop("total")                                    # Removemos o total do dicionário de valores do atributo
            gain -= (total / self.dataset.lines) * self.__Entropy(values[key])  # Calculamos o ganho subtraindo a entropia do atributo multiplicada pela probabilidade do atributo
            values[key]["total"] = total                                        # Recuperamos o total do dicionário de valores do atributo

        if (gain > maxGain):                                                    # Se o ganho for maior que o ganho máximo
            maxGain = gain                                                      # Atualizamos o ganho máximo
            colMax = j                                                          # Atualizamos o índice da coluna com o maior ganho
            valuesMax = values                                                  # Atualizamos os valores do atributo da coluna com o maior ganho

    return colMax, valuesMax                                                    # Retornamos o índice da coluna com o maior ganho e os valores de cada atributo da coluna

Resumo:

1. Iteramos sobre cada atributo (coluna) do dataset.

2. Contamos as ocorrências de cada par (valor do atributo classe) e o total de linhas de cada valor do atributo (para calculo da probabilidade).

3. Calculamos o ganho de informação para o atributo.

4. Atualizamos o maior ganho e a melhor coluna, se necessário.

Retorno:

- Retorna um tuplo '(colMax, valuesMax)', onde o colMax representa o index do atributo (coluna) com o maior ganho de informação e valuesMax que são os diferentes valores do atributo e as suas frequências.<br/><br/>

## **Árvore de Decisão**

Já definidos o ID3 e a estrutura de dados Node, podemos por fim definir a Árvore de Decisão.

In [None]:
from ID3 import ID3
from Node import Node
from Dataset import Dataset
import copy

class DecisionTree():

    def __init__(self, dataset, binning = False):
        self.initialDataset = dataset
        self.root = self.__generateNode(dataset)
        self.binning = binning

    def __generateNode(self, dataset, tabI=0, numRemovedColumns=0, value=None):
        attribute, values = ID3(dataset).bestAtributte
        node = Node(attribute, value, dataset.header[attribute])

        for key in values:
            isClass = False
            maxValue = float('-inf')
            maxkey = 'failed'
            maxkey2 = 'failed'
            for key2 in values[key]:
                if (key2 != "total"):
                    if (values[key][key2] == 1.0):
                        node.addNeighbour(Node(key2, key, None, True, values[key]["total"]))
                        isClass = True
                        break
                    elif (len(dataset.header) == 2):
                        if maxValue < values[key][key2] and key2 != "total":
                            maxValue = values[key][key2]
                            maxkey = key
                            maxkey2 = key2

            if (not isClass):
                if (len(dataset.header) == 2):
                    node.addNeighbour(Node(maxkey2, maxkey, None, True, int(values[maxkey]["total"]*values[maxkey][maxkey2])))
                else:
                    
                    datasetCopy = dataset.copy()
                    linestoRemove = []
                    for i in range(len(datasetCopy.array)):
                        if (datasetCopy.array[i][attribute] != key):
                            linestoRemove.append(i)

                    for x in sorted(linestoRemove, reverse=True):
                        datasetCopy.removeLine(x)

                    datasetCopy.removeColumn(attribute)

                    node.addNeighbour(self.__generateNode(datasetCopy, tabI+2, numRemovedColumns+1, key))

        return node

    def DFSPrint(self, tabI = 0, node = None):
        
        if (node == None):
            node = self.root
        
        print('\t'*tabI + '<'+node.label+'>')
        
        for currentNode in node.getNeighbours():

            if (currentNode.isClass):
                print(('\t'*(tabI+1))+currentNode.getValue()+': ' + currentNode.getAttribute() + ' (' + str(currentNode.counter) + ')')

            else:
                print(('\t'*(tabI+1))+currentNode.getValue()+':')
                self.DFSPrint(tabI+2, currentNode)

    def classifyMultipleExamples(self, path, file):

        dataset = Dataset().readCSV(path, file, True, False)
        for line in range(dataset.lines):
            classExmp = self.classifyExample(copy.deepcopy(dataset), line)
            if (classExmp == -1):
                print('Not Found!!')
            else:
                print('Line ' + str(line+1) + ' Class: ' + classExmp)
        return
    
    def classifyExample(self, dataset, line):

        actualNode = self.root
        value = dataset.array[line][actualNode.getAttribute()]

        while (actualNode.isClass != True):
            
            neighbours = actualNode.getNeighbours()
            
            found = False
            for node in (neighbours):
                if (self.binning == False):
                    if node.getValue() == value:
                        dataset.removeColumn(actualNode.getAttribute())
                        actualNode = node
                        if (actualNode.isClass != True): value = dataset.array[line][(actualNode.getAttribute())]
                        found = True
                        break
                else:
                    spliting = node.getValue().split('-')
                    if (spliting[0].replace(".", "", 1).isdigit() == True):
                        minVal = float(spliting[0])
                        maxVal = float(spliting[1])
                        value = float(value)
                        if value >= minVal and value <= maxVal:
                            dataset.removeColumn(actualNode.getAttribute())
                            actualNode = node
                            if (actualNode.isClass != True): value = dataset.array[line][(actualNode.getAttribute())]
                            found = True
                            break
                    else:
                        if node.getValue() == value:
                            dataset.removeColumn(actualNode.getAttribute())
                            actualNode = node
                            if (actualNode.isClass != True): value = dataset.array[line][(actualNode.getAttribute())]
                            found = True
                            break

            if (found == False): return -1
    
        return actualNode.getAttribute()

#### **Construtor da classe**

In [None]:
def __init__(self, dataset, binning = False):
        self.initialDataset = dataset
        self.root = self.__generateNode(dataset)
        self.binning = binning                           

Atributos:

- 'initialDataset' - Guarda o dataset original (Instância da classe Dataset).
- 'root' - Armazena o nó raiz da árvore, gerado pela função '__generateNode'.
- 'binning' - Boolean que representa se foi ou não realizado binning nos valores numéricos (discretizing)

#### Método: Criar nós

O método faz uma construção recursiva da árvre de decisão, criando nós para os melhores atributos e nós filhos para os respetivos valores. Isto acontece até que todos os dados sejam classificados como folhas.

In [None]:
def __generateNode(self, dataset, tabI=0, value=None):                          # Função recursiva para gerar os nós da árvore    
    attribute, values = ID3(dataset).bestAtributte                              # Obtemos o atributo com o maior ganho e seus valores
    node = Node(attribute, value)                                               # Criamos um nó com o atributo e o valor
    for key in values:                                                          # Para cada valor do atributo com o maior ganho
        isClass = False 
        maxValue = float('-inf')
        maxkey = 'failed'
        maxkey2 = 'failed'                                                        # Inicializamos a variável isClass como False
        for key2 in values[key]:                                                # Para cada chave no dicionário de valores do atributo
            if (key2 != "total"):                                               # Se a chave não for "total"
                if (values[key][key2] == 1.0):                                  # Se o valor da chave for 1
                    node.addNeighbour(Node(key2, key, True))                    # Adicionamos um nó com o valor da chave e o valor do atributo como True
                    isClass = True                                              # Atualizamos a variável isClass para True
                    break
                elif (len(dataset.header) == 2):                                # No caso dos valores terem sofrido binning existe uma pequena chance
                    if maxValue < values[key][key2] and key2 != "total":        # de o mesmo intrevalo ter duas classes então será escolhida a   
                        maxValue = values[key][key2]                            # de maior frequência
                        maxkey = key
                        maxkey2 = key2                                                    
        if (not isClass):
            if (len(dataset.header) == 2):
                node.addNeighbour(Node(maxkey2, maxkey, None, True, int(values[maxkey]["total"]*values[maxkey][maxkey2])))  # Se isClass for False  
            else:
                datasetCopy = dataset.copy()                                        # Copiamos o dataset
                linestoRemove = []                                                  # Inicializamos uma lista vazia para guardar as linhas a serem removidas
                for i in range(len(datasetCopy.array)):                             # Para cada linha do dataset
                    if (datasetCopy.array[i][attribute] != key):                    # Se o valor do atributo for diferente do valor do atributo com o maior ganho
                        linestoRemove.append(i)                                     # Adicionamos o índice da linha à lista de linhas a serem removidas

                for x in sorted(linestoRemove, reverse=True):                       # Para cada índice de linha na lista de linhas a serem removidas
                    datasetCopy.removeLine(x)                                       # Removemos a linha do dataset

                datasetCopy.removeCollum(attribute)                                 # Removemos a coluna do dataset

                node.addNeighbour(self.__generateNode(datasetCopy, tabI+2, key))    # Adicionamos um nó filho gerado recursivamente com o dataset cortado

    return node                                                                     # Retornamos o nó

Resumo:

1. Identificamos o melhor atributo para dividir os dados usando o algoritmo ID3.

2. Criamos um nó com esse atributo como raiz da subárvore.

3. Para cada valor do atributo, geramos nós filhos/folhas.

4. Os nós filhos representam ramificações da árvore com base nos próximos melhores atributos.<br/><br/>

Retorno:

- Retorna o nó raiz da árvore de decisão, que inclui recursivamente nós filhos para cada valor do melhor atributo identificado no dataset.<br/><br/>

#### **Método: Imprimir segundo um DFS**

O método imprime hierarquicamente a árvore de decisão, aplicando uma pesquisa em profundidade (DFS) na mesma.

In [None]:
def DFSPrint(self, tabI = 0, node = None):                                                      # Função para imprimir a árvore em profundidade
        
    if (node == None):                                                                          # Se o nó não for passado como parâmetro
        node = self.root                                                                        # O nó é a raiz da árvore
        
    print('\t'*tabI + '<'+self.initialDataset.header[node.getAttribute()]+'>')                  # Imprimimos o nome do atributo do nó
        
    for currentNode in node.getNeighbours():                                                    # Para cada nó vizinho do nó passado como parâmetro

        if (currentNode.isClass):                                                               # Se o nó for uma classe
            print(('\t'*(tabI+1))+currentNode.getValue()+': ' + currentNode.getAttribute())     # Imprimimos o valor do nó

        else:                                                                                   # Caso contrário
            print(('\t'*(tabI+1))+currentNode.getValue()+':')                                   # Imprimimos o valor do nó  
            self.DFSPrint(tabI+2, currentNode)                                                  # Chamamos a função recursivamente para imprimir os nós filhos

- Facilita a compreensão da estrutura da árvore de decisão.

- Permite uma visualização clara dos atributos e valores em cada nível da árvore.

## **Interface**
main.py

In [None]:
from Dataset import Dataset
from DecisionTree import DecisionTree
from fourgame.fourGame import FourGame
import copy

# Gera e retorna o header para o dataset connect4
# Returns: type: array[7*6] | Retorna o array que representa as posições do jogo no estilo coluna-linha
def genHeader():
    header = []

    #formato -> coluna-linha
    for i in range (7):
        for j in range (6):
            pos = str(i) + '-' + str(j)
            header.append(pos)

    return header

# Geração das árvores de decisão | datasets na pasta datasets
weatherDecisionTree = DecisionTree(Dataset().readCSV('datasets/', 'weather', True)) # Árvore do dataset (weather.csv)
weatherDecisionBinning = DecisionTree(Dataset().readCSV('datasets/', 'weather', True, True, None, 3), True) # Árvore do dataset (weather.csv) com os valores numéricos discretizados
restaurantTree = DecisionTree(Dataset().readCSV('datasets/', 'restaurant', True)) # Árvore do dataset (restaurant.csv)
irisDecisionTree = DecisionTree(Dataset().readCSV('datasets/', 'iris', True)) # Árvore do dataset (iris.csv)
irisDecisionTreeBinning = DecisionTree(Dataset().readCSV('datasets/', 'iris', True, True, None, 3), True) # Árvore do dataset (iris.csv) com os valores numéricos discretizados
fourgameTree = DecisionTree(Dataset().readCSV('datasets/', 'connect4', False, False, genHeader())) # Árvore do dataset (connect4.csv)

# Abre um prompt que requesita a decisão de que árvore de decisão usar
# Returns: type: DecisionTree Instance | Retorna o objeto da árvore de decisão escolhida pelo utilizador
def ChooseTree():
    print("Choose one tree: \n [1] Weather Tenis Tree \n [2] Weather Tenis Tree with Binning \n [3] Restaurant Stay Tree \n [4] Iris Tree \n [5] Iris Tree with Binning \n [6] Connect Four Tree (Can't be read or its hard to read)")
    choose = input("Insert: ")
    match choose:
        case '1':
            return weatherDecisionTree
        case '2':
            return weatherDecisionBinning
        case '3':
            return restaurantTree
        case '4':
            return irisDecisionTree
        case '5':
            return irisDecisionTreeBinning
        case '6':
            return fourgameTree
        case _:
            print('Invalid Input!')
            ChooseTree()
        
# Analisa e retorna a resposta junto com o tabuleiro atual
# Parâmetros: 
#
#       game | matrix (list of lists): matrix de caracteres | representa o estado atual do tabuleiro do jogo
#       result | type: int | representa o códdigo daquilo que aconteceu no jogo (-1 -> a coluna está cheia | 0 -> Caso não acha fim no jogo | 1 -> Caso de empate | 2 -> Caso de vitória)
#       winner | type: string | representa o símbolo que venceu no caso de vitória
#
# Returns: type: boolean | Retorna se o jogo terminou ou não

def showResults(game, result, winner):

    print(game)  # Print do estado atual do tabuleiro

    match result:
        case -1:  # Caso quando a coluna está cheia
            print("Invalid Move! Please choose another column.")
            return False, True
        case 0:  # Caso para quando o movimento é valido mas não resulta no fim do jogo
            print("Nice Move!")
            return False, False
        case 1:  # Caso de empate
            print("It's a Draw!!")
            return True, False
        case 2:  # Caso de vitória
            print('The symbol ' + winner + ' just won!')
            return True, False

# Trata da interface e decisão do jogo user vs Ia (decision Tree)
# Returns: void

def PlayFourGame():
    game = FourGame(7, 6)   # Cria uma nova instância da classe FourGame
    end = False             # Inizializa end como False e usa-o para indicar que o jogo ainda não terminou

    move = 'X'              # Escolher com que símbolo se quer jogar 
    iaSymbol = 'O'

    # Faz moves até que o jogo tenha um fim
    while not end:
        invalid = False
        while True:         # Loop para verificar o input até ser dado um movimento válido
            try:
                col = int(input('Column: '))
                if col < 1 or col > 7:
                    raise ValueError  # Raise a ValueError se o input não estiver entre 1-7
                break
            except ValueError:
                print("Invalid Input! Please enter a number from 1 to 7.")

        result, winner = game.makeMove(col-1, move)      # Faz um movimento na coluna col

        end, invalid = showResults(game, result, winner) # Analisa e retorna a resposta junto com o tabuleiro atual

        if not end and not invalid:

            iaMove = col
            moveValue = -1 
            while (game.state[0][iaMove] != '-'):
                iaMove = iaMove + 1

            for i in range(7):
                state = copy.deepcopy(game.state)
                j = 5
                while (j >= 0):
                    if (state[j][i] == '-'):
                        state[j][i] = 'x'
                        break
                    j -= 1
                
                dataset = [[]]
                for x in range(7):
                    for y in range(5, -1, -1):
                        symb = state[y][x].lower()
                        if (symb == '-'): symb = 'b'
                        dataset[0].append(symb)

                # Cria o dataset e classifica-o
                dataset = Dataset(dataset, [])
                
                classify = fourgameTree.classifyExample(dataset, 0)
                if (moveValue == -1):
                    moveValue = classify
                    iaMove = i
                elif (moveValue == 'loss' and classify != 'loss'):
                    moveValue = classify
                    iaMove = i
                elif (moveValue == 'draw' and classify == 'win'):
                    moveValue = classify
                    iaMove = i

            result, winner = game.makeMove(iaMove, iaSymbol)  # Faz um movimento na coluna col

            end, invalid = showResults(game, result, winner) # Analisa e retorna a resposta junto com o tabuleiro atual
        
    main()
        
# Main | Abre um prompt para escolha de que operação usar
# Returns: void
def main():
    print("\nDecision Trees using ID3 Algorithm!\n")
    print("Choose one action: \n [1] Print \n [2] Classify a csv file with examples \n [3] Play Fourgame \n [4] Leave")
    choose = input("Insert: ")
    
    match choose:
        case '1': # Print da árvore de decisão a ser escolhida pelo user
            tree = ChooseTree()
            print("\nTree: \n")
            tree.DFSPrint()
        case '2': # Classificação de um dataset de exemplos (sem class)
            tree = ChooseTree()
            path = input("\nInsert the path: ")
            file = input("\nInsert the filename (without .csv): ")
            tree.classifyMultipleExamples(path, file)
        case '3': # Jogo FourGame contra a árvore de decisão
            PlayFourGame()
            return
        case '4': # Saída do prompt 
            return
        case _:
            print("Invalid Input!")
        
    main()

if __name__ == '__main__':
    main()

## FourGame Dataset

Neste dataset permite-nos criar uma função de decisão para jogar contra nós no entanto ele segue a árvore de decisão que é baseada nos exemplos dados e visto não estar completa dado não ter presente todas as jogadas possíveis em muitos casos o algoritmo não encontrará a melhor decisão dado que esta não foi previamente analisada nos exemplos. Sendo assim não se defendendo em alguns casos ou até não ganhando quando deve ganhar em outros dependendo da quantidade dos exemplos este pode ser melhor ou pior que os algoritmos anteriormente utilizados (cenário ideal seria ter todos os cenários de jogo analizados)

### Binning e valores numéricos nos Datasets

Valores numéricos levam a uma grande dimensão da árvore de decisão, no entanto são simples de ser agrupados em intervalos reduzindo o tamanho do dataset e consequentemente da árvore.

Uma das técnicas utilizadas é conhecida por binning que consiste em agrupar um conjunto de dados numéricos em intervalos, reduzindo o tamanho mas com o risco de perda de informação no processo quanto maior for o tamanho dos intervalos.

O objetivo então é encontrar o trade-off ideal de modo a reduzir o tamanho e manter a precisão o máximo possível.

Este algoritmo foi então aplicado ao dataset do weather e da iris apresentando algumas imprecisões no caso da iris no teste de exemplos dados.

Isto dá-se pelo fato de o mesmo intervalo ter precença de várias classes e sendo assim foi feita uma implementação que escolheria a de maior frequência reduzindo os erros.

No entanto como no exemplo em baixo em que o intervalo tem 3 Iris-virginica e 1 Iris-versicolor, oque significa que em 4 valores 1 irá ter um resultado errado.

![Teste](esquemas/intervalobinning.png "Title")

### Balanced Datasets

Existem duas defenições de datasets os balanceados e não balanceados. 

Os balanceados são aqueles em que a frequência das classes é igual entre si e os não balanceados em que essa mesma frequência não o é.

Datasets balanceados levam a árvores mais balanceadas e existem dois métodos para balanceamento dos datasets: Undersapling e Oversapling

Undersapling consiste em reduzir o número de exemplos das classes com maior frequência até que fique balanceado
Oversapling consiste em aumentar o número de exemplos das classes com menor frequência até que fique balanceado

No nosso caso o dataset da iris está balanceado tendo 33% de cada classe que contêm (50/50/50) e o dos restaurantes também (50% 6/6)

No entanto o do weather poderia então ser aplicado um Undersapling que o tornaria equilibrado.