# **Second assignment: Decision Trees**

Este notebook demonstra a construção e visualização de uma árvore de decisão, com a utilização do algoritmo ID3 para tal.<br/><br/>

## **Exemplo de utilização**

In [38]:
from Dataset import Dataset
from DecisionTree import DecisionTree
from Node import Node
from ID3 import ID3
import pandas as pd


# Lê o dataset weather
dataset = Dataset().readCSV('weather', True)

# Mostra o dataset weather
print('\nWeather Dataset:\n')
try:
    df = pd.read_csv('datasets/weather.csv')
    print(df.head())
except FileNotFoundError:
    print("File not found")


# Cria a árvore de decisão
weatherDecisionTree = DecisionTree(dataset)

# Mostra a árvore de decisão
print('\nWeather Tree:\n')
weatherDecisionTree.DFSPrint()
print("\n\n")



# Lê o dataset restaurant
dataset = Dataset().readCSV('restaurant', True)

# Mostra o dataset restaurant
print('\nRestaurant Dataset:\n')
try:
    df = pd.read_csv('datasets/restaurant.csv')
    print(df.head())
except FileNotFoundError:
    print("File not found")

# Cria a árvore de decisão
restaurantDecisionTree = DecisionTree(dataset)

# Mostra a árvore de decisão
print('\nRestaurant Tree:\n')
restaurantDecisionTree.DFSPrint()
print("\n\n")



# Lê o dataset iris
dataset = Dataset().readCSV('iris', True)

# Mostra o dataset iris
print('\nIris Dataset:\n')
try:
    df = pd.read_csv('datasets/iris.csv')
    print(df.head())
except FileNotFoundError:
    print("File not found")

# Cria a árvore de decisão
irisDecisionTree = DecisionTree(dataset)

# Mostra a árvore de decisão
print('\nIris Tree:\n')
irisDecisionTree.DFSPrint()



Weather Dataset:

   ID   Weather  Temp  Humidity  Windy Play
0   1     sunny    85        85  False   no
1   2     sunny    80        90   True   no
2   3  overcast    83        86  False  yes
3   4     rainy    70        96  False  yes
4   5     rainy    68        80  False  yes

Weather Tree:

<Temp>
	85: no
	80: no
	83: yes
	70: yes
	68: yes
	65: no
	64: yes
	72:
		<Weather>
			sunny: no
			overcast: yes
	69: yes
	75: yes
	81: yes
	71: no




Restaurant Dataset:

   ID  Alt  Bar  Fri  Hun   Pat Price Rain  Res    Type    Est Class
0  X1  Yes   No   No  Yes  Some   $$$   No  Yes  French   0-10   Yes
1  X2  Yes   No   No  Yes  Full     $   No   No    Thai  30-60    No
2  X3   No  Yes   No   No  Some     $   No   No  Burger   0-10   Yes
3  X4  Yes   No  Yes  Yes  Full     $   No   No    Thai  10-30   Yes
4  X5  Yes   No  Yes   No  Full   $$$   No  Yes  French    >60    No

Restaurant Tree:

<Pat>
	Some: Yes
	Full:
		<Res>
			Thai:
				<Fri>
					No: No
					Yes: Yes
			French: No
			

## **Estruturas de Dados: Nó**

In [39]:
class Node():

    def __init__(self, attribute, value, label, isClass = False):
        self.attribute = attribute
        self.isClass = isClass
        self.label = label
        self.value = value
        if (not isClass):
            self.neighbours = []

    def addNeighbour(self, neighbour):
        self.neighbours.append(neighbour)
    
    def getNeighbours(self):
        return self.neighbours
        
    def getAttribute(self):
        return self.attribute

    def getValue(self):
        return self.value

#### **Construtor da classe**

In [40]:
def __init__(self, attribute, value, label, isClass = False):
        self.attribute = attribute
        self.isClass = isClass
        self.label = label
        self.value = value
        if (not isClass):
            self.neighbours = []

Parâmetros:

- 'attribute': Representa o atributo pelo qual o nó é dividido. Se 'isClass' for 'True', este representa a classe final do nó.

- 'value': Representa o valor do nó.

- 'isClass': (Opcional, por omissão é False) Um valor booleano que nos indica se o nó representa uma classe final (folha).

- 'label': Nome do atributo em questão.<br/><br/>

Atributos:

- Guarda todos os valores anteriormente mencionados (attribute, value, isClass, label).

- 'self.neighbours' - Inicializa uma lista vazia para guardar os vizinhos (filhos) do nó, caso não seja uma classe final (folha).<br/><br/>

#### **Métodos**

Todos os métodos desta estrutura de dados são apenas getters da informação já anteriormente apresentada.

In [41]:
def getNeighbours(self):
        return self.neighbours
        
def getAttribute(self):
    return self.attribute

def getValue(self):
    return self.value

No entanto, existe uma exceção no método 'addNeighbour':

In [42]:
def addNeighbour(self, neighbour):
        self.neighbours.append(neighbour)

Este método permite-nos de facto fazer alterações no nó. Com o mesmo podemos adicionar nós vizinhos à lista criada no dado nó.<br/><br/>

## **Decision Tree Learning Algorithm: ID3**

O seguinte código define uma classe 'ID3', para a construção de uma árvore de decisão usando o algoritmo ID3. Este algoritmo é um método fundamental na classificação de dados e para a tomada de decisões. 


In [43]:
import numpy as np

class ID3():  

    def __init__(self, dataset):
        self.dataset = dataset
        self.dataSetEntropy = self.__calcDatasetEntorpy()
        self.bestAtributte = self.__getBestGainAtributte()

    def __Entropy(self, X):
        sum = 0
        for i in X:
            if (X[i] == 1.0): return 0
            sum += -(X[i]) * np.log2(X[i])
        return sum
    
    def __calcDatasetEntorpy(self):
        values = {}
        for line in range(0, self.dataset.lines):
            value = self.dataset.getValue(line, self.dataset.cols-1)
            if (not (value in values)):
                values[value] = 1
            else:
                values[value] += 1

        for key in values:
            values[key] /= self.dataset.lines

        return self.__Entropy(values)
    
    def __getBestGainAtributte(self):
        maxGain = float('-inf')
        colMax = 0
        valuesMax = {}
        for j in range(0, self.dataset.cols-1):
            values = {}
            gain = self.dataSetEntropy
            for i in range(0, self.dataset.lines):
                value = self.dataset.getValue(i, j)

                if (not (value in values)):
                    values[value] = {"total": 0}
                
                classVar = self.dataset.getValue(i, self.dataset.cols-1)

                if (not (classVar in values[value])):
                    values[value][classVar] = 1
                else:
                    values[value][classVar] += 1
                
                values[value]["total"] += 1

            for key in values:
                for key2 in values[key]:
                    if key2 != "total":
                        values[key][key2] /= values[key]["total"]
                total = values[key].pop("total")
                gain -= (total/self.dataset.lines) * self.__Entropy(values[key])
                values[key]["total"] = total

            if (gain > maxGain):
                maxGain = gain
                colMax = j
                valuesMax = values

        return colMax, valuesMax

De seguida, iremos apresentar detalhadamente a classe e os métodos.<br/><br/>

### **Classe: 'ID3'**

A classe 'ID3' contém métodos para calcular a entropia de um dado conjunto de dados (dataset), determinar o melhor atributo para separar os dados, e inicializar a construção da árvore de decisão.<br/><br/>


#### **Construtor da classe**

In [44]:
def __init__(self, dataset):
    self.dataset = dataset
    self.dataSetEntropy = self.__calcDatasetEntropy()
    self.bestAtributte = self.__getBestGainAttribute()

Parâmetros:

- 'dataset' - Uma instância de um dataset do tipo csv.<br/><br/>

Atributos:

- 'self.dataset' - Guarda o dataset fornecido.

- 'self.dataSetEntropy' - Guarda a entropia de todo o dataset, calculado pelo método '__calcDatasetEntropy'.

- 'self.bestAttribute' - Guarda o melhor atributo para depois separar o dataset, calculado por '__getBestGainAttribute'.<br/><br/>

#### **Método: Entropia**

Este método calcula a entropia do dataset, que mede a incerteza do mesmo.

In [None]:
def __Entropy(self, X):
    sum = 0                                                                     # Inicializamos a soma com 0
    for i in X:                                                                 # Para cada elemento do dicionário X
        if (X[i] == 1.0): return 0                                              # Se o valor do elemento for 1, a entropia é 0
        sum += -(X[i]) * np.log2(X[i])                                          # Caso contrário, a soma fica com o simétrico do valor do elemento multiplicado pelo logaritmo de base 2 do valor do mesmo
    return sum                                                                  # Retornamos a soma


Parâmetros:

- 'X' - Um dicionário que representa a distribuição de frequência das classes.<br/><br/>

Retorno:

- Retorna a entropia do dataset.<br/><br/>

**Cálculo da entropia:**

A entropia é calculada segundo a seguinte fórmula:<br/><br/>

$$H(X) = -\sum p(x) \log_2 p(x)$$

Onde p(x) é a probabilidade da classe x.<br/><br/>

#### **Método: Cálculo da Entropia**

Este método calcula a entropia do dataset inteiro, primeiro determinando a distribuição de frequência das classes e depois aplicando a fórmula de cálculo da entropia (conforme apresentada anteriormente).

In [46]:
def __calcDatasetEntropy(self):
    values = {}                                                                 # Dicionário para guardar a contagem de ocorrencias de cada classe
    for line in range(0, self.dataset.lines):                                   # Para cada linha do dataset                
        value = self.dataset.getValue(line, self.dataset.cols - 1)              # Obtemos o valor da classe
        if (not (value in values)):
            values[value] = 1                                                   # Se o valor ainda não estiver no dicionário, inicialziamos com o valor 1
        else:
            values[value] += 1                                                  # Caso já esteja no dicionário, incrementamos o valor em 1

    for key in values:                                                          # Para cada par chave-valor no dicionário                                           
        values[key] /= self.dataset.lines                                       # Calculamos a probabilidade de cada classe dividindo o número de ocorrencias pelo número total de linhas

    return self.__Entropy(values)                                               # Calculamos a entropia do dataset

Resumo:

1. É criado um dicionário 'values' vazio, onde iremos guardar a contagem de ocorrências de cada classe.

2. Percorremos cada linha do conjunto de dados, obtemos o valor de cada classe e atualizamos o dicionário 'values' para contar quantas vezes cada classe aparece no dataset.

Retorno:

- Retorna a entropia do dataset, invocando o método '__Entropy' apresentado anteriomente.<br/><br/>

#### **Método: Obter o atributo com maior ganho**

Este método determina qual o atributo (coluna) do dataset proporciona o maior ganho de informação. Este ganho é usado para decidir qual atributo usar para dividir os dados em cada nó da árvore de decisão.

In [47]:
def __getBestGainAttribute(self):
    maxGain = float('-inf')                                                     # Inicializamos o ganho máximo com o menor valor possível, para garantir que qualquer ganho seja maior
    colMax = 0                                                                  # Inicializamos colmax a 0, que representa o índice da coluna com o maior ganho                         
    valuesMax = {}                                                              # Inicializamos valuesMax como um dicionário vazio, que guardará os valores de cada atributo da coluna com o maior ganho
    for j in range(0, self.dataset.colls - 1):                                  # Para cada coluna do dataset, exceto a última (que contém as classes)
        values = {}                                                             # Inicializamos um dicionário vazio para guardar os valores de cada atributo da coluna
        gain = self.dataSetEntropy                                              # Inicializamos o ganho com a entropia do dataset
        for i in range(0, self.dataset.lines):                                  # Para cada linha do dataset
            value = self.dataset.getValue(i, j)                                 # Obtemos o valor do atributo na coluna j

            if (not (value in values)):                                         # Se o valor ainda não estiver no dicionário de valores                                  
                values[value] = {"total": 0}                                    # Inicializamos o valor no dicionário com um dicionário vazio, que guardará a contagem de cada classe

            classVar = self.dataset.getValue(i, self.dataset.colls - 1)         # Obtemos o valor da classe

            if (not (classVar in values[value])):                               # Se a classe ainda não estiver no dicionário de valores do atributo
                values[value][classVar] = 1                                     # Inicializamos a classe no dicionário com o valor 1
            else:                                                               # Caso contrário
                values[value][classVar] += 1                                    # Incrementamos o valor da classe no dicionário

            values[value]["total"] += 1                                         # Incrementamos o total de valores do atributo

        for key in values:                                                      # Para cada chave no dicionário de valores                            
            for key2 in values[key]:                                            # Para cada chave no dicionário de valores do atributo                      
                if key2 != "total":                                             # Se a chave não for "total"                            
                    values[key][key2] /= values[key]["total"]                   # Calculamos a probabilidade de cada classe dividindo o número de ocorrências pelo número total de valores do atributo
            total = values[key].pop("total")                                    # Removemos o total do dicionário de valores do atributo
            gain -= (total / self.dataset.lines) * self.__Entropy(values[key])  # Calculamos o ganho subtraindo a entropia do atributo multiplicada pela probabilidade do atributo
            values[key]["total"] = total                                        # Recuperamos o total do dicionário de valores do atributo

        if (gain > maxGain):                                                    # Se o ganho for maior que o ganho máximo
            maxGain = gain                                                      # Atualizamos o ganho máximo
            colMax = j                                                          # Atualizamos o índice da coluna com o maior ganho
            valuesMax = values                                                  # Atualizamos os valores do atributo da coluna com o maior ganho

    return colMax, valuesMax                                                    # Retornamos o índice da coluna com o maior ganho e os valores de cada atributo da coluna

Resumo:

1. Iteramos sobre cada atributo (coluna) do dataset.

2. Contamos as ocorrências de cada valor do atributo e das classes.

3. Calculamos o ganho de informação para o atributo.

4. Atualizamos o maior ganho e a melhor coluna, se necessário.

Retorno:

- Retorna um tuplo '(colMax, valuesMax)', onde o colMax representa o index do atributo (coluna) com o maior ganho de informação e valuesMax.<br/><br/>

## **Árvore de Decisão**

Já definidos o ID3 e a estrutura de dados Node, podemos por fim definir a Árvore de Decisão.

In [48]:
from ID3 import ID3
from Node import Node
from Dataset import Dataset
import copy

class DecisionTree():

    def __init__(self, dataset):                                                                # Inicializa a arvore de decisao com o dataset fornecido
        self.initialDataset = dataset                                                           
        self.root = self.__generateNode(dataset)

    def __generateNode(self, dataset, tabI=0, numRemovedColumns=0, value=None):                 # Gera um no da arvore de decisao usando o algoritmo ID3 para encontrar o melhor atributo
        attribute, values = ID3(dataset).bestAtributte
        node = Node(attribute, value, dataset.header[attribute])

        for key in values:
            isClass = False
            for key2 in values[key]:
                if (key2 != "total"):
                    if (values[key][key2] == 1.0):                                              # Se o valor do atributo leva a uma classe, adiciona um no folha
                        node.addNeighbour(Node(key2, key, None, True))
                        isClass = True
                        break
            if (not isClass):                                                                   # Caso contrário, continua gerando nós filhos
                datasetCopy = dataset.copy()
                linestoRemove = []
                for i in range(len(datasetCopy.array)):
                    if (datasetCopy.array[i][attribute] != key):
                        linestoRemove.append(i)

                for x in sorted(linestoRemove, reverse=True):
                    datasetCopy.removeLine(x)

                datasetCopy.removeColumn(attribute)

                node.addNeighbour(self.__generateNode(datasetCopy, tabI+2, numRemovedColumns+1, key)) # Adiciona o nó filho gerado recursivamente

        return node

    def DFSPrint(self, tabI = 0, node = None):                                                     # Método para imprimir a árvore de decisão usando busca em profundidade
        
        if (node == None):                                                                            
            node = self.root
        
        print('\t'*tabI + '<'+node.label+'>')
        
        for currentNode in node.getNeighbours():

            if (currentNode.isClass):
                print(('\t'*(tabI+1))+currentNode.getValue()+': ' + currentNode.getAttribute())

            else:
                print(('\t'*(tabI+1))+currentNode.getValue()+':')
                self.DFSPrint(tabI+2, currentNode)

    def classifyMultipleExamples(self, path, file):                                                 # Classifica exemplos lidos de um arquivo CSV

        dataset = Dataset().readCSV(path, file, True, False)
        for line in range(dataset.lines):
            self.classifyExample(copy.deepcopy(dataset), line)

        return
    
    def classifyExample(self, dataset, line):                                                       # Classifica um exemplo do dataset

        actualNode = self.root
        value = dataset.array[line][actualNode.getAttribute()]

        while (actualNode.isClass != True):                                                         # Enquanto nao for um no folha
            
            neighbours = actualNode.getNeighbours()
            
            found = False
            for node in (neighbours):                                                               # Itera sobre os nos vizinhos
                if node.getValue() == value:                                                        # Se o valor do no for igual ao valor do no vizinho, define o no atual como este vizinho
                    actualNode = node   
                    found = True                                                                    # Define found como True
                    break                                                                           # Interrompe o ciclo

            if (found == False): return -1                                                          # Se nenhum nó vizinho correspondente foi encontrado, retorna -1 (classificação falhou)

            if (actualNode.isClass != True):                                                        # Se o nó atual ainda não é um nó folha
                value = dataset.array[line][(actualNode.getAttribute())]                            # Atualiza o valor para o atributo do novo nó atual
                dataset.removeColumn(actualNode.getAttribute())                                     # Remove a coluna do atributo do dataset
    
        return actualNode.getAttribute()

#### **Construtor da classe**

In [49]:
def __init__(self, dataset):
        self.initialDataset = dataset
        self.root = self.__generateNode(dataset)                               

Parâmetros:

- 'dataset' - Uma instância de um dataset do tipo csv.<br/><br/>

Atributos:

- 'self.initialDataset' - Guarda o dataset original.
- 'self.root' - Armazena o nó raiz da árvore, gerado pela função '__generateNode'.

#### **Método: Criar nós**

O método faz uma construção recursiva da árvre de decisão, criando nós para os melhores atributos e nós filhos para os respetivos valores. Isto acontece até que todos os dados sejam classificados como folhas.

In [50]:
def __generateNode(self, dataset, tabI=0, value=None):                          # Função recursiva para gerar os nós da árvore    
    attribute, values = ID3(dataset).bestAtributte                              # Obtemos o atributo com o maior ganho e seus valores
    node = Node(attribute, value)                                               # Criamos um nó com o atributo e o valor
    for key in values:                                                          # Para cada valor do atributo com o maior ganho
        isClass = False                                                         # Inicializamos a variável isClass como False
        for key2 in values[key]:                                                # Para cada chave no dicionário de valores do atributo
            if (key2 != "total"):                                               # Se a chave não for "total"
                if (values[key][key2] == 1.0):                                  # Se o valor da chave for 1
                    node.addNeighbour(Node(key2, key, True))                    # Adicionamos um nó com o valor da chave e o valor do atributo como True
                    isClass = True                                              # Atualizamos a variável isClass para True
                    break                                                       
        if (not isClass):                                                       # Se isClass for False  
            datasetCopy = dataset.copy()                                        # Copiamos o dataset
            linestoRemove = []                                                  # Inicializamos uma lista vazia para guardar as linhas a serem removidas
            for i in range(len(datasetCopy.array)):                             # Para cada linha do dataset
                if (datasetCopy.array[i][attribute] != key):                    # Se o valor do atributo for diferente do valor do atributo com o maior ganho
                    linestoRemove.append(i)                                     # Adicionamos o índice da linha à lista de linhas a serem removidas

            for x in sorted(linestoRemove, reverse=True):                       # Para cada índice de linha na lista de linhas a serem removidas
                datasetCopy.removeLine(x)                                       # Removemos a linha do dataset

            datasetCopy.removeCollum(attribute)                                 # Removemos a coluna do dataset

            node.addNeighbour(self.__generateNode(datasetCopy, tabI+2, key))    # Adicionamos um nó filho gerado recursivamente com o dataset cortado

    return node                                                                 # Retornamos o nó

Resumo:

1. Identificamos o melhor atributo para dividr os dados usando o algoritmo ID3.

2. Criamos um nó com esse atributo como raiz da subárvore.

3. Para cada valor do atributo, geramos nós filhos/folhas.

4. Os nós filhos representam ramificações da árvore com base nos próximos melhores atributos.<br/><br/>

Retorno:

- Retorna o nó raiz da árvore de decisão, que inclui recursivamente nós filhos para cada valor do melhor atributo identificado no dataset.<br/><br/>

#### **Método: Imprimir segundo um DFS**

O método imprime hierarquicamente a árvore de decisão, aplicando uma pesquisa em profundidade (DFS) na mesma.

In [51]:
def DFSPrint(self, tabI = 0, node = None):                                                      # Função para imprimir a árvore em profundidade
        
    if (node == None):                                                                          # Se o nó não for passado como parâmetro
        node = self.root                                                                        # O nó é a raiz da árvore
        
    print('\t'*tabI + '<'+self.initialDataset.header[node.getAttribute()]+'>')                  # Imprimimos o nome do atributo do nó
        
    for currentNode in node.getNeighbours():                                                    # Para cada nó vizinho do nó passado como parâmetro

        if (currentNode.isClass):                                                               # Se o nó for uma classe
            print(('\t'*(tabI+1))+currentNode.getValue()+': ' + currentNode.getAttribute())     # Imprimimos o valor do nó

        else:                                                                                   # Caso contrário
            print(('\t'*(tabI+1))+currentNode.getValue()+':')                                   # Imprimimos o valor do nó  
            self.DFSPrint(tabI+2, currentNode)                                                  # Chamamos a função recursivamente para imprimir os nós filhos

- Facilita a compreensão da estrutura da árvore de decisão.

- Permite uma visualização clara dos atributos e valores em cada nível da árvore.

## **DataSet**

A classe seguinte, permite-nos manipular os dados do dataset como uma matriz.

In [None]:
import csv                                                                              # Importa o módulo csv para leitura de arquivos CSV
import copy                                                                             # Importa o módulo copy para realizar cópias profundas de objetos

class Dataset():

    def __init__(self, dataset=None, header=None):                                      # Inicializa a classe Dataset com dataset e header opcionais
        if (dataset != None) and (header != None):                                      # Verifica se dataset e header não são None
            self.array = dataset                                                        # Atribui dataset ao atributo array da instância
            self.header = header                                                        # Atribui header ao atributo header da instância
            self.lines = len(self.array)                                                # Calcula e armazena o número de linhas do dataset
            self.cols = len(self.array[0])                                              # Calcula e armazena o número de colunas do dataset
    
    def readCSV(self, path, filename, hasId=False, hasHeader=True, headerInput=None):   # Lê um arquivo CSV e carrega os dados no dataset
        csvFile = open(path + filename + '.csv', 'r')                                   # Abre o arquivo CSV no modo de leitura
        reader = csv.reader(csvFile)                                                    # Cria um objeto reader para iterar sobre as linhas do CSV

        if hasHeader:                                                                   # Se o arquivo CSV tem um cabeçalho
            self.header = next(reader)                                                  # Lê a primeira linha como cabeçalho
            self.header.pop(0)                                                          # Remove o primeiro elemento do cabeçalho (presumivelmente um ID)
        else:
            self.header = headerInput                                                   # Se não houver cabeçalho, usa o headerInput fornecido

        self.array = []                                                                 # Inicializa o array para armazenar os dados
        for row in reader:                                                              # Itera sobre as linhas restantes do CSV
            self.array.append(row)                                                      # Adiciona cada linha ao array

        if hasId:                                                                       # Se as linhas têm um ID
            for i in range(len(self.array)):                                            # Itera sobre todas as linhas
                self.array[i].pop(0)                                                    # Remove o primeiro elemento de cada linha (presumivelmente um ID)

        self.lines = len(self.array)                                                    # Calcula e armazena o número de linhas do array
        self.cols = len(self.array[0])                                                  # Calcula e armazena o número de colunas do array
        return self                                                                     # Retorna a instância do dataset
    
    def getValue(self, line, col):                                                      # Retorna o valor na linha e coluna especificadas
        return self.array[line][col]

    def copy(self):                                                                     # Retorna uma cópia profunda do dataset
        return Dataset(copy.deepcopy(self.array), copy.deepcopy(self.header))
    
    def removeLine(self, line):                                                         # Remove a linha especificada do dataset
        self.array.pop(line)                                                            # Remove a linha do array
        self.lines -= 1                                                                 # Decrementa o contador de linhas

    def removeColumn(self, col):                                                        # Remove a coluna especificada do dataset
        if self.header: self.header.pop(col)                                            # Se houver um cabeçalho, remove a coluna correspondente
        for i in range(len(self.array)):                                                # Itera sobre todas as linhas do array
            self.array[i].pop(col)                                                      # Remove a coluna de cada linha
        self.cols -= 1                                                                  # Decrementa o contador de colunas


#### **Construtor da classe**

In [None]:
def __init__(self, dataset = None, header = None):
        if ((dataset != None) and (header != None)):
            self.array = dataset
            self.header = header
            self.lines = len(self.array)
            self.cols = len(self.array[0])

#### **Atributos:**
- 'self.array': Armazena os dados do dataset. 

- 'self.header': Armazena os nomes das colunas.

- 'self.lines': Armazena o número de linhas no dataset.

- 'self.cols': Armazena o número de colunas no dataset.

#### **Métodos:**

In [None]:
import csv
import copy

class Dataset():

    def __init__(self, dataset = None, header = None):
        if ((dataset != None) and (header != None)):
            self.array = dataset
            self.header = header
            self.lines = len(self.array)
            self.cols = len(self.array[0])
    
    def readCSV(self, path, filename, hasId=False, hasHeader=True, headerInput = None, binCount = None):
        csvFile = open(path+filename+'.csv', 'r')
        reader = csv.reader(csvFile)

        if (hasHeader == True):
            self.header = next(reader)
            self.header.pop(0)
        else:
            self.header = headerInput

        self.array = []
        for row in reader:
            self.array.append(row)

        if (hasId):
            for i in range(len(self.array)): 
                self.array[i].pop(0)

        self.lines = len(self.array)
        self.cols = len(self.array[0])

        if (binCount != None):
            self.binning(binCount)
            
        return self
    
    def getValue(self, line, col):
        return self.array[line][col]

    def copy(self):
        return Dataset(copy.deepcopy(self.array), copy.deepcopy(self.header))
    
    def removeLine(self, line):
        self.array.pop(line)
        self.lines -= 1

    def removeColumn(self, col):
        if (self.header): self.header.pop(col)
        for i in range(len(self.array)): 
            self.array[i].pop(col)
        self.cols -= 1


    def binning(self, binCount):                                                       # Bins continuous data into discrete intervals.
        for col in range(self.cols - 1):                                                # Assuming last column is the target
            try:                                                                        # Check if column is numeric
                colData = [float(self.array[i][col]) for i in range(self.lines)]       # Convert column data to float
            except ValueError:                                                          # If column is not numeric, skip
                continue                                                                

            minVal, maxVal = min(colData), max(colData)                             # Get min and max values of column
            binWidth = (maxVal - minVal) / binCount                                 # Calculate bin width
            bins = [minVal + i * binWidth for i in range(binCount + 1)]              # Create bins

            for i in range(self.lines):                                                 # Iterate through rows
                value = float(self.array[i][col])                                       # Get value of cell
                for b in range(len(bins) - 1):                                          # Iterate through bins
                    if (bins[b] <= value < bins[b + 1]):                                # Check if value is within bin
                        self.array[i][col] = f"{bins[b]:.2f}-{bins[b + 1]:.2f}"         # Replace value with bin range
                        break                                                           # Exit loop
                    else:                                                               # If value is not within bin
                        self.array[i][col] = f"{bins[-2]:.2f}-{bins[-1]:.2f}"           # Replace value with last bin range

1. O método 'readCSV':

    - Lê um arquivo CSV e carrega os seus dados para a instância do Dataset.


2. O método 'getValue':
    - Retorna o valor armazenado numa célula específica do dataset, identificada pelos índices da linha e coluna fornecidos.

3. O método 'copy':
    - Este método retorna uma cópia profunda da instância do Dataset, garantindo que alterações na cópia não afetem o original.

4. O método 'removeLine':
    - Este método remove uma linha específica do dataset, identificada pelo índice fornecido.

5. O método 'removeColumn':
    - Este método remove uma coluna específica do dataset, identificada pelo índice fornecido. Se existir um cabeçalho, ele também é atualizado.

6. O método 'binning':
    - Este método COMPLETA AQUI PEDRO  



Resumo:
- A classe Dataset é uma ferramenta para manipular dados tabulares, permitindo a leitura de arquivos CSV, acesso a elementos individuais, cópia do dataset, e remoção de linhas e colunas. 

E COMPLETA AQUI TAMBEM

## **Interface**
main.py

Apresenta uma interface para imprimir a árvore de decisão, classificar exemplos ou jogar connect four. 

In [None]:
from Dataset import Dataset
from DecisionTree import DecisionTree
from fourgame.fourGame import FourGame
import copy

# Gera e retorna o header para o dataset connect4
# returns: type: array[7*6] | Retorna o array que representa as posições do jogo no estilo coluna-linha
def genHeader():
    header = []

    #formato -> coluna-linha
    for i in range (7):
        for j in range (6):
            pos = str(i) + '-' + str(j)
            header.append(pos)

    return header

#Geração das árvores de decissão | datasets na pasta datasets
weatherDecissionTree = DecisionTree(Dataset().readCSV('datasets/', 'weather', True)) # Árvore do dataset (weather.csv)
weatherDecissionBining = DecisionTree(Dataset().readCSV('datasets/', 'weather', True, True, None, 3), True) # Árvore do dataset (weather.csv) com os valores numéricos discretizados
restaurantTree = DecisionTree(Dataset().readCSV('datasets/', 'restaurant', True)) # Árvore do dataset (restaurant.csv)
irisDecissionTree = DecisionTree(Dataset().readCSV('datasets/', 'iris', True)) # Árvore do dataset (iris.csv)
irisDecissionTreeBining = DecisionTree(Dataset().readCSV('datasets/', 'iris', True, True, None, 3), True) # Árvore do dataset (iris.csv) com os valores numéricos discretizados
fourgameTree = DecisionTree(Dataset().readCSV('datasets/', 'connect4', False, False, genHeader())) # Árvore do dataset (connect4.csv)

# Abre um prompt que requesita a decissão de que árvore de decissão usar
# returns: type: DecissionTree Instance | Retorna o objeto da árvore de decissão escolhida pelo utilizador
def ChooseTree():
    print("Choose one tree: \n [1] Weather Tenis Tree \n [2] Weather Tenis Tree with Bining \n [3] Restaurant Stay Tree \n [4] Iris Tree \n [5] Iris Tree with Bining \n [6] Connect Four Tree (Can't be read or its hard to read)")
    choose = input("Insert: ")
    match choose:
        case '1':
            return weatherDecissionTree
        case '2':
            return weatherDecissionBining
        case '3':
            return restaurantTree
        case '4':
            return irisDecissionTree
        case '5':
            return irisDecissionTreeBining
        case '6':
            return fourgameTree
        case _:
            print('Invalid Input!')
            ChooseTree()
        
# Analisa e retorna a resposta junto com o tabuleiro atual
# params: 
#
#       game | matrix (list of lists): matrix de caracteres | representa o estado atual do tabuleiro do jogo
#       result | type: int | representa o códdigo daquilo que aconteceu no jogo (-1 -> a coluna está cheia | 0 -> Caso não acha fim no jogo | 1 -> Caso de empate | 2 -> Caso de vitória)
#       winner | type: string | representa o símbolo que venceu no caso de vitória
#
# returns: type: boolean | Retorna se o jogo terminou ou não
def showResults(game, result, winner):

    print(game)  # Print do estado atual do tabuleiro

    match result:
        case -1:  # Caso quando a coluna está cheia
            print("Invalid Move! Please choose another column.")
            return False, True
        case 0:  # Caso para quando o movimento é valido mas não resulta no fim do jogo
            print("Nice Move!")
            return False, False
        case 1:  # Caso de empate
            print("It's a Draw!!")
            return True, False
        case 2:  # Caso de vitória
            print('The symbol ' + winner + ' just won!')
            return True, False

# Trata da interface e decissão do jogo user vs Ia (decission Tree)
# returns: void
def PlayFourGame():
    game = FourGame(7, 6)  # Cria uma nova instância da classe FourGame
    end = False  # Inizializa end como False e usa-o para indicar que o jogo ainda não terminou

    move = 'X' # Escolher com que símbolo se quer jogar 
    iaSymbol = 'O'

    # Faz moves até que o jogo tenha um fim
    while not end:
        invalid = False
        while True:  # Loop para verificar o input até ser dado um movimento válido
            try:
                col = int(input('Column: '))
                if col < 1 or col > 7:
                    raise ValueError  # Raise a ValueError se o input não estiver entre 1-7
                break
            except ValueError:
                print("Invalid Input! Please enter a number from 1 to 7.")

        result, winner = game.makeMove(col-1, move)  # Faz um movimento na coluna col

        end, invalid = showResults(game, result, winner) # Analisa e retorna a resposta junto com o tabuleiro atual

        if not end and not invalid:

            iaMove = col
            moveValue = -1 
            while (game.state[0][iaMove] != '-'):
                iaMove = iaMove + 1

            for i in range(7):
                state = copy.deepcopy(game.state)
                j = 5
                while (j >= 0):
                    if (state[j][i] == '-'):
                        state[j][i] = 'x'
                        break
                    j -= 1
                
                dataset = [[]]
                for x in range(7):
                    for y in range(5, -1, -1):
                        symb = state[y][x].lower()
                        if (symb == '-'): symb = 'b'
                        dataset[0].append(symb)

                #Cria o dataset e classifica-o
                dataset = Dataset(dataset, [])
                
                classify = fourgameTree.classifyExample(dataset, 0)
                if (moveValue == -1):
                    moveValue = classify
                    iaMove = i
                elif (moveValue == 'loss' and classify != 'loss'):
                    moveValue = classify
                    iaMove = i
                elif (moveValue == 'draw' and classify == 'win'):
                    moveValue = classify
                    iaMove = i

            result, winner = game.makeMove(iaMove, iaSymbol)  # Faz um movimento na coluna col

            end, invalid = showResults(game, result, winner) # Analisa e retorna a resposta junto com o tabuleiro atual
        
    main()
        
# Main | Abre um prompt para escolha de que operação usar
# returns: void
def main():
    print("\nDecision Trees using ID3 Algorithm!\n")
    print("Choose one action: \n [1] Print \n [2] Classify a csv file with examples \n [3] Play Fourgame \n [4] Leave")
    choose = input("Insert: ")
    
    match choose:
        case '1': #Print da árvore de decissão a ser escolhida pelo user
            tree = ChooseTree()
            print("\nTree: \n")
            tree.DFSPrint()
        case '2': #Classificação de um dataset de exemplos (sem class)
            tree = ChooseTree()
            path = input("\nInsert the path: ")
            file = input("\nInsert the filename (without .csv): ")
            tree.classifyMultipleExamples(path, file)
        case '3': #Jogo FourGame contra a árvore de decissão
            PlayFourGame()
            return
        case '4': #Saída do prompt 
            return
        case _:
            print("Invalid Input!")
        
    main()

if __name__ == '__main__':
    main()