# üå≥ Implementando uma Decision Tree do Zero

Este notebook mostra a implementa√ß√£o **passo a passo** de uma **√°rvore de decis√£o** em Python puro, sem o uso de bibliotecas prontas (como `scikit-learn`).

Nosso objetivo ser√° entender **cada etapa** da constru√ß√£o da √°rvore, desde o c√°lculo da impureza at√© a classifica√ß√£o final, com explica√ß√µes te√≥ricas intercaladas.


## 1. O que √© uma √Årvore de Decis√£o?

Uma **√°rvore de decis√£o** √© um modelo de aprendizado supervisionado que divide os dados em grupos cada vez mais homog√™neos com base em perguntas (condi√ß√µes) sobre os atributos.

A ideia √© encontrar, a cada divis√£o (n√≥ da √°rvore), a **melhor condi√ß√£o** que separa as classes de forma mais ‚Äúpura‚Äù.

Cada n√≥ faz uma **pergunta** do tipo:

> ‚ÄúO atributo X √© menor ou igual a um certo valor?‚Äù

E os dados s√£o divididos entre os ramos **verdadeiro (esquerda)** e **falso (direita)**.


## 2. Estrutura da Classe `DecisionTree`

A classe `DecisionTree` ser√° respons√°vel por:
- **Treinar** a √°rvore com base nos dados (`fit`);
- **Classificar** novas amostras (`predict`);
- **Construir recursivamente** os n√≥s da √°rvore;
- **Calcular a impureza** (Gini ou Entropia);
- **Selecionar** o melhor atributo e ponto de corte.


In [9]:
import numpy as np

class DecisionTree:
    def __init__(self, criterio="gini", max_depth=None):
        self.criterio = criterio
        self.max_depth = max_depth
        self.tree = None


## 3. Fun√ß√µes de Impureza: Gini e Entropia

O objetivo de cada divis√£o √© **aumentar a pureza dos n√≥s filhos**.

Para medir a pureza, usamos m√©tricas como:

### √çndice de Gini
$$
Gini = 1 - \sum_i p_i^2
$$

Onde $ p_i $ √© a propor√ß√£o de elementos da classe *i* no n√≥.

### Entropia
$$
H = - \sum_i p_i \log_2(p_i)
$$

A entropia mede o **grau de desordem** das classes ‚Äî quanto maior, mais misturado o conjunto.


    def _gini(self, y):
        classes, counts = np.unique(y, return_counts=True)
        probs = counts / len(y)
        return 1 - np.sum(probs ** 2)

    def _entropy(self, y):
        classes, counts = np.unique(y, return_counts=True)
        probs = counts / len(y)
        return -np.sum(probs * np.log2(probs + 1e-9))  # evitar log(0)


In [10]:
    def _gini(self, y):
        classes, counts = np.unique(y, return_counts=True)
        probs = counts / len(y)
        return 1 - np.sum(probs ** 2)

    def _entropy(self, y):
        classes, counts = np.unique(y, return_counts=True)
        probs = counts / len(y)
        return -np.sum(probs * np.log2(probs + 1e-9))  # evitar log(0)


## 4. Dividindo os Dados

Cada divis√£o (split) separa os dados com base em um **atributo** e um **valor de corte**.

Por exemplo:
> ‚ÄúSe `altura <= 1.70`, v√° para a esquerda; sen√£o, v√° para a direita.‚Äù


In [None]:
    def _split(self, X, y, feature_index, threshold):
        esquerda = X[:, feature_index] <= threshold 
        direita = X[:, feature_index] > threshold 
        return X[esquerda], X[direita], y[esquerda], y[direita]


## 5. Escolhendo a Melhor Divis√£o

Precisamos testar **todas as poss√≠veis divis√µes** e escolher a que **gera o maior ganho de informa√ß√£o** (ou seja, a maior redu√ß√£o da impureza total).


In [None]:
def _best_split(self, X, y):
    # Inicializa a vari√°vel que rastreia o maior ganho de impureza encontrado at√© o momento.
    # O objetivo √© maximizar este valor.
    melhor_ganho = -1 
    
    # Inicializa as vari√°veis que armazenar√£o a caracter√≠stica (feature) e o valor de corte (threshold)
    # que produzirem o 'melhor_ganho'.
    melhor_feature, melhor_threshold = None, None
    
    # Calcula a impureza do n√≥ atual ANTES de qualquer divis√£o.
    # A m√©trica utilizada (Gini ou Entropia) depende do que foi configurado no atributo 'criterio'.
    impureza_atual = self._gini(y) if self.criterio == "gini" else self._entropy(y)

    # Obt√©m o n√∫mero total de caracter√≠sticas (colunas) no conjunto de dados X.
    n_features = X.shape[1] 

    # --- IN√çCIO DA BUSCA PELO MELHOR SPLIT ---
    
    # Loop principal: Itera sobre cada caracter√≠stica (coluna) do conjunto de dados.
    for feature in range(n_features): 
        # Obt√©m todos os valores √∫nicos presentes na caracter√≠stica atual.
        # Estes valores ser√£o testados como poss√≠veis pontos de corte (thresholds).
        valores = np.unique(X[:, feature]) 
        
        # Loop interno: Itera sobre cada valor √∫nico como um potencial ponto de corte.
        for threshold in valores:
            # Chama a fun√ß√£o auxiliar '_split' para dividir o conjunto de dados (X e y)
            # usando a 'feature' e o 'threshold' atuais.
            # X_esq/y_esq: Dados que satisfazem a condi√ß√£o (valor da feature <= threshold).
            # X_dir/y_dir: Dados que N√ÉO satisfazem a condi√ß√£o (valor da feature > threshold).
            X_esq, X_dir, y_esq, y_dir = self._split(X, y, feature, threshold)
            
            # Condi√ß√£o de parada: Se uma das divis√µes resultar em um n√≥ vazio, a divis√£o √© inv√°lida.
            # Isso evita a cria√ß√£o de n√≥s filhos vazios, que n√£o contribuem para o ganho.
            if len(y_esq) == 0 or len(y_dir) == 0:
                continue

            # Calcula a propor√ß√£o de exemplos que foram para o n√≥ esquerdo ('esq').
            # p √© o peso do n√≥ esquerdo na impureza ponderada.
            p = len(y_esq) / len(y)
            
            # Calcula a impureza do n√≥ esquerdo, usando o mesmo crit√©rio (Gini ou Entropia) do n√≥ pai.
            impureza_esq = self._gini(y_esq) if self.criterio == "gini" else self._entropy(y_esq)
            
            # Calcula a impureza do n√≥ direito.
            impureza_dir = self._gini(y_dir) if self.criterio == "gini" else self._entropy(y_dir)
            
            # C√°lculo do GANHO DE IMPUREZA: 
            # √â a diferen√ßa entre a impureza do n√≥ pai e a soma ponderada das impurezas dos n√≥s filhos.
            # Um valor maior significa uma redu√ß√£o mais eficaz na impureza.
            impureza_ponderada_depois = (p * impureza_esq + (1 - p) * impureza_dir)
            ganho = impureza_atual - impureza_ponderada_depois

            # --- ATUALIZA√á√ÉO DO MELHOR SPLIT ---
            
            # Se o ganho da divis√£o atual for maior que o melhor ganho registrado at√© agora,
            # armazena esta divis√£o como a melhor.
            if ganho > melhor_ganho:
                melhor_ganho = ganho
                melhor_feature = feature
                melhor_threshold = threshold

    # Retorna a caracter√≠stica e o ponto de corte que maximizaram o ganho de impureza.
    # Estas ser√£o usadas para criar o pr√≥ximo n√≥ de teste na √°rvore.
    return melhor_feature, melhor_threshold

## 6. Construindo a √Årvore Recursivamente

A constru√ß√£o da √°rvore √© recursiva:
- Se o n√≥ for ‚Äúpuro‚Äù (todas as classes iguais) ou atingir profundidade m√°xima ‚Üí vira **folha**.
- Caso contr√°rio ‚Üí encontra o **melhor split**, divide e cria **n√≥s filhos**.


In [None]:
    def _build_tree(self, X, y, depth=0):
        classes, counts = np.unique(y, return_counts=True)
        node = {"depth": depth, "samples": len(y), "classes": dict(zip(classes, counts))}

        # Caso de parada
        if len(classes) == 1 or (self.max_depth is not None and depth >= self.max_depth):
            node["type"] = "leaf"
            node["prediction"] = classes[np.argmax(counts)]
            return node

        feature, threshold = self._best_split(X, y)
        if feature is None:
            node["type"] = "leaf"
            node["prediction"] = classes[np.argmax(counts)]
            return node

        node["type"] = "node"
        node["feature"] = feature
        node["threshold"] = threshold

        X_esq, X_dir, y_esq, y_dir = self._split(X, y, feature, threshold)
        node["left"] = self._build_tree(X_esq, y_esq, depth + 1)
        node["right"] = self._build_tree(X_dir, y_dir, depth + 1)

        return node


## 7. Treinamento e Predi√ß√£o

Agora, implementamos os m√©todos principais:
- `fit(X, y)`: constr√≥i a √°rvore;
- `predict(X)`: percorre a √°rvore para classificar novas amostras.


In [None]:
    def fit(self, X, y):
        self.tree = self._build_tree(X, y)

    def _predict_sample(self, x, node, caminho=None):
        if caminho is None:
            caminho = []

        if node["type"] == "leaf":
            caminho.append(f"‚Üí Folha: classe = {node['prediction']}")
            return node["prediction"], caminho

        feature = node["feature"]
        threshold = node["threshold"]

        if x[feature] <= threshold:
            caminho.append(f"Se X[{feature}] <= {threshold}: seguir para esquerda")
            return self._predict_sample(x, node["left"], caminho)
        else:
            caminho.append(f"Se X[{feature}] > {threshold}: seguir para direita")
            return self._predict_sample(x, node["right"], caminho)

    def predict(self, X):
        preds, caminhos = [], []
        for x in X:
            pred, caminho = self._predict_sample(x, self.tree)
            preds.append(pred)
            caminhos.append(caminho)
        return np.array(preds), caminhos


## 8. Testando a √Årvore com Dados Simples
Vamos testar com um conjunto de dados artificial.


In [8]:
X = np.array([
    [2.7, 2.5],
    [1.3, 1.5],
    [3.0, 3.5],
    [2.0, 1.0],
    [3.5, 0.5]
])
y = np.array([1, 0, 1, 0, 1])

arvore = DecisionTree(criterio="gini", max_depth=3)
arvore.fit(X, y)

preds, caminhos = arvore.predict(X)
for i, (p, c) in enumerate(zip(preds, caminhos)):
    print(f"Exemplo {i}: classe prevista = {p}")
    print("  Caminho de decis√£o:")
    for passo in c:
        print("   ", passo)
    print()


AttributeError: 'DecisionTree' object has no attribute 'fit'

## 9. Conclus√£o

Neste notebook, vimos **como uma √°rvore de decis√£o √© constru√≠da do zero**, entendendo passo a passo:

- O c√°lculo da **impureza (Gini e Entropia)**;  
- O processo de **divis√£o √≥tima dos dados**;  
- A **recurs√£o na constru√ß√£o da √°rvore**;  
- E, por fim, a **interpreta√ß√£o das decis√µes tomadas**.

Esse entendimento √© essencial antes de usar implementa√ß√µes prontas como `DecisionTreeClassifier` do `scikit-learn`, pois nos permite compreender o *porqu√™* das decis√µes do modelo.
