# **Árvores de Decisão — Módulo 3, Notebook 5/6**

---

## Índice

1. [Introdução às Árvores de Decisão](#introducao)
2. [Como Funcionam as Árvores de Decisão?](#como-funciona)
3. [Intuição Prática](#intuicao)
4. [Critérios de Divisão](#criterios)
5. [Formalização Matemática](#formalizacao)
6. [Implementação com Scikit-Learn](#sklearn)
7. [Vantagens e Desvantagens](#vantagens-desvantagens)

---

<a id='introducao'></a>
## **Introdução às Árvores de Decisão**

Árvores de Decisão são algoritmos de aprendizado supervisionado utilizados para classificação e regressão. Diferentemente dos outros algoritmos estudados, as árvores de decisão funcionam como **um fluxograma de perguntas e respostas** - uma abordagem fundamentalmente intuitiva e humana para tomada de decisões.

Imagine um gerente de banco experiente, Sr. Roberto, que precisa decidir se aprova ou rejeita pedidos de crédito. Sua experiência é baseada em anos de intuição, mas como tornar esse processo replicável? A resposta: mapear seu raciocínio em uma série de perguntas estruturadas.

**Comparação com outros algoritmos de classificação:**

- **KNN**: Baseado em proximidade dos vizinhos mais próximos
- **Naive Bayes**: Abordagem probabilística com independência entre features
- **Regressão Logística**: Modelo linear que estima probabilidades
- **SVM**: Encontra hiperplano ótimo que maximiza margem
- **Árvores de Decisão**: Sequência de regras if/else que levam a uma decisão

**Características principais:**

- **Alta interpretabilidade**: Modelo "caixa branca" onde cada decisão é explícita
- **Não requer normalização**: Funciona com dados categóricos e numéricos
- **Captura não-linearidade**: Pode modelar relacionamentos complexos
- **Seleção automática de features**: Ignora features irrelevantes

**Conteúdo do notebook:**

1. Como as árvores de decisão funcionam (nós, ramos, folhas)
2. Intuição prática (aprovação de crédito)
3. Critérios de divisão (Gini, Entropia)
4. Formalização matemática (algoritmo de construção)
5. Implementação com Scikit-Learn (aplicação prática)

<a id='como-funciona'></a>
## **Como Funcionam as Árvores de Decisão?**

Imagine o Sr. Roberto estruturando seu processo de aprovação de crédito:

**Passo 1: A Pergunta Mais Importante (Nó Raiz)**

Sr. Roberto pensa: "Qual é a primeira pergunta que melhor separa bons de maus pagadores?". Ele percebe que a informação mais impactante é se o cliente possui fonte de renda.

- Pergunta: *O cliente tem fonte de renda?*
  - **Sim**: Cliente passa para próxima análise
  - **Não**: Risco alto → **NEGAR**

**Passo 2: Criando os Ramos (Nós Internos)**

Para quem respondeu "Sim", Sr. Roberto precisa de outra pergunta. Ele foca no grupo promissor:

- Pergunta (para quem tem renda): *O nível de dívida atual é alto?*
  - **Sim**: Grupo arriscado, requer mais análise
  - **Não**: Grupo de baixo risco, chance maior de aprovação

**Passo 3: Chegando às Folhas (Decisão Final)**

O processo continua ramificando até chegar em decisões finais:

- Renda estável + dívida baixa → **APROVAR**
- Renda estável + dívida alta + garantia → **APROVAR**  
- Renda estável + dívida alta + sem garantia → **NEGAR**

---

### **Anatomia de uma Árvore de Decisão**

- **Root Node (Nó Raiz):**
  - Primeiro nó no topo
  - Representa a feature mais importante
  - De onde todas as decisões começam

- **Internal Nodes (Nós Internos):**
  - Fazem testes/perguntas sobre features
  - Têm pelo menos 2 ramos saindo
  - Cada ramo representa uma resposta possível

- **Branches (Ramos):**
  - Conectam os nós
  - Representam as respostas possíveis (Sim/Não, valores)

- **Leaf Nodes (Folhas):**
  - Nós finais, sem ramos saindo
  - Contêm a decisão final
  - Exemplo: "Aprovar", "Rejeitar"

- **Depth (Profundidade):**
  - Número de níveis da árvore
  - Quanto mais profunda, mais complexa é a árvore

---

### **Algoritmo de Construção**

O algoritmo usa uma estratégia **greedy (gulosa)**:

1. **Escolhe a 'melhor' feature** para dividir os dados
   - "Melhor" = aquela que mais reduz impureza

2. **Divide os dados** baseado nessa feature

3. **Repete recursivamente** para cada subconjunto

4. **Para quando:**
   - Todos os exemplos são da mesma classe (nó puro)
   - Não há mais features para dividir
   - Atinge profundidade máxima
   - Conjunto se torna muito pequeno (min_samples_split)

**IMPUREZA**: Mede o quão misturadas estão as classes
- Impureza = 0: Todos na mesma classe (puro)
- Impureza máxima: Classes uniformemente distribuídas

<a id='intuicao'></a>
## **Intuição Prática**

Para ilustrar o funcionamento das árvores de decisão, vamos utilizar o contexto de aprovação de crédito bancário.

### **Contexto do Problema**

Dadas as informações de um cliente:
- Idade
- Renda anual
- Nível de dívida
- Situação de emprego
- Score de crédito

**Objetivo:** Classificar como **APROVADO** ou **REJEITADO** para concessão de crédito.

### **Análise Exploratória**

Primeiro, vamos gerar e visualizar dados sintéticos para entender o problema.

<a id='criterios'></a>
## **Critérios de Divisão**

Para decidir qual pergunta fazer em cada nó, a árvore precisa medir quão "pura" ou "impura" está cada divisão.

---

### **Gini Impurity**

Mede a probabilidade de classificação incorreta ao escolher um elemento aleatoriamente:

$$Gini = 1 - \sum_{i=1}^{k} p_i^2$$

**Exemplo:**
- [50 aprovados, 50 rejeitados]:
  - $Gini = 1 - (0.5^2 + 0.5^2) = 0.5$ (Máxima impureza para 2 classes)

- [90 aprovados, 10 rejeitados]:
  - $Gini = 1 - (0.9^2 + 0.1^2) = 0.18$ (Baixa impureza, mais puro)

---

### **Shannon Entropy**

Mede o grau de desordem ou incerteza nos dados:

$$Entropy = -\sum_{i=1}^{k} p_i \log_2(p_i)$$

**Exemplo:**
- [50 aprovados, 50 rejeitados]:
  - $Entropy = -(0.5 \times \log_2(0.5) + 0.5 \times \log_2(0.5)) = 1$ (Máxima entropia)

- [90 aprovados, 10 rejeitados]:
  - $Entropy \approx 0.47$ (Baixa entropia, mais organizado)

---

### **Information Gain**

Mede quanto a divisão reduziu a impureza:

$$Gain = Impureza(antes) - Impureza(depois)$$

**Objetivo:** Escolher a divisão que maximiza o ganho de informação.

---

### **Visualização Prática**

Vamos calcular e visualizar esses conceitos com dados reais.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.patches import Rectangle, FancyBboxPatch

In [None]:
# Dessa vez, vamos gerar os dados para interpretarmos
np.random.seed(42)
n_samples = 100

age = np.random.randint(18, 70, n_samples)
income = np.random.randint(20000, 120000, n_samples)
debt = np.random.randint(0, 50000, n_samples)
employed = np.random.choice([0, 1], n_samples, p=[0.7, 0.3])  # 0: No, 1: Yes
credit_score = np.random.choice(['Good', 'Fair', 'Poor'], n_samples, p=[0.4, 0.4, 0.2])

approved = []
for i in range(n_samples):
    score = 0

    if income[i] > 60000:
        score += 3
    if income[i] > 40000:
        score += 2
    else:
        score += 1

    if debt[i] < 15000:
        score += 3
    elif debt[i] < 30000:
        score += 1

    if employed[i] == 1:
        score += 2
        
    if credit_score[i] == 'Good':
        score += 3
    elif credit_score[i] == 'Fair':
        score += 1
  
    approved.append(1 if score >= 6 else 0)

df = pd.DataFrame({
    'Age': age,
    'Income': income,
    'Debt': debt,
    'Employed': employed,
    'Credit_Score': credit_score,
    'Approved': approved
})

print("Total de registros:", len(df))
print(f"\nDistribuição das decisões:")
print(df['Approved'].value_counts(normalize=True))


In [None]:
# Calcular Gini Impurity
def gini_impurity(y):
    if len(y) == 0:
        return 0
    proportions = np.bincount(y) / len(y)
    return 1 - np.sum(proportions ** 2)

def entropy(y):
    if len(y) == 0:
        return 0
    proportions = np.bincount(y) / len(y)
    proportions = proportions[proportions > 0]
    return -np.sum(proportions * np.log2(proportions))

gini_initial = gini_impurity(df['Approved'])
entropy_initial = entropy(df['Approved'])
print(f"Gini Impurity (Initial): {gini_initial}")
print(f"Entropy (Initial): {entropy_initial}")
print(f"\nTemos {np.sum(df['Approved'])} aprovações e {len(df) - np.sum(df['Approved'])} rejeições.")

In [None]:
y = df['Approved'].values
threshold_income = 60000
high_income_mask = df['Income'] > threshold_income
low_income_mask = ~high_income_mask

# Grupo: Income > 60000
high_income_approved = y[high_income_mask]
gini_high = gini_impurity(high_income_approved)
print(f"\nGrupo 1 (Income > ${threshold_income:,}):")
print(f"   Total: {len(high_income_approved)} pessoas")
print(f"   Aprovados: {np.sum(high_income_approved)} ({np.mean(high_income_approved)*100:.1f}%)")
print(f"   Gini: {gini_high:.4f}")

# Grupo: Income <= 60000
low_income_approved = y[low_income_mask]
gini_low = gini_impurity(low_income_approved)
print(f"\nGrupo 2 (Income <= ${threshold_income:,}):")
print(f"   Total: {len(low_income_approved)} pessoas")
print(f"   Aprovados: {np.sum(low_income_approved)} ({np.mean(low_income_approved)*100:.1f}%)")
print(f"   Gini: {gini_low:.4f}")

# Calcular Gini após a divisão
gini_after_split = (len(high_income_approved) / len(y)) * gini_high + (len(low_income_approved) / len(y)) * gini_low
print(f"\nGini após a divisão: {gini_after_split:.4f}")
print(f"\nGanho: {gini_initial - gini_after_split:.4f}")

In [None]:
# Desenho da árvore de decisão

def draw_node(ax, x, y, text, width=2, height=0.6, color='lightblue'):
    box = FancyBboxPatch((x-width/2, y-height/2), width, height,
                         boxstyle="round,pad=0.1", 
                         edgecolor='black', facecolor=color, linewidth=2)
    ax.add_patch(box)
    ax.text(x, y, text, ha='center', va='center', fontsize=10, 
           fontweight='bold', wrap=True)

def draw_arrow(ax, x1, y1, x2, y2, label=''):
    ax.annotate('', xy=(x2, y2), xytext=(x1, y1),
               arrowprops=dict(arrowstyle='->', lw=2, color='black'))
    if label:
        mid_x, mid_y = (x1+x2)/2, (y1+y2)/2
        ax.text(mid_x, mid_y, label, ha='center', fontsize=9,
               bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))


fig, ax = plt.subplots(figsize=(12, 8))
# Root Node
draw_node(ax, 7, 7, 'Income > $60k?', color='#fff3cd')

# Ramo esquerdo (Sim)
draw_arrow(ax, 6.5, 6.7, 4, 5.3, 'Sim')
draw_node(ax, 4, 5, 'Employed = Yes?', color='#d4edda')

# Sub-ramos esquerda
draw_arrow(ax, 3.5, 4.7, 2.5, 3.3, 'Sim')
draw_node(ax, 2.5, 3, 'APROVADO', width=1.8, color='#28a745')

draw_arrow(ax, 4.5, 4.7, 5.5, 3.3, 'Não')
draw_node(ax, 5.5, 3, 'Debt > $20k', color='#fff3cd')

draw_arrow(ax, 5.2, 2.7, 4.5, 1.3, 'Sim')
draw_node(ax, 4.5, 1, 'REJEITADO', width=1.8, color='#dc3545')

draw_arrow(ax, 5.8, 2.7, 6.5, 1.3, 'Não')
draw_node(ax, 6.5, 1, 'APROVADO', width=1.8, color='#28a745')

# Ramo direito (Não)
draw_arrow(ax, 7.5, 6.7, 10, 5.3, 'Não')
draw_node(ax, 10, 5, 'CreditScore = Good?\n(Gini=0.44)', color='#f8d7da')

draw_arrow(ax, 9.5, 4.7, 8.5, 3.3, 'Sim')
draw_node(ax, 8.5, 3, 'APROVADO', width=1.8, color='#28a745')

draw_arrow(ax, 10.5, 4.7, 11.5, 3.3, 'Não')
draw_node(ax, 11.5, 3, 'REJEITADO', width=1.8, color='#dc3545')

ax.set_xlim(0, 14)
ax.set_ylim(0, 8)
ax.axis('off')
ax.set_title('Árvore de Decisão - Credit Approval', 
            fontsize=14, fontweight='bold', pad=20)


plt.tight_layout()
plt.show()

<a id='formalizacao'></a>
## **Formalização Matemática**

**Entrada**

1. Conjunto de treinamento de n amostras em pares $D=\{(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), ..., (x^{(n)}, y^{(n)})\}$

    onde:

    - $x^{(i)}$: vetor de d features ($x^{(i)} = (x^{(i)}_1, x^{(i)}_2, ..., x^{(i)}_d)$), portanto $x^{(i)} \in \mathbb{R}^d$

    - $y^{(i)}$: rótulo de classe, $y^{(i)} \in C = \{c_1, c_2, ..., c_k\}$ para classificação

**Processamento**

O algoritmo de árvore de decisão funciona recursivamente dividindo o espaço de características.

**1. Critérios de Impureza**

**Entropia**: Para um conjunto $S$ com $k$ classes:

$H(S) = -\sum_{i=1}^{k} p_i \log_2(p_i)$

onde $p_i$ é a proporção de amostras da classe $i$ em $S$.

**Gini Impurity**: 

$Gini(S) = 1 - \sum_{i=1}^{k} p_i^2$

**2. Information Gain**

Para uma feature $A$ que divide $S$ em subconjuntos $S_1, S_2, ..., S_m$:

$IG(S, A) = H(S) - \sum_{j=1}^{m} \frac{|S_j|}{|S|} H(S_j)$

**3. Algoritmo de Construção**

``` code
função BuildTree(S, Features):
    se S é puro (todas as amostras têm a mesma classe):
        retorna folha com essa classe
    
    se Features é vazio:
        retorna folha com classe majoritária em S
    
    seleciona feature A que maximiza Information Gain
    cria nó com teste em A
    
    para cada valor v de A:
        S_v = subconjunto de S onde A = v
        se S_v é vazio:
            adiciona folha com classe majoritária em S
        senão:
            adiciona subárvore BuildTree(S_v, Features - {A})
```

**4. Critérios de Parada**

- Profundidade máxima atingida
- Número mínimo de amostras por folha
- Information Gain mínimo
- Nó puro (todas amostras da mesma classe)

**Saída - Classificação**

- **Estrutura da Árvore**: Conjunto de nós internos (testes) e folhas (predições)

- **Predição**: Para uma nova amostra $x^{new}$:
  1. Começar na raiz
  2. Aplicar o teste do nó atual em $x^{new}$
  3. Seguir o ramo correspondente ao resultado
  4. Repetir até chegar a uma folha
  5. Retornar a classe da folha

- **Probabilidades**: Para probabilidades de classe, usar a distribuição das classes na folha

**Poda (Pruning)**

Para evitar overfitting, aplicamos poda:

**Pré-poda**: Parar o crescimento da árvore antecipadamente
- Profundidade máxima
- Número mínimo de amostras por nó
- Information gain mínimo

**Pós-poda**: Remover partes da árvore após construção
- Cost complexity pruning (usado no sklearn)
- Validação cruzada para escolher melhor complexidade

In [None]:
# Dados para Teste - Credit Approval Dataset
# ==================================================
from ucimlrepo import fetch_ucirepo 
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
import pandas as pd

# Fetch dataset
credit_approval = fetch_ucirepo(id=27) 

# Data (as pandas dataframes) 
X = credit_approval.data.features 
y = credit_approval.data.targets

# Simplificar dataset para fins didáticos
# Selecionar algumas features importantes e tratar valores ausentes
X_simple = X[['A2', 'A3', 'A8', 'A11', 'A14', 'A15']].copy()
X_simple.columns = ['Age', 'Years_Employed', 'Debt_to_Income', 'Credit_Score', 'Income', 'Debt']

# Tratar valores ausentes - substituir por mediana para numéricos
for col in X_simple.columns:
    if X_simple[col].dtype in ['float64', 'int64']:
        X_simple[col] = pd.to_numeric(X_simple[col], errors='coerce')
        X_simple[col] = X_simple[col].fillna(X_simple[col].median())

# Remover amostras com muitos valores ausentes
X_simple = X_simple.dropna()
y_simple = y.loc[X_simple.index]

# Converter target para binário (aprovado/negado)
le = LabelEncoder()
y_binary = le.fit_transform(y_simple.values.ravel())

print(f"Dataset shape: {X_simple.shape}")
print(f"Classes: {le.classes_}")
print(f"Distribuição das classes: {np.bincount(y_binary)}")

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X_simple.values, y_binary, test_size=0.2, random_state=42
)

<a id='sklearn'></a>
## **Implementação com Scikit-Learn**

Nesta seção, aplicaremos árvores de decisão utilizando Scikit-Learn no dataset Credit Approval para prever aprovação de crédito.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.tree import export_text
import seaborn as sns

In [None]:
# ===================================================
# 1. Implementação Básica

tree = DecisionTreeClassifier(random_state=42)
tree.fit(X_train, y_train)
predictions = tree.predict(X_test)

accuracy = accuracy_score(y_test, predictions)
print(f"Acurácia: {accuracy*100:.2f}%")


In [None]:
# =================================================
# 2. Visualização do Modelo

tree_small = DecisionTreeClassifier(max_depth=3, random_state=42) #melhorar visualização
tree_small.fit(X_train, y_train)

print("\nRegras da Árvore de Decisão:")
rules = export_text(tree_small, feature_names=list(X_simple.columns))
print(rules)

In [None]:
# =================================================
# 3. Parâmetros Importantes da Árvore de Decisão

# criterion (default='gini')
# - 'gini': Gini impurity
# - 'entropy': Information gain
# - 'log_loss': Log loss

# max_depth (default=None)
# - Profundidade máxima da árvore
# - None = sem limite (pode causar overfitting)

# min_samples_split (default=2)
# - Número mínimo de amostras necessárias para dividir um nó interno

# min_samples_leaf (default=1)
# - Número mínimo de amostras necessárias em uma folha

# max_features (default=None)
# - Número de features a considerar ao procurar a melhor divisão
# - None: usa todas as features

# ccp_alpha (default=0.0)
# - Parâmetro de complexidade para poda de custo mínimo
# =================================================

# Testar diferentes critérios
criteria = ['gini', 'entropy']
results = []

for criterion in criteria:
    dt = DecisionTreeClassifier(criterion=criterion, random_state=42)
    dt.fit(X_train, y_train)
    accuracy = dt.score(X_test, y_test)
    depth = dt.get_depth()
    leaves = dt.get_n_leaves()
    
    results.append((criterion, accuracy, depth, leaves))
    print(f"Critério {criterion:8}: Acurácia = {accuracy*100:5.2f}%, Profundidade = {depth:2d}, Folhas = {leaves:3d}")

# Testar diferentes profundidades máximas
max_depths = [3, 5, 7, 10, None]
print(f"\nTestando diferentes profundidades máximas:")

for max_depth in max_depths:
    dt = DecisionTreeClassifier(max_depth=max_depth, random_state=42)
    dt.fit(X_train, y_train)
    train_acc = dt.score(X_train, y_train)
    test_acc = dt.score(X_test, y_test)
    depth = dt.get_depth()
    leaves = dt.get_n_leaves()
    
    max_depth_str = str(max_depth) if max_depth else "None"
    print(f"Max_depth = {max_depth_str:4}: Train = {train_acc*100:5.2f}%, Test = {test_acc*100:5.2f}%, "
          f"Profundidade Real = {depth:2d}, Folhas = {leaves:3d}")

print(f"""\nNotas: 
      \n - como profundidades menores podem ter melhor generalização (menor overfitting)
      \n - Note como a árvore sem limites de profundade tem 100% de acurácia no treino, mas pior no teste. (decorou os dados)""")

In [None]:
## =================================================
# 4. FEATURE IMPORTANCE
# =================================================

tree_analysis = DecisionTreeClassifier(max_depth=5, random_state=42)
tree_analysis.fit(X_train, y_train)

# Importar bibliotecas necessárias
importances = tree_analysis.feature_importances_
indices = np.argsort(importances)[::-1]

# Exibir as características mais importantes (limitado ao número de features disponíveis)
print("Características mais importantes:")
for f in range(min(10, len(importances))):
    print(f"{f + 1}. {X_simple.columns[indices[f]]} ({importances[indices[f]]:.4f})")

# Plotar a importância das características usando gráfico ASCII
print("\n" + "="*60)
print("GRÁFICO DE IMPORTÂNCIA DAS CARACTERÍSTICAS (ASCII)")
print("="*60)

max_bar_length = 50
for f in range(len(importances)):
    idx = indices[f]
    importance = importances[idx]
    bar_length = int(importance * max_bar_length / importances[indices[0]])
    bar = '█' * bar_length
    print(f"{X_simple.columns[idx]:20} | {bar} {importance:.4f}")

print("="*60)

In [None]:
# =================================================
# 5. Otimização de Hiperparâmetros com Grid Search
# =================================================

from sklearn.model_selection import GridSearchCV

# Definir espaço de busca
param_grid = {
    'criterion': ['gini', 'entropy'],
    'max_depth': [3, 5, 7, 10, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'max_features': [None, 'sqrt', 'log2']
}

# Grid search com validação cruzada
dt_grid = DecisionTreeClassifier(random_state=42)
grid_search = GridSearchCV(dt_grid, param_grid, cv=5, scoring='accuracy', verbose=1, n_jobs=-1)
grid_search.fit(X_train, y_train)

# Melhores parâmetros
print(f"Melhores parâmetros: {grid_search.best_params_}")
print(f"Melhor score CV: {grid_search.best_score_*100:.2f}%")

# Avaliar no conjunto de teste
best_dt = grid_search.best_estimator_
y_pred_best = best_dt.predict(X_test)
accuracy_best = accuracy_score(y_test, y_pred_best)
print(f"Acurácia no teste: {accuracy_best*100:.2f}%")

# Informações sobre a melhor árvore
print(f"\nInformações da melhor árvore:")
print(f"Profundidade: {best_dt.get_depth()}")
print(f"Número de folhas: {best_dt.get_n_leaves()}")
print(f"Número de nós: {best_dt.tree_.node_count}")

# Relatório detalhado
print(f"\nRelatório de Classificação:")
print(classification_report(y_test, y_pred_best, target_names=['Negado', 'Aprovado']))

In [None]:
# =================================================
# 5. Análise de Casos Específicos e Interpretabilidade
# =================================================

# Vamos analisar alguns casos específicos para entender as decisões da árvore
test_cases = [
    [35, 5, 0.3, 700, 50000, 15000],  # Caso favorável: idade média, empregado há tempo, baixo debt-to-income
    [25, 1, 0.8, 500, 25000, 20000],  # Caso desfavorável: jovem, pouco tempo empregado, alto debt-to-income
    [45, 10, 0.2, 800, 80000, 16000], # Caso muito favorável: idade madura, muito tempo empregado, baixo debt-to-income
    [22, 0.5, 0.9, 450, 20000, 18000] # Caso muito desfavorável: muito jovem, pouco tempo empregado, muito alto debt-to-income
]

feature_names = ['Age', 'Years_Employed', 'Debt_to_Income', 'Credit_Score', 'Income', 'Debt']

print("Análise de Casos Específicos:")
print("=" * 80)

for i, case in enumerate(test_cases):
    # Fazer predição
    prediction = best_dt.predict([case])[0]
    probabilities = best_dt.predict_proba([case])[0]
    
    # Mostrar o caminho da decisão
    decision_path = best_dt.decision_path([case])
    leaf_id = best_dt.apply([case])[0]
    
    result_names = {0: "Negado", 1: "Aprovado"}
    
    print(f"Caso {i+1}:")
    print(f"  Características:")
    for j, (feature, value) in enumerate(zip(feature_names, case)):
        print(f"    {feature}: {value}")
    
    print(f"  Predição: {result_names[prediction]}")
    print(f"  Probabilidades: Negado={probabilities[0]:.3f}, Aprovado={probabilities[1]:.3f}")
    print(f"  Confiança: {max(probabilities):.3f}")
    print(f"  {'*' * 60}")

# Matriz de confusão
plt.figure(figsize=(8, 6))
cm = confusion_matrix(y_test, y_pred_best)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['Negado', 'Aprovado'],
            yticklabels=['Negado', 'Aprovado'])
plt.title('Matriz de Confusão - Árvore de Decisão Otimizada')
plt.ylabel('Valor Real')
plt.xlabel('Predição')
plt.show()

# Curva de learning
from sklearn.model_selection import learning_curve

train_sizes, train_scores, val_scores = learning_curve(
    best_dt, X_train, y_train, cv=5, 
    train_sizes=np.linspace(0.1, 1.0, 10)
)

plt.figure(figsize=(10, 6))
plt.plot(train_sizes, np.mean(train_scores, axis=1), 'o-', label='Score de Treino')
plt.plot(train_sizes, np.mean(val_scores, axis=1), 'o-', label='Score de Validação')
plt.xlabel('Tamanho do Conjunto de Treino')
plt.ylabel('Acurácia')
plt.title('Curva de Aprendizado - Árvore de Decisão')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

<a id='vantagens-desvantagens'></a>
## **Vantagens e Desvantagens**

### **Vantagens**

1. **Alta Interpretabilidade**: Fácil de entender e explicar para stakeholders não-técnicos
2. **Não Requer Preparação Extensiva dos Dados**: Funciona com dados categóricos e numéricos sem normalização
3. **Captura Relacionamentos Não-Lineares**: Pode modelar interações complexas entre features
4. **Seleção Automática de Features**: Ignora features irrelevantes automaticamente
5. **Robusta a Outliers**: Divisões baseadas em rankings, não em valores absolutos
6. **Suporta Dados Ausentes**: Pode lidar com valores faltantes naturalmente

### **Desvantagens**

1. **Tendência ao Overfitting**: Especialmente com árvores profundas
2. **Instabilidade**: Pequenas mudanças nos dados podem resultar em árvores muito diferentes
3. **Bias para Features com Mais Categorias**: Features com mais valores únicos têm vantagem
4. **Dificuldade com Relacionamentos Lineares**: Pode ser ineficiente para padrões lineares simples
5. **Predições "Escalonadas"**: Só pode prever valores que existem no conjunto de treino
6. **Não captura interações aditivas**: Melhor para interações multiplicativas

---

### **Quando usar Árvores de Decisão?**

**Casos recomendados:**
- Quando interpretabilidade é prioritária
- Dados com mix de features categóricas e numéricas
- Presença de interações não-lineares entre features
- Necessidade de explicar decisões para stakeholders
- Datasets pequenos a médios

**Casos não recomendados:**
- Quando máxima acurácia é crítica (preferir ensembles)
- Dados com muitas features numéricas correlacionadas
- Necessidade de probabilidades bem calibradas
- Features em escalas muito diferentes (embora não seja crítico)

---

### **Controle de Overfitting**

**Pré-poda (Pre-pruning):**
- `max_depth`: Limitar profundidade máxima
- `min_samples_split`: Mínimo de amostras para dividir nó
- `min_samples_leaf`: Mínimo de amostras em folha
- `max_features`: Limitar features consideradas

**Pós-poda (Post-pruning):**
- `ccp_alpha`: Cost complexity pruning
- Validação cruzada para escolher melhor complexidade

---

## **Resumo**

Neste notebook foram abordados:

- Conceitos fundamentais das Árvores de Decisão (nós, ramos, folhas)
- Funcionamento do algoritmo (estratégia greedy, divisões recursivas)
- Critérios de divisão (Gini Impurity, Entropia, Information Gain)
- Formalização matemática (algoritmo de construção, poda)
- Implementação prática com Scikit-Learn
- Vantagens e limitações do algoritmo

**Conceitos principais:**
- **Nó Raiz**: Primeira divisão com feature mais importante
- **Impureza**: Medida de mistura de classes em um nó
- **Information Gain**: Redução de impureza após divisão
- **Overfitting**: Árvores profundas memorizam ruído
- **Poda**: Técnica para controlar complexidade
- **Interpretabilidade**: Principal vantagem das árvores

---

## **Próximos Passos**

No próximo notebook, serão apresentados **Métodos de Ensemble** - combinando múltiplas árvores para melhorar desempenho.

---

<-- [**Anterior: SVM**](04_svm.ipynb) | [**Próximo: Ensembles de Classificação**](06_ensemble_classificacao.ipynb) -->