# Árvores de Decisão

Uma árvore de decisão é basicamente um modelo que usa uma estrutura de árvore para representar uma série de possíveis caminhos de decisão e seus possíveis resultados. Cada nó na árvore representa um atributo ou característica dos dados, e cada ramo representa uma regra de decisão. A ideia é criar uma árvore que consiga capturar os padrões nos dados de forma que as decisões tomadas em cada nó levem a uma boa previsão ou classificação.

**EXEMPLO**

Considere um dataset fictício para a previsão de aprovação de empréstimos bancários. Os bancos costumam analisar uma série de características pessoais e financeiras antes de decidir se aprovam ou rejeitam um pedido de empréstimo. A variável-alvo é "Aprovação do Empréstimo" (sim, não).

| Idade | Emprego   | Renda Anual | Histórico de Crédito | Valor do Empréstimo Solicitado | Prazo do Empréstimo | Propriedade de Casa | Dívida Existente | Estado Civil | Aprovação do Empréstimo |
|-------|-----------|-------------|----------------------|--------------------------------|---------------------|---------------------|------------------|--------------|------------------------|
| 30    | empregado | 50000       | bom                  | 10000                          | 5                   | sim                 | 2000             | casado       | sim                    |
| 45    | autônomo  | 80000       | médio                | 15000                          | 10                  | não                 | 5000             | solteiro     | sim                    |
| 35    | desempregado | 20000     | ruim                 | 5000                           | 2                   | não                 | 1000             | divorciado   | não                    |
| 50    | empregado | 120000      | bom                  | 20000                          | 7                   | sim                 | 8000             | casado       | sim                    |
| 25    | empregado | 30000       | bom                  | 7000                           | 3                   | não                 | 0                | solteiro     | sim                    |
| 40    | autônomo  | 60000       | médio                | 8000                           | 2                   | não                 | 3000             | casado       | não                    |
| 55    | empregado | 150000      | bom                  | 50000                          | 15                  | sim                 | 10000            | divorciado   | sim                    |
| 60    | empregado | 70000       | ruim                 | 20000                          | 10                  | não                 | 15000            | casado       | não                    |
| 33    | desempregado | 25000     | médio                | 3000                           | 1                   | sim                 | 0                | solteiro     | não                    |
| 28    | empregado | 40000       | bom                  | 6000                           | 2                   | não                 | 1000             | solteiro     | sim                    |
| 47    | autônomo  | 90000       | ruim                 | 10000                          | 3                   | sim                 | 7000             | casado       | não                    |
| 52    | empregado | 110000      | bom                  | 15000                          | 5                   | não                 | 6000             | divorciado   | sim                    |
| 26    | empregado | 35000       | médio                | 5000                           | 1                   | sim                 | 500              | solteiro     | sim                    |
| 43    | desempregado | 30000     | ruim                 | 7000                           | 3                   | não                 | 4000             | casado       | não                    |
| 58    | empregado | 130000      | bom                  | 30000                          | 10                  | sim                 | 9000             | divorciado   | sim                    |
| 31    | empregado | 55000       | médio                | 8000                           | 2                   | sim                 | 2000             | solteiro     | sim                    |
| 48    | autônomo  | 85000       | ruim                 | 12000                          | 4                   | não                 | 5000             | casado       | não                    |
| 37    | empregado | 65000       | bom                  | 10000                          | 3                   | sim                 | 3000             | divorciado   | sim                    |
| 29    | desempregado | 30000     | médio                | 4000                           | 1                   | não                 | 1000             | solteiro     | não                    |
| 54    | empregado | 140000      | bom                  | 25000                          | 7                   | sim                 | 8000             | casado       | sim                    |

## Considerações

Coisas que você deve saber sobre as árvores de decisão.

1. **Overfitting**: As árvores de decisão podem facilmente se ajustar demais aos dados de treinamento. Isso acontece quando a árvore é tão profunda que acaba capturando muito bem o ruído nos dados, em vez de capturar apenas os padrões verdadeiros. Isso significa que o modelo terá um desempenho ruim ao generalizar para novos dados.

2. **Instabilidade**: Pequenas alterações nos dados podem resultar em árvores de decisão completamente diferentes. Isso é particularmente verdadeiro com conjuntos de dados que têm muitas características e/ou muitos pontos de divisão possíveis.

3. **Problemas com dados desbalanceados**: As árvores de decisão podem ter dificuldade em lidar com dados desbalanceados. Se uma classe tem muito mais exemplos que outra, a árvore de decisão pode se tornar enviesada na direção da classe dominante.

4. **Dificuldade com variáveis contínuas e não-lineares**: As árvores de decisão cortam variáveis contínuas em diferentes pontos, o que pode não representar bem a verdadeira natureza dessas variáveis. Da mesma forma, as árvores de decisão podem ter dificuldade em modelar relações complexas e não lineares entre as características.

5. **São modelos de viés alto e variância baixa**: As árvores de decisão tendem a fazer suposições fortes sobre a estrutura dos dados (por exemplo, que os dados podem ser divididos em subconjuntos com base em regras de decisão simples). Isso pode levar a um viés alto (o modelo não se ajusta bem aos dados de treinamento) e uma variância baixa (o modelo não muda muito com diferentes conjuntos de dados de treinamento).

## O Algoritmo na Prática

**Bibliotecas**

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier

**Ingestão**

In [3]:
data = {
    'Idade': [30, 45, 35, 50, 25, 40, 55, 60, 33, 28, 47, 52, 26, 43, 58, 31, 48, 37, 29, 54],
    'Emprego': ['empregado', 'autônomo', 'desempregado', 'empregado', 'empregado', 'autônomo', 'empregado', 'empregado', 'desempregado', 'empregado', 'autônomo', 'empregado', 'empregado', 'desempregado', 'empregado', 'empregado', 'autônomo', 'empregado', 'desempregado', 'empregado'],
    'Renda Anual': [50000, 80000, 20000, 120000, 30000, 60000, 150000, 70000, 25000, 40000, 90000, 110000, 35000, 30000, 130000, 55000, 85000, 65000, 30000, 140000],
    'Histórico de Crédito': ['bom', 'médio', 'ruim', 'bom', 'bom', 'médio', 'bom', 'ruim', 'médio', 'bom', 'ruim', 'bom', 'médio', 'ruim', 'bom', 'médio', 'ruim', 'bom', 'médio', 'bom'],
    'Valor do Empréstimo Solicitado': [10000, 15000, 5000, 20000, 7000, 8000, 50000, 20000, 3000, 6000, 10000, 15000, 5000, 7000, 30000, 8000, 12000, 10000, 4000, 25000],
    'Prazo do Empréstimo': [5, 10, 2, 7, 3, 2, 15, 10, 1, 2, 3, 5, 1, 3, 10, 2, 4, 3, 1, 7],
    'Propriedade de Casa': ['sim', 'não', 'não', 'sim', 'não', 'não', 'sim', 'não', 'sim', 'não', 'sim', 'não', 'sim', 'não', 'sim', 'sim', 'não', 'sim', 'não', 'sim'],
    'Dívida Existente': [2000, 5000, 1000, 8000, 0, 3000, 10000, 15000, 0, 1000, 7000, 6000, 500, 4000, 9000, 2000, 5000, 3000, 1000, 8000],
    'Estado Civil': ['casado', 'solteiro', 'divorciado', 'casado', 'solteiro', 'casado', 'divorciado', 'casado', 'solteiro', 'solteiro', 'casado', 'divorciado', 'solteiro', 'casado', 'divorciado', 'solteiro', 'casado', 'divorciado', 'solteiro', 'casado'],
    'Aprovação do Empréstimo': ['sim', 'sim', 'não', 'sim', 'sim', 'não', 'sim', 'não', 'não', 'sim', 'não', 'sim', 'sim', 'não', 'sim', 'sim', 'não', 'sim', 'não', 'sim']
}

df = pd.DataFrame(data)

**Preparação**

In [4]:
# Codificar as variáveis categóricas
le = LabelEncoder()

df['Emprego'] = le.fit_transform(df['Emprego'])
df['Histórico de Crédito'] = le.fit_transform(df['Histórico de Crédito'])
df['Propriedade de Casa'] = le.fit_transform(df['Propriedade de Casa'])
df['Estado Civil'] = le.fit_transform(df['Estado Civil'])
df['Aprovação do Empréstimo'] = le.fit_transform(df['Aprovação do Empréstimo'])

# Separar as variáveis independentes (X) da variável dependente (y)
X = df.drop('Aprovação do Empréstimo', axis=1)
y = df['Aprovação do Empréstimo']

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


**Treinamento**

In [5]:
# Treinar o modelo de árvore de decisão

clf = DecisionTreeClassifier(max_depth=3, random_state=42)
clf.fit(X_train, y_train)

DecisionTreeClassifier(max_depth=3, random_state=42)

**Testes**

In [6]:
# Avaliar o modelo
print("Acurácia no conjunto de treinamento: ", clf.score(X_train, y_train))
print("Acurácia no conjunto de teste: ", clf.score(X_test, y_test))

Acurácia no conjunto de treinamento:  1.0
Acurácia no conjunto de teste:  0.75
