# Introdução às Árvores de Decisão

---

## Árvores de Decisão no Machine Learning
- **O que são Árvores de Decisão?**
  - Estruturas de decisão hierárquicas utilizadas para classificação e regressão.
  - Compostas por nós, ramos e folhas representando decisões baseadas em características dos dados.

- **Importância no Machine Learning:**
  - Flexibilidade para lidar com diferentes tipos de dados.
  - Facilidade de interpretação e visualização.
  - Aplicabilidade em diversas áreas, como finanças, medicina e e-commerce.

---

**Objetivos da Aula:**
- Compreender a teoria por trás das árvores de decisão e como aplicá-las na prática.
- Explorar dois algoritmos principais: ID3 e Random Forest.
- Implementar árvores de decisão em Python e analisar seu desempenho em conjuntos de dados reais.


# Árvores de Decisão e o Algoritmo ID3

---

## Conceitos Básicos de Árvores de Decisão
- **Definição:** Modelo de aprendizado supervisionado utilizado para classificação e regressão.
- **Aplicabilidade:** Amplo uso em diferentes campos, como finanças, medicina e marketing.

## Estrutura de uma Árvore de Decisão
1. **Nós:**
   - **Nó Raiz:** Ponto de partida da árvore.
   - **Nós Internos:** Representam os testes em atributos.
   - **Nós Folha:** Representam as decisões ou os resultados finais.

2. **Ramos:**
   - Conexões que representam as respostas aos testes e levam ao próximo nó ou folha.

3. **Folhas:**
   - Resultado final da decisão tomada após percorrer a árvore.

---


## Divisão do Conjunto de Dados em Árvores de Decisão

### Processo de Divisão em Nós
- **Objetivo:** Subdividir o conjunto de dados em subconjuntos mais homogêneos.
- **Método:** 
  - Cada nó da árvore faz uma pergunta sobre um atributo.
  - Os dados são divididos com base nas respostas a essa pergunta.

### Seleção do Atributo para Divisão
- **Baseada em Ganho de Informação:**
  - Escolhe-se o atributo que proporciona a maior redução na entropia.
  - O objetivo é tornar os subconjuntos resultantes mais homogêneos em relação às classes de saída.

### Exemplo Prático
- **Cenário:** Classificação de e-mails em 'spam' e 'não spam'.
- **Aplicação:**
  - Um nó pode dividir os dados com base no atributo "contém a palavra 'oferta'".
  - Isso resulta em dois subconjuntos: e-mails com e sem a palavra 'oferta'.
  - O processo continua até as folhas da árvore serem "puras".

## Critérios de Divisão: Entropia e Ganho de Informação

### Entropia
- **Definição:** Medida da incerteza ou desordem em um conjunto de dados. Originária da termodinâmica e adaptada para a teoria da informação e aprendizado de máquina.
- **Cálculo:**
  - Fórmula: `-sum(p(x) * log(p(x)))`
  - Onde `p(x)` é a probabilidade de um elemento pertencer a uma classe específica.
- **Interpretação:**
  - Valores altos indicam maior desordem.
  - Nos nós das árvores de decisão, alta entropia indica menos "pureza".

### Ganho de Informação
- **Definição:** Medida da redução na entropia resultante da divisão de um conjunto de dados baseado em um atributo.
- **Cálculo:**
  - Fórmula: `Ganho(S, A) = Entropia(S) - sum((|Sv| / |S|) * Entropia(Sv))`
  - Onde `S` é o conjunto antes da divisão, `A` é o atributo para divisão, e `Sv` são os subconjuntos após a divisão.
- **Interpretação:**
  - Atributos com maior ganho de informação são mais eficazes na redução da incerteza.
  - Preferidos para criar decisões (nós) na árvore.

### Divisão do Conjunto de Dados
- **Processo:**
  - O conjunto de dados é dividido em subconjuntos com base nos valores de um atributo escolhido.
  - A escolha do atributo é baseada no ganho de informação, procurando maximizar a redução da entropia.
- **Importância no Modelo:**
  - Essencial para a construção eficaz das árvores de decisão.
  - Ajuda na tomada de decisões e na "limpeza" dos dados para melhor interpretação e classificação.
---


## O Algoritmo ID3: Passo a Passo

### Introdução ao ID3
- **Definição:** O algoritmo ID3 (Iterative Dichotomiser 3) é um método clássico utilizado para construir árvores de decisão. É usado principalmente para problemas de classificação.
- **Funcionamento:** Baseia-se em critérios de informação para dividir o conjunto de dados e formar uma árvore que representa as decisões.

### Passos do Algoritmo ID3
1. **Início na Raiz da Árvore:**
   - Começa com todo o conjunto de dados.
   - Considera todos os atributos disponíveis.

2. **Seleção do Melhor Atributo:**
   - Usa o critério de Ganho de Informação para escolher o melhor atributo.
   - O atributo selecionado é aquele que melhor divide o conjunto de dados em categorias homogêneas.

3. **Divisão do Conjunto de Dados:**
   - Divide o conjunto de dados com base no valor do atributo escolhido.
   - Cada valor distinto do atributo gera um ramo na árvore.

4. **Repetição do Processo:**
   - O processo é repetido para cada subconjunto de dados resultante.
   - Novos nós são criados em cada passo, utilizando os atributos restantes.

5. **Critérios de Parada:**
   - O processo continua até que os nós folha sejam puros (contenham apenas dados de uma categoria) ou outros critérios de parada sejam atingidos, como profundidade máxima da árvore ou número mínimo de amostras em um nó.

### Resultado
- A árvore de decisão final representa uma série de decisões, que ajudam a classificar novos dados com base nos atributos e valores aprendidos.


---

## Exemplo Prático em Python
- Construção de uma árvore de decisão simples utilizando o algoritmo ID3.
- Uso de um conjunto de dados simples para ilustrar o processo.
- Código comentado passo a passo para facilitar a compreensão.

---

**Objetivo da Seção:**
- Compreender a teoria e a prática por trás das árvores de decisão e do algoritmo ID3.
- Aplicar o conhecimento adquirido em um exemplo prático em Python.

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('jogar_tenis.csv')

In [None]:
df

## Explicação da Base de Dados para Uso com Árvore de Decisão

A base de dados consiste em cinco colunas que representam características meteorológicas e uma resposta. Estas são:

1. **Clima:** 
   - Categorias: 'ensolarado', 'nublado', 'chuva'.
   - Descreve o estado do tempo.

2. **Temperatura:** 
   - Categorias: 'quente', 'ameno', 'frio'.
   - Indica a temperatura do ambiente.

3. **Umidade:** 
   - Categorias: 'alta', 'normal'.
   - Reflete o nível de umidade do ar.

4. **Vento:** 
   - Categorias: 'fraco', 'forte'.
   - Mostra a intensidade do vento.

5. **Jogar Tenis:** 
   - Categorias: 'não', 'sim'.
   - Resposta binária, indicando a adequação para Jogar Tenis.

### Utilização em Árvore de Decisão
- **Objetivo:** Usar esta base de dados para construir uma árvore de decisão que possa prever a 'Resposta' com base nas condições meteorológicas.
- **Processo:** 
  - A árvore de decisão divide o conjunto de dados em nós baseados nas características, procurando a melhor divisão para maximizar a pureza dos nós em relação à resposta (sim/não).
  - Ideal para entender padrões e tomar decisões baseadas em condições climáticas.


In [None]:
from sklearn.tree import DecisionTreeClassifier, plot_tree
import matplotlib.pyplot as plt

In [None]:
# Convertendo dados categóricos em numéricos (+ uma forma de aplicar)
df_encoded = df.apply(lambda x: pd.factorize(x)[0])

In [None]:
df_encoded

In [None]:
# Separando as características e o alvo
X = df_encoded.drop('Jogar Tenis', axis=1)
y = df_encoded['Jogar Tenis']

In [None]:
# Criando e treinando o modelo de árvore de decisão
clf = DecisionTreeClassifier(criterion='entropy')
clf.fit(X, y)

In [None]:
# Visualizando a árvore de decisão com parâmetros ajustados
plt.figure(figsize=(15, 10))  # Aumentando o tamanho da figura

# Ajustando o tamanho da fonte
plot_tree(clf, filled=True, feature_names=X.columns, class_names=['Não', 'Sim'], rounded=True, 
          fontsize=12)

plt.show()

# Algoritmo Random Forest

---

## Introdução ao Conceito de Ensemble Learning
- **Definição:** Técnica que combina as previsões de vários modelos de machine learning para produzir uma previsão mais precisa.
- **Princípio Básico:** "A sabedoria das multidões" - um conjunto de modelos pode ser mais eficaz do que um único modelo.

---

## Random Forest: Ideia Básica e Diferenças
- **O que é Random Forest?**
  - Um método de ensemble que combina várias árvores de decisão para melhorar a estabilidade e a precisão.
- **Diferenças em Relação às Árvores de Decisão Individuais:**
  - Cada árvore na floresta é construída a partir de uma amostra aleatória dos dados.
  - As decisões de cada árvore são agregadas para formar a decisão final.

---

## Vantagens e Desvantagens do Random Forest
- **Vantagens:**
  - Alta precisão e robustez.
  - Menor risco de overfitting em comparação com árvores de decisão individuais.
  - Importância das variáveis automaticamente calculada.
- **Desvantagens:**
  - Maior complexidade computacional.
  - Menor interpretabilidade em comparação com uma única árvore de decisão.




---

## Exemplo Prático em Python
- Implementação de um modelo Random Forest utilizando a biblioteca `sklearn`.
- Uso de um conjunto de dados real para ilustrar o processo.
- Explicação detalhada do código para garantir a compreensão.

---

**Objetivo da Seção:**
- Entender o funcionamento e a aplicação prática do Random Forest.
- Comparar a eficácia do Random Forest com as árvores de decisão individuais.
- Aplicar o conhecimento em um exemplo prático usando Python.

# Base de Dados de Identificação de Vidros


## Fontes
- Criador: B. German
  - Estabelecimento Central de Pesquisa
  - Serviço de Ciência Forense do Ministério do Interior
  - Aldermaston, Reading, Berkshire RG7 4PN
- Nota técnica desconhecida (número não listado aqui)
- Resultados Gerais: o algoritmo do vizinho mais próximo se comparou bem com o sistema baseado em regras

## Informações Relevantes
A motivação para o estudo da classificação dos tipos de vidro foi a investigação criminológica. Na cena do crime, o vidro encontrado pode ser usado como evidência... se for corretamente identificado!

## Número de Registros
214

## Número de Atributos
9 mais a classe
- Todos os atributos são de valor contínuo

## Informações dos Atributos e da Classe
- RI: Índice de refração
- Na: Sódio (unidade de medida: percentual de peso no óxido correspondente, assim como os atributos 4-10)
- Mg: Magnésio
- Al: Alumínio
- Si: Silício
- K: Potássio
- Ca: Cálcio
- Ba: Bário
- Fe: Ferro
- Tipo de vidro (atributo de classe):
  - 1 - Janelas de edifícios processadas por flutuação
  - 2 - Janelas de edifícios não processadas por flutuação
  - 3 - Janelas de veículos processadas por flutuação
  - 4 - Janelas de veículos não processadas por flutuação (nenhuma nesta base de dados)
  - 5 - Recipientes
  - 6 - Utensílios de mesa
  - 7 - Faróis
- Valores de Atributos Ausentes: Nenhum

## Estatísticas Resumidas
| Atributo | Mínimo | Máximo | Média   | Desvio Padrão | Correlação com a Classe |
|----------|--------|--------|---------|---------------|-------------------------|
| RI       | 1.5112 | 1.5339 | 1.5184  | 0.0030        | -0.1642                 |
| Na       | 10.73  | 17.38  | 13.4079 | 0.8166        | 0.5030                  |
| Mg       | 0      | 4.49   | 2.6845  | 1.4424        | -0.7447                 |
| Al       | 0.29   | 3.5    | 1.4449  | 0.4993        | 0.5988                  |
| Si       | 69.81  | 75.41  | 72.6509 | 0.7745        | 0.1515                  |
| K        | 0      | 6.21   | 0.4971  | 0.6522        | -0.0100                 |
| Ca       | 5.43   | 16.19  | 8.9570  | 1.4232        | 0.0007                  |
| Ba       | 0      | 3.15   | 0.1750  | 0.4972        | 0.5751                  |
| Fe       | 0      | 0.51   | 0.0570  | 0.0974        | -0.1879                 |


## Distribuição de Classes (de um total de 214 instâncias)
- 163 Vidros de Janela (janelas de edifícios e veículos)
- 87 processados por flutuação
- 70 janelas de edifícios
- 17 janelas de veículos
- 76 não processados por flutuação
- 76 janelas de edifícios
- 0 janelas de veículos
- 51 Vidros Não-Janela
- 13 recipientes
- 9 utensílios de mesa
- 29 faróis


In [None]:
df = pd.read_csv('vidro.csv')

In [None]:
df

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import seaborn as sns

def metricas_classificacao(y_real, y_pred):
    # Calcular métricas
    metrics = {
        "Acurácia": accuracy_score(y_real, y_pred),
        "Precisão (macro)": precision_score(y_real, y_pred, average='macro', zero_division=0),
        "Recall (macro)": recall_score(y_real, y_pred, average='macro', zero_division=0),
        "F1-Score (macro)": f1_score(y_real, y_pred, average='macro', zero_division=0)
    }
    
    # Printar métricas
    for key, value in metrics.items():
        print(f"{key}: {value}")

    # Calcular a Matriz de Confusão
    confusion_mat = confusion_matrix(y_real, y_pred)

    # Printar Matriz de Confusão
    print("Matriz de Confusão:")
    sns.heatmap(confusion_mat, annot=True, cmap='YlGnBu', fmt='g')
    plt.xlabel('Previsto')
    plt.ylabel('Real')
    plt.show()

In [None]:
# Separando os recursos (X) e o rótulo alvo (y)
X = df.drop('Type', axis=1)  # Substitua 'Class' pelo nome da sua coluna de classe
y = df['Type']  # Substitua 'Class' pelo nome da sua coluna de classe

In [None]:
# Dividindo os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.10, random_state=42)

# Explicação do Parâmetro `n_estimators` no Random Forest

O algoritmo Random Forest é um método de ensemble popular em aprendizado de máquina. Ele opera construindo múltiplas árvores de decisão durante o treinamento. A saída do algoritmo é determinada pela moda das classes (em tarefas de classificação) ou pela média das previsões (em tarefas de regressão) das árvores individuais.

## Parâmetro `n_estimators`

O parâmetro `n_estimators` é crucial no Random Forest. Ele especifica o número de árvores de decisão que devem ser construídas pelo algoritmo.

### Como Funciona

- **Número de Árvores**: Define quantas árvores de decisão serão criadas e utilizadas para fazer previsões.
- **Valores Comuns**: Geralmente varia de 10 a centenas ou milhares. O valor ideal depende das características específicas do conjunto de dados e do problema.
- **Impacto no Desempenho**: 
  - **Precisão**: Aumentar `n_estimators` geralmente melhora a precisão, pois mais árvores reduzem a variância das previsões.
  - **Recursos Computacionais**: Maior número de árvores pode aumentar significativamente o tempo de treinamento e o uso de recursos.
- **Equilíbrio**: É importante encontrar um equilíbrio entre a quantidade de árvores e os recursos disponíveis, além de considerar o princípio dos rendimentos decrescentes.

In [None]:
# Criando o modelo de Random Forest
clf = RandomForestClassifier(n_estimators=100, random_state=42)

# Treinando o modelo
clf.fit(X_train, y_train)

In [None]:
# Fazendo previsões no conjunto de teste
y_pred = clf.predict(X_test)

In [None]:
metricas_classificacao(y_test, y_pred)

Comparando o resultado com menos árvores

In [None]:
# Criando o modelo de Random Forest
clf = RandomForestClassifier(n_estimators=10, random_state=42)

# Treinando o modelo
clf.fit(X_train, y_train)

# Fazendo previsões no conjunto de teste
y_pred = clf.predict(X_test)

metricas_classificacao(y_test, y_pred)

# Comparação entre ID3 e Random Forest

---

## Diferenças de Performance
- **ID3:**
  - Ideal para conjuntos de dados menores e mais simples.
  - Tende a sofrer de overfitting em dados mais complexos.
  - Facilmente interpretável devido à sua estrutura simples.

- **Random Forest:**
  - Mais eficaz em conjuntos de dados grandes e complexos.
  - Reduz significativamente o risco de overfitting.
  - Melhor desempenho geral, mas com maior custo computacional.

---

## Quando Usar Cada Um
- **ID3:**
  - Quando a interpretabilidade do modelo é crucial.
  - Em problemas com menos variáveis e dados menos complexos.

- **Random Forest:**
  - Em problemas que exigem modelos robustos e de alta precisão.
  - Quando a complexidade dos dados é alta e a interpretabilidade não é a principal preocupação.

---

# Normalização de Dados para ID3 e Random Forest

Ao utilizar algoritmos baseados em árvores de decisão, como ID3 e Random Forest, surge frequentemente a pergunta sobre a necessidade de normalização dos dados. Vamos explorar esta questão e entender como lidar com colunas textuais que foram convertidas para numéricas.

## Normalização: Não é Necessária para ID3 e Random Forest

### Características dos Algoritmos de Árvore

1. **Decisões Baseadas em Thresholds**:
   - Estes algoritmos tomam decisões com base em limiares das características.
   - Exemplo: "se a temperatura > 20 graus".

2. **Insensibilidade à Escala**:
   - Árvores de decisão não são afetadas pela escala dos dados.
   - Isso difere de algoritmos como SVM ou redes neurais, onde a normalização pode influenciar as funções de custo ou gradientes.

3. **Interpretabilidade**:
   - Manter os dados na escala original ajuda a preservar a interpretabilidade do modelo.

### Tratamento de Colunas Textuais Convertidas para Numéricas

- **Codificação de Categorias**:
  - Conversão de colunas textuais para numéricas é feita para permitir o processamento pelo algoritmo.
  - Métodos comuns incluem codificação label ou one-hot encoding.

- **Manutenção da Forma Convertida**:
  - Para algoritmos de árvore, mantenha essas colunas na forma convertida sem normalização.
  - A magnitude dos códigos numéricos não afeta o desempenho do modelo.

### Exceções

- **Algoritmos Sensíveis à Escala**:
  - Se utilizar um algoritmo sensível à escala junto com um algoritmo de árvore, pode ser necessário normalizar os dados.
  - Exemplo: combinação de modelos (ensemble) que inclui algoritmos sensíveis à escala.

## Conclusão

Para algoritmos como ID3 e Random Forest, a normalização dos recursos numéricos não é necessária, e as colunas textuais convertidas devem ser mantidas em seu formato numérico codificado. Isso mantém a simplicidade do processo de pré-processamento e a interpretabilidade dos modelos.


# Exercícios
`Quem terminar os exercícios até o final da aula irá ganhar ponto extra` 
OBS: Só irei publicar a base de dados após o término de toda explicação

## Explicação da Base de Dados de Saúde

A base de dados `ataque_cardiaco.csv` tem informações relacionadas à saúde e estilos de vida dos indivíduos. Abaixo está um breve resumo de cada coluna e o que ela representa:

- `AltaPressãoSanguínea`: Mostra se o indivíduo tem histórico de hipertensão.
- `AltoColesterol`: Registra se o indivíduo tem níveis elevados de colesterol.
- `VerificaçãoColesterol`: Indica se o indivíduo fez um exame de colesterol recentemente.
- `IMC`: Índice de Massa Corporal, que é um indicador da saúde corporal em relação à altura e peso.
- `Fumante`: Mostra se o indivíduo é fumante.
- `AVC`: Indica se o indivíduo já sofreu um Acidente Vascular Cerebral.
- `Diabetes`: Registra se o indivíduo tem diabetes.
- `AtividadeFísica`: Indica o nível de atividade física do indivíduo.
- `Frutas`: Registra a frequência de consumo de frutas.
- `Legumes`: Registra a frequência de consumo de legumes.
- `ConsumoAltoDeÁlcool`: Indica se o indivíduo consome álcool em quantidade considerada alta.
- `QualquerPlanoDeSaúde`: Mostra se o indivíduo possui algum tipo de plano de saúde.
- `SemMédicoPorCusto`: Indica se o indivíduo deixou de consultar um médico devido a custos.
- `SaúdeGeral`: Avaliação geral da saúde do indivíduo.
- `SaúdeMental`: Indica a condição de saúde mental do indivíduo.
- `SaúdeFísica`: Indica a condição de saúde física do indivíduo.
- `DificuldadeParaCaminhar`: Mostra se o indivíduo tem dificuldade para caminhar.
- `Sexo`: Gênero do indivíduo.
- `Idade`: Idade do indivíduo.
- `Educação`: Nível de educação do indivíduo.
- `Renda`: Faixa de renda do indivíduo.
- `DoençaCardíacaouAtaque`: Indica se o indivíduo teve alguma doença cardíaca ou ataque cardíaco. `Classe Alvo`

Essas colunas fornecem uma visão abrangente dos fatores de saúde e estilo de vida que podem impactar o bem-estar geral dos indivíduos.


A base de dados só possui valores inteiros e não possui valores núlos. Todavia, Faça a análise completa abaixo:


## 1. Leitura da Base de Dados

- **Tarefa**: Leia a base de dados 'ataque_cardiaco.csv'.



## 2. Análise Inicial dos Dados

Realize uma análise exploratória inicial para compreender melhor os dados:

- **Ver as linhas iniciais**: Observe as primeiras entradas para ter uma ideia da estrutura dos dados.
- **Tipo de Dados das Colunas**: Identifique os tipos de dados de cada coluna.
- **Valores Nulos**: Verifique a quantidade de valores nulos em cada coluna.
- **Informações Descritivas**: Analise as estatísticas descritivas das colunas.



## 3. Separação dos Dados em X e y

- **Tarefa**: Separe os dados em variáveis independentes (X) e a variável dependente (y), sendo y 'DoençaCardíacaouAtaque'.



## 4. Divisão em Conjuntos de Treinamento e Teste

- **Proporção**: Separe os dados em 70% para treinamento e 30% para teste.



## 5. Criação de Modelos Random Forest

- **Objetivo**: Crie 5 instâncias do modelo Random Forest com os seguintes valores para `n_estimators`: 5, 20, 50, 100, 200.



## 6. Treinamento dos Modelos Random Forest

- **Tarefa**: Treine cada um dos 5 modelos Random Forest criados.



## 7. Criação e Treinamento de Modelo de Árvore de Decisão

- **Objetivo**: Crie e treine um modelo de árvore de decisão.



## 8. Avaliação dos Modelos

- **Métricas**: Utilize a função de métricas para avaliar o desempenho dos 6 modelos.



## 9. Comparação e Seleção do Melhor Modelo

- **Análise**: Com base nas métricas de avaliação, determine qual foi o melhor modelo.
