## Árvores de Decisão

- Árvores de decisão são um tipo de modelo de aprendizado supervisionado usado tanto para classificação quanto para regressão em machine learning. Elas são chamadas assim porque você pode visualizá-las como uma estrutura em forma de árvore, onde cada 'nó' representa uma decisão baseada em uma pergunta sobre os dados.
- **A árvore de decisão é construída como uma espécie de fluxograma, onde as observações percorrem uma série de condições determinadas pelas features do modelo até cair numa decisão final a depender do caminho.**

![image-3.png](attachment:image-3.png)

- Sendo uma técnica capaz de lidar com a não-linearidade, fácil de codificar, com poucas premissas e, talvez o mais importante, com resultado fácil de interpretar, a árvore de decisões é comumente adotada para tarefas como concessões de crédito, diagnósticos médicos, análises de efeitos de drogas, análises de investimentos, etc.

### Estrutura de uma Árvore de Decisão:
- **Nó Raiz:** O ponto de partida da árvore. Contém a pergunta ou condição que tem o maior poder discriminatório.
- **Nós Internos:** Perguntas ou condições adicionais que ajudam a refinar a decisão.
- **Ramos:** Caminhos entre os nós que representam as respostas às perguntas nos nós.
- **Nós Folha:** Os pontos finais da árvore, onde não há mais perguntas a serem feitas. Em tarefas de classificação, cada nó folha corresponde a uma classe.

- **Cada um dos nós possuem exatamente 1 pai e 2 filhos:** 
    - Quando um nó não possui um pai, o chamamos de nó raiz. 
    - Quando ele não possui filhos, chamamos de nó folha


### Treinamento 
- Durante a fase de treinamento, o objetivo principal é construir a árvore de decisão a partir dos dados de entrada. Aqui estão os passos envolvidos:
    - **Seleção de Atributos:** O algoritmo escolhe o melhor atributo dos dados para dividir os dados em subgrupos. Este é frequentemente o ponto mais importante e complexo no treinamento de árvores de decisão.
    - **Critério de Divisão:** Utiliza-se um critério para escolher qual atributo dividirá os dados. O critério mai comum:
        - **Índice Gini:** O índice Gini mede a impureza dos nós. Um nó é 'puro' (Gini=0) se todos os casos nele contidos pertencerem à mesma classe.
    - **Criação de Nós:** Baseado no melhor atributo e critério, os dados são divididos em dois ou mais subconjuntos, criando novos nós para cada subconjunto.
    - **Recursão:** Este processo é repetido para cada novo nó (a não ser que um critério de parada seja atingido) até que os dados não possam ser divididos de forma significativa. Os critérios de parada comuns incluem profundidade máxima da árvore, número mínimo de amostras em um nó, ou um ganho mínimo de informação.
    
![image-6.png](attachment:image-6.png)

- **Navegação pela Árvore:** Começa-se no nó raiz e examinam-se os atributos dos dados de entrada.
    - **Nó Raiz:** O nó raiz inicia a divisão dos dados pela idade dos indivíduos. Isso indica que a idade é um fator significativo para determinar o risco de um ataque cardíaco.
---
- **Decisão em Cada Nó:** Em cada nó, os dados são avaliados com base na condição ou pergunta do nó. Dependendo da resposta, segue-se para o nó filho correspondente.
    - **Primeira Divisão:**
        - **Menor que 18:** Se uma pessoa tem menos de 18 anos, ela é direcionada para um nó de decisão que avalia o peso.
        - **Entre 18 e 30 anos:** Pessoas nesta faixa etária são automaticamente classificadas como de baixo risco, sem levar em conta outros fatores.
        - **Maior que 30 anos:** Pessoas acima de 30 anos são direcionadas para uma subárvore que avalia se são fumantes.
---
- **Chegada ao Nó Folha:** Continua-se este processo até chegar a um nó folha. O nó folha contém a predição ou resultado final, baseado nas condições que foram atendidas ao longo do caminho desde o nó raiz.
    - **Peso:**
       - Peso < 60: Se o peso é menor que 60 kg, o risco de ataque cardíaco é considerado baixo.
       - Peso > 60: Se o peso é maior que 60 kg, o risco é considerado alto.
    - **Fumante:**
        - Não Fumante: Se a pessoa não fuma, o risco continua sendo baixo.
        - Fumante: Se a pessoa fuma, o risco é considerado alto.
        
   - **Nós Folha: Estes são os resultados finais da árvore, indicando se uma pessoa está em 'Baixo Risco' ou 'Alto Risco' de ter um ataque cardíaco.**
---

## Critério de divisão

![image-7.png](attachment:image-7.png)

- Os nós folhas são os responsáveis por fazerem a classificação em uma árvore de decisão. Quando sua instância chega nesse nó, ela é classificada. Vamos observar o nó folha que nossa instância de exemplo caiu:
-  O termo 'samples' indica a quantidade de instâncias que, no treinamento, também caíram nesse nó folha.
- O termo 'value' indica a quantidade de instâncias de cada uma das classes que caíram nesse nó folha. Neste dataset há três classes.
- **A classificação sempre é por voto majoritário. Por fim, o termo 'class' indica qual a classe a nossa árvore irá atribuir às instâncias que caírem nesse nó folha.**

---
### Exemplo:
- Imagine que estamos analisando o crescimento de diferentes tipos de plantas em um jardim. Queremos prever se uma planta vai florescer ou não com base em dois fatores:
    - x1: o comprimento das raízes da planta (em centímetros).
    - x2: a altura da planta (em centímetros).
- A variável alvo, y, nos diz se a planta floresce ou não:
    - y = 1: a planta floresce.
    - y = 0: a planta não floresce.
- Nosso objetivo é criar uma árvore de decisão para classificar, com base nos valores de x1 e x2, se uma planta vai florescer ou não.
![image-22.png](attachment:image-22.png)
- A árvore de decisão cria critérios de divisão a partir dos valores de x1 (comprimento da raiz) e x2 (altura da planta), para separar as plantas em dois grupos: as que florescem e as que não florescem.
- **1. Primeira Divisão: x1 <= 5.5 cm (Comprimento da Raiz):** 
    - A primeira divisão é baseada no comprimento da raiz. Observamos que:
        - Se o comprimento da raiz da planta é maior que 5.5 cm, a planta tem mais chance de florescer (classe 1). Isso é representado pelos pontos laranja (triângulos) na área superior do gráfico.
        - Se o comprimento da raiz é menor ou igual a 5.5 cm, a planta não floresce (classe 0), representada pelos pontos azuis (quadrados) na área inferior do gráfico.
        - Nesta etapa, já sabemos que três plantas não irão florescer. 
- **2. Segunda Divisão: x2 <= 10.5 cm (Altura da Planta)**
    - Dentro do grupo de plantas com raízes mais longas (maiores que 5.5 cm), a árvore de decisão faz outra divisão, agora com base na altura da planta:
        - Se a altura da planta é menor que 10.5 cm, ela tem uma maior chance de florescer (classe 1), como mostrado pelos triângulos laranja acima de 5.5 cm.
        - Se a altura da planta é maior ou igual a 10.5 cm, mesmo que tenha raízes longas, ela não floresce (classe 0), representada por um quadrado azul.

![image-27.png](attachment:image-27.png)

###  Impureza de Gini
- Ele mede a impureza ou a mistura de classes em um conjunto de dados e é usado para decidir como os nós da árvore devem ser divididos. Vamos detalhar o conceito e como ele é aplicado.
- O Índice de Gini é calculado com a fórmula:

![image-8.png](attachment:image-8.png)

- onde pi é a proporção de exemplos de uma classe i dentro de um conjunto D
- Se todos os exemplos em um nó pertencem a uma única classe, a impureza de Gini é 0 (estado de pureza perfeita).
- Imagine que temos um nó com 30 exemplos, 15 de cada uma das duas classes (classe 1 e classe 2). A impureza de Gini antes de qualquer divisão é calculada como: Gini = 1 - ((15/30)² + (15/30)²) = 0.5
---
- **Agora vamos pegar o nó raiz 'largura da pétala' e exemplificar como este cálculo foi realizado:**
![image-19.png](attachment:image-19.png)
    - Proporção para Classe 1: p1 = (13/45)² ≈ 0.0835
    - Proporção para Classe 2: p2 = (19/45)² ≈ 0.1783
    - Proporção para Classe 3: p3 = (13/45)² ≈ 0.0835
    - Gini = 1 - (0.0835 + 0.1783 + 0.0835)
    - Gini ≈ 0.6547
---    
- **Durante a construção da árvore de decisão, o algoritmo tentará dividir os nós de maneira que resulte na maior redução possível da impureza de Gini**. Ou seja, ele busca a divisão que leva a nós mais 'puros' após a divisão. Isso é chamado de **ganho de Gini** e é calculado como a diferença entre a impureza do nó antes da divisão e a impureza ponderada dos dois novos nós após a divisão. Para calcular a impureza média ponderada dos filhos, usamos:

![image-9.png](attachment:image-9.png)

![image-10.png](attachment:image-10.png)

- Então, podemos calcular o ganho de Gini para a divisão inicial baseada na largura da pétala ≤ 0.8:
![image-21.png](attachment:image-21.png)

    - Impureza ponderada: (13/45 x 0) + (32/45 x 0.482)
    - Impureza ponderada: 0 + 0.343  ≈ 0.343
    - Ganho de Gini=0.655−0.343=0.312
- **Portanto, o ganho de Gini para a divisão inicial baseada na largura da pétala ≤ 0.8 é aproximadamente 0.312, indicando uma boa redução na impureza com essa divisão.** 
    - Ganho de Gini positivo (como no exemplo, 0.312) indica que a divisão melhora a pureza dos subnós, ou seja, os dados estão melhor classificados.
- **Neste caso, a impureza inicial (índice de Gini) do nó raiz era 0.655. Após a divisão em dois subnós, calculamos a impureza ponderada dos subnós como 0.343. Essa impureza ponderada é menor que a impureza inicial, o que indica que a divisão foi útil em separar melhor as classes, reduzindo a mistura entre elas.**
- O  Ganho de Gini é o que efetivamente se utiliza como função de custo durante a construção de árvores de decisão para classificação.
---
- **O gini é utilizado como referência para fazer os splits em cada nó.** O objetivo é fazer uma divisão com o menor grau de impureza possível, ou seja, separando ao máximo as classes.
- Além dessa métrica, também podemos utilizar uma outra: a **Entropia.** Por padrão, as árvores de decisão utilizam como critério para fazer os splits o coeficiente de Gini, porém podemos alterar mudando o parâmetro 'criterion' para 'entropy'. 

### Entropia

- Entropia é uma medida usada em árvores de decisão para quantificar o grau de incerteza ou impureza em um conjunto de dados. Semelhante ao índice de Gini, a entropia é usada para escolher as melhores divisões durante a construção de uma árvore de decisão. A entropia é calculada com base na informação que pode ser ganha ao separar os dados em conjuntos com base em diferentes atributos.
- A fórmula da entropia para um conjunto de dados é definida como:

![image-18.png](attachment:image-18.png)

- onde pi é a proporção de amostras pertencentes à classe i no conjunto S, e n é o número total de classes. A base do logaritmo é 2 porque a entropia é medida em bits.
- Vamos considerar o mesmo exemplo nó raiz 'largura da pétala' para calcular a entropia:
- Entropia = - ((13/45 x log2(13/45)) + (19/45 x log2(19/45)) + (13/45 x log2(13/45))) 
- Vamos importar a biblioteca math para realizar este calculo:

In [1]:
import math
p1 = (13/45) * math.log2(13/45)
print(p1)

p2 = (19/45) * math.log2(19/45)
print(p2)

p3 = (13/45) * math.log2(13/45)
print(p3)

entropia = (-(p1 + p2 + p3))
print(f'Entropia = {entropia}')

-0.5175194203655905
-0.5252130238852376
-0.5175194203655905
Entropia = 1.5602518646164185


- **Portanto, a entropia do conjunto dado é aproximadamente 1.5603**
- **Entropia Mínima (0 bits):** A entropia é 0 quando não há incerteza no conjunto, ou seja, todas as amostras pertencem a uma única classe. Neste caso, não há impureza e a informação é perfeitamente homogênea
- **Entropia Máxima:** A entropia alcança seu valor máximo quando as classes são distribuídas de maneira perfeitamente igualitária. Para um conjunto com n classes, a entropia máxima é atingida quando cada classe tem exatamente a mesma probabilidade de ocorrer, isto é pi = 1/n para todas as classes. A fórmula para a entropia máxima é então:

![image.png](attachment:image.png)
- Cálculo de entropia máxima para três classes, a entropia máxima ocorre quando cada classe tem a probabilidade 1/3:

In [2]:
math.log2(3) 

1.584962500721156

- **Portanto, a entropia varia de 0 a aproximadamente 1.585 bits para um sistema com três classes igualmente prováveis.**

## Hiperparâmetros

- **max_depth:** Profundidade máxima. Esse parâmetro define o nível máximo de profundidade da árvore. O nó raiz está no nível de profundidade 0, enquanto os dois filhos do nó raiz estão no nível de profundidade 1, e assim por diante. Naturalmente, você pode pensar que aumentar o max_depth fará com que o modelo se ajuste melhor aos dados e melhore suas previsões. No entanto, isso traz o risco de overfitting, onde o modelo se adapta tão bem aos dados de treinamento que performa mal em dados novos ou não vistos. Isso realmente pode levar a overfitting, desta forma a redução deste hiperparâmetro evita o ajuste excessivo.
- **min_samples_split:** Este parâmetro determina o número mínimo de instâncias que um nó deve ter antes que uma divisão possa ser considerada. Em outras palavras, ele controla a quantidade mínima de amostras necessárias em um nó para que este possa ser dividido em nós filhos. Ajustar o min_samples_split é um exercício de balanceamento. Valores muito altos podem levar a modelos subajustados, onde a árvore não é profunda o suficiente para capturar as relações importantes nos dados. Por outro lado, valores muito baixos podem permitir que o modelo crie muitos nós com poucas amostras, resultando em overfitting. 
- **min_samples_leaf:** Este parâmetro estabelece o número mínimo de instâncias que um nó deve ter para se qualificar como um nó folha. Um nó folha é o ponto terminal de uma árvore, onde não são feitas mais divisões e é feita uma predição.Valores baixos para min_samples_leaf permitem que os nós folha tenham poucas instâncias, com um número pequeno de instâncias em cada nó folha, o modelo pode capturar ruídos e detalhes específicos dos dados de treinamento, levando a overfitting. Já valores altos para min_samples_leaf exigem que cada nó folha tenha um número maior de instâncias, portanto, aumentar o min_samples_leaf ajuda a simplificar o modelo, pois restringe o número de divisões que a árvore pode fazer. Isso significa que o modelo é menos propenso a aprender o ruído presente nos dados de treinamento.
- **max_leaf_nodes:** Especifica o número máximo de nós folha que uma árvore pode ter. Este parâmetro desempenha um papel importante na configuração da complexidade da árvore e, consequentemente, na sua capacidade de generalização. Limitar o número de nós folha ajuda a evitar que a árvore se torne excessivamente complexa e específica aos dados de treinamento, o que poderia prejudicar seu desempenho em novos dados. Por outro lado, um valor muito restritivo pode impedir que o modelo capture padrões importantes nos dados, levando a um desempenho subóptimo.


## Árvores para problemas de Regressão
- Árvores de decisão para regressão são uma adaptação do modelo de árvore de decisão tradicionalmente usado para classificação, permitindo prever valores contínuos em vez de categorias discretas. Essas árvores são conhecidas como árvores de regressão e são aplicadas em diversos problemas onde o objetivo é estimar uma variável dependente contínua a partir de variáveis independentes.
- O principal diferencial na árvore de regressão é que, ao invés de prever uma classe, cada nó folha prediz um valor contínuo. Normalmente, esse valor é a média (ou mediana) dos valores da variável dependente das amostras que alcançam esse nó.
- Mesmo sendo um modelo de regressão, o objetivo principal de uma árvore de decisão de regressão também é separar os dados em grupos ou regiões com base nas variáveis preditoras.

## Critério de Divisão
- O critério para decidir como dividir os dados em nós de decisão numa árvore de regressão é baseado na redução máxima possível de uma métrica de erro. Os critérios mais comuns incluem:
    - Erro quadrático médio (MSE): A divisão escolhida é aquela que resulta no maior decréscimo possível no MSE total das divisões resultantes.
    - Erro absoluto médio (MAE): Alternativamente, algumas árvores de regressão podem usar a redução no MAE para escolher divisões.
---    
### MAE:
- O Erro Médio Absoluto, conhecido pela sigla MAE, é uma das métricas mais simples de interpretar em uma análise de regressão. Ele calcula o erro absoluto, ou seja, desconsidera a direção do erro (se foi acima ou abaixo do valor real). 
- Vamos considerar um exemplo hipotético:
    - Valores reais: 40, 50, 35, 50, 44
    - Valores previstos: 39, 40, 30, 45, 40
    - O MAE será: 
        - |40 - 39| = 1
        - |50 - 40| = 10
        - |35 - 30| = 5
        - |50 - 45| = 5
        - |- 44 - 40| = 4
     - Agora, calculamos a média desses erros absolutos: (1 + 10 + 5 + 5 + 4) / 5 = 25 / 5 = 5
    - Portanto, o Erro Médio Absoluto (MAE) para esse conjunto de dados é de 5 unidades.
### MSE:
- O Erro Quadrático Médio, frequentemente abreviado como MSE. Enquanto o MAE se concentra no erro absoluto, o MSE foca no erro quadrático. Isso significa que ele penaliza erros maiores de forma mais severa do que erros menores. 

- Vamos agora calcular o MSE usando os mesmos valores reais e previstos que mencionamos anteriormente:
    - Valores reais: 40, 50, 35, 50, 44
    - Valores previstos: 39, 40, 30, 45, 40
    - O MSE será: 
        - |40 - 39|² = 1
        - |50 - 40|² = 100
        - |35 - 30|² = 25
        - |50 - 45|² = 25
        - |- 44 - 40|² = 16
        
    - Agora, vamos tirar a média desses erros quadráticos:(1 + 100 + 25 + 25 + 16) / 5 = 167 / 5 = 33.4
    - Portanto, o Erro Quadrático Médio (MSE) para esses valores é de aproximadamente 33.4.
---
- **Cálculo do Value:** Quando os dados são divididos até um certo ponto definido por critérios de parada (como profundidade máxima da árvore, número mínimo de amostras em um nó, etc.), o nó resultante torna-se um nó folha. O 'value' deste nó folha é calculado como a média dos valores da variável alvo de todas as amostras que chegaram a esse nó.
- Por exemplo, se um nó folha contém as instâncias com os valores alvo [10, 20, 30], o 'value' do nó será a média destes, ou seja, (10+20+30)/3 = 20.

![image-3.png](attachment:image-3.png)

### Função de Custo para Árvores de Regressão

- Para árvores de regressão, o MSE (Erro Quadrático Médio) é comumente usado como função de custo. O MSE mede a média dos quadrados das diferenças entre os valores observados e os valores preditos pelo modelo. Assim como no caso da classificação, o custo é calculado como a soma ponderada dos MSEs dos nós filhos e o objetivo é minimizar a função de custo:

![image-5.png](attachment:image-5.png)

- Vamos exemplificar o cálculo com os dois primeiros nós filhos:
    - MSE ponderado: (5/15 x 0.022) + 10/15 x 2.306)
    - MSE ponderado: 0.007333 + 1.537333 ≈ 1.5446667
- Assim, o MSE ponderado aproximado após a divisão é de aproximadamente 1.545. Este valor representa uma média ponderada dos erros dos dois nós filhos, levando em consideração o número de amostras em cada um
- Ao minimizar essa função de custo, estamos buscando a divisão que resulta nos menores erros quadráticos médios ponderados pelos tamanhos dos nós esquerdo e direito. Isso significa que a divisão é escolhida de forma a reduzir ao máximo o erro de previsão nos nós filhos, melhorando assim a qualidade da árvore de decisão.
---
### Exemplo
- Imagine que estamos analisando o desempenho de jogadores de beisebol e queremos prever o salário de um jogador com base em dois fatores:
    - x1: o número de anos que o jogador jogou nas grandes ligas.
    - x2: o número de rebatidas que o jogador conseguiu no ano anterior.

- Nosso objetivo é criar uma árvore de regressão para estimar o salário, levando em conta essas duas variáveis.
- A árvore de regressão cria critérios de divisão usando x1 (anos jogados) e x2 (rebatidas no ano anterior), para classificar os jogadores em diferentes grupos de salários.
- **1. Primeira Divisão: x1 < 4.5 anos (Anos nas grandes ligas):**
    - Se o jogador jogou menos de 4.5 anos, o salário médio previsto para ele é aproximadamente $165.174(5.11 é a média do logaritmo do salário para esse grupo).
    - Se o jogador jogou 4.5 anos ou mais, ele é classificado em outro grupo que será dividido mais adiante, pois esses jogadores tendem a ter salários diferentes devido à maior experiência.
- **2. Segunda Divisão: x2 < 117.5 rebatidas (Número de rebatidas no último ano)**
    - Para os jogadores que jogaram 4.5 anos ou mais, a árvore faz uma nova divisão baseada no número de rebatidas no último ano:
    - Se o jogador fez menos de 117.5 rebatidas, o salário médio previsto para ele será menor, pois sua performance recente não foi tão expressiva(6.00 é a média do logaritmo do salário).
    - Se o jogador fez 117.5 rebatidas ou mais, seu salário previsto será maior, já que esse jogador teve um desempenho melhor no último ano(6.74 é a média do logaritmo do salário).
![image-6.png](attachment:image-6.png)
---
### Por que evitamos codificação one-hot em árvores de decisão?
- Quando codificamos uma variável categórica usando one-hot encoding, cada categoria se torna uma nova variável binária (dummy variable).
- Por exemplo, se tivermos uma variável com 4 categorias (A, B, C, D), ela se transformará em 4 variáveis binárias:
    - A: [1, 0, 0, 0]
    - B: [0, 1, 0, 0]
    - C: [0, 0, 1, 0]
    - D: [0, 0, 0, 1]
- **Impacto na Crescimento da Árvore:** No exemplo, acima cada categoria tem uma chance de 25% de aparecer e a medida que aumentamos o número de categorias esta proporção diminuí mais ainda, desta forma, a proporção de valores 1 em relação aos valores 0 é pequena, especialmente quando o número de categorias aumenta. Isso significa que a maioria dos valores em cada variável dummy será 0. Essa distribuição desigual pode afetar a seleção de splits (divisões) na árvore de decisão, pois o algoritmo de divisão (como Gini ou entropia) pode não achar essas variáveis muito informativas.
- **Distância do Nó Raiz:** Como as variáveis dummies são independentes entre si, uma divisão em uma dessas variáveis geralmente não resulta em um ganho significativo de pureza. Por isso, é improvável que o algoritmo escolha essas variáveis para dividir próximo ao nó raiz. As árvores tendem a crescer em direções que minimizam a impureza, e variáveis dummies podem não proporcionar essa minimização significativa, resultando em splits que ocorrem mais longe do nó raiz. **Desta forma, Árvores de decisão podem ter dificuldade em encontrar splits significativos em variáveis dummies, resultando em splits mais afastados do nó raiz.**
    - Divisões próximas do nó raiz são responsáveis por grandes reduções na impureza (como Gini ou entropia)
    - Variáveis que causam divisões perto do nó raiz são geralmente mais importantes.
- **Impacto na Impureza:** A impureza em uma árvore de decisão é medida pela heterogeneidade dos dados nos nós. Em uma variável dummy,  maioria dos valores será 0, o que pode levar a uma divisão que não reduz suficientemente a impureza. Por exemplo, se temos um nó com muitas variáveis dummies, a divisão baseada em uma delas não criará nós filhos significativamente mais puros, ois a maioria dos dados continuará sendo 0 em outras variáveis. A presença predominante de valores 0 em variáveis dummies faz com que as divisões resultem em ganhos marginais de pureza, impactando negativamente a eficiência da árvore.

### Esses fatores juntos podem fazer com que a árvore de decisão subestime a importância de variáveis codificadas em one-hot, mesmo que essas variáveis sejam relevantes para o modelo e assim a árvore de decisão tende a crescer longe dessas variáveis quando usamos a codificação one-hot.
