# Anotações e um projeto com Árvore de Decisão


- LinkedIn: https://www.linkedin.com/in/rafael-barbosa0/

- Github: https://github.com/barbosarafael

- Tentarei focar na prática e dispensar um pouco a teoria com fórmulas;

- Entretanto, se for algo que vejo que é útil para o entendimento, com certeza entretará;


<p align="center">
  <img src="https://i1.wp.com/www.vooo.pro/insights/wp-content/uploads/2016/12/RDS-Vooo_insights-Tutorial_arvore_de_decisao_02.jpg?resize=768%2C446&ssl=1" alt="drawing" width="600" height="400"/>

Retirado de: https://www.vooo.pro/insights/um-tutorial-completo-sobre-a-modelagem-baseada-em-tree-arvore-do-zero-em-r-python/

</p>


# 1. Introdução

---

- É um modelo de aprendizado de máquina **supervisionado** que serve tanto para classificação quanto para regressão, isto é, precisam de variáveis explicativas para prever uma variável target;

- Também serve como visualização para tomada de decisões, já que ela parece um fluxograma;

- As variáveis explicativas podem ser de qualquer tipo, seja ela quantitativa ou qualitativa;


# 2. Terminologia

---


1. **Nó raiz**: O ponto de partida de toda árvore (mais pra frente vemos como é feita a escolha desta variável), ele possui maior nível hierárquico e faz a ligação inicial para outros elementos;

2. **Divisão**: É o processo de dividir um nó em dois ou mais sub-nós;

3. **Nó de decisão**: Quando dividimos os nós (ou sub-nós) em sub-nós adicionais, através da condição **se, então**;

4. **Folha ou nó de término**: São os nós em que não ocorrem mais divisões, estes podem ser os últimos da árvore e contém um valor contínuo ou categórico (a categoria final escolhida);

5. **Poda**: Processo de remover alguns dos elementos da árvore final, podendo ser nós, sub-nós, etc.

6. **Nó pai e filho**: Nó divido entre sub-nós. O nó é chamado de pai e os sub-nós chamados de filhos.

> Resumo: A árvore armazena regras em seus nós (**se, então**) e, baseado nas regras, temos uma decisão que será armazenada na **folha ou nó de término**.



# 3. Construção da árvore e divisão dos nós

---


<p align="center">
  <img src="https://www.model-railroad-infoguy.com/images/suncoasttree.jpg" alt="drawing" width="300" height="300"/>

Retirado de: https://www.model-railroad-infoguy.com/trees.html

</p>

- Ela particiona o espaço gerado pelas variáveis explicativas ($ X_i $) em algumas regiões para que estas partições sejam as mais puras possíveis;

- A árvore divide os nós em todas as variáveis que estão disponíveis e seleciona uma partição que resulta em sub-nós mais homogêneos (relacionados a pureza);

- **Pureza**: Se todos os elementos pertencem a uma única classe/categoria então ele é chamado de puro;

- Devido a profundidade e a divisão da árvore, ela pode aprender demais e acabar sofrendo o **overfitting** (quando o modelo aprende o padrão total/perfeito dos dados nos dados de treino e quando pedimos para testar em dados diferentes acaba por dar erros absurdos);

- Esse problema pode ser contornado a partir da **poda** da árvore e sobre o controle dos parâmetros;

- Podemos controlar a pureza por meio de 4 métodos:

  1. Índice Gini;
  2. Ganho de informação;
  3. Qui quadrado;
  4. Redução na variância.

- No presente notebook, explico somente as primeiras duas, sendo elas as mais conhecidas e implementadas nos softwares atuais.


## 3.2. Entropia

## 3.1. Índice de Gini

- Mede o grau de homogeneidade dos dados. Por isso, pode ser usado para calcular a pureza dos nós;

- Em um determinado nó (podendo ser raiz ou divisão qualquer), o índice é dado por:

$$ IG = 1 - \sum_{i = 1}^{c} p_{i}^{2} $$

onde $ p_{i} $ é a frequência de cada categoria em cada nó e c o número de categorias.

- Quando o IG é 0, indica que todos as observações pertencem a somente uma categoria ou existe somente uma;

- Quando se aproxima de 1, indica que as observações são distribuídas aleatoriamente nas categorias;

- Quando o valor é de 0,5 indica que as observações são igualmente distribuídas nas categorias;

- Executa divisões binárias, isto é, vai para esquerda ou direita;

# Referências

---

1. Elements of Statistical Learning
2. Introdução à Ciência de Dados Fundamentos e Aplicações
3. https://medium.com/machine-learning-beyond-deep-learning/%C3%A1rvores-de-decis%C3%A3o-3f52f6420b69
4. https://www.wrprates.com/o-que-e-arvore-de-decisao-decision-tree-linguagem-r/
5. https://www.maxwell.vrac.puc-rio.br/7587/7587_4.PDF
6. https://edisciplinas.usp.br/pluginfile.php/4469825/mod_resource/content/1/ArvoresDecisao_normalsize.pdf
7. https://www.cin.ufpe.br/~pacm/SI/ArvoreDecisaoIndutiva.pdf
8. https://www.vooo.pro/insights/um-tutorial-completo-sobre-a-modelagem-baseada-em-tree-arvore-do-zero-em-r-python/
9. https://minerandodados.com.br/arvores-de-decisao-conceitos-e-aplicacoes/