# Tutorial: Implementando uma Árvore de Decisão (Decision Tree) em Python

Árvore de decisão é um algoritmo de aprendizado supervisionado (supervised learning) que é mais comumente utilizado para classificação.

A ideia é encontrar uma série de perguntas (decisões) que te ajudem a chegar a uma conclusão sobre um objeto.

Por exemplo: suponha que você quer descobrir o tipo de uma fruta, sabendo suas características principais: cor, *suculência* e textura. Um raciocínio plausível seria pensar: se for vermelha, suculenta e lisinha por fora, deve ser **maçã**. Se for laranja, suculenta e rugosa por fora, deve ser **laranja**. E por aí vai!

Com machine learning, utilizamos técnicas para ajudar o computador a encontrar essas decisões **sozinho**. Em casos mais complicados, uma árvore de decisão pode ter essa cara:


![title](src/decision_tree.ppm)
**Fonte: [Jorge Luis Cavalcanti Ramos](https://www.researchgate.net/publication/312605379_Uma_abordagem_preditiva_da_evasao_na_educacao_a_distancia_a_partir_dos_construtos_da_distancia_transacional)**

ou essa:

<img src="src/dtree.png" alt="Drawing" style="width: 350px;"/>
**Fonte: [Analytics Vidhya](https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/)**

## Pegando a intuição

Considere a imagem abaixo:

<img src="src/decisaoresposta.png" alt="Drawing" style="width: 550px;"/>

Podemos entender que cada **decisão** no diagrama acima representa uma linha que colocamos em um conjunto de dados, que o divide em dois conjuntos diferentes e, ao terminar, temos as respostas finais. No exemplo da fruta, uma dessas decisões é baseada na textura da casca: separamos o conjunto de dados em frutas com casca lisa (como a maçã) e frutas com casca rugosa (como a laranja). A intenção, a cada decisão tomada, é dividir o conjunto de dados em subconjuntos diferentes. E o ideal é que esses subconjuntos gerados sejam cada vez mais homogêneos.

Como assim?

Na imagem abaixo, qual dos conjuntos (A, B ou C) é mais fácil de descrever? Eu aposto que a sua resposta será o conjunto C, porque precisamos dar menos informação já que todos os seus elementos são similares. Seguindo a mesma lógica, o B requer mais informação para descrever do que o C, mas requer menos informação que o A, que é mais misturado.


<img src="src/conjuntos.png" alt="Drawing"/>

Perceba que, quanto mais homogêneo for o conjunto, mais fácil de descrever ele será. Ao montar árvores de decisão, sempre iremos procurar por “cortes” que dividam o nosso conjunto em subconjuntos mais homogêneos. Ou seja, em conjuntos que agrupam elementos parecidos. E no final, esses grupos homogêneos são mais fáceis de classificar.

É bastante fácil de pegar a intuição por trás das árvores de decisão quando brincamos de “Quem sou eu”. Essa brincadeira consiste em escrever uma palavra qualquer (normalmente um objeto ou alguém conhecido) em um *post-it* e colá-lo na testa de um amigo, sem que este possa ler o que foi escrito. Em seguida, o amigo terá que fazer perguntas de sim ou não para conseguir desvendar qual é a palavra secreta escrita em sua testa.

<img src="src/postit.png" alt="Drawing"/>

**Fonte: [Noguru](http://www.noguru.net/ever-stuck-post-note-forehead-511.html)**

Com certeza não é uma boa estratégia começar logo perguntando “é uma batata?” ou “é o Mr. Meeseks?”. Essas perguntas muito diretas, logo de início, não te ajudam muito a chegar na resposta certa porque, se você errar, não ganha muita informação. Na verdade, faz mais sentido começar fazendo perguntas mais gerais como “é uma fruta?” ou “é um personagem?”. Dessa forma, estamos ganhando mais informação a cada pergunta feita, de maneira que vai ficando menos difícil de acertar qual a resposta certa, porque o conjunto de possibilidades vai ficando cada vez mais homogêneo.

Em resumo: para criar uma árvore de decisão, precisamos:
- Encontrar a melhor decisão que divida o nosso conjunto de dados em grupos menores. O melhor "corte" (decisão) é aquele que gera subgrupos mais "puros" (homogêneos).
- Fazer isso várias vezes até que consigamos uma boa taxa de acertos.


## Definindo "homogeneidade": uma métrica

Para que sejamos capazes de criar essa árvore, precisamos de alguma medida que nos permita decidir se um corte é melhor que outro. Na seção passada, intuitivamente descobrimos que o melhor corte é aquele que dá origem a grupos mais homogêneos do que os anteriores. Portanto, para decidir qual é o melhor corte, precisamos aprender a medir homogeneidade!

Uma das formas de medir isso é usando uma métrica chamada de [**Índice de Gini**](https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/).