# 2. Árvores de decisão

* Método para inferência indutiva;
* Auxilia a predizer a classe de um objeto em estudo com base em treinamento prévio;
* Uma árvore representa uma função discreta para aproximar/representar os dados de treinamento;
* Árvores de decisão classificam instâncias ordenando-as da raíz para algum nó folha;
> Cada nó da árvore representa um atributo.
* [Uma Introducao Visual ao Aprendizado de Maquina - usar exemplo com árvode de decisão](http://www.r2d3.us/uma-introducao-visual-ao-aprendizado-de-maquina-1/)

### Exemplo: Jogar tênis
* Classifica se um determinado dia é adrequado ou não para jogar tênis;
![jogar tenis](jogar_tenis.png)

* Por exemplo:
> 1. Tendo a instância: (Panorama=Ensolarado) e (Temperatura=Quente) e (Umidade=Alta)
> 2. Saída: **Não**

* Pode se monta uma expressão para verificar quando é possível jogar tênis:
> (Panorama=Ensolarado) e (Umidade=Normal) ou (Panorama=Nublado) ou (Panorama=Chuvoso) e (Vento=Fraco)

* Portanto podemos gerar uma árvore de decisão e depois **obter regras** que nos auxiliam a classificar instâncias nunca vistas.

## Regiões de decisão

![regioes de decisao](regioes_de_decisao.png)

### Tipos de problemas para aplicação

* Instâncias são representadas por **pares atributo-valor**: Há um conjunto fixo de atributos (ex.: Umidade) e seus valores (ex.: Alta, Nomal). Situação ideal é quando cada atributo pode assumir **poucos valores**, no entanto, as árvores de decisão também podem trabalhar com valores reais.

* A função a ser aproximada tem **valores discretos**: No exemplo a função deve produzir **sim** ou **não**. Pode-se facilmente estendê-las para produzir mais de dois valores de saída. Tornam-se mais complexas e menos utilizadas abordagens que buscam produzir valores reais como saída.

* Aplicações comuns: Diagnóstico de pacientes, problemas em equipamentos mecânicos e elétricos, análise de crédito.

### Tipos de algoritmo

* Mais conhecidos: ID3 (Quinlan, 1986) e C4.5 (Quinlan, 1993)

#### Algoritmo ID3

* Considere um conjunto de dados para treinamento;
* Ele constrói a árvore em uma abordagem ***top-down*** considerando a questão: **"Qual atributo é o mais importante e, portanto, deve ser colocado na raíz da árvore?"**;
* Para isso **cada atributo é testado** e sua capacidade para se tornar nó raíz avaliada;
* Cria-se tantos **nós filhos da raíz** quantos valores possíveis esse atributo puder assumir (caso discreto);
* **Repete-se o processo** para cada nó filho da raíz e assim sucessivamente.
* Como avaliar qual o atributo é mais adequado? Por **entropia**

#### Entropia

* Propriedade da termodinâmica usada para determinar a quantidade de energia útil de um sistema qualquer;
* Gibbs afirmou que a melhor interpretação para entropia na mecânica estatística é como uma **medida de incerteza**;
* Claude Shannon (1948) desenvolveu o conceito de Entropia em teoria da informação;
* Para entender considere o sistema:

![entropia 1](entropia1.png "entropia 1")

> Considere que o sistema alterou seu comportamento

![entropia 2](entropia2.png "entropia 2")

* A equação para o seu cálculo: $E = -\sum_{i} \sum_{j}p_{ij}log_{2}p_{ij}$

> Ela mede a energia total de um sistema considerando que o sistema está no estado $i$ e ocorre uma transição para o estado $j$. O $log_2$ é usado para quantificar a Entropia em termos de **bits**.

* Assim, para imagem **entropia 1**:  $E = -(1log_2(1) + 1log_2(1)) = 0$
* E para a imagem **entropia 2**: $E = -(1log_2(1) + 0.5log_2(0.5) + 0.5log_2(0.5)) = 0.693$
> Após modificar seu comportamento, o sistema agregou maior nível de incerteza ou energia.

#### Uso de Entropia no ID3

* Considere uma coleção **S** de instâncias com exemplos positivos e negativos (duas classes distintas);
* Nesse caso, assume-se a probabilidade de se pertencer a uma das duas classes (positiva ou negativa) de **S**;
* Entropia nesse contexto é dada por:

$E(S) = -p_\oplus log_2 p_\oplus - p_\ominus log_2 p_\ominus$
* Para ilustrar, considere o conjunto **S** com 14 exemplos de algum conceito Booleano: 9 positivos e 5 negativos;
* A entropia desse conjunto é dada por:

$E(S) = -\frac{9}{14}log_2\frac{9}{14}-\frac{5}{14}log_2\frac{5}{14} = 0.94$

* Em outros casos note:
> para [7+, 7-]

$E(S) = - \frac{7}{14}log_2\frac{7}{14}-\frac{7}{14}log_2\frac{7}{14} = 0.99 ... \approx 1$

> para [0+, 14-] ou [14+, 0-]

$E(S) = - \frac{14}{14}log_2\frac{14}{14} = 0$

* **Entropia mede o nível de certeza que temos sobre um evento**
* Podemos generalizar para mais de dois possíveis valores ou classe:

$E(S) = \sum^{c}_{i=1}-p_ilog_2p_i$

* Podemos estudar diferentes sistemas com Entropia, por exemplo séries temporais.
* Por que o uso da função **log**?
> Pois em teoria da informação mede-se a informação proveniente de uma fonte em bits. Esse conceito também permite pedir quantos bits são necessários para codificar uma mensagem (uma palavra por exemplo).

#### Ganho de informação no ID3

* Após definir **entropia**, podemos definir **ganho de informação**;
* **Ganho de informação** mede a **efetividade** de um atributo em classificar um conjunto de treinamento. **Quão bom um atributo é** para classificar um conjunto de treinamento.
* Ganho de informação de um atributo A: É a redução na Entropia, causada pelo particionamento de exemplos de acordo com este atributo.

$\mathbf{GI}(S, A) = E(S) - \sum_{\upsilon\ \in\ \mathbf{Valores}(A)} \frac{S_\upsilon}{S}E(S_\upsilon)$

> Em que o segundo termo mede a Entropia particionando o conjunto de treinamento de acordo com o atributo A.

* Logo, **GI** mede a redução na Entropia ou na incerteza ao selecionar o atributo A

* Por exemplo, considere **S** um conjunto de treinamento contendo o atributo Vento (Fraco ou Forte);
> **S** contém 14 exemplos [9+, 5-]: 6 dos exemplos positivos e 2 exemplos dos negativos são definidos por Vento=Fraco (8 no total); 3 exemplos definidos por Vento=Forte tanto na classe positiva quanto negativa (6 no total).

>  O ganho de informação ao selecionar o atributo Vento para a raíz de uma árvore de decisão é dado por:

$S = [9+, 5-]$

$S_{fraco} \gets [6+, 2-]$

$S_{forte} \gets [3+, 3-]$

$\mathbf{GI}(S,A) = E(S) - \sum_{\upsilon\ \in\ \mathbf{Valores}(A)} \frac{S_\upsilon}{S}E(S_\upsilon)$

$\mathbf{GI}(S,A) = 0.94 - \frac{8}{14}E(S_{fraco}) - \frac{6}{14}E(S_{forte})$

$E(S_{fraco}) = -\frac{6}{8}log_2\frac{6}{8} - \frac{2}{8}log_2\frac{2}{8} = 0.811$

$E(S_{fraco}) = -\frac{3}{6}log_2\frac{3}{6} - \frac{3}{6}log_2\frac{3}{6} = 1.0$

$\mathbf{GI}(S,A) = 0.94 - \frac{8}{14}0.811 - \frac{6}{14}1.00 = 0.048$

* Essa medida de ganho de informação é utilizada pelo ID3 em cada passo da geração da árvore de decisão;
> Nesse caso reduzimos muito pouco o nível de incerteza. Logo, esse atributo é bom para a raíz da árvore? **Não**.

#### Exemplo - aprender a jogar tênis


In [9]:
import pandas as pd

exe = {
    "dia": ["1", "2", "3", "4", "5", "6", "7", "8", "9", "10", "11", "12", "13", "14"],
    "panorama": ["Ensolarado", "Ensolarado", "Nublado", "Chuvoso", "Chuvoso", "Chuvoso", "Nublado", "Ensolarado", "Ensolarado", "Chuvoso", "Ensolarado", "Nublado", "Nublado", "Chuvoso"],
    "temperatura": ["Quente", "Quente", "Quente", "Intermediária", "Fria", "Fria", "Fria", "Intermediária", "Fria", "Intermediária", "Intermediária", "Intermediária", "Quente", "Intermediária"],
    "umidade": ["Alta", "Alta", "Alta", "Alta", "Normal", "Normal", "Normal", "Alta", "Normal", "Normal", "Normal", "Alta", "Normal", "Alta"],
    "vento": ["Fraco", "Forte", "Fraco", "Fraco", "Fraco", "Forte", "Forte", "Fraco", "Fraco", "Fraco", "Forte", "Forte", "Fraco", "Forte"],
    "jogar_tenis": ["Não", "Não", "Sim", "Sim", "Sim", "Não", "Sim", "Não", "Sim", "Sim", "Sim", "Sim", "Sim", "Não"]
}
exe_df = pd.DataFrame.from_dict(exe)
exe_df.head()

Unnamed: 0,dia,panorama,temperatura,umidade,vento,jogar_tenis
0,1,Ensolarado,Quente,Alta,Fraco,Não
1,2,Ensolarado,Quente,Alta,Forte,Não
2,3,Nublado,Quente,Alta,Fraco,Sim
3,4,Chuvoso,Intermediária,Alta,Fraco,Sim
4,5,Chuvoso,Fria,Normal,Fraco,Sim


* Primeiro passo é calcular o ganho de informação para cada atributo:

$\mathbf{GI}(S, panorama) = 0.246$
$\mathbf{GI}(S, umidade) = 0.151$
$\mathbf{GI}(S, vento) = 0.048$
$\mathbf{GI}(S, temperatura) = 0.029$

* O Atributo com maior ganho é selecionado para ser a raíz da árvore de decisão (panorama = 0.246)
> É o que mais reduz o nível de incerteza. Criamos nós filhos a partir da raíz de acordo com os possíveis valores assumidos pelo atributo **panorama**

* Agora que temos a raíz devemos proceder da mesmsa maneira para os demais ramos que surgem a partir da raíz. Em cada ramo consideramos somente os exemplos nele contigos, desde que haja divergência entre as classes de saída.

![panorama](panorama.png "Panorama_slide31")

