# I.C.: Módelos de Árvores e Ensembles

Robson Mesquita Gomes  
[<robson.mesquita56@gmail>](mailto:robson.mesquita56@gmail.com)

## Teoria da Informação

### Informação

$I$ é uma função que mensura a quantidade de informação gerada pela probabiliade $P(x)$ para cada valor $x \in X$

$$I(x) = -\log{P(x)}$$

### Entropia

A entropia é a média da informação em uma variável, ou seja, a soma das informações multiplicadas pelas probabilidades. É uma medida de imprevisibiliade, ou seja, da desordam da distribuição de probabilidade $P$.

$$H(X) = \mathbb{E}[ I(X) ] = \sum_{x \in X} (I(x) \cdot P(I(X)))$$

$$H(X) = \mathbb{E}[ I(X) ] = -\sum_{x \in X} (\log(P(x)) \cdot P(x))$$

Temos então que quanto maior a entropia menor a previsibilidade ($H = \text{Previsibilidade}^{-1}$).

#### Entropia Conjunta

$$H(X,Y) = -\sum_{x \in X} \sum_{y \in Y} P(x,y) \cdot \log (P(x,y))$$

#### Entropia Condicional

$$H(X|Y) = H(X,Y) - H(Y)$$

#### Informação Mútua

É uma medida de dependência mútua entre duas variáveis

$$I(X,Y) = H(X) + H(Y) - H(X, Y)$$

## Teroria dos Grafos

$$G = \{ V,E \}$$

Onde

$V$ é um conjunto de vértices

$$V = \{a_1, a_2, a_3, ..., a_n\}$$ 

$$n = |V|$$

$E$ é um conjunto de arestas

$$E = \{ (a_i, a_j) | a_i, a_j \in V\}$$ 

$$m = |E|$$

![](grafos.png)

### Tipos de Gráfos

#### Gráfos Simples

Gráfos onde as arestas são simétricas.

$$(a_i, a_j) = (a_j, a_i)$$

#### Gráfos Direcionados (Dígrafos)

Gráfos onde as arestas são assimétricas.

$$(a_i, a_j) \neq (a_j, a_i)$$

#### Gráfos Cíclicos

Gráfos onde existe mais de um caminho para se chegar ao mesmo nó.

#### Gráfos Acíclicos

Gráfos onde existe apenas um caminho para se chegar ao mesmo nó.

![](tipos-grafos.png)

### Árvores

Uma Árvore é um **Grafo Direcionado Acíclico (GDA)** onde:

- Cada nó só pode receber uma conexão (**Nó Pai**)
- Cada nó pode apontar para vários outros (**Nós Filhos**)
- É chamado **nó raíz** um nó que não recebe conexões, mas aponta para vários nós (Nós Filhos)
- É chamado **nó folha** um nó que não possui nós filhos
- Só existe um único caminho entre o nó filho e qualquer nó folha

![](arvore.png)

### Árvores de Decisão e Regressão

Árvore de Decisão e Regressão é um **método de inferêcia** ($f$) que utiliza modelos na forma de árvores (caixa branca). Os métodos de aprendizagem ($F$) mais utilizados para criar estes modelos utilizam Teoria da Informação para criar os modelos de árvores.

##### Modelo de Árvore

- Cada nó da árvore é uma pergunta sobre o valor de um atributo
- Cada ramo (nó filho) é uma possível resposta
- Os nós-folhas são a decisão final 
  - Uma classe (Árvore de Decisão)
  - Um valor (Árvore de Regressão)

### Árvores de Decisão

Cada vértice é uma pergunta sobre um atributo e cada aresta é um dos valores daquele atributo.

$$\mathcal{M}: X \rightarrow Y$$

$$\mathcal{M} \text{ é uma árvore (DAG)}$$

#### ID3

1. Escolha o atributo $\mathcal{A_i} \in X$ que melhor separa as instâncias de Y;
2. Retire o atributo $\mathcal{A_i}$ de $X$;
3. Para cada valor $v \in \mathcal{A_i}$:
   1. Crie um nó filho;
   2. Selecione o nó filho $\mathcal{D}_{\mathcal{A}_i = v}$ das instâncias de $\mathcal{D}$ tal que $\mathcal{A}_i = v$;
   3. Execute recursivamente a partir do passo 1 usando $\mathcal{D}_{\mathcal{A}_i = v}$;
4. O algoritmo para quando $X$ estiver vazio;

#### Particionamento Recursivo

- Particionamento($\text{Nó}$, $D$):
    1. Escolhe um atributo $\mathcal{A}_i \in X$ que melhor "divide" Y;
    2. Cria um $\text{Nó-Filho}$ em $\text{Nó}$ para cada valor de $v \in \mathcal{A}_i$;
- Recursivo($\text{Nó}$, $D$):
  - Para cada $\text{Nó-Filho}$
    1. Selecione o subconjunto $\mathcal{D}_{\mathcal{A}_i = v}$ das instâncias de $\mathcal{D}$ tal que $\mathcal{A}_i = v$;
    2. Chame a etapa de particionamento usando $\mathcal{D}_{\mathcal{A}_i = v}$;
- O algoritmo termina quando todos os $\mathcal{A}_i \in X$ já tiverem sido utilizados;
    

#### Algoritmo ID3

**função** $\text{ID3}(\text{Nó}_{\text{pai}}, \mathcal{D}, X, Y ):$  
    $\mathcal{A}_{\text{escolhido}} \leftarrow \arg \max_{\mathcal{A}} \{ \text{GanhoInformação}(Y, \mathcal{A}) \forall \mathcal{A}_i \in X\}$  
    $X \leftarrow X - \mathcal{A}_{\text{escolhido}}$  
    $\forall v \in \mathcal{A}_{\text{escolhido}}$  
        $\text{Nó}_{\text{filho}} \leftarrow \text{{}}$  
        $\mathcal{D}_{\text{filtrado}} \leftarrow \mathcal{D} | \mathcal{A}_{\text{escolhid}} = v$  
        $\text{Nó}_{\text{pai}} \leftarrow \text{ID3}(\text{Nó}_{\text{filho}}, \mathcal{D}_{\text{filtrado}}, X, Y)$  
    $\text{retorna} \text{Nó}_{\text{pai}}$

#### Critérios de particionamento

Alguns critérios de particionamento são:
- Entropia / Ganho de Informação
- Índice GINI
- Variância Conjunta

#### Ganho de Informação

O Ganho de Informaçõ é uma função baseada na entropia do atributo alvo Y e na entropia dos atributos explicativos X, ele nos diz o quão "explicativo" é um atributo X em relação ao atributo Y.

Quanto maior o $\text{GanhoInformação(Y,X)}$, mais o atributo $X$ pode ser utilizado para explicar $Y$.

$$\text{GanhoInformação}(Y,X) = H(Y) - \sum_{x \in X} P(x) \cdot H(Y|x)$$

Onde:
- $H(Y)$: Entropia de Y, considerando todas as intâncias de Y;
- $P(X)$: Probabilidade de $x \in X$;
- $H(Y|X)$: Entropia condicional de Y, considerando somente as instâncias de $Y$ onde $X=x$.

##### Razão de Ganho

Quanto maior o número de valores de um atributo maior o ganho de informação. Isso nem sempre é positivo e precisamos de uma forma de atingir um equilíbrio para esses valores, Dessa forma normalizamos o ganho de informação pela entropia do atributo.

$$\text{RazãoGanho}(Y,X) = {{\text{GanhoInformação}(Y,X)} \over {H(X)}}$$

Deve-se então escolher o atributo $\mathcal{A}_i \in X$ que maximize a Razão de Ganho, tal que

$$\mathcal{A} = \arg \max_{\mathcal{A}_i} \{ \text{RazãoGanho}(Y,X) \} \forall \mathcal{A}_i \in X$$

#### Valores Numéricos

- Divide o domínio em sub-intervalos
- Como escolher o melhor ponto de corte?
  - Testar o ganho de informação para diferentes valores do domínio dos dados e escolher o melhor ponto de corte
- Cria um nó filho para valores menores que o ponto de corte
- Cria um nó filho para valores maiores que o ponto de corte

## Algoritmo de treinamento de Árvores

- *ID3*
- *C4.5*
- *J48*
- *CART*

### ID3

- A geração da árvore depende do atributo-alvo $Y$
- O algoritmo é caro computacionalmente
  - Percorre todos os atributos
  - Calcula o Ganho de Informação para cada valor possível de cada atributo
  - Cada ramo da árvore executa recursivamente

### Modelos de Árvores

- Especificidade vs. Generalidade
  - Excesso de Especificidade = Overfit/Sobre-ajuste
    - A árvore tem ramos de mais
    - Há ramos na árvore que cobrem muito poucas instâncias (casos muito específicos)
  - Excesso de Generalidade = Underfit/Sub-ajuste
    - A árvore tem ramos de menos
    - Um ramo da árvore cobre instâncias demais (generelização grosseira)
- Otimização do modelo
  - Minimizar o tamanho da árvore
    - Parcimônia = O modelo mais simples é o melhor
  - Maximizar o poder de classificação
    - Acurácia = O modelo mais preciso é o melhor
- Durante o treinamento
- Pós treinamento
  - Prunning (poda)

#### Regras de Produção

- Expressa o conhecimento sobre um determinado domínio como um conjunto de regras no formato

$$\text{SE <condição> ENTÃO <ação>}$$

- É possível converter uma árvore de decisão em um conjunto de regras de produção
  - Cada possível caminho da árvore é uma regra

## Ensamble Learning

### Limitações dos modelos de Árvores

- Quando os dados têm alta dimensionalidade
  - Centenas de Atributos
  - Muitos milhares de Milhões de Instâncias
- Um modelo de árvore sozinho
  - Ou a árvore ficará gigante
  - Ou a árvore ficará muito imprecisa
  
### Métodos de Ensamble

- Ensamble = Comitê
  - Ao invés de ter 1 (um) modelo decidindo sozinho, termos muitos decidindo em conjunto
  - Cada modelo do comitê tem pontos fortes e fracos, nenhum deles será bom em todas as situações
  - Mas uns cobrem as falhas dos outros e, no geral, o Ensemble é mais preciso do que qualquer um dos seus componentes isolados

### Ensemble

$$\mathcal{M}: X \rightarrow Y$$
$$\mathcal{M} = \{\mathcal{M}_0, ..., \mathcal{M}_i\}$$
$$Y = \cup_{\mathcal{M}_i \in \mathcal{M}} \mathcal{M}_i(x)$$

- Parâmetros
  - Quantos modelos?
  - Os hiperparâmetros de cada modelo individual $\mathcal{M}_i$
  
#### Principais técnicas

- Baggin
  - Random Forests
- Boosting
  - Gradient Boosting

### Bagging (Bootstrap Aggregating)

#### Método de treinamento

1. Gerar $M$ novos conjuntos de treinamentos $\mathcal{D}_i \subset \mathcal{D}$ de tamanho $k$
   - Cada $\mathcal{D}_i$ é criado por amostragem uniforme com reposição de $\mathcal{D}$
2. Para cada $\mathcal{D}_i$, treinar um modelo $\mathcal{M}_i$ e adicionar no conjunto $\mathcal{M}$
3. Retornar $\mathcal{M}$

#### Método de inferência

1. Se o problema for de regressão
   - Média: $Y = {1 \over m} \sum_{\mathcal{M}_i \in \mathcal{M}} {\mathcal{M}_i(X)}$
2. Se o problema for de classificação
   - Votação: $Y = \arg \max_\{Y_j\}$ onde $Y_j = \mathcal{M}_i(X), \forall \mathcal{M}_i \in \mathcal{M}$

#### Florestas aleatórias

- É um modelo de Bagging utilizando árvores de decisão
- A diferença do algoritmo normal é que também é realizado um bagging nos atributos (feature bagging)
- Gerar $m$ novos conjuntos de treinamentos $\mathcal{D}_i \subset \mathcal{D}$ com $k$ instâncias e $\sqrt p$ atributos
  - Escolha um subconjunto $\mathcal{A}_i$ de tamanho $\sqrt p$ dos atributos $X$
  - $\mathcal{D}_i$ é criado amostrando $k$ instâncias $\mathcal{D}$ e incluindo somente os atributos do conjunto $\mathcal{A}_i$
  
- Prâmetros
  - Número de modelos internos
  - Tamanho da partição das instâncias
  - Tamanho da partição dos atributos
  - Parâmetros das árvores

[<< Tópico Anterior](04-aprendizado-estatistico.ipynb)