# Árvore de regressão.
## ID3 - Interactive Dichotomiser 3.
Esse algoritmo é baseado na ideia de entropia. A entropia de um dataset é uma métrica da sua incerteza ou impureza, ou seja, representa a aleatoriedade em seus valores. O seu valor é zero quando não há aleatoriedade (todos os elementos do dataset tem a mesma classificação) e aumenta conforme o dataset fica mais impuro.
$\newline$ Para deixar isso um pouco mais claro, vamos analisar o exemplo abaixo, em que o objetivo é prever se o objeto é um pentágono ou uma estrela a partir de sua cor e transparência. Inicialmente, o dataset tem entropia alta. Para diminuir essa entropia, temos dois cortes possíveis (um para cada feature). Se dividirmos pela cor da figura (a), conseguimos dois subconjuntos com entropia baixa, pois cada um tem objetos de um único tipo. Logo, o ganho de informação é alto. Já separando por transparência (b), os subconjuntos ainda são “impuros”, ou seja, têm objetos de formas diferentes. Desse modo, o ganho de informação é baixo. Por esse motivo, o algoritmo escolheria o corte da esquerda.

![img](https://miro.medium.com/max/2000/1*OmFgPYbtMsOQdK6rOiRVEw.png)

## CART - Classification and Regression Tree.
Esse algoritmo é similar ao ID3, porém utiliza probabilidade para medir a impureza de um datase, ao invés da entropia. Imagine que você selecione duas observações aleátórias de um dataset, qual a probabilidade delas terem classes diferentes? Para que o nosso dataset seja puro, queremos que a probabilidade seja 0, ou seja, todas as observações têm a mesma classem por outro lado, conforme a impureza aumentam, esperamos que a probabilidade dos elementos terem a classes diferentes aumente.
$\newline$ Esse algoritmo pode ser utilizado para predizer valores numéricos, basicamente, nesse caso, a divisão consiste em encontrar grupos com resultados similares, e a média dos seus resultados é usada como predição para esse grupo.


## Pruning.
Pruning consiste em podar uma árvore de decisão já treinada, em uma tentativa de diminuir o número de nós e, portanto, o overfitting. A forma mais simples de fazer isso é pelo método do erro reduzido. Esse método passa por cada nó da árvore e:
* Transforma o nó em uma folha cuja classe é a mais comum no nó (dentre as observações da base de treinamento que se encaixam no nó). A sub-árvore abaixo desse nó é removida.
* Verifica a acurácia da nova árvore em um conjunto de validação.
* Se a acurácia do modelo não tiver diminuído, a nova árvore é mantida. Caso contrário, voltamos para a árvore antiga.

## Pros.
* Facil explicabilidade e interpretação.
* Requerem pouco esforço na preparação dos dados, métodos baseados em árvore normalmente não requerem normalização de dados.
* Complexidade logarítmica na etapa de predição.
* São capazes de lidar com problemas com múltiplos rótulos.

## Contra.
* Árvore crescida até sua profundidade máxima pode decorar o conjunto de treino, o que degrada seu poder preditivo quando aplicado a novos dados.
* São modelos instáveis, pequena variações nos dados de treino podem resultar em árvores completamente distintas. Isso podee ser evitado ao treinarmos várias árvores.
* Como visto, o algoritmo de construção da árvore de decisão é guloso, ou seja, não garante a construção da melhor estrutura para os dados de treino em questão.

## Diferença entre árvore de regressão e árvore de classificação.
Nós de termino (folhas) estão na parte inferior da árvore de decisão, isso significa que as árvores de decisão são desenhadas de cabeça para baixo. Dessa forma, as folhas são o fundo e as raizes são os topos, ambas as árvores trabalha de forma quase semelhantes esntre si, vamos olhar para as diferenças primárias e para as semelhanças entre as árvores:
* As de regressão são usadas quando a variável dependente é continua, já as árvores de classificação são usadas quando a variável dependente é categórica.
* No caso da árvore de regressão, o valor obtido pelos nós de término nos dados de treinamento é o valor médio das suas observações. Assim, a uma nova observação de dados atribui-se o valor médio correspondente.
* No caso da árvore de classificação, o valor (classe) obtido pelo nó de término nos dados de treinamento é a moda das sua observações. Assim, a uma nova observação de dados atribui-se o valor da moda correspondente.
* Ambas as árvores dividem o espaço preditor(variáveis independentes) em regiões distintas e não sobrepostas. Por uma questão de simplicidade, você pode pensar nessa regiões como caixas de alta dimensão ou simplesmente caixas.
* Ambas as árvore seguem uma abordagem "top-down" e "gananciosa" conhecida como divisão binária recursiva "recursive binary splitting". É chamado de "top-down" por que começa do topo da árvore quando todas as observações estão disponiveis em uma única região e, sucessivamente, divide o espaço preditor em dois novos ramos no sentido inferior da árvore.
* Esse processo de divisão é continuando até que um critério e parada seja definido pelo usuário seja alcançado.
* Em ambos os casos, o processo de divisão resulta em árvore totalmente crescidas até que o critérios de parada sejam atigidos, mas a árvore totalmente crecida é susceptível de sobrecarga de dados.

# Prática.

In [1]:
import pandas as pd 
import numpy as np 

from sklearn import tree 
from sklearn.datasets import load_boston
from sklearn.model_selection import cross_val_score

In [2]:
boston = load_boston()

In [3]:
X = boston.data
y = boston.target

In [6]:
reg = tree.DecisionTreeRegressor()

In [7]:
boston_tree = reg.fit(X[:-50], y[:-50])

In [8]:
boston_tree.predict(X[-50:])

array([13.1, 15.1, 13. , 13. , 14.1, 17.4, 21.7, 22.7, 21.7, 20.8, 13.1,
       13.1, 10.2, 10.9, 14.1, 22.7, 19.9, 41.3, 15.1, 17.2, 14.1, 17.2,
       14.1, 21.7, 22.7, 22.8, 41.3, 19.3, 24.7, 21.2, 17. , 22.6, 16.2,
       15.7, 16.2, 17.4, 19.6, 16.1, 24.7, 19.8, 19.8, 18.5, 19.6, 19.8,
       19.6, 28.4, 22.2, 23.6, 26.6, 22.2])

In [9]:
boston_tree.score(X[-50:], y[-50:])

-0.2987398544232325

## Cross Validation.

In [10]:
allScores = cross_val_score(reg, X, y, cv=10)

In [11]:
allScores.mean()

-0.10572468897291239