# Árvore de classificação.
Classificação é um processo de duas etapas, etapa de aprendizagem e etapa de previsão. Na etapa de aprendizagem, o modelo é desenvolvido com base nos dados de treinamento fornecido. Na etapa de previsão,  o modelo é usado para prever a resposta para dados fornecidos. A árvore de decisão é um dos algoritmos de classificação mais fáceis e populares de entender e interpretar ele pode ser utilizado para o tipo de problemas de classificação e regressão.
* Medidas de seleção de atributos.
    * Ganho de informações.
    * Razão de ganho.
    * Indice de Gini.

![img](https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1545934190/1_r5ikdb.png)     

## Como funciona.
A ideia por trás do algoritmo é a seguinte:
* Selecione o melhor atributo usando Atribute Selection Measures (ASM) para dividir os registros.
* Transforme esse atributo em um nó de decisão e divide o conjunto de dados em subconjuntos menores.
* Inicia a construção da árvore repentindo este processo recursivo para cada filho até que uma das condições corresponda:
    * Todas as tuplas pertencem ao mesmo valor atribuido.
    * Não há mais atributos.
    * Não há mais instâncias.



## Medidas de seleção. 
É uma heuristica para selecionar o critério de divisão que particiona os dados de melhor maneira possível. Também é conhecido como regras de divisão por que nos ajuda a determinar pontos de interrupção para tuplas em um determinado nó. ASM fornecido uma classificação para cada recurso. O melhor atributo de pontuação será selecionado como atributo de divisão (Fonte).

## Ganho de informação.
$$info(D) = - \sum^{m}_{i=1} pi \log_2 pi$$
$$info_A(D) = \sum^{V}{j=1}\frac{|D_j|}{|D|} * X * info(D_j)$$
$$Gain(A) = info(D) - info_A(D)$$

* info(D) - quantidade média de informações necessária para indentificar o rótulo de classe de um tupla em D.
* $\frac{|D_j|}{D} $ Atua como o peso da j-ésima partição.
* Info(D) é a informação esperada necessária para classificar uma tupla de D com base no parcionamento por A.
$\newline$ conceito de entropia,  que mede a impureza do conjunto de entrada. Em física e em matemática,  a entropia é referida como aleatoriedade ou impureza no sistema. Na teoria da informação, refere-se à impureza em grupos de exemplos, o ganho de informação é a diminuição da entropia. O ganho de informação calcula a diferença entre a entropia antes da divisão e a entropia média após a divisão do conjunto de dados com base em determinados valores atribuidos.
 


# Prática.

In [40]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn import metrics
from datetime import datetime as dt
import seaborn as sns
from sklearn.datasets import load_iris

In [43]:
iris  = load_iris()
#iris

In [45]:
X = iris.data
y = iris.target

In [50]:
clf = DecisionTreeClassifier(criterion="entropy")
irisTree = clf.fit(X, y)

In [52]:
irisTree.predict([[2., 2., 2., 2.]])

array([1])

In [54]:
allScores = cross_val_score(clf, X, y , cv=10)
allScores

array([1.        , 0.93333333, 1.        , 0.93333333, 0.93333333,
       0.86666667, 0.93333333, 0.93333333, 1.        , 1.        ])