## Árvores de Classificação e Regressão

## Introdução

Neste tutorial iremos apresentar as implementações dos algoritmos de Árvores de Classificação e Regressão que podem também ser chamados de CART. Este é um poderoso método de predição bastante popular. A árvore de decisão final explica exatamente o porquê de uma predição específica ter sido feita, tornando-a muito atrativa para o uso. Elas também servem de base para métodos mais avançados. Para implementar a árvore iremos utilizar funções das bibliotecas do Scikit-learn, do Pandas e do Numpy.

## Árvores de classificação e regressão

São algoritmos que podem ser utilizados para problemas de modelagem preditiva classificativa ou regressiva. Vamos focar no uso do modelo CART(Árvores de Classificação e Regressão) para classificação nesse tutorial. A representação do método é uma árvore binária. Um nó representa uma única variável de entrada (X) e um ponto de divisão nessa variável, assumindo que é numérica. Os nós folhas (também chamados de nós terminais) de uma árvore contém uma variável de saída (Y) a qual é utilizada para fazer uma predição. Uma vez criada, uma árvore pode ser navegada com uma nova linha de dados seguindo cada ramo com as divisões até a última predição ser feita.

## Banknote Dataset

Utilizaremos o conjunto de dados denominado BankNote Dataset disponível nesse link: https://goo.gl/rLPrHO. Esse dataset é utilizado para prever se uma cédula é autêntica dado o conjunto de medidas tiradas de uma fotografia. Esse problema é composto por 1372 observações de dados que foram extraídos de imagens que foram tiradas de cédulas genuínas e falsas. Foi utilizada uma ferramenta de transformação "wavelet"(função capaz de decompor e descrever ou representar outra função) para extrair essas informações da imagem. Os registros mostram a variância, a obliquidade e a curtose(é uma medida de forma que caracteriza o achatamento da curva da função) da imagem transformada pela ferramenta, além disso há a entropia da imagem. Cada registro há um valor de classe que indica se a cédula é autentica (0) ou não (1).

## Passos do tutorial:
    1. Carregar o dataset.
    2. Dvidir o dataset.
    3. Treinar o algoritmo.
    4. Fazer uma predição e avaliar o algoritmo.
    5. Avaliar o algortimo utilizando o K-fold Cross Validation

## 1. Carregar o dataset

Nesta etapa vamos utilizar a biblioteca Pandas. O Pandas é uma biblioteca do python que oferece suporte para operações de manipulação e análise de dados. 

O primeiro passo é importar o pandas. Para ler o arquivo .csv que contém o dataset iremos utilizar a função read_csv. O primeiro parâmetro que passamos é o nome do arquivo que desejamos ler. Ao fazermos a atribuição "header= None" estamos informando a função que o nosso dataset não possui cabeçalho. O dataset será então retornamos como um DataFrame que será armazenado na variável data.

In [1]:
import pandas as pd
data = pd.read_csv('banknote.csv', header= None)

Utilizaremos a função head() para visualizar as primeiras linhas do dataframe.

In [3]:
data.head()

Unnamed: 0,0,1,2,3,4
0,3.6216,8.6661,-2.8073,-0.44699,0
1,4.5459,8.1674,-2.4586,-1.4621,0
2,3.866,-2.6383,1.9242,0.10645,0
3,3.4566,9.5228,-4.0112,-3.5944,0
4,0.32924,-4.4552,4.5718,-0.9888,0


Se desejar visualizar todo o dataset executa a seguinte linha de código. 

In [2]:
data

Unnamed: 0,0,1,2,3,4
0,3.621600,8.66610,-2.807300,-0.446990,0
1,4.545900,8.16740,-2.458600,-1.462100,0
2,3.866000,-2.63830,1.924200,0.106450,0
3,3.456600,9.52280,-4.011200,-3.594400,0
4,0.329240,-4.45520,4.571800,-0.988800,0
5,4.368400,9.67180,-3.960600,-3.162500,0
6,3.591200,3.01290,0.728880,0.564210,0
7,2.092200,-6.81000,8.463600,-0.602160,0
8,3.203200,5.75880,-0.753450,-0.612510,0
9,1.535600,9.17720,-2.271800,-0.735350,0


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1372 entries, 0 to 1371
Data columns (total 5 columns):
0    1372 non-null float64
1    1372 non-null float64
2    1372 non-null float64
3    1372 non-null float64
4    1372 non-null int64
dtypes: float64(4), int64(1)
memory usage: 53.7 KB


## 2. Dividir o dataset

Iremos agora utilizar a função iloc do pandas para dividir o nosso dataset. Em X iremos guardar os valores da coluna 0 até a coluna 3 do dataset, em Y iremos guardar os valores da última coluna, que correspondem aos valores de saída.

In [10]:
X = data.iloc[:,[0,1,2,3]]
Y = data.iloc[:,4]

O próximo passo é dividir o conjunto de dados, em dados de treino e de teste. Para isso usaremos a função train_test_split da biblioteca sklearn.

In [11]:
from sklearn.model_selection import train_test_split

Dividiremos os dados da seguinte forma: 80% dos dados serão utilizados para treino e 20% para teste. Os dados de treino serão então separados e guardados em duas variáveis: o X_train guarda os valores da coluna 0 até a 4 e o y_train guarda os valores de saída correspondente a cada linha do X_train. A divisão acontecerá da mesma forma entre o X_test e o y_test para os dados de treino.

In [12]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, train_size=0.8, test_size= 0.2, random_state=1)

## 3. Treinar o algoritmo

In [13]:
from sklearn.tree import DecisionTreeClassifier

Vamos utilizar a função DecisionTreeClassifier para modelar. O parâmetro criterion define a função utilizada para medir a qualidade da divisão. No nosso caso definimos o critério com 'gini'. 

O coeficiente é uma função de custo utilizada para avaliar divisões no dataset. Uma divisão neste envolve um atributo de entrada e um valor para este atributo. Uma separação perfeita resulta em um valor de Gini igual a 0, no pior caso, ou seja, no caso em que a separação resulta em 50/50, resulta em um valor de Gini igual a 0.5.

O parâmetro max_depth define a máxima profundidade de uma árvore: Isso é o número máximo de nós da raiz da árvore. Uma vez que a profundidade máxima é atingida devemos parar de adicionar novos nós. Árvores muito profundas são mais complexas e mais prováveis de superar os dados de treinamento. 

O parâmetro min_samples_split define o número mínimo de registros nos nós: É o número mínimo de padrões de treinamento que um nó é responsável. Uma vez menor ou igual que o mínimo, devemos parar de dividir e adicionar novos nós. Nós que são responsaveis por poucos padrões de treinamento são muitos específicos.

Esta função aceita ainda outros parâmetros, mas para o nosso caso estes são suficientes.

In [14]:
model = DecisionTreeClassifier(criterion='gini', max_depth= 5, min_samples_split= 10)

Agora iremos treinar o nosso modelo, utilizando a função fit do sklearn, usaremos os conjuntos de dados de treino que tínhamos preparados anteriormente.

In [15]:
model.fit(X_train, y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=5,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=10,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

## 4. Fazer uma predição e avaliar o algoritmo

Vamos agora utilizar o nosso modelo para efetuar uma predição sobre o nosso dataset. Usaremos a função predict do sklearn e o nosso conjunto de dados X_test.

In [16]:
predicao = model.predict(X_test)

In [17]:
predicao

array([1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0,
       1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1,
       0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1,
       0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0,
       1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1,
       0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1,
       0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0,
       1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1,
       0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0,
       1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0,
       1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0,
       1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0])

É natural querermos saber quão bom é o desempenho do modelo que desenvolvemos sobre o dataset. Para calcular a acurácia podemos utilizar a função score do sklearn.tree.

In [28]:
accuracy = model.score(X_test, y_test)*100

In [31]:
print('Accuracy: %s%%' % accuracy)

Accuracy: 97.0909090909%


## 5. Avaliar o algortimo utilizando o K-fold Cross Validation

Podemos também usar o método da validação cruzada com k-fold para avaliar o nosso algoritmo. Iremos utilizar as funções KFold e cross_val_score, ambas terão de ser importadas da biblioteca sklearn.model_selection.

In [35]:
from sklearn.model_selection import KFold, cross_val_score
import numpy as np

Utilizaremos 5 folds.

In [36]:
k_fold = KFold(n_splits=5)

In [37]:
scores = cross_val_score(model, X, Y, cv=k_fold, n_jobs=-1)

Podemos então ver o desempenho do algoritmo quando avaliado sobre cada um dos folds.

In [38]:
scores

array([ 0.95272727,  0.98181818,  0.97810219,  0.91240876,  0.98175182])

Por fim podemos calcular a média dos scores utilizando a função mean da biblioteca numpy, que já foi importada acima.

In [41]:
media = np.mean(scores) * 100

In [42]:
print('Media: %s%%' % media)

Media: 96.1361645654%


## FIM