# Árvore de decisão

## Introdução

Como o próprio nome sugere, este notebook versará sobre a árvore de decisão. A grosso modo, o algoritmo cria uma estatística a partir de uma árvore gerada com as categorias que o conjunto de dados possui.

Por exemplo, imagine uma tabela com 3 colunas, em que a primeira é "País" (que pode ser Brasil ou Argentina), a segunda é "Estação" (que pode ser primavera, verão, outono ou inverno) e a terceira (que corresponde ao resultado) seja "Clima" (que pode ser "chuva" ou "ensolarado). Deste modo, a árvore de decisão nos gera um conjunto de ramos que nos dizem qual a porcentagem de termos um clima com chuva ou ensolarado. Se recebermos um novo dado, como "Brasil" e "Inverno", o algoritmo vai buscar apenas nestes ramos qual é a chance que ocorra, por exemplo, uma chuva num dia de inverno no Brasil.  

No nosso caso, vamos usar a mesma tabela de crédito como no algortimo de Naive Bayes.

## Dados iniciais

Como vamos pegar os mesmos dados sobre o "Credit.csv", e já vimos a parte de codificação de categorias e particionamento, não entraremos em detalhes no bloco de código abaixo.

In [9]:
from pandas import read_csv
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score


df = read_csv('Credit.csv')

#-----------------------------------------------------------------------------

previsores = df.iloc[:,0:20].values
classe = df.iloc[:,20].values

#-----------------------------------------------------------------------------
# Transformando as colunas de strings em colunas numéricas (CODIFICAÇÃO DE CATEGORIAS)

labelencoder1 = LabelEncoder()
previsores[:,0] = labelencoder1.fit_transform(previsores[:,0])

labelencoder2 = LabelEncoder()
previsores[:,2] = labelencoder2.fit_transform(previsores[:,2])

labelencoder3 = LabelEncoder()
previsores[:, 3] = labelencoder3.fit_transform(previsores[:, 3])

labelencoder4 = LabelEncoder()
previsores[:, 5] = labelencoder4.fit_transform(previsores[:, 5])

labelencoder5 = LabelEncoder()
previsores[:, 6] = labelencoder5.fit_transform(previsores[:, 6])

labelencoder6 = LabelEncoder()
previsores[:, 8] = labelencoder6.fit_transform(previsores[:, 8])

labelencoder7 = LabelEncoder()
previsores[:, 9] = labelencoder7.fit_transform(previsores[:, 9])

labelencoder8 = LabelEncoder()
previsores[:, 11] = labelencoder8.fit_transform(previsores[:, 11])

labelencoder9 = LabelEncoder()
previsores[:, 13] = labelencoder9.fit_transform(previsores[:, 13])

labelencoder10 = LabelEncoder()
previsores[:, 14] = labelencoder10.fit_transform(previsores[:, 14])

labelencoder11 = LabelEncoder()
previsores[:, 16] = labelencoder11.fit_transform(previsores[:, 16])

labelencoder12 = LabelEncoder()
previsores[:, 18] = labelencoder12.fit_transform(previsores[:, 18])

labelencoder13 = LabelEncoder()
previsores[:, 19] = labelencoder13.fit_transform(previsores[:, 19])

#--------------------------------------------------------------------------------------------------------------------------
# PARTICIONAMENTO

X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores, classe, test_size = 0.3, random_state = 0)

## ```DecisionTreeClassifier```

Na biblioteca ```Sklearn``` usamos a classe ```DecisionTreeClassifier```. Para chamá-la, digitamos

In [2]:
from sklearn.tree import DecisionTreeClassifier

Para criar uma instância dessa classe, fazemos

In [10]:
arvore = DecisionTreeClassifier()

Detre as variáveis e métodos que a instância possui, destacamos os métodos ```fit``` e ```predict```, similar ao algoritmo de Niaves Bayes. 

Com relação ao ```fit```, temos os seguintes parâmetros:
* ```X```: é o conjunto de variáveis independentes que mostra as características. No nosso caso, cada linha representa caractaerísticas do perfil de um candidato a crédito.
* ```y```: é a coluna dos resultados (classes) para cada linha de X. No nosso exemplo, temos "good" para bons pagadores e "bad" para maus pagadores.

Dando esse conjunto de entrada, esse método realiza o treino e retorna a própria instância, mas agora com os suas variáveis atualizadas.

Com relação ao ```predict```, devemos fornecer o seguinte parâmetro:
* ```X```: é o conjunto de dados que vamos usar para testar a fim de verificar mais tarde a precisão da metodologia empregada.

Como saída, esse método retorna, baseado na entrada ```X``` e no treinamento feito primeiramente, uma coluna com os resultados (classes) previstos pelo modelo. Com esses resultados podemos comparar com os resultados verdadeiros e medir a precisão.

In [14]:
arvore.fit(X_treinamento, y_treinamento)

previsoes = arvore.predict(X_teste)

previsoes

array(['bad', 'bad', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'bad', 'bad', 'bad', 'bad', 'bad', 'bad', 'bad', 'good',
       'good', 'bad', 'bad', 'bad', 'bad', 'good', 'good', 'good', 'bad',
       'good', 'good', 'good', 'bad', 'good', 'bad', 'bad', 'bad', 'good',
       'bad', 'good', 'good', 'good', 'good', 'good', 'bad', 'good',
       'bad', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'bad', 'bad', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good', 'bad', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'bad', 'good', 'good', 'good', 'bad', 'bad', 'good',
       'good', 'bad', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'bad', 'bad', 'good', 'good', 'good',
       'bad', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'bad', 'good', 'good', 'good', 'good', 'good', 'good', 'bad',
       'bad', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'ba

## Precisão

Agora comparamos o resultado obtido com o "correto" para medir a acurácia do modelo

In [15]:
from sklearn.metrics import confusion_matrix, accuracy_score

confusao = confusion_matrix(y_teste, previsoes)
confusao

array([[ 42,  44],
       [ 52, 162]])

In [16]:
taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_acerto

0.68

## Visualização da árvore

Para visualizarmos a árvore gerada pelo modelo, basta digitar o seguinte código.

In [17]:
from sklearn.tree import export_graphviz

export_graphviz(arvore, out_file = 'tree.dot')

Com isso, ele vai gerar um arquivo na mesma pasta do notebook. Depois disso, basta abri-lo com algum editor de texto, copiar o que está escrito, e colar em algum visualizador de grafos como o http://webgraphviz.com/.