<center>
    <img src="../imagens/logo_APL.png" width="300" alt="APL logo"  />
</center>

# Algoritmo: Árvore de decisão

**Bem vindo!** Neste material você aprenderá o algoritmo **Árvore de Decisão**.  Usaremos a biblioteca  `Scikit-Learn`, desenvolvida para aplicação prática de algoritmos de *machine learning*. Ao final, espera-se que você seja capaz de entender e aplicar esse algoritmo.

<h2>Conteúdo:</h2>
<div class="alert alert-block alert-info" style="margin-top: 20px">
<ul>
    <li> Introdução </li>
    <li> Entendendo e Carregando o Dataset </li> 
    <li> Análise Exploratória dos Dados </li>
    <li> Regressores (Matriz de entrada) e Variável Alvo (vetor de saídas) </li>   
    <li> Dividir o Dataset: Treinamento e Validação </li>   
    <li> Algoritmo de Machine Learning </li>  
    <li> Avaliação </li>  
    <li> Visualização da Árvore de Decisão </li>
</ul>
</div>

<hr>

# Introdução

Uma Árvore de Decisão pode ser entendida como um mapa dos possíveis resultados a partir de uma série de escolhas relacionadas, permitindo comparar possíveis ações com base em seus custos, probabilidades e benefícios. 

Uma árvore de decisão geralmente começa com um único nó, que se divide em possíveis resultados. Cada um desses resultados leva a nós adicionais, que se ramificam em outras possibilidades. Assim, criando uma forma de árvore.

A figua abaixo apresenta alguns detalhes de uma **Árvore de Decisão**.
<center>
    <img src="../imagens/RTEmagicC_arv_dec2.gif.gif" width="400" alt="Árvore de Decisão"  />
</center>

Neste notebook você usará este algoritmo de classificação para construir um modelo a partir de dados históricos de pacientes e sua resposta a diferentes medicamentos. Em seguida, você usa a árvore de decisão treinada para prever a classe de um paciente desconhecido ou para encontrar um medicamento adequado para um novo paciente.

Carregamento das bibliotecas:

In [None]:
import numpy as np 
import pandas as pd
%matplotlib inline 
import matplotlib.pyplot as plt

## Sobre o conjunto de dados
Imagine que você seja um pesquisador médico compilando dados para um estudo. Você coletou dados sobre um conjunto de pacientes, todos com a mesma doença. Durante o curso do tratamento, cada paciente respondeu a um dos 5 medicamentos: A, B, C, X e Y.

Parte do seu trabalho é construir um modelo para descobrir qual medicamento pode ser apropriado para um futuro paciente com a mesma doença. Os conjuntos de *features* desses dados são: i) idade; ii) sexo; iii) pressão arterial; e iv) colesterol dos pacientes. A *variável alvo* é o medicamento ao qual cada paciente respondeu.

Agora vamos carregar os dados do arquivo CSV:

In [None]:
my_data = pd.read_csv("https://raw.githubusercontent.com/APL-Data-Intelligence/AcelerAI/main/Curso_NEED/datasets/drugs_dataset/drug200.csv", delimiter=",")
my_data.head()

## Análise Exploratória dos Dados

Vamos ver quantos elementos de cada *feature* **Drug** estão em nosso conjunto de dados:

In [None]:
my_data['Drug'].value_counts()

Você pode explorar facilmente seus dados usando técnicas de visualização:

In [None]:
my_data.hist(column='Age', bins=50)
plt.title('')
plt.xlabel('Idade (anos)')
plt.ylabel('Quantidade')

## Separar as Colunas do Dataframe: 
#### Regressores (Matriz de entrada) vs Variável Alvo (vetor de saídas).

A partir do dataframe `my_data` vamos declarar as seguintes variáveis: 
- `X` como o conjunto de regressores (matriz de entrada); e
- `y` como a variável alvo (vetor de saída).

In [None]:
X = my_data[['Age', 'Sex', 'BP', 'Cholesterol', 'Na_to_K']].values
X[0:5]

Como você pode perceber, algumas das *features* desse dataset (**Sex**,  **BP** e **Cholesterol**) são variáveis categóricas. Infelizmente, as árvores de decisão do Sklearn não lidam com variáveis categóricas. 

Mas ainda podemos converter essas variáveis categóricas em valores numéricos. Para tanto, vamos usar o método `preprocessing.LabelEncoder()` da biblioteca `Scikit-Learn`.

In [None]:
from sklearn import preprocessing
le_sex = preprocessing.LabelEncoder()
le_sex.fit(['F','M'])
X[:,1] = le_sex.transform(X[:,1]) 


le_BP = preprocessing.LabelEncoder()
le_BP.fit([ 'LOW', 'NORMAL', 'HIGH'])
X[:,2] = le_BP.transform(X[:,2])


le_Chol = preprocessing.LabelEncoder()
le_Chol.fit([ 'NORMAL', 'HIGH'])
X[:,3] = le_Chol.transform(X[:,3]) 

Vamos agora verificar como ficou nosso conjunto de regressores, `X`:

In [None]:
X[0:5]

Podemos verficar que as variáveis categóricas (**Sex**,  **BP** e **Cholesterol**) foram convertidas em valores numéricos. 

Na sequência, vamos obter o vetor de respostas, `y`:

In [None]:
y = my_data["Drug"].values
y[0:5]

### Dividir o Dataset: Treinamento e Validação

Vamos dividir nosso dataset em dois subconjuntos: 1) dados de treinamento; e 2) dados de validação.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.3, random_state=3)
print ('Conjunto de treinamento:', X_train.shape,  y_train.shape)
print ('Conjunto de teste:', X_test.shape,  y_test.shape)

## Algoritmo de Machine Learning: `Decision Tree`:

**Passo 1:** Importando a componente do classificador na biblioteca `sklearn.tree`:

In [None]:
from sklearn.tree import DecisionTreeClassifier

**Passo 2**: Instanciando o Estimador. 

In [None]:
drugTree = DecisionTreeClassifier(criterion="entropy", max_depth = 4)

**Passo 3**: Ajustar os parâmetros do modelo a partir dos dados

In [None]:
drugTree.fit(X_train,y_train)

**Passo 4:** Fazer a predição a partir de um novo comjunto de amostras:

In [None]:
y_pred = drugTree.predict(X_test)

### Avaliação de Desempenho

Vamos mostrar alguns valores reais e comparar com algumas predições feitas pelo nosso modelo:

In [None]:
print("Valores reais: ", y_test[0:5].squeeze())
print("Valores que foram previstos pelo modelo: ", y_pred[0:5])

Comparando os arrays anteriores podemos observar que nosso modelo acertou algumas previsões.

Na classificação **multi-classes**, o método `metrics.accuracy_score` calcula a acurácia do modelo, ou seja, o percentual de valores previstos que foram iguais aos valores reais.

In [None]:
from sklearn import metrics
print("Precisão no conjunto de treino: ", 100*metrics.accuracy_score(y_train, drugTree.predict(X_train)), '%.')
print("Precisão no conjunto de teste: ", 100*metrics.accuracy_score(y_test, y_pred), '%.')

## Visualização da Árvore de Decisão
Vamos visualizar o modelo em forma de árvore. Para tanto,  execute o código abaixo e veja os gráficos.

In [None]:
# Aviso: você pode precisar descomentar e instalar as bibliotecas pydotplus e graphviz se não as tiver instalado antes
# !conda install -c conda-forge pydotplus -y
# !conda install -c conda-forge python-graphviz -y

In [None]:
import pydotplus
import matplotlib.image as mpimg
from sklearn import tree
import six
from six import StringIO
import sys
sys.modules['sklearn.externals.six'] = six
%matplotlib inline 

In [None]:
dot_data = StringIO()
filename = "drugtree.png"
featureNames = my_data.columns[0:5]
targetNames = my_data["Drug"].unique().tolist()
out=tree.export_graphviz(drugTree,feature_names=featureNames, 
                         out_file=dot_data, class_names= np.unique(y_train), 
                         filled=True, special_characters=True,rotate=False)  
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())  
graph.write_png(filename)
img = mpimg.imread(filename)
plt.figure(figsize=(100, 200))
plt.imshow(img,interpolation='nearest')

<hr>

## Direitos Autorais

[APL Data Intelligence](https://linktr.ee/APLdataintelligence)&#8482;  2021. Este notebook Python e seu código fonte estão liberados sob os termos da [Licença do MIT](https://bigdatauniversity.com/mit-license/).