<h1><center>Árvore de decisão</center></h1>


Neste notebook, você aprenderá um algoritmo de aprendizado de máquina popular, a árvore de decisão. Você usará este algoritmo de classificação para construir um modelo a partir de dados históricos de pacientes e sua resposta a diferentes medicamentos. Em seguida, você usa a árvore de decisão treinada para prever a classe de um paciente desconhecido ou para encontrar um medicamento adequado para um novo paciente.

Importe as seguintes bibliotecas:

<ul>
    <li> <b>numpy (as np)</b> </li>
    <li> <b>pandas</b> </li>
    <li> <b>DecisionTreeClassifier</b> from <b>sklearn.tree</b> </li>
</ul>


In [None]:
import numpy as np 
import pandas as pd
from sklearn.tree import DecisionTreeClassifier

<div id = "about_dataset">
     <h2> Sobre o conjunto de dados </h2>
     Imagine que você seja um pesquisador médico compilando dados para um estudo. Você coletou dados sobre um conjunto de pacientes, todos com a mesma doença. Durante o curso do tratamento, cada paciente respondeu a um dos 5 medicamentos, medicamento A, medicamento B, medicamento C, medicamento X e Y.
     <br>
     <br>
     Parte do seu trabalho é construir um modelo para descobrir qual medicamento pode ser apropriado para um futuro paciente com a mesma doença. Os conjuntos de recursos desse conjunto de dados são idade, sexo, pressão arterial e colesterol dos pacientes, e o alvo é o medicamento ao qual cada paciente respondeu.
     <br>
     <br>
     É um exemplo de classificador binário e você pode usar a parte de treinamento do conjunto de dados
     para construir uma árvore de decisão e, em seguida, usá-la para prever a classe de um paciente desconhecido ou para prescrevê-la a um novo paciente.
</div>


<div id="downloading_data"> 
    <h2>Carregar os dados</h2>
    Os dados estão localizados no repositório datasets/drugs_dataset.
    Carregue os dados e armazene usando o dataframe do pandas:
</div>


In [None]:
my_data = pd.read_csv("datasets/drug_dataset/drug200.csv", delimiter=",")
my_data.head()

<div id="practice"> 
    <h3>Exercício</h3> 
    Qual é o tamanho dos dados?
</div>


In [None]:
# Escreva seu código abaixo. Não se esqueça de pressionar Shift + Enter para executar a célula


<details><summary>Clique aqui para ver a solução</summary>

```python
print(my_data.shape)
```

</details>

<div href="pre-processing">
    <h2>Pre processamento</h2>
</div>


Usando <b> my_data </b> como os dados Drug.csv lidos pelos pandas, declare as seguintes variáveis: <br>

<ul>
     <li> <b> X </b> como a <b> Matriz de características </b> (dados de my_data) </li>
     <li> <b> y </b> como o <b> vetor de resposta (saída) </b> </li>
</ul>


In [None]:
X = my_data[['Age', 'Sex', 'BP', 'Cholesterol', 'Na_to_K']].values
X[0:5]

Como você pode perceber, alguns recursos neste conjunto de dados são categóricos, como ** Sex ** ou ** BP**. Infelizmente, as árvores de decisão do Sklearn não lidam com variáveis categóricas. Mas ainda podemos converter esses recursos em valores numéricos.

In [None]:
from sklearn import preprocessing
le_sex = preprocessing.LabelEncoder()
le_sex.fit(['F','M'])
X[:,1] = le_sex.transform(X[:,1]) 


le_BP = preprocessing.LabelEncoder()
le_BP.fit([ 'LOW', 'NORMAL', 'HIGH'])
X[:,2] = le_BP.transform(X[:,2])


le_Chol = preprocessing.LabelEncoder()
le_Chol.fit([ 'NORMAL', 'HIGH'])
X[:,3] = le_Chol.transform(X[:,3]) 

X[0:5]


Agora podemos preencher o vetor de respostas

In [None]:
y = my_data["Drug"]
y[0:5]


<div id = "setting_up_tree">
     <h2> Configurando a árvore de decisão </h2>
     Estaremos usando <b> separação de dados de teste e treino </b> em nossa <b> árvore de decisão </b>. Vamos importar <b> train_test_split </b> de <b> sklearn.model_selection </b>.
</div>


In [None]:
from sklearn.model_selection import train_test_split

Agora <b> train_test_split </b> retornará 4 parâmetros diferentes. Vamos chamá-los de: <br>
X_trainset, X_testset, y_trainset, y_testset <br> <br>
O <b> train_test_split </b> precisará dos parâmetros: <br>
X, y, test_size = 0.3 e random_state = 3. <br> <br>
O <b> X </b> e <b> y </b> são os arrays necessários antes da divisão, o <b> test_size </b> representa a proporção do conjunto de dados de teste e o <b> random_state </b> garante que obtenhamos as mesmas divisões.

In [None]:
X_trainset, X_testset, y_trainset, y_testset = train_test_split(X, y, test_size=0.3, random_state=3)

<h3>Exercício</h3>
Escreva as dimensões de <b>X_trainset e y_trainset</b>. Certifique-se de que elas correspondem


In [None]:
# Escreva seu código abaixo. Não se esqueça de pressionar Shift + Enter para executar a célula



Escreva as dimensões de <b>X_testset e y_testset</b>. Certifique-se de que elas correspondem


In [None]:
# Escreva seu código abaixo. Não se esqueça de pressionar Shift + Enter para executar a célula



<div id = "modeling">
     <h2> Modelagem </h2>
     Primeiro, criaremos uma instância de <b> DecisionTreeClassifier </b> chamada <b> drugTree</b>. <br>
     Dentro do classificador, especifique <i> criterion = "entropy" </i> para que possamos ver o ganho de informação de cada nó.
</div>


In [None]:
drugTree = DecisionTreeClassifier(criterion="entropy", max_depth = 4)
drugTree # mostra os parâmetros padrão

A seguir, ajustaremos os dados com a matriz de característtca de treinamento <b> X_trainset </b> e vetor de resposta de treinamento <b> y_trainset </b>

In [None]:
drugTree.fit(X_trainset,y_trainset)


<div id="prediction">
    <h2>Predição</h2>
    Vamos fazer algumas <b> previsões </b> no conjunto de dados de teste e armazená-lo em uma variável chamada <b> predTree</b>.
</div>


In [None]:
predTree = drugTree.predict(X_testset)

Você pode imprimir <b> predTree </b> e <b> y_testset </b> se quiser comparar visualmente a previsão com os valores reais.

In [None]:
print (predTree [0:5])
print (y_testset [0:5])


<hr>

<div id="evaluation">
    <h2>Avaliação</h2>
    A seguir, vamos importar <b> metrics </b> do sklearn e verificar a precisão do nosso modelo.
</div>


In [None]:
from sklearn import metrics
import matplotlib.pyplot as plt
print("Precisão do modelo: ", metrics.accuracy_score(y_testset, predTree))

**metrics.accuracy_score** calcula a precisão do subconjunto: o conjunto de rótulos previsto para uma amostra deve corresponder exatamente ao conjunto de rótulos correspondente no vetor de respostas.

<hr>

<div id="visualization">
    <h2>Visualização</h2>
    Vamos visualizar o modelo.
    Execute o código abaixo e veja os gráficos
</div>


In [None]:
# Aviso: você pode precisar descomentar e instalar as bibliotecas pydotplus e graphviz se não as tiver instalado antes
# !conda install -c conda-forge pydotplus -y
# !conda install -c conda-forge python-graphviz -y

In [None]:
from sklearn.externals.six import StringIO
import pydotplus
import matplotlib.image as mpimg
from sklearn import tree
%matplotlib inline 

In [None]:
dot_data = StringIO()
filename = "drugtree.png"
featureNames = my_data.columns[0:5]
targetNames = my_data["Drug"].unique().tolist()
out=tree.export_graphviz(drugTree,feature_names=featureNames, out_file=dot_data, class_names= np.unique(y_trainset), filled=True,  special_characters=True,rotate=False)  
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())  
graph.write_png(filename)
img = mpimg.imread(filename)
plt.figure(figsize=(100, 200))
plt.imshow(img,interpolation='nearest')