## Árvore de decisão (Decision Tree)

Os classificadores utilizados até agora, não explicam o pq das decisões tomadas, e ficamos dependentes deles. Então passaremos a utilizar a árvore de decisão que nos mostrará passo a passo e entenderemos nossos dados.

In [1]:
import pandas as pd

uri = "https://gist.githubusercontent.com/guilhermesilveira/4d1d4a16ccbf6ea4e0a64a38a24ec884/raw/afd05cb0c796d18f3f5a6537053ded308ba94bf7/car-prices.csv"
dados = pd.read_csv(uri)
dados.head()

Unnamed: 0.1,Unnamed: 0,mileage_per_year,model_year,price,sold
0,0,21801,2000,30941.02,yes
1,1,7843,1998,40557.96,yes
2,2,7109,2006,89627.5,no
3,3,26823,2015,95276.14,no
4,4,7935,2014,117384.68,yes


In [2]:
a_renomear = {
    'mileage_per_year' : 'milhas_por_ano',
    'model_year' : 'ano_do_modelo',
    'price' : 'preco',
    'sold':'vendido'
}

dados = dados.rename(columns=a_renomear)
dados.head()

Unnamed: 0.1,Unnamed: 0,milhas_por_ano,ano_do_modelo,preco,vendido
0,0,21801,2000,30941.02,yes
1,1,7843,1998,40557.96,yes
2,2,7109,2006,89627.5,no
3,3,26823,2015,95276.14,no
4,4,7935,2014,117384.68,yes


In [3]:
a_trocar = {
    'no' : 0,
    'yes' : 1
}
dados.vendido = dados.vendido.map(a_trocar)
dados.head()


Unnamed: 0.1,Unnamed: 0,milhas_por_ano,ano_do_modelo,preco,vendido
0,0,21801,2000,30941.02,1
1,1,7843,1998,40557.96,1
2,2,7109,2006,89627.5,0
3,3,26823,2015,95276.14,0
4,4,7935,2014,117384.68,1


In [4]:
from datetime import datetime

ano_atual = datetime.today().year
dados['idade_do_modelo'] = ano_atual - dados.ano_do_modelo
dados.head()

dados['km_por_ano'] = dados.milhas_por_ano * 1.60934
dados.head()



Unnamed: 0.1,Unnamed: 0,milhas_por_ano,ano_do_modelo,preco,vendido,idade_do_modelo,km_por_ano
0,0,21801,2000,30941.02,1,19,35085.22134
1,1,7843,1998,40557.96,1,21,12622.05362
2,2,7109,2006,89627.5,0,13,11440.79806
3,3,26823,2015,95276.14,0,4,43167.32682
4,4,7935,2014,117384.68,1,5,12770.1129


<code>from sklearn.tree import DecisionTreeClassifier</code>

In [15]:
x = dados[["preco", "idade_do_modelo", "km_por_ano"]]
y = dados["vendido"]

import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split 
from sklearn.preprocessing import StandardScaler

SEED = 20
np.random.seed(SEED)

raw_treino_x, raw_teste_x, treino_y, teste_y = train_test_split(x, y, 
                                                        random_state = SEED, 
                                                        test_size = 0.25,
                                                        stratify = y)
scaler = StandardScaler()
scaler.fit(raw_treino_x)
treino_x = scaler.transform(raw_treino_x)
teste_x = scaler.transform(raw_teste_x)

modelo = DecisionTreeClassifier()
modelo.fit(raw_treino_x, treino_y)

previsoes = modelo.predict(raw_teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100

print ("%2.f%%" % acuracia)

71%


Para termos uma visualização, importaremos um módulo do sklearn tree, e com  ele veremos a árvore de decisão <code>from sklearn.tree import export_graphviz</code>. Nele temos que falar que não queremos salvar e converter para gráfico.<br>
Utilizaremos a biblioteca graphviz, para converter para gráfico.<br> <b>PRECISA-SE INSTALAR O GRAPHVIZ NO WINDOWS</b><br>
Não precisamos reescalar as árvores de decisão
<br>
<code>feature_names = NOME DOS DADOS</code><br>
<code>filled = COR, rounded = ARREDONDADO</code><br>
<code>class_names = NOME DAS CASSES</code><br>
<code></code>

In [None]:
from sklearn.tree import export_graphviz
import graphviz

dot_data = export_graphviz(modelo, out_file = None,
                          features_names = x.columns,
                          filled = True, rounded = True,
                          class_names = ['não', 'sim']
                          )
grafico = graphviz.Source(dot_data)
grafico