# Selecionar a melhor estratégia para classificação com Árvore de Descição

Como a classificação com árvore de decisão padrão não tem parâmetros escolheremos apenas a melhor estratégia para tratamento dos missing values

### Importar as bibliotecas necessárias

In [1]:
import pandas as pd
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier

### Carregar as bases de dados

In [2]:
# Dados de treinameto
# Missing values substituídos pela média, moda e mediana, respectiviamente
training_mean = pd.read_csv("data/training_mean.csv").set_index('sessionNo')
training_mode = pd.read_csv("data/training_mode.csv").set_index('sessionNo')
training_median = pd.read_csv("data/training_median.csv").set_index('sessionNo')

# Dados de teste
# Missing values substituídos pela média, moda e mediana, respectiviamente
testing_mean = pd.read_csv("data/testing_mean.csv").set_index('sessionNo')
testing_mode = pd.read_csv("data/testing_mode.csv").set_index('sessionNo')
testing_median = pd.read_csv("data/testing_median.csv").set_index('sessionNo')

### Clasificador árvore de decisão utilizando critério do ganho de informação

In [3]:
tree = DecisionTreeClassifier(criterion='entropy', random_state=0)

## Funções auxiliares

### Separar um dataframe em um vetor de características e  um vetor de classe

In [4]:
def splitData(df):
    x = df.iloc[:, :-1]
    y = df['order']
    return x, y

### Calcular a acurácia do modelo dados dataframes de treinamento e teste

In [5]:
def errorDecisionTree(df_train, df_test):
    x_train, y_train = splitData(df_train)
    x_test, y_test = splitData(df_test)
    tree.fit(x_train,y_train)
    return tree.score(x_test, y_test)

## Resultados

Abaixo apresentamos o cálculo da acurácia para as estratégias de substituição de _missing values_ pela média, moda e mediana, respectivamente.

In [6]:
errorDecisionTree(training_mean, testing_mean)

0.85599686949716303

In [7]:
errorDecisionTree(training_mode, testing_mode)

0.75464684014869887

In [8]:
errorDecisionTree(training_median, testing_median)

0.72784190960673056

### Conclusão

A estatégia de substituir os _missing values_ pela média classificou mais instâncias corretamente, portante essa será a estratégia selecionada para a etapa de seleção de variáveis