O aprendizado de árvores de decisão ou indução de árvores de decisão é uma das abordagens de modelagem preditiva usadas em estatística, mineração de dados e aprendizado de máquina. A árvore de decisão pode ser usada como um modelo preditivo para ir das observações sobre um item, isto é, os ramos, até as conclusões sobre o valor alvo do item que é representado nas folhas. Os modelos de árvore em que a variável de destino pode assumir um conjunto discreto de valores são chamados de árvores de classificação, nessas estruturas de árvore, as folhas representam rótulos de classe e ramos representam conjunções de recursos que levam a esses rótulos de classe. As árvores de decisão em que a variável de destino pode assumir valores contínuos, geralmente números reais, são chamadas de árvores de regressão. As árvores de decisão estão entre os algoritmos de aprendizado de máquina mais populares devido à sua inteligibilidade e simplicidade.

Wu, X.; Kumar, V.; Ross, J.Q.; Ghosh, J.; Yang, Q.; Motoda, H.; McLachlan, G.J.; Ng, A.; Liu, B.; Yu, P.S.; Zhou, Z. Top 10 algorithms in data mining.  Knowledge and Information Systems. https://doi.org/10.1007/s10115-007-0114-2, 2008.

In [None]:
#instalar biblioteca Orange Canvas
!pip install Orange3

In [None]:
#importar biblioteca Orange Canvas
import Orange

In [None]:
#importar dados do disco local
from google.colab import files  
files.upload()

In [None]:
#instanciar objeto de dados com base no caminho gerado com a importação do arquivo
dados = Orange.data.Table("/content/Simulacao-1.csv")

In [None]:
#imprimir os primeiros 5 registros
for d in dados[:5]:
  print(d)

In [None]:
#explorar os metadados
qtde_campos = len(dados.domain.attributes)
qtde_cont = sum(1 for a in dados.domain.attributes if a.is_continuous)
qtde_disc = sum(1 for a in dados.domain.attributes if a.is_discrete)
print("%d metadados: %d continuos, %d discretos" % (qtde_campos, qtde_cont, qtde_disc))
print("Nome dos metadados:", ", ".join(dados.domain.attributes[i].name for i in range(qtde_campos)),)

In [None]:
#explorar domínios
dados.domain.attributes

In [None]:
#explorar classe
dados.domain.class_var

In [None]:
#explorar dados
print("Campos:", ", ".join(c.name for c in dados.domain.attributes))
print("Registros:", len(dados))
print("Valor do registro 1 da coluna 1:", dados[0][0])
print("Valor do registro 2 da coluna 2:", dados[1][1])

In [None]:
#criar amostra
qtde100 = len(dados)
qtde70 = len(dados) * 70 / 100
qtde30 = len(dados) * 30 / 100
print("Qtde 100%:", qtde100)
print("Qtde  70%:", qtde70)
print("Qtde  30%:", qtde30)
amostra = Orange.data.Table(dados.domain, [d for d in dados if d.row_index < qtde70])
print("Registros:", len(dados))
print("Registros:", len(amostra))

In [None]:
#Técnica Decision Tree (DT)
dt = Orange.classification.TreeLearner(binarize=False, max_depth=None, min_samples_leaf=1, min_samples_split=2, sufficient_majority=0.95, preprocessors=None)

In [None]:
#ligar técnica DT aos dados
dados_dt = dt(dados)

In [None]:
#treinar e testar técnica MLP com os dados
avalia_dt = Orange.evaluation.CrossValidation(dados, [dt], k=5)

In [None]:
#avaliar os indicadores para o DT
print("Acurácia:  %.3f" % Orange.evaluation.scoring.CA(avalia_dt)[0])
print("Precisão:  %.3f" % Orange.evaluation.scoring.Precision(avalia_dt)[0])
print("Revocação: %.3f" % Orange.evaluation.scoring.Recall(avalia_dt)[0])
print("F1:        %.3f" % Orange.evaluation.scoring.F1(avalia_dt)[0])
print("ROC:       %.3f" % Orange.evaluation.scoring.AUC(avalia_dt)[0])

In [None]:
#comparar a técnica DT com outras 2 técnicas
svm = Orange.classification.SVMLearner(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, max_iter=-1, preprocessors=None)
mlp = Orange.classification.NNClassificationLearner(hidden_layer_sizes=(100,), activation='relu', solver='adam', alpha=0.0001, batch_size='auto', learning_rate='constant', learning_rate_init=0.001, power_t=0.5, max_iter=200, shuffle=True, random_state=None, tol=0.0001, verbose=False, warm_start=False, momentum=0.9, nesterovs_momentum=True, early_stopping=False, validation_fraction=0.1, beta_1=0.9, beta_2=0.999, epsilon=1e-08, preprocessors=None)
dados_svm = svm(dados)
dados_mlp = mlp(dados)
aprendizado = [dt, svm, mlp]
avaliacao = Orange.evaluation.CrossValidation(dados, aprendizado, k=5)

In [None]:
#imprimir os indicadores para as 3 técnicas
print(" " * 10 + " | ".join("%-4s" % learner.name for learner in aprendizado))
print("Acurácia  %s" % " | ".join("%.2f" % s for s in Orange.evaluation.CA(avaliacao)))
print("Precisão  %s" % " | ".join("%.2f" % s for s in Orange.evaluation.Precision(avaliacao)))
print("Revocação %s" % " | ".join("%.2f" % s for s in Orange.evaluation.Recall(avaliacao)))
print("F1        %s" % " | ".join("%.2f" % s for s in Orange.evaluation.F1(avaliacao)))
print("ROC       %s" % " | ".join("%.2f" % s for s in Orange.evaluation.AUC(avaliacao)))