Random Forest - método geral de florestas de decisão aleatória foi proposto pela primeira vez por Tin Kam Ho em 1995. Ho estabeleceu que as florestas de árvores que se dividem com hiperplanos oblíquos podem ganhar precisão à medida que crescem sem sofrer de overtraining, desde que as florestas sejam restritas aleatoriamente para serem sensíveis apenas a dimensões de recursos selecionados.

Ho, T.K. Random Decision Forests. Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16. pp. 278–282. https://doi.org/10.1109/ICDAR.1995.598994, 1995.

In [None]:
#instalar biblioteca Orange Canvas
!pip install Orange3

In [None]:
#importar biblioteca Orange Canvas
import Orange

In [None]:
#importar dados do disco local
from google.colab import files  
files.upload()

In [None]:
#instanciar objeto de dados com base no caminho gerado com a importação do arquivo
dados = Orange.data.Table("/content/Simulacao1.csv")

In [None]:
#exibir os primeiros 5 registros para uma rápida análise da importação dos dados
for d in dados[:5]:
  print(d)

In [None]:
#explorar os metadados da base de dados importada
qtde_campos = len(dados.domain.attributes)
qtde_cont = sum(1 for a in dados.domain.attributes if a.is_continuous)
qtde_disc = sum(1 for a in dados.domain.attributes if a.is_discrete)
print("%d metadados: %d continuos, %d discretos" % (qtde_campos, qtde_cont, qtde_disc))
print("Nome dos metadados:", ", ".join(dados.domain.attributes[i].name for i in range(qtde_campos)),)

In [None]:
#explorar domínios dos atributos (campos da base de dados)
dados.domain.attributes

In [None]:
#explorar as classes da base de dados
dados.domain.class_var

In [None]:
#explorar dados (quantidade de campos e registros da base de dados)
print("Campos:", ", ".join(c.name for c in dados.domain.attributes))
print("Registros:", len(dados))
print("Valor do registro 1 da coluna 1:", dados[0][0])
print("Valor do registro 2 da coluna 2:", dados[1][1])

In [None]:
#criar amostra de dados, sendo 70% para treinamento e teste e 30% para avaliação
qtde100 = len(dados)
qtde70 = len(dados) * 70 / 100
qtde30 = len(dados) * 30 / 100
print("Qtde 100%:", qtde100)
print("Qtde  70%:", qtde70)
print("Qtde  30%:", qtde30)
amostra = Orange.data.Table(dados.domain, [d for d in dados if d.row_index < qtde70])
print("Registros:", len(dados))
print("Registros:", len(amostra))

https://orange3.readthedocs.io/projects/orange-data-mining-library/en/latest/reference/classification.

n_estimators (int, optional (default = 10)) – número de árvores na floresta.

criterion = 'gini' - índice Gini é usado para escolher a melhor variável para compor o nó raiz.

max_depth (int, optional (default = 1024)) – profundidade máxima da árvore.

min_samples_split (float) – número mínimo de instâncias de dados que são divididas em subgrupos.

min_samples_leaf (float) – número mínimo de instâncias de dados em uma folha.

min_weight_fraction_leaf - peso mínimo.

max_features='auto' - máximo de características.

max_leaf_nodes=None - máximo de nós folha.

bootstrap=True - inicialização.

oob_score=False - pontuação

n_jobs=1 - número de trabalhos.

random_state=None - estado da aleatoriedade.

verbose=0 - impressão do processo.

class_weight=None - peso da classe.

preprocessors=None - préprocessamento.

In [None]:
#inicializar a instância com os seus hiperparâmetros para a técnica Random Forest (RF) Cenário1 - recomendado pelo Kernel
rf = Orange.classification.RandomForestLearner(
    n_estimators=10, 
    criterion='gini', 
    max_depth=None, 
    min_samples_split=2, 
    min_samples_leaf=1, 
    min_weight_fraction_leaf=0.0, 
    max_features='auto', 
    max_leaf_nodes=None, 
    bootstrap=True, 
    oob_score=False, 
    n_jobs=1, 
    random_state=None, 
    verbose=0, 
    class_weight=None, 
    preprocessors=None)

In [None]:
#ligar técnica RF com os dados da simulação
dados_rf = rf(dados)

Validação Cruzada - é uma das técnicas para avaliar a capacidade de generalização de um modelo, a partir de um conjunto de dados, buscando-se estimar o quanto preciso está o modelo, isto é, como está seu desempenho em relação a um novo conjunto de dados.

Um dos métodos de particionar um conjunto de dados para a técnica cross-validation é com o k-fold que consiste em dividir o conjunto total de dados em k subconjuntos mutuamente exclusivos de mesmo tamanho e, a partir daí, um subconjunto é utilizado para teste e os k-1 restantes são utilizados para estimação dos parâmetros, fazendo-se o cálculo da acurácia do modelo, sendo repetido k vezes alternando de forma circular o subconjunto de teste.


In [None]:
#treinar e testar técnica RF com os dados com 5 partes (folders)
avalia_rf = Orange.evaluation.CrossValidation(dados, [rf], k=5)

Métricas de avaliação - para validação dos algoritmos de aprendizado de máquina utilizados nas simulações, foram usadas as métricas de classificação e predição e para entende-las segue explicação:

Verdadeiros Positivos (VP) testes que passam como esperado;
Verdadeiros Negativos (VN) testes que falham devido a falhas reais;
Falsos Positivos (FP) testes que passam, mas não deveriam passar; e,
Falsos Negativos (FN) testes que falham devido à inconsistência no teste.

Para avaliar a assertividade e a regularidade as métricas utilizadas foram:

Acurácia (A), razão entre VP e VN para a soma de VP, VN, FP e FN, expressa por,
A =  (VP+VN) / (VP+VN+FP+FN);

Precisão (P), razão entre VP para a soma do número de VP e FP, expressa por,
P = (VP) / (VP + FP);

Revocação (R), razão entre VP para a soma do número de VP e FN, expressa por,
R = (VP) / (VP + FN);

F1 (F), dobro da razão entre a multiplicação da precisão pelo Revocação e da soma da precisão com o Revocação, expressa por,
F = 2 * ((Precisão * Revocação) / (Precisão + Revocação)); e,

ROC, Característica de Operação do Receptor na sigla em inglês (ROC), métrica para comparar o desempenho dos modelos, representados pela área sob a curva ROC, que é traçada como um diagrama de VP em função da relação FP, que quanto mais perto o valor for de 1, melhor o desempenho.

In [None]:
#avaliar os indicadores para o RF com base nas métricas de classificação
print("Acurácia:  %.3f" % Orange.evaluation.scoring.CA(avalia_rf)[0])
print("Precisão:  %.3f" % Orange.evaluation.scoring.Precision(avalia_rf)[0])
print("Revocação: %.3f" % Orange.evaluation.scoring.Recall(avalia_rf)[0])
print("F1:        %.3f" % Orange.evaluation.scoring.F1(avalia_rf)[0])
print("ROC:       %.3f" % Orange.evaluation.scoring.AUC(avalia_rf)[0])

Comparação do RF com outros modelos que resolvem a mesma classe de problema:

K-Nearest Neighbors (KNN)

Support Vector Machine (SVM)

In [None]:
#inicializar a instância com os seus hiperparâmetros para a técnica K-Nearest Neighbors (KNN) Cenário2 - primeira escolha aleatória para avaliar a recomendação do Kernel
knn = Orange.classification.KNNLearner(
    n_neighbors=5, 
    metric='euclidean', 
    weights='distance', 
    algorithm='auto', 
    metric_params=None, 
    preprocessors=None)

In [None]:
#ligar técnica KNN aos dados
dados_knn = knn(dados)

In [None]:
#treinar e testar técnica KNN com os dados com 5 folders
avalia_knn = Orange.evaluation.CrossValidation(dados, [knn], k=5)

In [None]:
#inicializar a instância com os seus hiperparâmetros para a técnica Support Vector Machine (SVM) Cenário3 - segunda escolha aleatória para avaliar a recomendação do Kernel
svm = Orange.classification.SVMLearner(
    C=1.0, 
    kernel='rbf', 
    degree=3, 
    gamma='auto', 
    coef0=0.0, 
    shrinking=True, 
    probability=False, 
    tol=0.001, 
    cache_size=2000, 
    max_iter=-1, 
    preprocessors=None)

In [None]:
#ligar técnica SVM aos dados
dados_svm = svm(dados)

In [None]:
#treinar e testar técnica SVM com os dados com K=5
avalia_svm = Orange.evaluation.CrossValidation(dados, [svm], k=5)

In [None]:
#validar probabilidade para o alvo com as 3 técnicas utilizadas
import random
random.seed(42)
testa = Orange.data.Table(dados.domain, random.sample(dados, 5))
treina = Orange.data.Table(dados.domain, [d for d in dados if d not in testa])
aprende = [rf, knn, svm]
classifica = [learner(treina) for learner in aprende]

In [None]:
#imprimir a probabilidade para primeiro domínio da classe
alvo = 0
print("Probabilidade para %s:" % dados.domain.class_var.values[alvo])
print("Classe Alvo |", " | ".join("%-5s" % l.name for l in classifica))
c_valores = dados.domain.class_var.values
for d in testa:
    print(
        ("{:<15} " + " | {:.2f}" * len(classifica)).format(
            c_valores[int(d.get_class())], *(c(d, 1)[alvo] for c in classifica)
        )
    )

In [None]:
#imprimir a probabilidade para segundo domínio da classe
alvo = 1
print("Probabilidade para %s:" % dados.domain.class_var.values[alvo])
print("Classe Alvo |", " | ".join("%-5s" % l.name for l in classifica))
c_valores = dados.domain.class_var.values
for d in testa:
    print(
        ("{:<15} " + " | {:.2f}" * len(classifica)).format(
            c_valores[int(d.get_class())], *(c(d, 1)[alvo] for c in classifica)
        )
    )

In [None]:
#validar o aprendizado para as 3 técnicas
aprendizado = [rf, svm, knn]
avaliacao = Orange.evaluation.CrossValidation(dados, aprendizado, k=5)

In [None]:
#imprimir os indicadores para as 3 técnicas
print(" " * 10 + " | ".join("%-4s" % learner.name for learner in aprendizado))
print("Acurácia  %s" % " | ".join("%.2f" % s for s in Orange.evaluation.CA(avaliacao)))
print("Precisão  %s" % " | ".join("%.2f" % s for s in Orange.evaluation.Precision(avaliacao)))
print("Revocação %s" % " | ".join("%.2f" % s for s in Orange.evaluation.Recall(avaliacao)))
print("F1        %s" % " | ".join("%.2f" % s for s in Orange.evaluation.F1(avaliacao)))
print("ROC       %s" % " | ".join("%.2f" % s for s in Orange.evaluation.AUC(avaliacao)))