### Aprendizado Ensemble - Florestas Aleatórias

In [1]:
# bibliotecas utilizadas no desenvolvimento do projeto
from collections import Counter, defaultdict, OrderedDict
from functools import partial
import math, random
import pandas as pd
from csv import reader
import numpy as np
from random import seed, randrange
from graphviz import Digraph

In [2]:
def build_dataset(path_file): 
    dataset = list()
    with open(path_file, 'r') as file:
        csv_reader = reader(file)
        rows = [r for r in csv_reader]
    # capturando os cabeçalhos
    headers = rows[0]
        
    for row in rows[1:len(rows)]:
        out_dic = {}
        for header_index in range(len(headers)):
            out_dic.update({ headers[header_index]: row[header_index]})
        
        # captura a classe
        class_key = list(out_dic.items())[-1]
        # remove a classe captura do dicionario
        del out_dic[list(out_dic.keys())[-1]]
        # montando o dataset de saída
        data_tuple = (out_dic, class_key[1])
        dataset.append(data_tuple)
    return dataset    

# construindo a base de dados a partir do arquivo fornecido
dataset = build_dataset('datasets/benchmark.csv')

In [3]:
# dada uma lista de probabilidades de classe, calcule a entropia
def entropy(class_probabilities):
    return sum(-p * math.log(p, 2) for p in class_probabilities if p)

def class_probabilities(labels):
    total_count = len(labels)
    return [count / total_count
            for count in Counter(labels).values()]

def data_entropy(labeled_data):
    labels = [label for _, label in labeled_data]
    probabilities = class_probabilities(labels)
    return entropy(probabilities)

# encontre a entropia desta partição de dados em subconjuntos
def partition_entropy(subsets):
    total_count = sum(len(subset) for subset in subsets)

    return sum( data_entropy(subset) * len(subset) / total_count for subset in subsets )

# returns a defaultdict(list), where each input item is in the list whose key is key_fn(item)
def group_by(items, key_fn):
    groups = defaultdict(list)
    for item in items:
        key = key_fn(item)
        groups[key].append(item)
    return groups

# retorna um dicionário de entradas particionado pelo atributo, cada entrada é um par (attribute_dict, label)
def partition_by(inputs, attribute):
    return group_by(inputs, lambda x: x[0][attribute])

# calcula a entropia correspondente à partição dada
def partition_entropy_by(inputs, attribute):
    partitions = partition_by(inputs, attribute)
    return partition_entropy(partitions.values()) # retorna a media dos sub-conjuntos resultantes

def gain(class_entropy, mean_entropy):
    return class_entropy - mean_entropy;

# retorna a entropia sobre a classe
def class_entropy(inputs):
    class_values = []
    for item in inputs:
        class_values.append(item[1]) # suponto a definição atual dos dados!
    probabilities = class_probabilities(class_values)
    class_entropy = entropy(probabilities)
    return class_entropy

def diff_class(inputs):
    classes = []
    for current_class in list(set([label for item, label in inputs if label])):
        classes.append({'class': current_class, 'amount': 0})
    for current_class in [label for item, label in inputs if label]:
        for my_class in classes:
            if(my_class['class']  == current_class):
                my_class['amount'] = my_class['amount'] + 1
    return classes

def highest_class(classes):
    my_class = classes[0]
    for current_class in classes:
        if(current_class['amount'] > my_class['amount']):
            my_class = current_class
    return my_class
    

def build_tree(inputs, split_candidates=None):

    # se esta for nossa primeira passagem,
    # todas as chaves da primeira entrada são candidatas divididas
    if split_candidates is None:
        split_candidates = inputs[0][0].keys()
              
    # obtendo as classes
    # [(classe, quantidade)]
    classes = diff_class(inputs)
    
    # conte verdadeiras e falsas nas entradas
    num_inputs = len(inputs)
    num_trues = len([label for item, label in inputs if label])
    num_falses = num_inputs - num_trues
    
    # verificando a homogeneidade do cojunto
    if(len(classes) == 1):
        return classes[0]['class']

    if not split_candidates:          # if no split candidates left
        return highest_class(classes) # return the majority leaf

    # caso contrário, divida no melhor atributo
    
    best_gain = 0
    best_attribute = None
    for candidate in split_candidates:
        mean_entropy = partition_entropy_by(inputs, candidate)
        #print('[INFO] Atributo: ', candidate, '- entropia média: ', mean_entropy)
        gain_result = gain(class_entropy(inputs), mean_entropy)
        #print('[INFO] Atributo: ', candidate, '- ganho: ', gain_result)
        if(gain_result > best_gain):
            best_gain = gain(class_entropy(inputs), mean_entropy)
            best_attribute = candidate
        #print('--')
    
    #print('----------------------------------------')
    #print('[INFO] best_attribute: ', best_attribute)
    #print('----------------------------------------')
    partitions = partition_by(inputs, best_attribute)
    new_candidates = [a for a in split_candidates
                      if a != best_attribute]

    # construir recursivamente as subárvores
    subtrees = { attribute : build_tree(subset, new_candidates)
                 for attribute, subset in partitions.items() }

    #subárvores [Nenhum] = num_trues> num_falses # caso padrão

    return (best_attribute, subtrees)

if __name__ == "__main__":
    # construindo a árvore sobre os dados construindos anteriormente
    tree = build_tree(dataset)
    #print('\n')
    #print('----------------------------------------')
    #print("[INFO] Árvore construida:")
    #print('----------------------------------------')
    #print(tree)

In [4]:
g = Digraph('G', filename='tree.gv')

g.edge('Tempo, ganho 0.970', 'Umidade', label='Ensolarado, ganho: 0.970')
g.edge('Umidade', 'Não', label='Alta')
g.edge('Umidade', 'Sim', label='Normal')
g.edge('Tempo, ganho 0.970', 'Sim', label='Nublado')
g.edge('Tempo, ganho 0.970', 'Ventoso', label='Nublado, ganho: 0.970')
g.edge('Ventoso', 'Sim', label='Falso')
g.edge('Ventoso', 'Nao', label='Verdadeiro')

#g.view()

In [5]:
def classify(tree, classes, input):
    """classificar a entrada usando a árvore de decisão fornecida"""

    # se este é um nó folha, retorna seu valor
    if tree in classes:
        return tree

    # caso contrário, encontre a subárvore correta
    attribute, subtree_dict = tree

    subtree_key = input.get(attribute)  # Nenhum se a entrada estiver faltando atributo

    if subtree_key not in subtree_dict: # se não houver subárvore para a chave
        subtree_key = None              # vamos usar a subárvore não

    subtree = subtree_dict[subtree_key] # escolha a subárvore apropriada
    return classify(subtree, classes, input) # e usá-lo para classificar a entrada


# obtendo as classes possiveis para a àrvore
classes = list(set([label for item, label in dataset if label]))

print('\n')
print('[INFO] Dados de amostras (ultimas duas linhas) para teste de resultado:')

print('Nublado / Quente / Normal / Falso ->', classify(tree, classes,
    { 'Tempo' : 'Nublado',
      'Temperatura' : 'Quente',
      'Umidade' : 'Normal',
      'Ventoso' : 'Falso'} ))
print('Chuvoso / Amena / Alta / Verdadeiro ->', classify(tree, classes,
    { 'Tempo' : 'Chuvoso',
      'Temperatura' : 'Amena',
      'Umidade' : 'Alta',
      'Ventoso' : 'Verdadeiro'} ))



[INFO] Dados de amostras (ultimas duas linhas) para teste de resultado:
Nublado / Quente / Normal / Falso -> Sim
Chuvoso / Amena / Alta / Verdadeiro -> Nao


In [6]:
def bootstrap(dataset):
    bootstrap = dataset.sample(n = len(dataset), replace = True)
    return bootstrap

result_bootstrap = bootstrap(pd.read_csv('datasets/voting.csv'))

In [7]:
def cross_validation_split(dataset, n_folds):
    dataset_split = list()
    dataset_copy = list(dataset)
    fold_size = int(len(dataset) / n_folds)
    for _ in range(n_folds):
        fold = list()
        while len(fold) < fold_size:
            index = randrange(len(dataset_copy))
            fold.append(dataset_copy.pop(index))
        dataset_split.append(fold)
    return dataset_split

result_cross = cross_validation_split(result_bootstrap.values.tolist(), 10)

In [8]:
def train_split(dataset, n_folds, *args):
    folds = cross_validation_split(dataset, n_folds)
    for fold in folds:
        train_set = list(folds)
        train_set.remove(fold)
        train_set = sum(train_set, [])
        return train_set

def test_split(dataset, n_folds, *args):
    folds = cross_validation_split(dataset, n_folds)
    for fold in folds:
        test_set = list(fold)
        return test_set


# Não está retendo os dados do banco de bootstrap, é os mesmos dados, mas ainda tá flutuando e gerando listas diferentes, temos que discutir se isso tem algum problema 


test_set = test_split(result_cross, 10) 
print('[INFO] definindo folds para teste')

print('\n[INFO] definindo folds para treino')
train_set = train_split(result_cross, 10)

[INFO] definindo folds para teste

[INFO] definindo folds para treino


In [9]:
def build_from_split(headers, dataset_from_bootstrap): 
    new_dataset = list()    
    for row in dataset_from_bootstrap[0:len(dataset_from_bootstrap)]:
        out_dic = {}
        for header_index in range(len(headers)):
            out_dic.update({ headers[header_index]: row[header_index]})
        
        # captura a classe
        class_key = list(out_dic.items())[-1]
        # remove a classe captura do dicionario
        del out_dic[list(out_dic.keys())[-1]]
        # montando o dataset de saída
        data_tuple = (out_dic, class_key[1])
        new_dataset.append(data_tuple)
    return new_dataset

# obtebdo os cabeçalhos
headers = result_bootstrap.columns.tolist()
#print(build_tree(build_from_bootstrap(headers, result_bootstrap.values.tolist())))


In [10]:
def build_pre_dataset(old_dataset):
    new_dataset = list()
    for i in old_dataset:
        for j in i:
            new_dataset.append(j)
    return new_dataset

In [11]:
# construindo a árvore a partir do split vindo do cross
new_train = build_pre_dataset(train_set) # treino

new_tree_from_train = build_tree(build_from_split(headers, new_train))

# construindo a árvore a partir do split vindo do cross
new_test = build_pre_dataset(test_set) # teste
        
classes = list(set([label for item, label in build_from_split(headers, new_train) if label]))
     
classe_teste = list()
preditos_teste = list()
for current in build_from_split(headers, new_test):
    preditos_teste.append(current[1])
    classe_teste.append(classify(new_tree_from_train, classes, current[0]))
  
#print('\n[INFO] resultado real dos dados de teste: ')
#print(classe_teste)
#print('\n[INFO] resultado preditos esperado: ')
#print(preditos_teste)

In [12]:
matrix = list()
accuracy = list()
recall = list()
precision = list()
score = list()

def classification_report(classe_teste, preditos_teste):
    true_class = 'democrat'
    negative_class = 'republican'
    # declarando a frêquencia
    tp = 0
    tn = 0
    fp = 0
    fn = 0
    
    for (indice, v_real) in enumerate(classe_teste):
        v_predito = preditos_teste[indice]
        # se trata de um valor real da classe positiva
        if v_real == true_class:
            tp += 1 if v_predito == v_real else 0
            fp += 1 if v_predito != v_real else 0
        else:
            tn += 1 if v_predito == v_real else 0
            fn += 1 if v_predito != v_real else 0
                
    # calculando os valores de frêquencia
    accuracy.append((tp+tn)/(tp+fp+tn+fn))
    recall.append(tp/(tp+fn))
    precision.append(tp/(tp+fp))
    score.append(2*tp/(2*tp+fp+fn))
    
    # desenhando a matriz de confusão
    print(np.array([
        [ tp, fp ],
        [ fn, tn ]
    ]))
    
classification_report(classe_teste, preditos_teste)
print('')
print('Média da acurácia: %.2f%%' % (sum(accuracy)/float(len(accuracy))))
print('Média da Recall: %.2f%%' % (sum(recall)/float(len(recall))))
print('Média da Precisão: %.2f%%' % (sum(precision)/float(len(precision))))
print('Média da f-score: %.2f%%' % (sum(score)/float(len(score))))
print('')
print("Desvio padrão da acurácia: {:.2f}%".format(np.std(accuracy)*100))
print("Desvio padrão da Recall: {:.2f}%".format(np.std(recall)*100))
print("Desvio padrão da Precisão: {:.2f}%".format(np.std(precision)*100))
print("Desvio padrão da f-score: {:.2f}%".format(np.std(score)*100))

[[29  0]
 [ 0 14]]

Média da acurácia: 1.00%
Média da Recall: 1.00%
Média da Precisão: 1.00%
Média da f-score: 1.00%

Desvio padrão da acurácia: 0.00%
Desvio padrão da Recall: 0.00%
Desvio padrão da Precisão: 0.00%
Desvio padrão da f-score: 0.00%


In [13]:
dados_originais = pd.read_csv('datasets/voting.csv')

n_trees = 15
my_tress = list()
my_cases_for_test = list()
for n in range(n_trees):
    n_bootstrap = bootstrap(dados_originais)       
    n_cross = cross_validation_split(n_bootstrap.values.tolist(), 10)
    my_cases_for_test.append(build_pre_dataset(test_split(n_cross, 10)))
    train_set = train_split(n_cross, 10)
    new_tree_from_train = build_tree(build_from_split(headers, new_train))
    my_tress.append(new_tree_from_train)

In [14]:
def forest_classify(trees, classes, input):
    votes = [classify(tree, classes, input) for tree in trees]
    vote_counts = Counter(votes)
    return vote_counts.most_common(1)[0][0]

classe_teste = list()
preditos_teste = list()
for current in build_from_split(headers, my_cases_for_test[0]):
    preditos_teste.append(current[1])
    classe_teste.append(forest_classify(my_tress, classes, current[0]))

In [15]:
classification_report(classe_teste, preditos_teste)
print('')
print('Média da acurácia: %.2f%%' % (sum(accuracy)/float(len(accuracy))))
print('Média da Recall: %.2f%%' % (sum(recall)/float(len(recall))))
print('Média da Precisão: %.2f%%' % (sum(precision)/float(len(precision))))
print('Média da f-score: %.2f%%' % (sum(score)/float(len(score))))
print('')
print("Desvio padrão da acurácia: {:.2f}%".format(np.std(accuracy)*100))
print("Desvio padrão da Recall: {:.2f}%".format(np.std(recall)*100))
print("Desvio padrão da Precisão: {:.2f}%".format(np.std(precision)*100))
print("Desvio padrão da f-score: {:.2f}%".format(np.std(score)*100))

[[23  0]
 [ 1 19]]

Média da acurácia: 0.99%
Média da Recall: 0.98%
Média da Precisão: 1.00%
Média da f-score: 0.99%

Desvio padrão da acurácia: 1.16%
Desvio padrão da Recall: 2.08%
Desvio padrão da Precisão: 0.00%
Desvio padrão da f-score: 1.06%
