# Classificador Bagging
Nesse exercício, faremos um classificador de doenças cardíacas usando ensembles de árvores de decisão com o algoritmo Bagging.

Para isso, usaremos o dataset "Heart Disease UCI", que já está salvo no arquivo 'heart.csv'

Primeiramente, execute a célula seguinte para carregar o dataset:

In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv('data_aula_08.csv')
X = df.drop(['target'], 1).to_numpy()
y = df['target'].to_numpy()

df.head()

## 1. Bootstrapping

Uma parte fundamental do método Bagging é o Bootstrapping, que consiste em fazermos amostragem com reposição para criarmos variações do nosso dataset. Implemente abaixo uma função que receba um dataset nas variáveis X e y e retorne um conjunto derivado usando Bootstrapping: 

In [None]:
def bag(X, y):
    
    X_bootstrap = None
    y_bootstrap = None
    
    ######################################################################################
    # 1. Preencha essa função para retornar uma variação do dataset passado pelos argumentos usando bootstrapping
    # Ao final, as variáveis X_bootstrap e y_bootstrap devem conter o novo dataset após o processo de amostragem
    # Cuidado: é necessário realizar as mesmas operações nas variáveis X e y
    # A função np.random.choice pode ser útil
        
    
    
    ######################################################################################
    return X_bootstrap, y_bootstrap



# Verificação de Erros
bagged = bag(X,y)
assert type(bagged[0]) == np.ndarray and type(bagged[1]) == np.ndarray, 'Os valores retornados devem ser arrays numpy'
assert bagged[0].shape == X.shape and bagged[1].shape == y.shape, 'Os conjuntos retornados pela função devem ter o mesmo tamanho dos originais'
assert len(np.unique(bagged[0], axis = 0)) < 300, 'A amostragem deve ser feita com reposição'
assert np.all([(line == X).all(1).any() for line in bagged[0]]), 'Todos os elementos retornados devem estar presentes no dataset original'
assert np.all(bagged[1] == [y[np.argmax((line == X).all(1))] for line in bagged[0]]), 'A amostragem deve ser feita identicamente nos conjuntos X e y'

## 2. Treinamento da Árvore de Decisão
O método bagging consiste em treinarmos diversas árvores de decisão em datasets distintos, gerados por bootstrapping. Implemente abaixo as funções para o treinamento e avaliação de uma árvore individual em uma instância do dataset:

In [None]:
from sklearn.tree import DecisionTreeClassifier

def train_tree(X, y, max_depth = 10):
    
    x_train, y_train = bag(X, y)
    clf = None
    
    ######################################################################################
    # 2. Treine uma árvore de decisão no conjunto gerado acima (x_train e y_train)
    # Ao final, a variável clf deve conter a árvore de decisão treinada
    #
    # Se quiser fazer alterações nos hiperparâmetros das árvores, você pode configurá-los aqui
    
    
    
    ######################################################################################
    return clf



# Verificação de Erros
assert (type(train_tree(X,y)) == DecisionTreeClassifier), 'A função deve retornar uma árvore de decisão'
assert 'tree_' in DecisionTreeClassifier().fit(X,y).__dict__, 'A árvore retornada já deve estar treinada no conjunto de treino'
assert np.all([train_tree(X, y, i).max_depth == i for i in range(1,10)]), 'A árvore deve ter a profundidade máxima (max_depth) passada como parâmetro para a função'

In [None]:
from sklearn.metrics import accuracy_score

def tree_accuracy(tree, x_test, y_test):
    
    acc = None
    
    ######################################################################################
    # 3. Calcule a acurácia da árvore tree no conjunto de teste
    # Ao final, a variável acc deve conter o valor da acurácia
    
    

    ######################################################################################
    return acc

    
# Verificação de Erros    
assert tree_accuracy(DecisionTreeClassifier(max_depth = None).fit(X, y), X, y) == 1.0, 'Erro na função de acurácia'
assert tree_accuracy(DecisionTreeClassifier(max_depth = 1).fit(X, y), X, y) < 1.0, 'Erro na função de acurácia'

## 3. Treinamento da Ensemble de Árvores

Por fim, iremos treinar várias árvores em conjuntos de dados diferentes, usando as funções anteriores:

In [None]:
def train_ensemble(X, y, n_trees = 100):
    trees = []
    
    ######################################################################################
    # 4. Treine n_trees árvores de decisão usando a função train_tree
    # Ao final, a variável trees deve conter as árvores treinadas
    #
    # Decida aqui a altura máxima das árvores, passada como argumento para a função train_tree
    # Se quiser, você pode alterar esse valor depois
    
    
    
    ######################################################################################
    return trees



# Verificação de Erros
trees = train_ensemble(X,y,10)
assert type(trees) == list, 'A função deve retornar uma lista contendo as árvores treinadas'
assert len(train_ensemble(X,y,9)) == 9 and len(train_ensemble(X,y,12)) == 12, 'A lista retornada deve ter exatamente n_trees elementos'
assert np.all([type(tree) == DecisionTreeClassifier for tree in trees]), 'Todos os elementos da lista retornada devem ser uma árvore de decisão'
assert np.all(['tree_' in tree.__dict__ for tree in trees]), 'As árvores de decisão retornadas devem estar treinadas'

Para fazermos novas predições, devemos calcular a média dos valores preditos por cada árvore individual:

In [None]:
def ensemble_predict(trees, x):
    preds = None
    ######################################################################################
    # 5. Use a ensemble trees para fazer predições nos dados x
    # Ao final, a variável preds deve conter as predições da ensemble
    
    
    
    ######################################################################################
    return preds

trees = train_ensemble(X,y,10)
assert ensemble_predict(trees, X).shape == y.shape, 'A array retornada pela função deve ter o mesmo número de elementos que a variável y correspondente'
assert np.all((ensemble_predict(trees, X))*len(trees) == np.sum([tree.predict(X) for tree in trees], 0)), 'A predição feita pela ensemble deve ser a média das predições individuais'

Por fim, implemente uma função para medir a acurácia da ensemble:

In [None]:
def ensemble_accuracy(trees, x_test, y_test):
    acc = None
    
    ######################################################################################
    # 6. Calcule a acurácia da ensemble trees no conjunto de teste
    # Ao final, a variável acc deve conter o valor da acurácia
    #
    # OBS: Lembre-se que os valores retornados pela função ensemble_predict são probabilidades entre 0 ou 1.
    #      Por isso, pode ser necessário usar uma função como np.round para transformar essas predições em uma variável binária
    
    
    
    ######################################################################################    
    return acc



# Verificação de Erros
assert ensemble_accuracy([DecisionTreeClassifier(max_depth = None).fit(X, y)] * 10, X, y) == 1.0, 'Erro na função de acurácia'
assert ensemble_accuracy([DecisionTreeClassifier(max_depth = 1).fit(X, y)] * 10, X, y) < 1.0, 'Erro na função de acurácia'

## 4. K-Fold Cross Validation

Devido ao dataset pequeno, usaremos K-Fold Cross Validation em vez de um simples train test split, para tornar as estimativas de performance mais confiáveis.

Preencha abaixo o código para finalizarmos o treinamento de uma ensemble de árvores de decisão:

Se tudo correr bem, o resultado da ensemble será consideravelmente melhor que as árvores individuais, por 5-10%.

In [None]:
from sklearn.model_selection import KFold

# Cria uma divisão KFold com 3 splits
kf = KFold(n_splits = 3, shuffle = True, random_state = 2)

# Variável com as acurácias do modelo em cada split
ensemble_accs = []
tree_accs = []

for train_indices, test_indices in kf.split(X,y):
    
    # Define os conjuntos de treino e teste do split atual
    x_train = X[train_indices]
    x_test = X[test_indices]
    y_train = y[train_indices]
    y_test = y[test_indices]
    
    
    
    ensemble_acc = None
    ######################################################################################
    # 7. Treine uma ensemble nos dados de treino e a avalie nos dados de teste
    # Ao final, a variável ensemble_acc deve conter o valor da acurácia no split atual
    # Experimente com o número de árvores na ensemble (argumento n_trees da função train_ensemble) para conseguir os melhores resultados
    
    
    
    ######################################################################################
    
    ensemble_accs.append(ensemble_acc)
    tree_accs.append(np.mean([tree_accuracy(tree, x_test, y_test) for tree in trees]))

    
print('Acurácia média das árvores de decisão individuais: %.2lf%%' % (100 * np.mean(tree_accs)))
print('Acurácia média da ensemble inteira: %.2lf%%' % (100 * np.mean(ensemble_accs)))