# **Agregação Bootstrap**

## Introdução

Neste tutorial aprenderemos como implementar o procedimento Agregação Bootstrap que é um técnica para fazer árvores de decisão mais robustas e alcançar melhor performace. 

Antes de vermos os algoritmos, vamos aprender alguns conceitos.

### Algoritmo de Agregação Bootstrap

Um bootstrap é uma amostra de um conjunto de dados com substituição. Isso significa que um novo conjunto é criado de uma amostra aletatória de um conjuntos de dados existente onde uma linha pode ser selecionada e adicionada mais do que
uma vez à amostra. Criando amostras de um conjunto de dados e estimando o significado dessas amostras podemos calcular
a média dessas estimativas e ter uma melhor idéia do verdadeiro significado do problema. <br />
Essa abordagem pode ser usada com algoritmos de aprendizado de máquina que têm alta variância. Um modelo separado é treinado sobre cada bootstrap e a média dos outputs são usados para fazer previsões. <br />
Variância significa que a performance é sensível aos dados de treino, com alta variação, sugerimos que quanto mais os dados de treinamento forem alterados, mais o desempenho do algoritmo variará. 
A performance de algoritmos de machine learning com alta variância pode ser melhorada treinando muitas árvores e 
calculando a média de suas previsões. Os resultados são geralmente melhores do que uma única árvore de decisão. Outro benefício do algoritmo, além do desempenho melhorado, é que as árvores de decisão geradas não podem superar o problema. As árvores podem continuar a ser adicionadas até um máximo em desempenho ser alcançado. 

<br />
<br />
Neste tutorial usaremos o conjunto de dados Sonar. Esse conjunto de dados é sobre a diferença entre minas e rochas. A performance desse exemplo é de aproximadamente 53%. Baixe o arquivo com os dados através do link https://github.com/DayanaRochaM/TutorialMachineLearning-/blob/master/sonar.all-data.csv e guarde-o no seu diretório de trabalho atual sem alterar seu nome (sonar.all-data.csv).

## Passos do tutorial
1. Bootstrap Resample
2. Caso de estudo Sonar

### 1. Bootstrap Resample

Vamos começar tendo uma ideia de como o método Bootstrap funciona. Podemos criar uma simples amostra de um conjunto 
    de dados selecionando linhas aleatórias e adicionando-as a uma nova lista. Abaixo está uma função chamada **subsample()** que implementa esse procedimento. <br /> 
<br />
A função auxiliar **randrange()** do módulo *random* é usada para
selecionar o índice de uma linha aleatória para ser adicionada à amostra em cada interação do loop. O valor padrão de
uma amostra é o tamanho do conjunto de dados original.
<br />
<br />

In [4]:
def subsample(dataset, ratio=1.0):
    sample = list()
    n_sample = round(len(dataset) * ratio)
    while len(sample) < n_sample:
        index = randrange(len(dataset))
        sample.append(dataset[index])
    return sample


Podemos usar essa função para estimar a média de um conjunto de dados inventado, como é o caso do exemplo abaixo. Neste, primeiro criamos um conjunto de dados de 20 linhas e apenas uma coluna de números aleatórios entre 0 e 9,
calculamos a média e as amostras bootstrap são criadas com 10% do conjunto de dados original. Depois, testamos nosso código criando 1, 10, 100 amostras de bootstrap do conjunto de dados original, calculamos suas médias e então, média de todos os valores médios estimados. <br />
<br />
Abaixo usamos a função **seed()** para inicializar o estado interno do gerador de números aleatórios com "1".

In [8]:
from random import seed
from random import random
from random import randrange

# Cria uma subamostra aleatória do conjunto de dados com substituição
def subsample(dataset, ratio=1.0):
    sample = list()
    n_sample = round(len(dataset) * ratio)
    while len(sample) < n_sample:
        index = randrange(len(dataset))
        sample.append(dataset[index])
    return sample

# Calcula a média de uma lista de números
def mean(numbers):
    return sum(numbers) / float(len(numbers))

# Testa a subamostragem de um conjunto de dados --------
seed(1)

# Verdadeira média
dataset = [[randrange(10)] for i in range(20)]
print('True Mean: %.3f' % mean([row[0] for row in dataset])) 

# Média estimada
ratio = 0.10
for size in [1, 10, 100]:
    sample_means = list()
    for i in range(size):
        sample = subsample(dataset, ratio)
        sample_mean = mean([row[0] for row in sample])
        sample_means.append(sample_mean)
    print('Samples=%d, Estimated Mean: %.3f' % (size, mean(sample_means)))

True Mean: 4.500
Samples=1, Estimated Mean: 4.000
Samples=10, Estimated Mean: 4.700
Samples=100, Estimated Mean: 4.570


Executando o exemplo acima podemos observar que a melhor estimativa vem da amostragem com 100 dados. 

O nosso próximo passo é combinar as previsões de múltiplos modelos de bootstrap.