# Boostrapping - Intervalo de confiança para tomada de decisão

## Aula 23

**Preparo Prévio:**
1. Magalhães e Lima, seção 7.4. Concentrar-se em intervalo de confiança para média amostra
1. Bootstrapping - https://www.thoughtco.com/example-of-bootstrapping-3126155
1. Bootstrapping - https://www.stat.auckland.ac.nz/~wild/BootAnim/

**Hoje:**
1. Entender e implementar o método não paramétrico de Bootstrapping 

**Próxima aula:**
1. Montogmery. Seção 6-2 - Simple Linear Regression
1. Magalhães e Lima, seção 9.5. Regressão Linear Simples

___


___
# Bootstrapping

## Solução: Métodos não paramétricos

Bootstrapping é um método de reamostragem com reposição que consiste em recuperar a distribuição de uma medida de interesse a partir de uma amostra mestre. Por exemplo, podemos utilizar a média como medida de interesse, mas a distribuição de outras medidas também pode ser estimadas, como por exemplo variância, mediana, etc.

Reamostragem com reposição significa que um mesmo elemento pode ser selecionado várias vezes, assim como outro elemento pode não ser escolhido. Seria equivalente a sortear um número e por de volta na urna.

### Como funciona

Dada um conjunto com a amostra mestre aleatória $x_1, x_2,..., x_n$ de uma população qualquer, devemos sortear consecutivamente, com reposição, conjuntos de tamanho também $n$ dessa amostra amostra mestre. Esses conjuntos são chamados de reamostragem e esse processo deve ser feito milhares de vezes.

A cada reamostragem deve-se aplicar a medida de interesse, nesse caso a média, e guardar em uma lista. Ao fim das milhares de reamostragens, teremos uma distribuição da medida desejada. 

De posse desta distribuição, podemos calcular o Intervalo de Confiança por meio dos seus percentis fixando a confiança que se deseja no mesmo.

<img src="Bootstrap.png"/>
<center><sup>**Figura 1.** Ilustração da técnica Bootstrap - reamostragens da amostra mestre (extraído e adaptado de http://robertovitillo.com/2015/03/15/confidence-intervals-and-hypothesis-tests-for-engineers/).</sup></center>


Devido a sua generalidade, a técnica Bootstrap se encaixa na solução de problemas complexos que queiram utilizar outra informação numérica populacional (parâmetro de interesse) que não seja necessariamente a média populacional. 
Por meio dessa técnica, os parâmetros como média, variância, proporção e até mesmo parâmetros menos utilizados como o máximo, mínimo ou mediana de uma população podem ser estimados pontualmente e por intervalo.

A distribuição Bootstrap geralmente tem a mesma forma e amplitude que a distribuição amostral da estatística, porém a primeira está centrada na estatística dos dados originais (amostra mestre), enquanto a segunda está centrada no parâmetro da população. Assim, se o objetivo for estudar a média populacional ($\mu$), a distribuição Bootstrap será construída com as médias das reamostras ($\bar{x}^*_j$), com $j=1,\ldots,B$ e estará centrada na média da amostra mestre ($\bar{x}$); enquanto a distribuição das médias amostrais obtidas da população ($\bar{X}$) está centrada em $\mu$ conforme descreve o Teorema do Limite Central (TLC) e conforme visto na simulação do Encontro 12.

<img src="DistBootstrap.png"/>
<center><sup>**Figura 2.** Construção da distribuição Bootstrap a partir das médias das reamostras.</sup></center>

___
# Intervalo de confiança Bootstrap


** Intervalo de Confiança Bootstrap Percentil **

$IC(\mu;\gamma) = \left(q_{\frac{1-\gamma}{2}}; q_{\frac{1+\gamma}{2}} \right),$

sendo $q_{\frac{1-\gamma}{2}}$ o quantil de ordem ((1-$\gamma$)/2)100$\%$ e $q_{\frac{1+\gamma}{2}}$ o quantil de ordem ((1+$\gamma$)/2)100$\%$ das médias das reamostras, ou seja, os quantis das  médias $\bar{x}^*_j$, com $j=1,\ldots,B$.

** Observação: **
A técnica Boostrap nos permite verificar o vício olhando se a distribuição das médias reamostradas (distribuição Bootstrap) está centrada na média da amostra mestre, ou seja, no caso, avaliar a diferença entre $\bar{\bar{x}}^*$ e $\bar{x}$. Caso essa diferença seja grande ou se os intervalos de confiança construídos não sejam parecidos, é necessário buscar outros intervalos de confiança que façam a correção desse viés. Não abordaremos aqui!

___


**Algoritmo**
 
   1. Repetir 10.000 vezes:
           1.1. Realizar um sorteio com reposição da amostra mestre. Usar a função choice() do numpy.
           1.2. Calcular a medida de interesse da reamostragem e guardar em uma lista.
   2. Plotar o histograma dessa lista de medidas de calculadas anteriormente.
   3. A partir da lista, encontrar os percentis de ordem $\alpha/2$ e $(1-\alpha)/2$ para construir Intervalo de Confiança Boostrap, sendo $\alpha=1-\gamma$.
   4. Se objetivo for tomada de decisão, avalie se o valor sob alguma hipótese faz parte ou não do intervalo de confiança construído!

___
    

In [70]:
import numpy as np
import matplotlib as plt
import pandas as pd
from scipy import stats
import math

%matplotlib inline


___

# Experimento dos resistores - APS7 (um dos exercícios)

** Compraria o lote de resistores pelo valor médio e pela tolerância? **

Use a sua amostra para concluir se compraria o lote de resistores pelo controle de qualidade tanto quanto aos $1000 k\Omega$ e quanto aos $5\%$ de tolerância.

Use 95% de confiança para tomada de decisão!

### ANÁLISE SOBRE A MÉDIA

In [87]:
xbarraMED = []

qtd = 10000

for i in range(qtd):
    reamostra = np.mean(np.random.choice(dados,size=12,replace=True))
    xbarraMED.append(reamostra)

In [91]:
xc1 = np.percentile(xbarraMED, 2.5) 
xc2 = np.percentile(xbarraMED, 97.5)
print("intervalo de", xc1 , "à", xc2)
print("1000 está fora do intervalo!")

intervalo de 1018.75 à 1035.75
1000 está fora do intervalo!


### ANÁLISE SOBRE A VARIABILIDADE

In [92]:
xbarraVARI = []

for i in range(qtd):
    reamostral = np.std(np.random.choice(dados,size=12,replace=True), ddof = 1)
    xbarraVARI.append(reamostral)

In [93]:
xc1l = np.percentile(xbarraVARI, 2.5)
xc2l = np.percentile(xbarraVARI, 97.5)
print("intervalo de", xc1l , "à", xc2l)
print("5% está fora do intervalo de confiança!")

intervalo de 8.2627197625 à 20.7764435361
5% está fora do intervalo de confiança!


### CONCLUSÃO:
Nem a média nem o desvio padrão se encaixam no intervalo de confiança estimado. Não havendo
evidência de que valha a pena comprar o lote de resistores.