# Laborat√≥rio 5: Reamostragem e Bootstrapping

Bem-vindo ao Laborat√≥rio 5! Nesta tarefa, desenvolveremos uma compreens√£o mais aprofundada sobre estimativa de par√¢metros e inicializa√ß√£o, sobre a qual voc√™ pode aprender mais em [CIT 13](https://inferentialthinking.com/chapters/13/Estimation.html). As palestras relevantes s√£o as Aulas 13, 17 e 18.

Voc√™ deve concluir todo este laborat√≥rio e envi√°-lo ao Moodle at√© √†s 23h59 da data de vencimento.

In [None]:
# Descomente para executar no Colab
#! pip install babypandas --quiet

In [None]:
# Imports
import numpy as np
import babypandas as bpd
import math

import matplotlib.pyplot as plt
plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (10, 5)

from IPython.display import YouTubeVideo, IFrame

def show_bootstrapping_slides():
    src = "https://docs.google.com/presentation/d/e/2PACX-1vS_iYHJYXSVMMZ-YQVFwMEFR6EFN3FDSAvaMyUm-YJfLQgRMTHm3vI-wWJJ5999eFJq70nWp2hyItZg/embed?start=false&loop=false&delayms=3000"
    width = 600
    height = 320
    display(IFrame(src, width, height))

### V√≠deo complementar sobre loops `for` e quando N√ÉO us√°-los

Elaboramos um v√≠deo revisando algumas das maneiras de realizar tarefas repetitivas (por exemplo, amostragem aleat√≥ria, execu√ß√£o de opera√ß√µes em cada elemento de uma coluna) **sem** usar um loop `for`. Tamb√©m veremos quando exatamente voc√™ precisa de um loop `for` nesta classe (executando um experimento muitas vezes). Isso √© importante, porque usar um loop `for` quando n√£o √© necess√°rio √© uma **m√°** id√©ia, uma vez que o c√≥digo resultante √© bastante lento e dif√≠cil de debugar.

Se voc√™ est√° se sentindo um pouco confuso nas simula√ß√µes de itera√ß√£o e codifica√ß√£o, voc√™ pode dar uma olhada na revis√£o!

In [None]:
# Rode essa c√©lula.
YouTubeVideo('BlczSBT80fU')

## 0. Percentis üÖøÔ∏è

Antes de come√ßarmos, precisamos apresentar o conceito de percentis. Os percentis associam n√∫meros em um conjunto de dados √†s suas posi√ß√µes quando o conjunto de dados √© classificado em ordem crescente.

Dada qualquer sequ√™ncia (ou seja, lista, matriz ou s√©rie) de valores num√©ricos, imagine classificar os valores em ordem crescente para criar uma sequ√™ncia classificada. Grosso modo, o $p$-√©simo percentil desta sequ√™ncia √© o valor que √© $p$ por cento do caminho atrav√©s da sequ√™ncia. Por exemplo, o percentil 10 √© apenas 10% do caminho (no in√≠cio), o percentil 50 est√° na metade (no meio) e o percentil 90 √© 90% do caminho (no final).

Existem muitas maneiras diferentes de definir com precis√£o um percentil. Nesta aula, consideraremos duas abordagens diferentes. Voc√™ deve pensar nisso como duas maneiras diferentes e separadas de definir um percentil. Eles nem sempre concordam!

### A defini√ß√£o matem√°tica

> Seja $p$ um n√∫mero entre 0 e 100. O $p$-√©simo percentil de uma cole√ß√£o √© o menor valor na cole√ß√£o que √© *pelo menos t√£o grande* quanto $p$% de todos os valores.

Com esta defini√ß√£o, qualquer percentil √© sempre um elemento da cole√ß√£o.

### A defini√ß√£o `numpy`

O pacote `numpy` fornece uma fun√ß√£o `np.percentile` que recebe duas entradas: uma matriz de n√∫meros e um valor `p`. Ele retorna um n√∫mero que representa o `p`√©simo percentil da matriz. Voc√™ n√£o precisa saber como ele calcula esse valor, mas voc√™ deve saber:
- nem sempre √© igual √† defini√ß√£o matem√°tica dada acima (embora seja pr√≥xima), e
- nem sempre √© um elemento do array.

#### Pergunta 0.1.

Digamos que voc√™ esteja em uma turma com 10 alunos e as notas de todos os alunos da turma est√£o armazenadas na matriz `grades`. Sua pontua√ß√£o √© 84.

In [None]:
grades = np.array([56, 65, 67, 72, 74, 78, 78, 80, 84, 94])

Qual das seguintes afirma√ß√µes s√£o verdadeiras? Use a defini√ß√£o matem√°tica de percentil aqui.

1. A pontua√ß√£o mais alta √© o percentil 100.
2. Sua pontua√ß√£o √© superior ao percentil 80.
3. Sua pontua√ß√£o √© inferior ao percentil 81.
4. Sua pontua√ß√£o √© o 86¬∫ percentil.
5. Uma pontua√ß√£o de 78 √© o percentil 50.

Atribua `true_percentile` a uma `lista` contendo os n√∫meros das afirma√ß√µes verdadeiras.

In [None]:
true_percentile  = ...
true_percentile

#### Pergunta 0.2.
Use `np.percentile` para calcular o 50¬∫ percentil da matriz `grades` e salve o resultado como `p_50`.

In [None]:
p_50 = ...
p_50

#### Pergunta 0.3.
Use `np.median` para calcular o valor mediano da matriz `grades` e salve o resultado como `median_grade`.

**Manualmente** compare-o com sua resposta da Pergunta 0.2. Defina a vari√°vel `same` como `True` se os dois valores forem iguais e `False` se forem diferentes. N√£o use if/else para esta pergunta.

In [None]:
median_grade = ...
print(median_grade)
same = ...

## 1. Preliminares da Intelig√™ncia Aliada üß†

Ao longo deste laborat√≥rio, estudaremos um problema estat√≠stico conhecido como [German tank problem](https://en.wikipedia.org/wiki/German_tank_problem).

Na Segunda Guerra Mundial, os Aliados (liderados pelos EUA, Reino Unido e Uni√£o Sovi√©tica) queriam saber quantos tanques militares os alem√£es tinham produzido. No entanto, eles n√£o conseguiram ver todos os tanques produzidos pelos alem√£es ‚Äì em vez disso, tudo o que viram foi uma **amostra** aleat√≥ria de tanques.

Para enquadrar o problema com mais precis√£o, considere que os tanques receberam n√∫meros de s√©rie que variam de 1 a `N`, onde `N` era o n√∫mero total de tanques produzidos. Os Aliados estavam tentando estimar `N`, um **par√¢metro populacional**, usando os n√∫meros de s√©rie dos tanques em sua amostra. Assumiremos que a amostra dos Aliados √© uma amostra aleat√≥ria simples da popula√ß√£o (sorteada sem reposi√ß√£o).

<br>

<center><img src='https://raw.githubusercontent.com/dsc-courses/dsc10-2023-wi/0c3fbe39e35e9db8cc1716ec5feb8c2f325cc103/labs/lab05/images/tank.jpg' width=400></center>

<br>


Neste laborat√≥rio, dada **apenas** uma amostra aleat√≥ria de n√∫meros de s√©rie, estimaremos `N` e, em seguida, usaremos a simula√ß√£o para descobrir qu√£o precisa √© nossa estimativa, sem nunca olhar para toda a popula√ß√£o. Este √© um exemplo de **infer√™ncia estat√≠stica** ‚Äì inferir algo sobre uma popula√ß√£o usando apenas as informa√ß√µes de uma amostra.

**Pergunta 1.1.** `N` √© um par√¢metro populacional ou uma estat√≠stica?  Se calcularmos um n√∫mero usando nossa amostra aleat√≥ria que √© uma estimativa de `N`, isso √© um par√¢metro populacional ou uma estat√≠stica?  Atribua 1, 2, 3 ou 4 √† vari√°vel `preliminaries_q1` abaixo.
1. `N` √© um par√¢metro populacional.  Uma estimativa de `N` de nossa amostra aleat√≥ria √© um par√¢metro populacional.
2. `N` √© um par√¢metro populacional.  Uma estimativa de `N` de nossa amostra aleat√≥ria √© uma estat√≠stica.
3. `N` √© uma estat√≠stica.  Uma estimativa de `N` de nossa amostra aleat√≥ria √© um par√¢metro populacional.
4. `N` √© uma estat√≠stica.  Uma estimativa de `N` de nossa amostra aleat√≥ria √© uma estat√≠stica.

In [None]:
preliminaries_q1 = ...

Para tornar a situa√ß√£o realista, vamos esconder de voc√™ o verdadeiro n√∫mero de tanques.  Voc√™ ter√° acesso apenas a esta amostra aleat√≥ria:

In [None]:
observations = bpd.read_csv("https://raw.githubusercontent.com/dsc-courses/dsc10-2023-wi/main/labs/lab05/data/serial_numbers.csv")
num_observations = observations.shape[0]
observations

**Pergunta 1.2.** Defina uma fun√ß√£o chamada `plot_serial_numbers` que desenha um histograma de qualquer DataFrame de n√∫meros de s√©rie.  Deve levar um argumento, um DataFrame `df` com uma √∫nica coluna chamada `'serial_number'` (como `observations`).  Ele deve tra√ßar um histograma dos valores na coluna `'serial_number'` **usando bins de largura 1** variando de **1 a 200 (inclusivo)** mas n√£o retornar nada.  Em seguida, chame essa fun√ß√£o para fazer um histograma de `observations`.

In [None]:
def plot_serial_numbers(df):
    ...

# Chame sua fun√ß√£o.
...

***Verifique sua resposta***: Seu histograma deve ter barras com a mesma altura e o eixo x deve variar de 0 a 200.

**Pergunta 1.3.** Como estamos tentando estimar o m√°ximo da popula√ß√£o, `N`, uma estat√≠stica natural a ser usada √© a amostra **max**. Em outras palavras, podemos estimar o n√∫mero total de tanques como sendo o maior n√∫mero de s√©rie da nossa amostra.

Abaixo, escreva uma fun√ß√£o chamada `calculate_max_based_estimate` que calcula essa estat√≠stica em uma determinada s√©rie de n√∫meros de s√©rie. Deve tomar como argumento uma s√©rie de n√∫meros de s√©rie e retornar seu m√°ximo.

Depois disso, use-o para calcular uma estimativa de `N` usando os n√∫meros de s√©rie em `observa√ß√µes`. Chame a estimativa de `max_based_estimate`.

In [None]:
def calculate_max_based_estimate(nums):
    ...

max_based_estimate = ...
max_based_estimate

**Pergunta 1.4.** Outra maneira de estimar `N` √© tomar **duas vezes a m√©dia** dos n√∫meros de s√©rie em nossa amostra. Abaixo, escreva uma fun√ß√£o chamada `calculate_mean_based_estimate` que calcula essa estat√≠stica. Deve tomar como argumento uma s√©rie de n√∫meros de s√©rie e retornar o dobro da m√©dia.

Depois disso, use-o para calcular uma estimativa de `N` usando os n√∫meros de s√©rie em `observa√ß√µes`. Chame a estimativa de `mean_based_estimate`.

In [None]:
def calculate_mean_based_estimate(nums):
    ...

mean_based_estimate = ...
mean_based_estimate

**Pergunta 1.5.** Observe os valores de `max_based_estimate` e `mean_based_estimate` que obtivemos para nosso conjunto de dados:

In [None]:
max_based_estimate

In [None]:
mean_based_estimate

O valor de `max_based_estimate` diz algo sobre `mean_based_estimate`.  Poderia nossa atual `mean_based_estimate` possivelmente ser igual a `N` (pelo menos se arredondarmos para o n√∫mero inteiro mais pr√≥ximo)?  Se n√£o, √© definitivamente mais alto, definitivamente mais baixo, ou n√£o podemos dizer?  Atribua uma das op√ß√µes (1-6) √† vari√°vel `preliminaries_q5` abaixo.
1. Sim, nossa `mean_based_estimate` para esta amostra pode ser igual a `N`.
2. N√£o, nossa `mean_based_estimate` para esta amostra n√£o pode ser igual a `N`, √© definitivamente menor em aproximadamente 3.
3. N√£o, nossa `mean_based_estimate` para esta amostra n√£o pode ser igual a `N`, √© definitivamente menor em pelo menos 12.
4. N√£o, nossa `mean_based_estimate` para esta amostra n√£o pode ser igual a `N`, √© definitivamente maior em aproximadamente 3.
5. N√£o, nossa `mean_based_estimate` para esta amostra n√£o pode ser igual a `N`, √© definitivamente maior em pelo menos 12.
6. N√£o, nossa `mean_based_estimate` para esta amostra n√£o pode ser igual a `N`, mas n√£o podemos dizer se √© menor ou maior.

In [None]:
preliminaries_q5 = ...

N√£o podemos simplesmente proclamar com seguran√ßa que `max_based_estimate` ou `mean_based_estimate` s√£o iguais a `N`, porque n√£o sabemos o que `N` realmente √©.  E se estivermos muito longe? Queremos ter uma no√ß√£o da precis√£o de nossas estimativas.

## 2. Reamostragem ü•æ

Se tiv√©ssemos acesso a toda a popula√ß√£o, poder√≠amos extrair repetidamente amostras da popula√ß√£o e calcular a nossa estimativa utilizando cada amostra. Isto daria uma distribui√ß√£o emp√≠rica de estimativas, que poder√≠amos usar para ver at√© que ponto as nossas estimativas tendem a ser erradas. Isso √© o que fizemos na Aula 13.

Infelizmente, **n√£o** temos acesso a toda a popula√ß√£o (ou seja, n√£o sabemos o valor de `N`). Tudo o que temos acesso √© uma √∫nica amostra de n√∫meros de s√©rie. Como podemos saber o qu√£o precisas s√£o as nossas estimativas sem sermos capazes de fazer amostras repetidas da popula√ß√£o para criar uma distribui√ß√£o emp√≠rica? ü§î

<br>

Uma estrat√©gia √© coletar repetidamente amostras de nossa amostra, ou "**reamostrar**", e usar essas reamostras para calcular uma distribui√ß√£o emp√≠rica de nossa estimativa. Vamos falar sobre por que esta √© uma estrat√©gia razo√°vel.
- Quando tentamos determinar `N`, o n√∫mero de tanques, gostar√≠amos de usar toda a popula√ß√£o.  Como t√≠nhamos apenas uma amostra, usamos isso para estimar `N`.
- Da mesma forma, agora gostar√≠amos de usar a popula√ß√£o de n√∫meros de s√©rie para **executar uma simula√ß√£o** para nos ajudar a entender como diferentes estimativas de `N` poderiam ter resultado. Mas ainda temos apenas nossa **amostra**, ent√£o podemos us√°-la? **Podemos!**
- Como grandes amostras aleat√≥rias se assemelham √†s popula√ß√µes das quais foram extra√≠das e nossa amostra √© relativamente grande, podemos tratar nossa amostra como se fosse a popula√ß√£o e tirar amostras dela.

Quando reamostramos a partir de nossa amostra original, amostramos **de maneira uniforme e aleat√≥ria com substitui√ß√£o** e criamos uma reamostragem **que tem o mesmo n√∫mero de elementos que a amostra original**. (Na Quest√£o 4, veremos por que devemos fazer uma nova amostragem com substitui√ß√£o.)

Aqui est√° uma analogia entre estimar `N` e simular a variabilidade de nossas estimativas:

$$\text{computar }N\text{ da popula√ß√£o}$$
$$\text{est√° para}$$
$$\text{computar uma estimativa de }N\text{ a partir de uma amostra}$$

$$\text{assim como}$$

$$\text{simular a distribui√ß√£o de estimativas de }N\text{ usando amostras da popula√ß√£o}$$
$$\text{est√° para}$$
$$\text{simular uma distribui√ß√£o (aproximada) de estimativas de }N\text{ usando reamostras de uma amostra}$$

O processo de reamostragem de nossa amostra original √© conhecido como **reamostragem bootstrap**. Execute a c√©lula abaixo para percorrer uma anima√ß√£o que ilustra como funciona o bootstrapping.

In [None]:
show_bootstrapping_slides()

**Bootstrapping √© uma ideia realmente complicada, ent√£o pe√ßa ajuda se estiver confuso!**

**Quest√£o 2.1.** Escreva uma fun√ß√£o chamada `simulate_resample`.  N√£o deve receber argumentos e deve gerar uma nova amostra (novamente, **com substitui√ß√£o**) a partir dos n√∫meros de s√©rie observados em `observations` e retornar essa nova amostra.  (A reamostragem deve ser um DataFrame como `observations`.)

_Dica:_ Use o m√©todo `.sample`.

In [None]:
def simulate_resample():
    ...

# Esse √© um pequeno truque para garantir a reproducibilidade dos resultados,
# isto √©, garantir que, embora usemos fun√ß√µes aleat√≥rias (.sample), n√≥s obtenhamos o mesmo resultado.
np.random.seed(123)

one_resample = simulate_resample()
one_resample

Posteriormente, usaremos muitas reamostras de uma vez para ver como normalmente s√£o as estimativas.  Muitas vezes n√£o prestamos aten√ß√£o a reamostras √∫nicas, por isso √© f√°cil entend√™-las mal.  Vamos examinar algumas reamostras individuais antes de come√ßarmos a us√°-las.

**Pergunta 2.2.** Fa√ßa um histograma de sua `one_resample` **e** um histograma separado das observa√ß√µes originais. Certifique-se de usar a fun√ß√£o `plot_serial_numbers` que voc√™ definiu anteriormente no laborat√≥rio.

In [None]:
# Histograma da reamostragem.
...

In [None]:
# Histogram das observa√ß√µes originais.
...

**Pergunta 2.3.** Quais das seguintes afirma√ß√µes s√£o verdadeiras:
1. No gr√°fico da reamostragem, n√£o h√° barras em locais que n√£o existiam no gr√°fico das observa√ß√µes originais.
2. No gr√°fico das observa√ß√µes originais, n√£o h√° barras em locais que n√£o existiam no gr√°fico da reamostragem.
3. N√£o h√° n√∫meros de s√©rie duplicados na reamostra.
4. N√£o h√° n√∫meros de s√©rie duplicados nas observa√ß√µes originais.

Atribua `true_statements` a uma lista de declara√ß√µes corretas

In [None]:
true_statements = ...

**Pergunta 2.4.** Crie mais 2 reamostras. Para cada reamostra, trace um histograma e calcule as estimativas baseadas no m√°ximo e na m√©dia usando essa reamostra.

In [None]:
# np.arange(2) pois queremos dois resample. Tamb√©m poder√≠amos usar range(2)
for i in np.arange(2):
    resample = ...

    # Plote o histograma dessa reamostragem.
    ...

    # Calcule as estimativas baseadas na m√©dia e no m√°ximo da reamostragem.
    mean_based_estimate_resample = ...
    max_based_estimate_resample = ...

    # Don't change the following 3 lines:
    print(f"Estimativa baseada na m√©dia da reamostragem {i+1}:", mean_based_estimate_resample)
    print(f"Estimativa baseada no m√°ximo do reamostragem {i+1}:", max_based_estimate_resample)
    print('\n')

H√° uma boa chance de voc√™ descobrir que as estimativas baseadas no m√°ximo das reamostras s√£o exatamente 135 (execute a c√©lula algumas vezes e voc√™ quase certamente ver√° isso acontecer). Voc√™ provavelmente tamb√©m descobrir√° que as duas estimativas baseadas na m√©dia diferem da estimativa baseada na m√©dia da amostra (e uma da outra).

**Pergunta 2.5.** Calcule a probabilidade exata de que uma estimativa baseada no m√°ximo de uma *reamostra* de nossa amostra de observa√ß√µes seja 135 e atribua-a √† vari√°vel `resampling_q5` abaixo. Pode ser √∫til lembrar que o tamanho das ‚Äúobserva√ß√µes‚Äù √© 17.

Observe que esta √© uma quest√£o de **matem√°tica**, n√£o de programa√ß√£o. Pode ser √∫til descobrir sua resposta no papel e ent√£o atribuir `resampling_q5` a uma express√£o que avalie a resposta correta.

_Dica:_  Pense no exemplo da "vov√≥" da Aula 11. Qual √© a probabilidade de qualquer um dos elementos em nossa reamostra ser igual a 135?

In [None]:
resampling_q5 = ...
resampling_q5

A resposta correta √© alta, acima de 60%. Pense por que √© menos prov√°vel que uma estimativa baseada na m√©dia de uma reamostra seja exatamente igual √† estimativa baseada na m√©dia da amostra original em compara√ß√£o com uma estimativa baseada no m√°ximo.

## 3. Reamostragem via Simula√ß√£o üíª

Como a reamostragem de uma grande amostra aleat√≥ria se parece com a amostragem de uma popula√ß√£o, o c√≥digo tamb√©m deve ser quase o mesmo. Isso significa que podemos escrever uma fun√ß√£o que simule a amostragem de uma popula√ß√£o ou a reamostragem de uma amostra.  Se lhe passarmos uma popula√ß√£o como argumento, ele far√° o primeiro; se passarmos uma amostra, ele far√° o √∫ltimo.

**Quest√£o 3.1.** Escreva uma fun√ß√£o chamada `simulate_estimates`. Deve levar 4 argumentos:
- `original_df`: Um DataFrame do qual os dados devem ser amostrados, com 1 coluna chamada `'serial_number'`.
- `sample_size`: O tamanho de cada amostra, um n√∫mero inteiro. (Por exemplo, para fazer a reamostragem, passar√≠amos o n√∫mero de linhas em `original_df` para este argumento.)
- `statistic`: Uma **fun√ß√£o** que calcula uma estat√≠stica em uma amostra. Este argumento √© o **nome de uma fun√ß√£o** que recebe uma s√©rie de n√∫meros de s√©rie como argumento e retorna um n√∫mero (por exemplo, `calculate_mean_based_estimate`).
- `repetitions`: O n√∫mero de repeti√ß√µes a realizar (ou seja, o n√∫mero de reamostras a criar).

Deve-se simular `repetitions` amostras **com substitui√ß√£o** do DataFrame fornecido. Para cada uma dessas amostras, deve-se calcular a estat√≠stica dessa amostra. Ento, deve-se retornar um array contendo o valor daquela estat√≠stica para cada amostra (isso significa que o comprimento do array retornado deve ser igual a `repetitions`).

O c√≥digo abaixo fornece um exemplo de uso da sua fun√ß√£o e descreve como voc√™ pode verificar se a escreveu corretamente.

***Verifique sua resposta***: O histograma que voc√™ v√™ deve ser uma curva em forma de sino centrada em 1000 com a maior parte de sua massa em [800, 1200].

In [None]:
def simulate_estimates(original_df, sample_size, statistic, repetitions):
    # Nossa implementa√ß√£o dessa fun√ß√£o levou cerca de 4-5 linhas de c√≥digo.
    ...

# Isso deve gerar um histograma emp√≠rico com estimativas de duas vezes a m√©dia
# de N exemplos de tamanho 50 se N for 1000. .
# Observe que o argumento da estat√≠stica √© calculado usando calculate_mean_based_estimate.
example_estimates = simulate_estimates(
    bpd.DataFrame().assign(serial_number=np.arange(1, 1000+1)),
    50,
    calculate_mean_based_estimate,
    10000)
bpd.DataFrame().assign(mean_based_estimate = example_estimates).plot(kind = 'hist', density=True, bins=np.arange(500, 1500, 25), ec='w');

Agora podemos voltar √† amostra que realmente observamos (`observations`) e estimar o quanto nossa estimativa de `N` baseada na m√©dia teria variado de amostra para amostra.

**Quest√£o 3.2.** Usando o procedimento bootstrap e as `observa√ß√µes` de amostra, simule a distribui√ß√£o aproximada de **estimativas baseadas em m√©dias** de `N`. Use 5.000 repeti√ß√µes. Armazene as estimativas em `bootstrap_estimates`. (Observe que isso requer apenas uma linha de c√≥digo; chame sua fun√ß√£o `simulate_estimates`.)

Fornecemos um c√≥digo que tra√ßa um histograma, permitindo visualizar as estimativas simuladas.

In [None]:
bootstrap_estimates = ...
bpd.DataFrame().assign(mean_based_estimate = bootstrap_estimates).plot(kind = 'hist', density=True, bins=np.arange(0, 200, 4), ec='w');

**Pergunta 3.3.** Calcule um intervalo que cubra os 95% intermedi√°rios das estimativas de bootstrap.  Verifique se o seu intervalo parece cobrir 95% da √°rea no histograma acima.


_Dicas:_
- Use [`np.percentile`](https://numpy.org/doc/stable/reference/generated/numpy.percentile.html) aqui.
- Se voc√™ estiver usando 5 e 95 como argumentos para `np.percentile`, tente novamente ‚Äì apenas 90% dos dados est√£o entre os percentis 5 e 95!

In [None]:
left_end = ...
right_end = ...
print("Meio 95% das estimativas do bootstrap: [{:f}, {:f}]".format(left_end, right_end))

**Pergunta 3.4.** Digamos que `N`, o par√¢metro populacional que estamos tentando estimar, seja na verdade 150. Escreva o c√≥digo que simula o processo de amostragem e inicializa√ß√£o novamente, como segue:

1. Gere um novo conjunto de observa√ß√µes aleat√≥rias que os Aliados possam ter visto por meio de amostragem do DataFrame populacional que criamos para voc√™ abaixo. Pegue uma amostra de tamanho 70 **sem reposi√ß√£o**. Armazene a amostra no nome da vari√°vel `new_observations`
2. Usando apenas `new_observations` ‚Äì n√£o `population` ‚Äì calcule 5.000 estimativas bootstrap de `N` baseadas em m√©dia. Para fazer isso, chame sua fun√ß√£o `simulate_estimates`.
3. Calcule um intervalo que cubra os 95% intermedi√°rios dessas estimativas baseadas na m√©dia.

In [None]:
population = bpd.DataFrame().assign(serial_number = np.arange(1, 150+1))
new_observations = ...
new_bootstrap_estimates = ...

new_left_end = ...
new_right_end = ...

print("Meio 95% das estimativas do bootstrap: [{:f}, {:f}]".format(new_left_end, new_right_end))

**Pergunta 3.5.** Se voc√™ executasse sua c√©lula acima muitas e muitas vezes, aproximadamente qual porcentagem dos intervalos criados incluiria `N` (150 neste caso)?  Atribua 1, 2, 3, 4 ou 5 √† vari√°vel `simulating_q5` abaixo.

1. 100%
2. 97.5%
3. 95%
4. 5%
5. √â imposs√≠vel dizer.

In [None]:
simulating_q5 = ...

## 4. Com ou sem reposi√ß√£o? üîÇ

Cada vez que reamostramos nossa amostra original, amostramos **com reposi√ß√£o**. O que aconteceria se tent√°ssemos reamostrar sem substitui√ß√£o? Vamos descobrir!

Abaixo, coletaremos outra amostra aleat√≥ria de tamanho 70 da `popula√ß√£o` da qual poderemos reamostrar. Chamaremos isso de `original_sample`.

In [None]:
np.random.seed(23) #Para garantir que obtenhamos o mesmo resultado.
original_sample = population.sample(70)
original_sample

**Pergunta 4.1.** Abaixo, 5.000 vezes, colete uma nova amostra de tamanho 70 **de `original_sample` sem reposi√ß√£o**. Calcule a estimativa baseada na m√©dia em cada reamostra e armazene as estimativas na matriz `estimates_without_replacement`.

Nota: Voc√™ **n√£o** pode usar sua fun√ß√£o `simulate_estimates` aqui, porque ela faz amostras com substitui√ß√£o. Em vez disso, voc√™ ter√° que escrever um novo loop for. √â uma boa ideia come√ßar copiando o c√≥digo da sua fun√ß√£o no 3.1 e alterando as pe√ßas necess√°rias.

In [None]:
estimates_without_replacement = ...
estimates_without_replacement

**Pergunta 4.2.** Se voc√™ completou 4.1 corretamente, notar√° que todas as 5.000 estimativas s√£o id√™nticas e equivalem a aproximadamente 149,5143. Al√©m disso, este n√∫mero √© igual √† estimativa baseada na m√©dia derivada de `amostra_original`, sem qualquer reamostragem:

In [None]:
calculate_mean_based_estimate(original_sample.get('serial_number'))

Por que todas as nossas estimativas s√£o id√™nticas e por que **devemos** amostrar com reposi√ß√£o durante a reamostragem?

<!-- COME√áAR PERGUNTA -->

<!--
COME√áAR PERGUNTA
nome: q4_2
manual: verdadeiro
-->

_Digite sua resposta aqui, substituindo este texto._

<!-- FIM DA PERGUNTA -->



## Linha de chegada üèÅ

Parab√©ns! Voc√™ concluiu o Laborat√≥rio 5.

Para enviar sua tarefa:

1. Selecione `Kernel -> Reiniciar e executar tudo` para garantir que voc√™ executou todas as c√©lulas, incluindo as c√©lulas de teste.
2. Leia o caderno para ter certeza de que est√° tudo bem e que todos os testes foram aprovados.
3. Baixe seu notebook usando `Arquivo -> Baixar como -> Notebook (.ipynb)` e, em seguida, carregue seu notebook para o Moodle.
