# Aula 24 - Tamanho da amostra

Vamos aprender a estimar um tamanho da amostra um limite para o erro máximo da amostra com probabilidade $\gamma$

In [64]:
from scipy.stats import norm
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
from ipywidgets import interact, interactive, fixed, interact_manual
import ipywidgets as widgets
from math import sqrt

##  Estimativa de $n$ com $\sigma$ conhecido

Passo 1: Precisamos encontrar na normal padrão o valor de $z_{\gamma/2}$ que faz com que a probabilidade $\gamma$ esteja cercando a origem

In [65]:

zγ2 = 0
prob = 0.9
x = np.linspace(-5, 5, 500)
y = norm.pdf(x)

#Função que utiliza o pywidget
@interact(z = (1.65, 2.6, 0.02))
def f(z=0.2):
    global zγ2
    global prob
    plt.plot(x,y)
    plt.fill_between(x,y,where=(x>-z)&(x<z), color="wheat")
    cdfs = norm.cdf([-z,z])
    area = cdfs[1]-cdfs[0]
    plt.text(-0.7, 0.25*norm.pdf(0), "$\gamma={:.2f}\%$".format(area*100), fontsize=16)
    plt.title("Valor $z$ que delimita probabilidade $\gamma$ na $N(0,1)$")
    zγ2 = z
    prob = area

interactive(children=(FloatSlider(value=1.65, description='z', max=2.6, min=1.65, step=0.02), Output()), _dom_…

In [76]:
zγ2

1.93

In [77]:
prob

0.9463931622458901

Agora, com o $z_{\gamma/2}$ encontrado acima, vamos encontrar $n$ tal que este valor seja menor que uma certa tolerância dada por parâmetros do problema

Suponha que gostaríamos de estimar uma amostra que em `prob` $\%$ das vezes está a uma distância máxima $d$ da média amostral. 

Precisamos então projetar uma curva normal estreita o suficiente.

O que quer dizer que o valor $d$ precisa corresponder ao $z_{\gamma/2}$ encontrado acima

Para este exemplo vamos supor que estamos trabalhando com resistores e que $\sigma=50\Omega$ . Qual o tamanho $n$ da amostra precisaríamos ter para que em $95.12\%$ das vezes estivéssemos a uma distância de no máximo $d=10\Omega$ da média populacional $\mu$?

In [90]:
σ = 50

In [91]:
d = 25

In [95]:
#Função que utiliza o pywidget
@interact(n = (1, 80, 1), mu=(950, 1050, 2), d = (10, 40, 2))
def funcao_Xbar(n=1, mu=1000, d=15):
    plt.xlim(mu-50, mu+50)
    d_amostral = σ/sqrt(n)
    x_amostral = np.linspace(mu - 4*d_amostral, mu+4*d_amostral, 100)
    y_X = norm.pdf(x_amostral, loc=mu, scale=d_amostral)
    plt.plot(x_amostral, y_X)
    plt.axvline(mu + d, color="red")
    plt.axvline(mu - d, color="red")
    x_equiv = zγ2*d_amostral
    plt.fill_between(x_amostral, y_X, where=((x_amostral >= (mu - x_equiv))&(x_amostral <= (mu + x_equiv)) ), color="wheat")
    plt.text(mu, 0.5*norm.pdf(mu), "$\gamma={:.2f}\%$".format(prob*100), fontsize=12)
    plt.title("$\overline{X}$ e linhas com erro máximo desejado (probabilidade $\gamma$)")
    


interactive(children=(IntSlider(value=1, description='n', max=80, min=1), IntSlider(value=1000, description='m…

Note, no exemplo acima, que a média $\mu$ específica não importa. O tamanho da amostra determina a variância da distribuição amostral, e a probabilidade será $\gamma$ de conter o valor da média qualquer que seja ela.

Baseado nas propriedades de variáveis aleatórias, isso pode ser representado da seguinte forma:

$N(\mu, \sigma^2) = \mu + N(0, \sigma^2)$

## Resumindo

Os passos para encontrar um tamanho de amostra $n$ que contenha a média com erro máximo $d$ e probabilidade $\gamma$ são:

Encontrar $z_{\gamma/2}$ na normal padrão $Z \sim N(0,1)$

Vamos usar a fórmula de padronização na normal de $\overline{X}$: $z_{\gamma/2} = \frac{\overline{x} - \mu}{\frac{\sigma}{\sqrt{n}}}$

Lembremos que estamos interessados numa distância em relação à média populacional $\mu$, ou seja:

$d = \overline{x} - \mu$

Temos então:

$z_{\gamma/2} = \frac{d}{\frac{\sigma}{\sqrt{n}}}$


Isolando o $n$, encontramos:

$n = ( z_{\gamma/2}\frac{\sigma}{d} )^2$


## Exemplo

Uma fábrica de mantas de chumbo para proteção em radiografias precisa garantir que suas mantas têm uma certa espessura Sabe-se que o desvio padrão é de $0.6mm$

Quantas amostras é preciso ter para garantir que a média amostra $\overline{x}$ esteja a uma distância máxima de $0.2mm$ da média $\overline{\mu}$?