# O problema

Ailton trabalha com controle de qualidade numa empresa farmaceutica chamada Zeta. Ele precisa testar se o novo lote de comprimidos Biripopina tem em média 10g da substância axitomicina por comprimido. Para isso ele precisa tirar da esteira de produção uma Amostra Aleatória Simples sem Reposição que represente bem a população, que neste caso é o lote de 100 mil comprimidos Biripopina. Qual deve ser o tamanho da amostra para se obter nível de confiança sobre o teste seja de 90%?

obs: A Norma BTB de padrões de qualidade da insdustria farmaceutica estabelece que a quantidade axitomicina não deve ultrapassar 1,5g de distância da média desejada (8,5g < quantidade de axitomicina < 11,5g). Além disso, deve-se levar em conta que a medição da quantidade de axitomicina no comprimido de Biripopina causa a destruição do mesmo, portanto a amostragem é sem reposição. 

A seguir veremos 2 diferentes abordagens para resolver esse problema.

# 1ª Abordagem 

Essa abordagem trata da Amostragem Aleatória Simples sem Reposição (AASs), que é o caso usado em amostras que precisam ser destruídas após medição do parâmetro desejado.

A foto a seguir foi tirada do livro *Elementos de Amostragem, Heleno Bolfarine & Wilton O. Bussab, 1ª ed, Editora Blucher, pg 79*: 


![](imgs/7.png)

A enquação para calcular o tamanho necessário da amostra é:

$n = \frac{1}{\frac{D}{\sigma^2} + \frac{1}{N}}$

O $S$ que aparece na fórmula do livro é o desvio padrão populacional, e para não causar confusão eu substituí por $\sigma$ que é a notação mais usada.

O valor $D$ que aparece na equação é $D = \frac{\alpha^2}{z_{\alpha^2}}$, ou seja, a margem de erro dividido pela estatística $z$ para a margem de erro (nível de significância) $\alpha$.

O valor $N$ é o tamanho da minha população que é o lote de 100 mil comprimidos de Biripopina.

Vamos lá identificar valores restantes.


### 1º Definir o Nível  de Significância $\alpha$

Na hora de realizarmos um teste de hipótese, queremos evitar o [Erro do Tipo I](https://pt.wikipedia.org/wiki/Erro_do_tipo_I). O que seria o Erro do Tipo I? É dizer que minha hipótese nula (quantidade média de axitomicina é 10g no meu lote) é falsa sendo que na verdade ela é verdadeira. Quando definimos $\alpha=0.1$ por exemplo, estamos dizendo que aceitamos cometer esse tipo de erro com 10% de probabilidade.

O exercício diz que se espera um Nível de Confiança de 90%, portando nosso Nível de Significância será de 10%.

### 2º Obter o valor de $z$ 

Precisamos do valor z cujo nível de confiança seja 90%. Como a tabela que usaremos a seguir mostra a distribuição de probabilidade acumulada, precisamos buscar na tabela o valor de 0.95, parece contraditório mas desse modo poderemos usar o valor de z tal que $P(-z \leq Z \leq z) = 0.90$, ou seja, iremos distribuir os 10% de nível de significância para as duas caudas, 5% pra cauda de cima e 5% pra cauda de baixo. Isso é conhecido como [teste bicaudal](https://pt.wikipedia.org/wiki/Teste_bicaudal#:~:text=Em%20teste%20de%20hip%C3%B3teses%2C%20um,de%20um%20conjunto%20de%20dados.).

Conforme destacado em vermelho no print a seguir, não temos um valor exato de 0.95 na tabela, o valor que chega mais próximo desse valor é 0.9495 e isso nos fornece o valor de z= 1.6 + 0.04 = 1.64.

![](imgs/6.png)

### 3º Obter o valor de $\sigma$

Não sabemos o valor do desvio padrão da população e agora?

As foto a seguir foi tirada do livro *Estatística Básica, Pedro A. Morettin, 8ª ed, editora Saraiva, pg. 291*
![](imgs/10.png)

As foto a seguir foi tirada do livro *Estatística Teoria e Aplicações, David M. Levine, 6ª ed, editora LTC, pg. 319*
![](imgs/11.png)

Portanto, assumindo que a quantidade de axitomicina se distribui normalmente nos comprimidos de Biripopina, podemos usar valores anteriores de desvio padrões amostrais dos comprimidos de Biripopina como uma estimativa de $\sigma$. Vamos supor que numa amostra de 20 comprimidos de Biripopina que você recolheu mês passado, você obteve um desvio padrão de 1.5, então nossa estimimativa desvio padrão populacional será $\sigma=1.5$.


### Calculando Tamanho da Amostra

Com os valores necessários em mãos vamos aos cálculos:

$D = \frac{\alpha^2}{z_{\alpha}^2} = \frac{0.5^2}{1.64^2} = 0.092950624$

$n = \frac{1}{\frac{0.092950624}{1.5^2} + \frac{1}{100000}} = 601.52$

Arredondando nossa amostra para cima, precisaremos ter o tamanho amostral de pelo menos 602 comprimidos para que eu tenha um nível de confiança de 90% no meu teste.

Caso queira usar uma planilha para obter esse resultado clique [aqui](https://docs.google.com/spreadsheets/d/1vOknRuB5RF-caFXv1EP8tgHrDXJPrHj7-gxtTI4rqR8/edit#gid=0)


# Abordagem 2

Essa abordagem é a mais simples mas a referência que obtive foi um vídeo, precisaríamos de ter uma referência mais confiável. Olhando os comentários do vídeo, o próprio autor do vídeo responde qual a referência:

![](imgs/9.png)

O autor do vídeo usa uma anotação de aula de uma universidade particular do SP. Portanto <mark>ESSA ABORGEM NÃO SE EMBASA EM FONTES CONFIÁVEIS</mark>, tome cuidado caso deseje usá-la.

Dado o aviso, o vídeo em questão é o seguinte [Estatística - Como calcular o tamanho de uma amostra](https://www.youtube.com/watch?v=rQhGUyqUIqk).

Segundo essa abordagem precisamos saber:

* N: é o tamanho da população, no nosso caso é o tamanho do lote que é 100 mil comprimidos.

* $\epsilon$: a margem de erro desejada que no nosso caso é $\epsilon=0.10$.

Primeiro estimamos o tamanho da nossa amostra pela seguinte fórmula:

$n_0 = \frac{1}{(\frac{\epsilon}{2})²} = \frac{1}{(\frac{0.10}{2})²} = 400$

Depois obtemos o tamanho da amostra acrescentando o tamanho da população N:

$n = \frac{N x n_0}{N + n_0} = \frac{100000 x 400}{100000 + 400} = 398.4$


Arredondando pra cima temos que o tamanho da minimo da amostra deve ser de pelo menos 399. 

Para fazer esse cálculo usando uma planilha clique [aqui](https://docs.google.com/spreadsheets/d/1vOknRuB5RF-caFXv1EP8tgHrDXJPrHj7-gxtTI4rqR8/edit#gid=2137941145).

# Poder do Teste

A foto a seguir foi tirada do livro *Estatística Básica, Pedro A. Morettin, 8ª ed, editora Saraiva, pg. 351*.
![](imgs/13.png)

Portanto, o poder do teste nada mais é do que a probabilidade de rejeitar a hipótese nula $H_0$:

$P(\bar{X} < 8.5 \ \text{ou} \  \bar{X} > 11.5)$

Parafrasiando o *livro Estatística Teoria e Aplicações, David M. Levine, 6ª ed, editora LTC* na pg. 310 e parágrafo 1:

<mark>"*A eficácia de um teste (ou poder de um teste), é a probabilidade de que você venha a rejeitar a hipótese nula quando ela é falsa e deve, efetivamente, ser rejeitada.*"</mark>

Iremos realizar as seguintes verificações:

* **processo está controlado (amostra adequada)**: criar uma amostra aleatória simples sem reposição de tamanho 602 que venha de uma distribuição normal de média 10 e variância 1.5 e realizar os teste de hipótese e também obter o poder de tal teste.

* **processo não está controlado (amostra adequada)**: criar uma amostra aleatória simples sem reposição de tamanho 602 que venha de uma distribuição normal de média 12 e variância 1.5 e realizar os teste de hipótese para ver se haverá rejeição da hipótese nula.

* **processo está controlado (amostra não está adequada)**: criar uma amostra aleatória simples sem reposição de tamanho 20 que venha de uma distribuição normal de média 10 e variância 1.5 e realizar os teste de hipótese e também obter o poder de tal teste. 

* **processo não está controlado (amostra não adequada)**: criar uma amostra aleatória simples sem reposição de tamanho 20 que venha de uma distribuição normal de média 12 e variância 1.5 e realizar os teste de hipótese para ver se haverá rejeição da hipótese nula.

A seguir temos a definição de nosso teste hipótese:

$H_0: \mu = 10$

$H_1: \mu \neq 10$

### Processo Está Controlado (amostra adequada)

In [76]:
set.seed(seed = 1)
lote_de_biripopina = rnorm(n=100000, mean = 10, sd = 1.5)
amostra = sample(x = lote_de_biripopina, size = 602, replace = FALSE)
t.test(x=amostra,
       alternative = "two.sided",
       mu = 10, 
       conf.level = 0.9)


	One Sample t-test

data:  amostra
t = 0.21934, df = 601, p-value = 0.8265
alternative hypothesis: true mean is not equal to 10
90 percent confidence interval:
  9.912067 10.114945
sample estimates:
mean of x 
 10.01351 


In [77]:
desvio_padrao_amostral = sd(amostra)
desvio_padrao_amostral

In [78]:
power.t.test(n = 602, 
             delta = 10.01351 - 10, 
             sd = desvio_padrao_amostral, 
             sig.level = 0.1,
             type = "one.sample",
             alternative = "two.sided")


     One-sample t test power calculation 

              n = 602
          delta = 0.01351
             sd = 1.510802
      sig.level = 0.1
          power = 0.0769781
    alternative = two.sided


### Processo não Está Controlado (amostra adequada):

In [81]:
set.seed(seed = 1)
lote_de_biripopina = rnorm(n=100000, mean = 12, sd = 1.5)
amostra = sample(x = lote_de_biripopina, size = 602, replace = FALSE)
t.test(x=amostra,
       alternative = "two.sided",
       mu = 10, 
       conf.level = 0.9)


	One Sample t-test

data:  amostra
t = 32.7, df = 601, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 10
90 percent confidence interval:
 11.91207 12.11495
sample estimates:
mean of x 
 12.01351 


In [82]:
desvio_padrao_amostral = sd(amostra)
desvio_padrao_amostral

In [83]:
power.t.test(n = 602, 
             delta = 12.01351 - 10, 
             sd = desvio_padrao_amostral, 
             sig.level = 0.1,
             type = "one.sample",
             alternative = "two.sided")


     One-sample t test power calculation 

              n = 602
          delta = 2.01351
             sd = 1.510802
      sig.level = 0.1
          power = 1
    alternative = two.sided


### Processo Está Controlado (amostra não está adequada)

In [84]:
set.seed(seed = 1)
lote_de_biripopina = rnorm(n=100000, mean = 10, sd = 1.5)
amostra = sample(x = lote_de_biripopina, size = 20, replace = FALSE)
t.test(x=amostra,
       alternative = "two.sided",
       mu = 10, 
       conf.level = 0.9)


	One Sample t-test

data:  amostra
t = -1.5779, df = 19, p-value = 0.1311
alternative hypothesis: true mean is not equal to 10
90 percent confidence interval:
  8.994543 10.045978
sample estimates:
mean of x 
  9.52026 


In [85]:
desvio_padrao_amostral = sd(amostra)
desvio_padrao_amostral

In [86]:
power.t.test(n = 20, 
             delta = 9.958157 - 10, 
             sd = desvio_padrao_amostral, 
             sig.level = 0.1,
             type = "one.sample",
             alternative = "two.sided")


     One-sample t test power calculation 

              n = 20
          delta = 0.041843
             sd = 1.359687
      sig.level = 0.1
          power = 0.06526047
    alternative = two.sided


### Processo não Está Controlado (amostra não adequada):

In [1]:
set.seed(seed = 1)
lote_de_biripopina = rnorm(n=100000, mean = 12, sd = 3)
amostra = sample(x = lote_de_biripopina, size = 20, replace = FALSE)
t.test(x=amostra,
       alternative = "two.sided",
       mu = 10, 
       conf.level = 0.9)


	One Sample t-test

data:  amostra
t = 1.7112, df = 19, p-value = 0.1033
alternative hypothesis: true mean is not equal to 10
90 percent confidence interval:
  9.989086 12.091955
sample estimates:
mean of x 
 11.04052 


In [2]:
desvio_padrao_amostral = sd(amostra)
desvio_padrao_amostral

In [3]:
power.t.test(n = 20, 
             delta = 11.52026 - 10, 
             sd = desvio_padrao_amostral, 
             sig.level = 0.1,
             type = "one.sample",
             alternative = "two.sided")


     One-sample t test power calculation 

              n = 20
          delta = 1.52026
             sd = 2.719374
      sig.level = 0.1
          power = 0.7777768
    alternative = two.sided
