# Testes de hipóteses para uma amostra

Neste notebook, estudamos dois procedimentos de testes de hipóteses para uma amostra:
- $z$-teste
- $t$-teste

## z-teste

### Definição

O teste estatístico conhecido como $z$-teste serve para testar afirmações acerca da **média** de uma população. Esse teste utiliza a estatística denominada $Z$, também chamada de $z$-escore. Essa estatística é definida conforme a equação a seguir.

$$
Z = \frac{\overline{x
}-\mu_0}{\sigma/\sqrt{n}}
$$

Na expressão acima:

- $\mu_0$ corresponde ao valor da média populacional, considerando que a hipótese nula seja verdadeira;

- $\sigma$ é o desvio padrão populacional;

- $n$ é o tamamnho da amostra

- $\overline{x}$ é a média amostral

Lembre-se de que **erro padrão** (*standard error*) de uma estatística é o desvio padrão de sua distribuição amostral ou uma estimativa desse desvio padrão. O $z$-score indica quantos erros padrão existem entre a média da amostra $\overline{x}$ e a suposta média da população ($\mu_0$). Quanto maior o valor do $z$-score, menos provável é a amostra, presumindo que a hipótese nula seja verdadeira.

### Passos para aplicação

Os passos para aplicar o $z$-teste são os descritos a seguir:

1. Declarar as hipóteses
 - $H_0$: $\mu = \mu_0$
 - $H_a$: $\mu \neq \mu_0$ ou $\mu > \mu_0$ ou $\mu < \mu_0$;
2. Computar estatística de teste ($z$-escore) a partir da amostra;
3. Encontrar o $p$-value associado ao $z$-escore;
4. Interpretar o resultado (i.e., aceitar ou rejeitar a hipótese nula, comparando os valores do $p$-value e do nível de significância $\alpha$.).

Com relação ao passo 3 acima, dado um $z$-escore, é possível encontrar o $p$-valor correspondente. Há três casos a considerar, dependendo de como a hipótese alternativa foi definida:
- Para $H_a: \mu > \mu_0$ $\rightarrow$ $p = \Pr(Z > z)$. Área da cauda à direita de $z$ (*right-sided $p$-value*).
- Para $H_a: \mu < \mu_0$ $\rightarrow$ $p = \Pr(Z < z)$. Área da cauda à esquerda de $-z$ (*left-sided p-value*).
- Para $H_a: \mu \neq \mu_0$ $\rightarrow$ $p = 2 \times \Pr(Z < -z) = 2 \times \Pr(Z > z)$. Soma das áreas de ambas as caudas (*two-sided $p$-value*).

Com relação ao passo 4, a decisão por rejeitar $H_0$ ou não é feita comparando os valores de $\alpha$ e do $p$-value. Se o $p$-value for menor do que $\alpha$, dizemos que há evidência forte o suficiente para rejeitar $H_0$. Veja o esquema da figura a seguir ([fonte](https://towardsdatascience.com/what-is-p-value-370056b8244d))

<center>
<img src="https://miro.medium.com/max/1400/1*_LKvLWt0fMOJdfOWkwPXTA.png" width="700px"/>
</center>


### Exemplos

#### Exemplo 1

Exemplo 1 (Fonte: Morettin & Bussab, Estatística Básica 5a edição, pág 334.) A associação das indústrias metalúrgicas está preocupada com o tempo perdido com acidentes de trabalho, cuja média nos últimos tempos tem sido 60 horas/homem por ano e desvio padrão de 20 horas/homem. Tentou-se um programa de prevenção de acidentes, após o qual foi tomada uma amostra de nove indústrias e medido o número de horas/homens perdidos por acidentes, que foi de 50 horas.
Você diria, no nível de 5%, que há evidência de melhoria?

**Solução**

1. Formular $H_0$ e $H_a$
- $H_0: \mu = 60$
- $H_a: \mu < 60$

2. Computar $z$-escore
$$
Z = \frac{\overline{x} - \mu_0}{\sigma/\sqrt{n}} = \frac{50 - 60}{20/\sqrt{9}} = -1.5
$$

3. Encontrar o p-value

$$
p = \Pr(Z < -1.5) \approx 0.067
$$

4. Interpretar o resultado

$$
\alpha = 0.05
$$

$$
p > \alpha
$$

Conclusão: não é possível rejeitar a hipótese nula. Em outras palavras, não há evidência para afirmar que o programa de prevenção de acidentes tenha causado uma diminuição na quantidade de tempo perdido.

In [None]:
import numpy as np
(50-60)/(20/np.sqrt(9))

-1.5

In [None]:
from scipy.stats import norm

norm.cdf(-1.5)

0.06680720126885807

In [None]:
from scipy.stats import norm

norm.cdf(-1.5)

0.06680720126885807

#### Exemplo 2

(Fonte: Morettin & Bussab, Estatística Básica 5a edição, pág 334.). Uma companhia de cigarros anuncia que o índice médio de nicotina dos cigarros que fabrica está abaixo de 23 mg por cigarro.
Um laboratório realiza seis análises desse índice, obtendo: 27, 24, 21, 25, 26, 22.
Sabe-se que o índice de nicotina se distribui normalmente, com variância igual a 4,86 mg2.
Pode-se aceitar, no nível de 10%, a afirmação do fabricante?

**Solução**

1. Formular das hipóteses
 - $H_0: \mu \leq 23$
 - $H_a: \mu > 23$

2. Calcular da estatística do teste
$$
Z = \frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}} = \frac{24.17-23}{2.20 / 2.45} \approx 1.302
$$

3. Computar o $p$-value: $p = \Pr(Z > 1.302) \approx 0.096$

4. Interpretar o resultado ($\alpha = 0.1$)

$$
(p < \alpha) \rightarrow \text{rejeitar } H_0
$$

Conclusão: há evidência para rejeitar a hipótese nula. Em outras palavras, devemos refutar a alegação do fabricante.

In [None]:
import numpy as np
print(np.sqrt(6))
print(np.sqrt(4.86))

2.449489742783178
2.2045407685048604


In [None]:
(24.17-23)/(2.20/2.45)

1.3029545454545473

In [None]:
import numpy as np
amostra = [27, 24, 21, 25, 26, 22]
np.mean(amostra)

24.166666666666668

In [None]:
np.sqrt(4.86)

2.2045407685048604

In [None]:
np.sqrt(6)

2.449489742783178

In [None]:
from scipy.stats import norm
print(1-norm.cdf(1.302))

0.09645819280200052


#### Exemplo 3

(Fonte: Morettin & Bussab, Estatística Básica 5a edição, pág 334.)
Operários de uma empresa são treinados a operarem uma máquina, cujo tempo X (em horas) de aprendizado é anotado.
Observou-se que X segue de perto a distribuição N(25, 100).
Uma nova técnica de ensino, que supostamente melhora o tempo de aprendizado, foi testada em 16 novos empregados, cujo tempo médio de aprendizado foi de 20,5 horas.
Você diria, no nível significância de 5%, que a nova técnica é melhor que a anterior?

1. Formulação das hipóteses nula e alternativa
- $H_0$: $\mu = 25$
- $H_a$: $\mu < 25$

2. Computar a estatística de teste ($z$-score)

$$
Z = \frac{\overline{x} - \mu_0}{\sigma/\sqrt{n}} = \frac{20.5 - 25}{10/4} = -1.8
$$

3. Computar o $p$-valor

$$
p = \Pr(Z < -1.8) = 0.04
$$

4. Interpretação de resultado.

$$
\alpha = 0.05
$$

Conclusão: há evidência para rejeitar a hipótese nula. Há evidência para afirmar que o treinamento foi efetivo.

In [None]:
z = (20.5 - 25)/(10/4)
print(z)

-1.8


In [None]:
from scipy.stats import norm
print(norm.cdf(-1.8))

0.03593031911292579


#### Exemplo 4

(Fonte: http://www.r-tutor.com/elementary-statistics/hypothesis-testing/two-tailed-test-population-mean-known-variance)

O peso médio dos pinguins-rei encontrados em uma dada região da Antártica no ano passado foi 15,4 kg.
Em uma amostra de 35 pinguins coletada no mesmo período deste ano e na mesma região, o peso médio é 14,6 kg.
Suponha que o desvio padrão populacional seja 2,5 kg.
No nível de significância de 0,05, podemos rejeitar a hipótese nula de que o peso médio do pinguim não difere do ano passado?

In [None]:
import numpy as np
x_bar = 14.6
n = 35
sigma = 2.5
mu_zero = 15.4
z_score = (x_bar - mu_zero)/ (sigma/np.sqrt(n))
print(z_score)

p_valor = 2 * norm.cdf(z_score)
print(p_valor)

-1.8931455305918787
0.058338518686896344


### Condições de aplicabilidade

A seguir, as condições que devem ser verificadas para que o z-teste possa ser aplicado:

- Valor de $\sigma$ é conhecido (em vez de calculado a partir dos dados da amostra),
- População é aproximadamente normal ou amostra grande (n>30). No primeiro caso, devemos aplicar algum **teste de normalidade**.
- Amostra aleatória simples da população,
- Dados são válidos (i.e., amostra é IID - independente e identicamente distribuída).


## t-teste

No z-teste, consideramos que o valor de $\sigma$ (desvio padrão populacional) é conhecido na computação do z-escore. Em situações nas quais esse parâmetro não é conhecido, poderíamos pensar (erroneamente) que podemos computar o desvio padrão $s$ da amostra e usá-lo no lugar de $\sigma$ para computar o erro padrão:

Entretanto, o uso de $s$ em vez de $\sigma$ adicionaria ainda mais incerteza às inferências realizadas. Nesse caso (em que $\sigma$ é desconhecido), não podemos usar o z-escore como estatística. Em vez disso, devemos usar o t-escore, em um procedimento conhecido como **t-teste**.

> O *t-teste para uma amostra* é um teste de hipótese para verificar uma afirmação acerca de média de uma população. No t-teste, a estatística segue a distribuição t de Student sob a hipótese nula. Esse teste deve ser aplicado quando o erro padrão (por conta de $\sigma$ ser desconhecido) é substituído por uma estimativa computada a partir dos dados da amostra.

Assim como no z-teste, o objetivo do t-teste é verificar uma alegação feita acerca da média de uma população. Sendo assim, o contexto de uso to t-teste é aquele em que devemos realizar uma comparação entre uma média amostral e um valor dado (valor esse correspondente à média populacional, considerando que a hipóteses nula seja verdadeira), quando a variância da população é desconhecida.

Os passos para aplicar o t-teste são os descritos a seguir:

1. Declarar as hipóteses
 - $H_0$: $\mu = \mu_0$
 - $H_a$: $\mu \neq \mu_0$ ou $\mu > \mu_0$ ou $\mu < \mu_0$;
2. Computar estatística de teste (t-escore)

a partir da amostra;
3. Encontrar o $p$-value associado ao $t$-escore;
4. Interpretar o resultado, i.e., aceitar ou rejeitar a hipótese nula.

Compare o procedimento acima com o fornecido anteriormente relativo ao z-teste. Você deve concluir que a única diferença está no passo 2: em vez de usarmos o z-escore, usamos o t-escore, que é a estatístca usada no t-teste. O t-escore segue a distribuição $t$ de Student. A definição dessa estatística é dada a seguir.

$$
t = \frac{\overline{x} - \mu_0}{s/\sqrt{n}}
$$

Na expressão acima, temos que:

- $n$ é a quantidade de elementos da amostra;

- $\overline{x}$ é o valor da média computado na amostra disponível;

- $s$ é o valor do desvio padrão computado na amostra disponível;

- $\mu_0$ é o valor da média populacional, considerando que $H_0$ seja verdadeira.

A estatística t segue a disctribuição t de Student com parâmetro $\nu$, em que $\nu = n-1$.


In [None]:
import numpy as np
amostra = [2998, 3740, 2031, 2804, 2454, 2780, 2203, 3803, 3948, 2144]
mu_0 = np.mean(amostra)
print(mu_0)

erro_amostral = np.std(amostra, ddof=1)
print(erro_amostral)

2890.5
719.8034068024716


### Exemplo

Considere que os números a seguir correspondem a uma amostra aleatória simples de tamanho 10 de pesos de recém-nascidos, medidos em gramas.

``
2998, 3740, 2031, 2804, 2454, 2780, 2203, 3803, 3948, 2144
``

Seja testar, no nível de significância de 10%, a seguinte alegação usando essa amostra:

> Bebês com [Sudden Infant Death Syndrome](https://en.wikipedia.org/wiki/Sudden_infant_death_syndrome) (SIDS) possuem peso de nascimento médio diferente daquele encontrado na população de bebês em geral, que é $\mu_0$ = 3300 gramas.

Sendo assim, as hipóteses nula e alternativa podem ser declaradas da seguinte forma:

##### (1) Formulação das hipóteses

- $H_0: \mu = 3300$
- $H_a: \mu \neq 3300$ (two-sided)

#####  (2) Computação do $t$-score:

A partir da amostra aleatória simples (n = 10) de pesos (medidos em gramas) no nascimento de bebês com SIDS, calculamos:

- $\overline{x} = 2890.5$ gramas
- $s = 720$ gramas

A seguir, computamos a estatística t (i.e., o t-escore):

$$
t = \frac{\overline{x} - \mu_0}{s/\sqrt{n}} = \frac{2890.5 - 3300}{720/\sqrt{10}} = -1.80
$$

Essa estatística segue a distribuição t de Student com parâmetro $\nu = 10 - 1 = 9$ (graus de liberdade).

Note que estamos testando a validade da hipótese $H_0: \mu_0 = 3300$ gramas. No teste bicaudal (*two-sided test*) com nível de significância 10%, encontramos p-value = 0.1054. Esse valor é maior do que 0.10. Sendo assim, a conclusão é que não podemos rejeitar $H_0$, dado que a evidência contra ela é fraca: a média amostral (2890.5 gramas) não é significativamente diferente de 3300 gramas. Portanto, não há evidência suficiente para dar suporte à alegação feita acima.


A célula de código a seguir ilustra de que forma o valores usados nos cálculos do exemplo acima poderiam ser calculados.

In [None]:
import numpy as np
from scipy.stats import t

amostra = np.array([2998, 3740, 2031, 2804, 2454, 2780, 2203, 3803, 3948, 2144])

# tamanho da amostra
n = 10

mu_0 = 3300
nu = n-1

x_bar = np.mean(amostra)
print("Média da amostra de bebês: %.4f" % x_bar)

s = np.std(amostra, ddof=1)
print("Desvio padrão da amostra de bebês: %.4f" % s)

t_score = (x_bar - mu_0)/(s/np.sqrt(n))
print("t-escore: %.4f" % t_score)

# repare que é um teste bicaudal
pvalue = 2 * t.cdf(t_score, df=nu)
print("p-valor: %.4f" % pvalue)

Média da amostra de bebês: 2890.5000
Desvio padrão da amostra de bebês: 719.8034
Desvio padrão não corrigido: 682.8655
t-escore: -1.8964
p-valor: 0.0904


Na célula de código acima, repare o uso do argumento ddof. Da documentação do numpy:

>``ddof: int``, optional
Means Delta Degrees of Freedom. The divisor used in calculations is N - ddof, where N represents the number of elements. By default ddof is zero.



### Condições de aplicabilidade

Para podermos aplicar o t-teste para uma amotra, devemos nos assegurar de que as condições a seguir são satisfeitas.

1. Amostra foi obtida por meio de amostragem aleatória simples;

2. A população é normalmente distribuída ou a amostra é grande.