# z-teste

### Definição

O teste estatístico conhecido como $z$-teste serve para testar afirmações acerca da **média** de uma população. Esse teste utiliza a estatística denominada $Z$, também chamada de $z$-escore. Essa estatística é definida conforme a equação a seguir.

$$
Z = \frac{\overline{x
}-\mu_0}{\sigma/\sqrt{n}}
$$

Na expressão acima:

- $\mu_0$ corresponde ao valor da média populacional, considerando que a hipótese nula seja verdadeira;

- $\sigma$ é o desvio padrão populacional;

- $n$ é o tamamnho da amostra

- $\overline{x}$ é a média amostral

Lembre-se de que **erro padrão** (*standard error*) de uma estatística é o desvio padrão de sua distribuição amostral ou uma estimativa desse desvio padrão. O $z$-score indica quantos erros padrão existem entre a média da amostra $\overline{x}$ e a suposta média da população ($\mu_0$). Quanto maior o valor do $z$-score, menos provável é a amostra, presumindo que a hipótese nula seja verdadeira.

### Passos para aplicação

Os passos para aplicar o $z$-teste são os descritos a seguir:

1. Declarar as hipóteses
 - $H_0$: $\mu = \mu_0$
 - $H_a$: $\mu \neq \mu_0$ ou $\mu > \mu_0$ ou $\mu < \mu_0$;
2. Computar estatística de teste ($z$-escore) a partir da amostra;
3. Encontrar o $p$-value associado ao $z$-escore;
4. Interpretar o resultado (i.e., aceitar ou rejeitar a hipótese nula, comparando os valores do $p$-value e do nível de significância $\alpha$.).

Com relação ao passo 3 acima, dado um $z$-escore, é possível encontrar o $p$-valor correspondente. Há três casos a considerar, dependendo de como a hipótese alternativa foi definida:
- Para $H_a: \mu > \mu_0$ $\rightarrow$ $p = \Pr(Z > z)$. Área da cauda à direita de $z$ (*right-sided $p$-value*).
- Para $H_a: \mu < \mu_0$ $\rightarrow$ $p = \Pr(Z < z)$. Área da cauda à esquerda de $-z$ (*left-sided p-value*).
- Para $H_a: \mu \neq \mu_0$ $\rightarrow$ $p = 2 \times \Pr(Z < -z) = 2 \times \Pr(Z > z)$. Soma das áreas de ambas as caudas (*two-sided $p$-value*).

Com relação ao passo 4, a decisão por rejeitar $H_0$ ou não é feita comparando os valores de $\alpha$ e do $p$-value. Se o $p$-value for menor do que $\alpha$, dizemos que há evidência forte o suficiente para rejeitar $H_0$. Veja o esquema da figura a seguir ([fonte](https://towardsdatascience.com/what-is-p-value-370056b8244d))

<center>
<img src="https://miro.medium.com/max/1400/1*_LKvLWt0fMOJdfOWkwPXTA.png" width="700px"/>
</center>


### Exemplos

#### Exemplo 1

Exemplo 1 (Fonte: Morettin & Bussab, Estatística Básica 5a edição, pág 334.) A associação das indústrias metalúrgicas está preocupada com o tempo perdido com acidentes de trabalho, cuja média nos últimos tempos tem sido 60 horas/homem por ano e desvio padrão de 20 horas/homem. Tentou-se um programa de prevenção de acidentes, após o qual foi tomada uma amostra de nove indústrias e medido o número de horas/homens perdidos por acidentes, que foi de 50 horas.
Você diria, no nível de 5%, que há evidência de melhoria?

**Solução**

1. Formular $H_0$ e $H_a$
- $H_0: \mu = 60$
- $H_a: \mu < 60$

2. Computar $z$-escore
$$
Z = \frac{\overline{x} - \mu_0}{\sigma/\sqrt{n}} = \frac{50 - 60}{20/\sqrt{9}} = -1.5
$$

3. Encontrar o p-value

$$
p = \Pr(Z < -1.5) \approx 0.067
$$

4. Interpretar o resultado

$$
\alpha = 0.05
$$

$$
p > \alpha
$$

Conclusão: não é possível rejeitar a hipótese nula. Em outras palavras, não há evidência para afirmar que o programa de prevenção de acidentes tenha causado uma diminuição na quantidade de tempo perdido.

In [None]:
import numpy as np
from scipy.stats import norm

alpha = 0.05
z_score = (50-60)/(20/np.sqrt(9))

p_value = norm.cdf(-1.5)
print("O valor-p é: ", p_value)

if p_value < alpha:
    print("Há evidência para afirmar que o programa de prevenção de acidentes " \
    "tenha causado uma diminuição na quantidade de tempo perdido")
else:
    print("Não há evidência para afirmar que o programa de prevenção de acidentes " \
    "tenha causado uma diminuição na quantidade de tempo perdido")

O valor-p é:  0.06680720126885807
Não há evidência para afirmar que o programa de prevenção de acidentes tenha causado uma diminuição na quantidade de tempo perdido


**Observação**

O p-valor está relativamente próximo de 5%, o que pode indicar tendência de melhoria, mas não forte o suficiente para afirmarmos isso com 95% de confiança.

#### Exemplo 2

(Fonte: Morettin & Bussab, Estatística Básica 5a edição, pág 334.). Uma companhia de cigarros anuncia que o índice médio de nicotina dos cigarros que fabrica está abaixo de 23 mg por cigarro.
Um laboratório realiza seis análises desse índice, obtendo: 27, 24, 21, 25, 26, 22.
Sabe-se que o índice de nicotina se distribui normalmente, com variância igual a 4,86 $\text{mg}^2$.
Pode-se aceitar, no nível de 10%, a afirmação do fabricante?

**Solução**. Queremos testar a afirmação do fabricante de que o índice médio de nicotina por cigarro está abaixo de 23 mg.

1. Formular das hipóteses
 - $H_0: \mu = 23$
 - $H_a: \mu < 23$
 
2. Calcular da estatística do teste
$$
Z = \frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}} = \frac{24.17-23}{2.20 / 2.45} \approx 1.302
$$

3. Computar o $p$-value: $p = \Pr(Z > 1.302) \approx 0.096$

4. Interpretar o resultado ($\alpha = 0.1$)

$$
(p < \alpha) \rightarrow \text{rejeitar } H_0
$$

In [12]:
import numpy as np
from scipy.stats import norm

alpha = 0.1
mu_0 = 23
amostra = [27, 24, 21, 25, 26, 22]
x_bar = np.mean(amostra)

# Imprimir a média amostral
print(f"Média amostral: {x_bar:.2f}")

sigma = (np.sqrt(4.86))

# Calcular a estatística do teste
z_score = (x_bar-mu_0)/(sigma/np.sqrt(len(amostra)))
print(f"Estatística do teste (z): {z_score:.4f}")

# Computar o p-valor (teste unicaudal à esquerda)
p_value = norm.cdf(z_score) # pois H_a: mu < 23 (à esquerda)

# Imprimir o p-valor
print(f"p-valor: {p_value:.4f}")

# Interpretar o resultado
if p_value < alpha:
    print("Há evidência para rejeitar a hipótese nula.")
else:
    print("Não há evidência para rejeitar a hipótese nula.")

Média amostral: 24.17
Estatística do teste (z): 1.2963
p-valor: 0.9026
Não há evidência para rejeitar a hipótese nula.


**Conclusão**

No nível de significância de 10%, não podemos aceitar a afirmação do fabricante de que o índice médio de nicotina está abaixo de 23 mg por cigarro, ao nível de significância de 10%. Na verdade, a evidência amostral sugere que o índice médio é maior que 23 mg, pois a média amostral (24,17 mg) é maior que o valor de referência.

#### Exemplo 3

(Fonte: Morettin & Bussab, Estatística Básica 5a edição, pág 334.)
Operários de uma empresa são treinados a operarem uma máquina, cujo tempo X (em horas) de aprendizado é anotado.
Observou-se que X segue de perto a distribuição N(25, 100).
Uma nova técnica de ensino, que supostamente melhora o tempo de aprendizado, foi testada em 16 novos empregados, cujo tempo médio de aprendizado foi de 20,5 horas.
Você diria, no nível significância de 5%, que a nova técnica é melhor que a anterior?

1. Formulação das hipóteses nula e alternativa
- $H_0$: $\mu = 25$
- $H_a$: $\mu < 25$

2. Computar a estatística de teste ($z$-score)

$$
Z = \frac{\overline{x} - \mu_0}{\sigma/\sqrt{n}} = \frac{20.5 - 25}{10/4} = -1.8
$$

3. Computar o $p$-valor

$$
p = \Pr(Z < -1.8) \approx 0.035
$$

4. Interpretação de resultado.

$$
\alpha = 0.05
$$

Conclusão: há evidência para rejeitar a hipótese nula. Há evidência para afirmar que o treinamento foi efetivo.

In [13]:
import numpy as np
from scipy.stats import norm

alpha = 0.05
mu_0 = 25
x_bar = 20.5
n = 16

sigma = np.sqrt(100)

# Calcular a estatística do teste
z_score = (x_bar-mu_0)/(sigma/np.sqrt(n))
print(f'estatística do teste: {z_score}')

# Computar o p-valor (teste unicaudal à esquerda)
p_value = norm.cdf(z_score)
print(f'p-valor: {p_value}')

# Interpretar o resultado
if p_value < alpha:
    print("Há evidência para afirmar que o treinamento foi efetivo.")
else:
    print("Não há evidência para afirmar que o treinamento foi efetivo.")

estatística do teste: -1.8
p-valor: 0.03593031911292579
Há evidência para afirmar que o treinamento foi efetivo.


#### Exemplo 4

(Fonte: http://www.r-tutor.com/elementary-statistics/hypothesis-testing/two-tailed-test-population-mean-known-variance)

O peso médio dos pinguins-rei encontrados em uma dada região da Antártica no ano passado foi 15,4 kg.
Em uma amostra de 35 pinguins coletada no mesmo período deste ano e na mesma região, o peso médio é 14,6 kg.
Suponha que o desvio padrão populacional seja 2,5 kg.
No nível de significância de 0,05, podemos rejeitar a hipótese nula de que o peso médio do pinguim não difere do ano passado?

In [14]:
import numpy as np

alpha = 0.05
x_bar = 14.6
n = 35
sigma = 2.5
mu_zero = 15.4

# Calcular a estatística do teste
z_score = (x_bar - mu_zero)/ (sigma/np.sqrt(n))
print(f'estatística do teste: {z_score}')

# Computar o p-valor (teste bicaudal)
p_value = 2 * norm.cdf(z_score)
print(f'p-valor: {p_value}')

# Interpretar o resultado
if p_value < alpha:
    print("Há evidência para rejeitar a hipótese nula.")
else:
    print("Não há evidência para rejeitar a hipótese nula.")

estatística do teste: -1.8931455305918787
p-valor: 0.058338518686896344
Não há evidência para rejeitar a hipótese nula.


### Condições de aplicabilidade

A seguir, as condições que devem ser verificadas para que o z-teste possa ser aplicado:

- Valor de $\sigma$ é conhecido (em vez de calculado a partir dos dados da amostra),
- Ou a população é aproximadamente normal, ou amostra grande (n>30). No primeiro caso, devemos aplicar algum **teste de normalidade** para fazer a verificação.
- Amostra aleatória simples da população,
- Dados são válidos (i.e., amostra é IID - independente e identicamente distribuída).
