# Teste *Z* para uma média populacional (variância conhecida)

Investigar a significância da diferença entre uma média populacional assumida
$\mu_0$ e uma média amostral $\overline{x}$.

## Limitações

1. É necessário que a variância populacional $\sigma^2$ seja conhecida. Se $\sigma^2$ não for conhecido, veja o teste $t$ para uma média populacional.

2. O teste é preciso se a população tiver distribuição normal. Se a população não normal, o teste ainda fornecerá um guia aproximado. 

## Método
De uma população com média assumida $\mu_0$ e variância conhecida $\sigma^2$, uma amostra aleatória de tamanho $n$ é tomada e a média amostral $x$ é calculada. A estatística do teste

$$ Z = \dfrac{\overline{x} - \mu_0}{\sigma/\sqrt{n}}$$

pode ser comparado com a distribuição normal padrão usando um teste uni ou bicaudal, com região crítica de tamanho $\alpha$.

## Hipóteses 

A hipótese nula do teste é que a média amostral é igual a média populacional. Já a hipótese alternativa é que essas médias são diferentes. Logo,

$$ H_0 : \overline{x} = \mu_0  $$

$$ H_1 : \overline{x} \neq \mu_0  $$

### Exemplo

(Exemplo 12.2 - Estatística Básica Bussab e Moretin) Uma máquina automática para encher pacotes de café enche-os segundo uma distribuição normal, com média $\mu$ e variância sempre igual a 400 $g^2$. A máquina foi regulada para $\mu$ = 500 g. Desejamos, periodicamente, colher uma amostra de 16 pacotes e verificar se a produção está sob controle, isto é, se $\mu$ = 500 g ou não. Se uma dessas amostras apresentasse uma média $\overline{x}$ = 492 g, você pararia ou não a produção para regular a máquina?

**Resolução**

1) A Média populacional é igual a 500 g e a amostral a 492 g.

2) variância é igual a $400/16 = 25$ e desvio padrão igual a $5$.

Então o peso dos pacotes de café seguem uma distribuição com $X \sim N(500,25)$.

Eu quero que a média seja estatisticamente igual a 500 g. será que 492 g é estatisticamente igual a 500 g ? Usaremos a fórmula anterior para calcular o valor da estatística $Z$, conforme a seguir

$$ Z = \dfrac{492 - 500}{5} = -\dfrac{8}{5} = -1.6$$

Para um teste de igualdade o teste é bilateral, então com o $\alpha$ igual a 5% (2.5% para cada cauda da distribuição) temos que $Z$ deve ficar entre $-1.96$ e $1.96$ ou $-1.96 \leq Z \leq +1.96$. Para que a hipótese nula de igualdade das médias seja aceita o valor $Z$ encontrado deve estar dentro do nosso intervalo.  Como o valor de $-1.6$ fica dentro do intervalo que criamos, podemos considerar que a **hipótese nula não pode ser rejeitada**. **Logo as médias são estatisticamente iguais.**

Outra forma seria criar um intervalo para saber se o valor $492$ está dentro desse intervalo

$$ -1.96 = \dfrac{x - 500}{5} = x - 500 = -9.8 \rightarrow x = 490.2 $$

$$ 1.96 = \dfrac{x - 500}{5} = x - 500 = 9.8 \rightarrow x = 509.8 $$

Temos um intervalo em que $490.2 \leq x \leq 509.8$. Como o valor de 492 fica dentro desse intervalo temos que **médias populacional e amostral são estatisticamente iguais**.

## Usando *Python* para realizar o teste

Importando as bibliotecas.

In [1]:
import scipy.stats as st
import numpy as np

Criando uma função para gerar os resultados do teste para médias.

In [32]:
def z_teste(media_populacional, media_amostral, variancia_amostral, n, nivel_confianca):
  desvio_padrao = np.sqrt(variancia_amostral/n) #Calculando o desvio padrão da amostra.
  z = (np.abs(media_populacional - media_amostral))/desvio_padrao #calculando o valor de z.
  z_critico = st.norm.ppf(1-(1-nivel_confianca)/2) #calculando os valores críticos.
  valor_critico1 = (-z_critico*desvio_padrao)+media_populacional #valor crítico inferior para a média.
  valor_critico2 = (z_critico*desvio_padrao)+media_populacional #valor crítico superior para a média.
  pvalor = st.norm.sf(abs(z))*2 #cálculo do p-valor

  if z >= -z_critico and z <= z_critico:
    print('A média amostral é estatisticamente igual a média populacional : Não rejeita-se a hipótese nula.')
    print('O valor Z (%4.2f) está dentro do intervalo [%5.2f,%5.2f].' %(z, -z_critico, +z_critico))
    print('O valor da média amostral %5.2f está dentro do intervalo [%5.2f, %5.2f] a um nível de confiança de %d%%.' %(media_amostral, valor_critico1, valor_critico2, nivel_confianca*100))
    print('p-valor do teste : %5.4f.' %(pvalor))
  else:
    print('A média amostral não é estatisticamente igual a média populacional : Rejeita-se a hipótese nula.')
    print('O valor Z (%4.2f) está fora do intervalo [%5.2f,%5.2f].' %(z, -z_critico, +z_critico))
    print('O valor da média amostral %5.2f está fora do intervalo [%5.2f, %5.2f] a um nível de confiança de %d%%.' %(media_amostral, valor_critico1, valor_critico2, nivel_confianca*100))
    print('p-valor do teste : %5.4f.' %(pvalor))

Aplicando a função.

In [33]:
z_teste(500,492,400,16,.99)

A média amostral é estatisticamente igual a média populacional : Não rejeita-se a hipótese nula.
O valor Z (1.60) está dentro do intervalo [-2.58, 2.58].
O valor da média amostral 492.00 está dentro do intervalo [487.12, 512.88] a um nível de confiança de 99%.
p-valor do teste : 0.1096.


Sabe-se que o consumo mensal per capita de um determinado produto tem distribuição normal, com desvio padrão $2$ $kg$. A diretoria de uma firma que fabrica esse produto resolveu que retiraria o produto da linha de produção se a média de consumo per capita fosse menor que $8$ $kg$. Caso contrário, continuaria a fabricá-lo. Foi realizada uma pesquisa de mercado, tomando-se uma amostra de $25$ indivíduos, e verificou-se que $\sum_{i=1}^{25} X_i  = 180$ $kg$, onde $X_i$ representa o consumo mensal do $i$-ésimo indivíduo da amostra.

Com as informações fornecidas, a produção deve ou não parar ?

In [34]:
#desvio padrão = 2
# n=25
#variância amostral = 10
# média amostral = 180/25 = 7.2
#se a média de consumo per capita for menor que 8, a produção parará.
#se 7.2 for estatisticamente igual a 8, então a produção não parará
#se 7.2 for estatisticamente diferente, então a produção parará, pois 8 > 7.2.

z_teste(8,7.2,10,25,.95)

A média amostral é estatisticamente igual a média populacional : Não rejeita-se a hipótese nula.
O valor Z (1.26) está dentro do intervalo [-1.96, 1.96].
O valor da média amostral  7.20 está dentro do intervalo [ 6.76,  9.24] a um nível de confiança de 95%.
p-valor do teste : 0.2059.


In [35]:
z_teste(8,7.2,10,25,.99)

A média amostral é estatisticamente igual a média populacional : Não rejeita-se a hipótese nula.
O valor Z (1.26) está dentro do intervalo [-2.58, 2.58].
O valor da média amostral  7.20 está dentro do intervalo [ 6.37,  9.63] a um nível de confiança de 99%.
p-valor do teste : 0.2059.


Como a média amostral é estatisticamente igual a média populacional, então a produção não irá parar.

### Exemplo 2

A associação dos proprietários de indústrias metalúrgicas está muito preocupada com o tempo perdido com acidentes de trabalho, cuja média, nos últimos tempos, tem sido da ordem de 60 horas/homem por ano e desvio padrão de 20 horas/homem. Tentou-se um programa de prevenção de acidentes, após o qual foi tomada uma amostra de nove indústrias e medido o número de horas/homens perdidas por acidente, que foi de 50 horas. Você diria, no nível de 5%, que há evidência de melhoria?

In [36]:
#média populacional = 60 horas/homem
#desvio padrão = 20 horas/homem
# variância amostral = 60 horas/homem
# n=9
# média amostral = 50 horas/homem
# alfa = 5%

z_teste(60,50,60,9,.95)

A média amostral não é estatisticamente igual a média populacional : Rejeita-se a hipótese nula.
O valor Z (3.87) está fora do intervalo [-1.96, 1.96].
O valor da média amostral 50.00 está fora do intervalo [54.94, 65.06] a um nível de confiança de 95%.
p-valor do teste : 0.0001.


Concluímos que houveram melhorias, pois a média amostral, além de ser estatisticamente não igual a média populacional, também é menor. 

### Exemplo 3

O salário médio dos empregados das indústrias siderúrgicas de um país é de 2,5 salários mínimos, com um desvio padrão de 0,5 salários mínimos. Uma indústria é escolhida ao acaso e desta é escolhida uma amostra de 49 empregados, resultando um salário médio de 2,3 salários mínimos. Podemos afirmar que esta indústria paga salários inferiores à média nacional, com o nível de 5% ?

In [37]:
# média populacional = 2.5 salários
# média amostral = 2.3 salários
# desvio padrão = 0.5 salário
# n = 49
# variância amostral = 3.5 salários

z_teste(2.5,2.3,3.5,0.5,.95)

A média amostral é estatisticamente igual a média populacional : Não rejeita-se a hipótese nula.
O valor Z (0.08) está dentro do intervalo [-1.96, 1.96].
O valor da média amostral  2.30 está dentro do intervalo [-2.69,  7.69] a um nível de confiança de 95%.
p-valor do teste : 0.9397.


Concluímos que esta indústria não paga salários inferiores à média populacional.

### Exemplo 4

Uma companhia de cigarros anuncia que o índice médio de nicotina dos cigarros que fabrica apresenta-se abaixo de $23$ $mg$ por cigarro. Um laboratório realiza $6$ análises desse índice, obtendo: $27, 24, 21, 25, 26, 22$. Sabe-se que o índice de nicotina se distribui normalmente, com variância igual a $4,86$ $mg^2$ . Pode-se aceitar, no nível de $10\%$, a afirmação do fabricante?

In [39]:
#n = 6
# média amostral
media_amostral = np.mean([27,24,21,25,26,22])
#variância = 4.86

z_teste(2.3,media_amostral,4.86,6,.9)

A média amostral não é estatisticamente igual a média populacional : Rejeita-se a hipótese nula.
O valor Z (24.30) está fora do intervalo [-1.64, 1.64].
O valor da média amostral 24.17 está fora do intervalo [ 0.82,  3.78] a um nível de confiança de 90%.
p-valor do teste : 0.0000.


Conforme os resultados acima, rejeitamos a afirmação do fabricante.

## Referências

KANJI, Gopal K. **100 statistical tests**. Sage, 2006.

MORETTIN, Pedro Alberto; BUSSAB, Wilton Oliveira. **Estatística básica**. Saraiva Educação SA, 2017.

