
---

---
# Testes de hipóteses

Este notebook mostra como realizar testes de hipóteses para a média utilizando as funções do módulo [stats](https://docs.scipy.org/doc/scipy/reference/stats.html) da biblioteca Scipy e a função [ztest](https://www.statsmodels.org/devel/generated/statsmodels.stats.weightstats.ztest.html?highlight=ztest#statsmodels.stats.weightstats.ztest) do módulo [statsmodels](https://www.statsmodels.org/devel/index.html).

---

---







##Importações de bibliotecas

In [1]:
import numpy as np
import math
from scipy.stats import norm



---

##Exemplo 1

---



Suponha que a altura média de uma população de universitários é 155 cm, mas um novo estudo (pesquisa) foi feito com uma amostra de estudantes e chegou-se numa altura média diferente. Com um nível de significância igual a 5%, verifique se a nova altura média obtida na pesquisa deve ser aceita ou rejeitada. 

In [2]:
H0_media = 155 # hipótese nula (altura média igual a 155cm)

Alturas obtidas na nova pesquisa:


In [3]:
dados = np.array([151, 140, 149, 152, 158, 143, 152, 141, 135, 145, 160, 149, 147,
       148, 138, 140, 144, 152, 128, 144, 168, 146, 136, 152, 149, 161,
       158, 145, 136, 163, 151, 159, 130, 165, 130, 142, 157, 155, 157,
       137, 142, 142, 146, 173, 150, 147, 157, 146, 155, 129, 132, 150,
       137, 165, 136, 145, 169, 144, 145, 159, 160, 146, 142, 131, 135,
       155, 151, 143, 158, 169, 152, 151, 146, 141, 156, 118, 164, 164,
       137, 141, 163, 155, 167, 165, 154, 133, 151, 149, 152, 139, 149,
       155, 171, 149, 151, 142, 169, 140, 137, 161])

In [4]:
n = len(dados)  # tamanho da amostra de estudantes 
n

100

In [5]:
Ha_media = dados.mean() # hipótese alternativa (altura média diferente de 155cm
Ha_media

148.94

In [6]:
Ha_desvio_padrao = np.std(dados) # desvio-padrão
Ha_desvio_padrao

10.994380382722802

In [7]:
alpha = 0.05/2 # nível de significância (teste bilateral)
alpha

0.025

In [8]:
Zc = norm.ppf(alpha) # retorna o escore z (valor crítico) 
Zc

-1.9599639845400545

##Teste de hipótese Z (manual):

In [9]:
Z = (Ha_media - H0_media) / (Ha_desvio_padrao / math.sqrt(n))
Z

-5.511906800607911

In [12]:
if Z > abs(Zc) or Z < -abs(Zc):  # Z está na região de aceitação
  print('Hipótese nula deve ser rejeitada')
else:
  print('Hipótese nula deve ser aceita')

Hipótese nula deve ser rejeitada


##Valor-p:

In [None]:
p = 2*(1 - norm.cdf(-Z)) # teste bilateral
p

3.5496688033376245e-08

In [None]:
p = 2*norm.cdf(Z) # teste bilateral
p

3.5496688120334884e-08

In [None]:
if p < alpha:
   print('Hipótese nula deve ser rejeitada')
else:
  print('Hipótese nula deve ser aceita')

Hipótese nula deve ser rejeitada


##Usando statsmodels 

[statsmodels](https://www.statsmodels.org/devel/index.html) é um módulo Python que fornece classes e funções para a estimativa de muitos modelos estatísticos diferentes, bem como para a realização de testes estatísticos e exploração de dados estatísticos.

A função utilizada é: [ztest](https://www.statsmodels.org/devel/generated/statsmodels.stats.weightstats.ztest.html?highlight=ztest#statsmodels.stats.weightstats.ztest)



In [14]:
from statsmodels.stats.weightstats import ztest

Z, p = ztest(dados, value = H0_media)

  import pandas.util.testing as tm


In [15]:
p

4.151614205770418e-08

In [16]:
Z

-5.484278021107414



---


## Exemplo 2

---



Funcionários de uma empresa de tecnologia afirmam que a média salarial deles é menor que a de outra empresa concorrente, que é de 45.000,00.
Uma amostra aleatória de 30 funcionários mostrou que a média dos salários é de 43.500,00. Sabe-se, de estudos anteriores, que o desvio padrão dos salários é de 5.200,00. Teste a afirmação do funcionário ao nível de 5% de significância.

In [17]:
n = 30
H0_media = 45000
Ha_media = 43500
Ha_desvio_padrao = 5200
alpha = 0.05

In [18]:
Zc = norm.ppf(alpha) # retorna o escore z (valor crítico) 
Zc

-1.6448536269514729

In [19]:
Z = (Ha_media - H0_media) / (Ha_desvio_padrao / math.sqrt(n))
Z

-1.579968915880287

In [21]:
if Z < Zc:  # Z está na região de aceitação
  print('Hipótese nula deve ser rejeitada')
else:
  print('Hipótese nula deve ser aceita')

Hipótese nula deve ser aceita


##Valor-p:

In [24]:
p = norm.cdf(Z) 
p

0.05705699260607738

In [25]:
if p < alpha:
   print('Hipótese nula deve ser rejeitada')
else:
  print('Hipótese nula deve ser aceita')

Hipótese nula deve ser aceita
