# Testes de Hipótese

Referência:

Montgomery, D. C., & Runger, G. C. (2021). Estatística Aplicada e Probabilidade para Engenheiros (7th ed.). Grupo GEN. https://app.minhabiblioteca.com.br/books/9788521637448. Seção 9.1 e 9.2.

**Objetivo: ao fim desta aula, o aluno será capaz de conduzir e interpretar um teste de hipótese**

Um problema filosófico que é uma parte da ciência há muito tempo é o de definir quantos testes são necessários para aceitar algo como verdade. Hoje, um paradigma amplamente aceito é o que foi iniciada por Karl Popper. O raciocínio científico de Popper traz duas ideias:

* Para *confirmar uma hipótese*, devemos prová-la de todas as maneiras possíveis (e isso é impossível na grande maioria das vezes), e
* Para *rejeitar uma hipótese*, só precisamos apresentar evidências contra ela.

Por esse motivo, a ciência nos séculos XX e XXI se construiu usando o seguinte método. Se quisermos provar que alguma intervenção fez efeito, partimos da média e do desvio padrão em uma amostra que recebeu esse efeito. Por exemplo, podemos estar testando um novo fertilizante para romãs, então partimos da média e do desvio padrão em uma amostra de romãs que receberam nosso novo fertilizante.

De acordo com as ideias de Popper, não podemos *provar* que o fertilizante fez efeito. Porém, podemos *rejeitar a hipótese* de que o fertilizante não fez efeito. Essa hipótese é chamada de *hipótese nula*, ou $H_0$.

De acordo com a *hipótese nula*, o peso médio de nossa amostra de romãs fertilizadas deve ser igual à média de romãs não fertilizadas, que já conhecemos anteriormente. Isso pode ser escrito como:

$$
H_0: \mu_0 = \mu_1,
$$
onde $\mu_0$ é a média de peso de romãs normais e $\mu_1$ é a média de peso das romãs que medimos.

Ao mesmo tempo, vamos definir nossa hipótese alternativa. Em geral, ela é:
$$
H_1: \mu_0 \neq \mu_1,
$$

mas, se soubermos com certeza que nossa intervenção gerou aumento ou diminuição da média, podemos usar as hipóteses alternativas:

* $H_1: \mu_0 > \mu_1$, ou
* $H_1: \mu_0 < \mu_1$

Agora, precisamos saber se nosso modelo - assumindo $H_0$ como correta - explica bem os nossos dados. Para isso, fazemos um modelo:

1. Usando o TCL, sabemos que a nossa média amostral $\bar{X}$ segue uma distribuição normal com desvio padrão $\sigma/\sqrt{N}$,
1. Pela hipótese nula, assumimos que a média da distribuição de $\bar{X}$ tem média $\mu_0$,

Agora, vamos definir um valor $\alpha$ chamado *nível de significância*. Em geral, ele é igual a 5%, mas pode ser 10%, 1%, 0.1% ou outro valor dependendo da sua aplicação.

**Ideia 1: usar intervalos de confiança e a região crítica**
Como sabemos nosso modelo que gera $\bar{X}$, podemos calcular um intervalo de confiança de (1-$\alpha$). A região fora desse intervalo de confiança se chama *região crítica*. Se $\bar{X}$ está na região crítica, então rejeitamos a hipótese nula.

**Ideia 2: usar a probabilidade de gerar dados tão ou mais extremos que $\bar{X}$**
Como sabemos nosso modelo que gera $\bar{X}$, podemos calcular a probabilidade tão ou mais distantes da média que $\bar{X}$. Essa probabilidade se chama p-valor. Se o p-valor é inferior a $\alpha$, então rejeitamos a hipótese nula.

As duas ideias são matematicamente equivalentes, mas a segunda é usada mais frequentemente.

Uma anotação importante: se a hipótese alternativa for do tipo $>$ ou $<$, então tanto a região crítica quanto o p-valor são calculados usando somente a metade correspondente da curva Normal.

# Exercício 1
*Objetivo: entender todos os passos de um teste de hipótese*

No pequeno caso abaixo, identifique:

1. A hipótese nula
1. A hipótese alternativa
1. O valor $\alpha$
1. Se foi usada uma região crítica ou um p-valor
1. Qual é a regiao crítica ou o p-valor
1. Se houve rejeição da hipótese nula

---

Em média, romãs têm 50g.

Na tentativa de melhorar sua produção, um produtor começou a usar um fertilizante. Em uma amostra de 10 de suas romãs fertilizadas, ele encontra um peso médio de 60g, e sabe que o desvio padrão é de 20g.

Se as novas romãs forem, na verdade, idênticas às usuais, então a média da distribuição de sua média é 50g. Pelo TCL, o desvio padrão dessa distribuição é $20/\sqrt{10}$ g=6.32g.

Podemos calcular $P(\bar{X} > 60 | \mu=50, \sigma=6.32)$ usando:

In [1]:
import scipy.stats as st
p = 1-st.norm.cdf(60, loc=50, scale=6.32)
print(p)

0.056793005501229565


Como $p>0.05$, então o produtor decide que falhou em rejeitar a hipótese nula.

# Exercício 2
*Objetivo: compor seu próprio teste de hipótese*

Num time de corrida, o tempo para concluir a prova de 10K tem média 40min e desvio padrão 20min. Cinco pessoas, sorteadas aleatoriamente nesse time, passaram por um treinamento especial, e passaram a concluir a corrida em 35min.

Essas condições dão elementos suficientes para concluir que o novo treinamento é vantajoso em relação ao anterior?

Defina (use valores razoáveis, se necessário):

1. A hipótese nula
1. A hipótese alternativa
1. O valor $\alpha$
1. Se você quer usar uma região crítica ou um p-valor
1. Qual é a regiao crítica ou o p-valor
1. Se houve rejeição da hipótese nula

In [13]:
# Resolva aqui
amostra = 5 
mu0=40 
desvio_p0=20
alfa = 0.005 

# p valor de menos ou igual a 35 dado mu0 e (desviop0/raiz da amostra)
# multiplica por dois pra ver os dois lados, pra ele ser diferente de 40 
p = st.norm.cdf(35,loc=40,scale=(20/(5**0.5)))*2 
print(p)

0.5761501220305789


In [3]:
# Solução - faça a sua antes de olhar esta!
#1. A hipótese nula - mu=40
#1. A hipótese alternativa - mu!=40
#1. O valor $\alpha$ - 0.05
import scipy.stats as st
# Solução usando p-valor:
p = st.norm.cdf(35, loc=40, scale=20/(5**0.5))*2
print(p)

# Solução usando região crítica
lim_inf = st.norm.ppf(0.025, loc=40, scale=20/5**0.5)
lim_sup = st.norm.ppf(1-0.025, loc=40, scale=20/5**0.5)
print(lim_inf, lim_sup)

print("Não podemos rejeitar a hipótese nula")

0.5761501220305789
22.469549188468363 57.53045081153164
Não podemos rejeitar a hipótese nula


# Exercício 3

*Objetivo: analisar a relevância dos parâmetros no teste de hipótese*

Resolva o mesmo exercício anterior, analisando o que acontece com o p-valor e/ou a região crítica quando:

1. Ao invés de abaixar o tempo para 35 minutos, o treino abaixasse o tempo para 30 minutos.
1. Mesmo que o tempo fosse baixado para 35 minutos, o desvio padrão fosse de 5 minutos.
1. Mantendo o tempo novo em 35 minutos e o desvio padrão em 20 minutos, fossem analisados 100 corredores ao invés de 5.


In [17]:
p1= st.norm.cdf(30,loc=40,scale=(20/(5**0.5)))*2 
print(p1)
p2= st.norm.cdf(35,loc=40,scale=(5/(5**0.5)))*2 
print(p2)
p2= st.norm.cdf(35,loc=40,scale=(5/(100**0.5)))*2 
print(p2)

0.2635524772829727
0.025347318677468252
1.523970604832094e-23


# Exercício 4
*Objetivo: fazer um teste de hipótese*

Um pacote de queijo coalho para churrasco tem 150g de queijo, com desvio padrão de 20g. Ao comprar 10 pacotes de queijo, um cliente pesou 1.3kg de queijo.

Faça um teste de hipótese e decida: os pacotes têm menos queijo que o prometido?

In [21]:
p= st.norm.cdf(130,loc=150,scale=(20/(10**0.5)))
print(p)

0.000782701129001274


# Exercício 5
*Objetivo: corrigir um teste de hipótese*

As notas de alunos de uma escola num exame nacional têm média 400 e desvio padrão 200. 30 alunos participaram de um programa de estudos especiais e tiveram nota média 450. Usando o seguinte programa, um estatístico chegou à conclusão de que o programa foi bem-sucedido. 

Analise o código abaixo e corrija todos os erros e inconsistências.

In [27]:
# H0 = hipótese nula: mu=400
# H1 = hipótese alternativa: mu != 400
# mu = 400
# sigma = 200

p = st.norm.cdf(450, loc=400, scale=200/30)
print(p)
print("Como (1-p)>0.95, devemos confirmar a hipótese nula")

p = (1 - st.norm.cdf(450, loc=400, scale=200/(30**0.5)))*2
print(p)
print("Falhei em rejeitar a hipótese nula")

0.9999999999999681
Como (1-p)>0.95, devemos confirmar a hipótese nula
0.17090352023079758
Como (1-p)>0.95, não devemos rejeitar a hipótese nula
