### Testes de Hipóteses

- Usado tomar uma decisão entre duas ou mais hipóteses, utilizando os dados observados de um determinado experimento.
- Hipótese: idéia a ser testada
- Hipótese nula (H0): 
    - afirmação que já existia
    - presumir que é verdadeira até que se prove o contrário
- Hipótese alternativa (H1): 
    - o que está tentando se provar (tudo o que é diferente da nula)
- Alfa
    - probabiliadde de rejeitar a hipótese nula, quanto menor mais seguro é o resultado (nível de significância) - em geral 0,01 ou 0,05
    - Ex: 5% de chances de concluir que existe uma diferença quando não há diferença real
- Valor de p (p-value)
    - valor calculado pelo teste usado para rejeitar ou aceitar as hipóteses
    - p-value >= alfa: não rejeita H0 (não há evidências)
- Erro Tipo I
    - rejeitar hipótese nula (H0) quando não deveria
- Erro Tipo II
    - não rejeitar hipótese nula (H0) quando deveria rejeitar

### Qual teste usar?

#### Teste de Hipótese Z ou Teste de Hipótese T?
- Usa-se o Teste de Hipótese Z quando a amostra tiver mais de 30 amostra, caso contrário, usar o Teste de hipótese T

### Teste de Hipótese Z
- Usa a estatística Z
- Usa-se quando o desvio padrão é conhecido
- Fórmula:
$ Z = \dfrac{\bar X - \mu_0}{\dfrac{\sigma}{\sqrt{n}}} $ 

Onde:

$\bar X$: é a estatística a ser testada (H1), ex: média

$\mu_0$: é a estatística considerada (H0), ex: média

$\sigma$: desvio padrão

$n$: tamanho da amostra

### Exemplo tirado de um site


Uma indústria produz discos de metal, segundo o vendedor, os diâmetros dos discos são de **10 cm**, com **desvio padrão de 0,13 cm**. O comprador selecionou **30** discos aleatoriamente para confirmar os diâmetros e obteve **média 9,9 cm**. O comprador deseja confirmar os diâmetros para **uma $\alfa$ = 0,05**.

- Passo 1: Escreva suas hipóteses
- H0: os discos tem 10 cm de diâmetro (m = 10)
- H1: os discos tem diâmetro diferente de 10 cm (m ≠10)
- Teste bicaudal

$ Z_{calc} = \dfrac{(9.9 - 10)}{\dfrac{0.13}{\sqrt{30}}}  = -4.347$

$ Z_{cric} = 1 - (\dfrac{\alpha}{2}) $ 

$ Z_{cric} =  1 - \dfrac{0.05}{2} $

$ Z_{cric} =  1 - 0.025  = 0.975 $ (busca na tabela Z)

$ Z_{cric} = 1.96 $


#### Decisão

Se $ Z_{calc} ≥ Z_{crit}$ Rejeita H0. Porque as chances de erro são pequenas

Se $ Z_{calc} < Z_{crit}$ Não Rejeita H0. Porque as chances de erro são grandes

Valor (tabela) do $Z_{crit}$ = 1,96

Temos:

$Z_{calc} = -4,34 $

Então: |- 4,34| > |1,96|

Logo, rejeitamos a H0.

http://www.leg.ufpr.br/lib/exe/fetch.php/disciplinas:ce001:teste_z_-_para_apresentar.pdf

[Outro exemplo] https://fumachi.mat.br/2023/03/27/teste-z/

### Exercício Prático - Teste de Hipótese Z

In [1]:
import numpy as np
import math
from scipy.stats import norm

In [2]:
dados_originais = np.array([126. , 129.5, 133. , 133. , 136.5, 136.5, 140. , 140. , 140. ,
                            140. , 143.5, 143.5, 143.5, 143.5, 143.5, 143.5, 147. , 147. ,
                            147. , 147. , 147. , 147. , 147. , 150.5, 150.5, 150.5, 150.5,
                            150.5, 150.5, 150.5, 150.5, 154. , 154. , 154. , 154. , 154. ,
                            154. , 154. , 154. , 154. , 157.5, 157.5, 157.5, 157.5, 157.5,
                            157.5, 157.5, 157.5, 157.5, 157.5, 161. , 161. , 161. , 161. ,
                            161. , 161. , 161. , 161. , 161. , 161. , 164.5, 164.5, 164.5,
                            164.5, 164.5, 164.5, 164.5, 164.5, 164.5, 168. , 168. , 168. ,
                            168. , 168. , 168. , 168. , 168. , 171.5, 171.5, 171.5, 171.5,
                            171.5, 171.5, 171.5, 175. , 175. , 175. , 175. , 175. , 175. ,
                            178.5, 178.5, 178.5, 178.5, 182. , 182. , 185.5, 185.5, 189., 192.5])

In [3]:
H0_media = np.mean(dados_originais)
H0_media

159.25

In [4]:
H0_desvio_padrao = np.std(dados_originais)
H0_desvio_padrao

13.65

In [5]:
dados_novos = dados_originais * 1.03
dados_novos

array([129.78 , 133.385, 136.99 , 136.99 , 140.595, 140.595, 144.2  ,
       144.2  , 144.2  , 144.2  , 147.805, 147.805, 147.805, 147.805,
       147.805, 147.805, 151.41 , 151.41 , 151.41 , 151.41 , 151.41 ,
       151.41 , 151.41 , 155.015, 155.015, 155.015, 155.015, 155.015,
       155.015, 155.015, 155.015, 158.62 , 158.62 , 158.62 , 158.62 ,
       158.62 , 158.62 , 158.62 , 158.62 , 158.62 , 162.225, 162.225,
       162.225, 162.225, 162.225, 162.225, 162.225, 162.225, 162.225,
       162.225, 165.83 , 165.83 , 165.83 , 165.83 , 165.83 , 165.83 ,
       165.83 , 165.83 , 165.83 , 165.83 , 169.435, 169.435, 169.435,
       169.435, 169.435, 169.435, 169.435, 169.435, 169.435, 173.04 ,
       173.04 , 173.04 , 173.04 , 173.04 , 173.04 , 173.04 , 173.04 ,
       176.645, 176.645, 176.645, 176.645, 176.645, 176.645, 176.645,
       180.25 , 180.25 , 180.25 , 180.25 , 180.25 , 180.25 , 183.855,
       183.855, 183.855, 183.855, 187.46 , 187.46 , 191.065, 191.065,
       194.67 , 198.

In [6]:
H1_media = np.mean(dados_novos)
H1_media

164.0275

In [7]:
H1_desvio_padrao = np.std(dados_novos)
H1_desvio_padrao

14.0595

In [8]:
H1_n = len(dados_novos)
H1_n

100

In [9]:
alpha = 0.05

#### Teste de hipótese Z manual

In [10]:
Z = (H1_media - H0_media) / (H1_desvio_padrao / math.sqrt(H1_n))
Z

3.398058252427187

In [14]:
# cdf é a probabilidade ACUMULATIVA
# ppf retorna o valor de Z passando a probabilidade
norm.cdf(3.398058252427187), norm.ppf(0.9996606701617486)

(0.9996606701617486, 3.3980582524271936)

In [12]:
Z = norm.cdf(Z)
Z

0.9996606701617486

In [13]:
p = 1 - Z
p

0.00033932983825135654

#### Teste de hipótese Z com statsmodel

https://www.statsmodels.org/devel/generated/statsmodels.stats.weightstats.ztest.html

In [15]:
from statsmodels.stats.weightstats import ztest

  from pandas import Int64Index as NumericIndex


In [16]:
# Larger significa H1_media > H0_meddia
# Ha outros valores pro parametro
_, p = ztest(dados_originais, dados_novos,
             value = H1_media - H0_media,
             alternative='larger')

In [17]:
# A biblioteca retorna o valor de Z, é necessário realizar a subtração 1 - 'p' para obter o valor de p.
p

0.9999993877283934

### Exercício

https://thedatascientist.com/how-to-do-a-t-test-in-python/

#### Hipóteses
$H_0: média_{H0}  = média_{H1}$

$H_1: média_{H0} <> média_{H1}$

É um teste pareado: há uma diferença no grupo entre pontos diferente do tempo

Nível de significância: 5%

In [20]:
from numpy.random import seed 
from numpy.random import randn 
from numpy.random import normal 
from scipy.stats import ttest_rel

In [19]:
amostra_orig = np.array([149. , 160., 147., 189., 175., 168., 156., 160., 152.])
amostra_nova = np.array([149. , 160., 147., 189., 175., 168., 156., 160., 152.]) * 1.2

In [21]:
t_stat, p_value = ttest_rel(amostra_orig, amostra_nova) 
print('T-statistic value:', t_stat)  
print('P-Value: ', p_value)


T-statistic value: -35.7846507069113
P-Value:  4.0729224939298203e-10
