In [1]:
import math

## Teste de hipótese com média populacional conhecida

Exemplo: Em corrida de carros, o pit stop é o local em que um veículo vai
para trocar pneus, abastecer, efetuar reparos e outros ajustes mecânicos. A
eficiência de uma equipe que realiza esses ajustes pode afetar o resultado de
uma corrida. Uma equipe afirma que seu tempo médio no pit stop (para 4
trocas de pneus e abastecimento) é menor que 13 segundos. Uma amostra
aleatória de 32 tempos de pit stop tem uma média de 12,9 segundos.
Suponha que o desvio padrão populacional é de 0,19 segundos. Há
evidência suficiente para concordar com a afirmação para 99% de confiança?

É um teste unicaudal à esquerda

In [2]:
n = 32
media_amostra = 12.9
media_populacional = 13
desvio_p_pop = 0.19
confianca = 0.99
alpha = 1 - confianca

h0 = média >= 13 segundos <br>
ha = média < 13 segundos

In [None]:
z_calculado = (media_amostra - media_populacional) / (desvio_p_pop / math.sqrt(n)) 
z_calculado

A probabilidade embaixo da curva é o z_calculado, essa área é o <b>p-valor</b><br>

Usando a calculadora https://www.omnicalculator.com/statistics/critical-value com distribuição Z, teste unicaudal à esquerda e nível de significância de 0.01 temos um valor crítico de [Critical value: -2.3263]

In [4]:
z_critico = -2.3263

print(f'''O Z crítico é {z_critico}, maior que o Z calculado de {round(z_calculado, 4)}, 
logo o Z calculado cai na região de rejeição e rejeitamos Ho. 
Ou seja, há evidência suficiente ao nível de significância de 1% para rejeitar 
com a afirmação de que o tempo médio no pit stop é menor que 13 segundos (Ha)''')

O Z crítico é -2.3263, maior que o Z calculado de -2.9773, 
logo o Z calculado cai na região de rejeição e rejeitamos Ho. 
Ou seja, há evidência suficiente ao nível de significância de 1% para rejeitar 
com a afirmação de que o tempo médio no pit stop é menor que 13 segundos (Ha)


In [5]:
from scipy.stats import norm

In [6]:
Z = (12.9-13) /(0.19/math.sqrt(32))
norm.cdf(Z)

# Normal cumulative distribution function

0.0014540358484991462

## Teste de hipótese com desvio-padrão populacional desconhecido

Exemplo: Em corrida de carros, o pit stop é o local em que um veículo vai
para trocar pneus, abastecer, efetuar reparos e outros ajustes mecânicos. A
eficiência de uma equipe que realiza esses ajustes pode afetar o resultado de
uma corrida. Uma equipe afirma que seu tempo médio no pit stop (para 4
trocas de pneus e abastecimento) é menor que 13 segundos. Uma amostra
aleatória de 32 tempos de pit stop tem uma média de 12,9 segundos.
Suponha que o <b>desvio padrão amostral é de 0,4 segundos.</b> Há
evidência suficiente para concordar com a afirmação para 99% de confiança?

In [7]:
import scipy.stats
t = (12.9-13)/(0.4/(math.sqrt(32)))
dof = 32 - 1

scipy.stats.t.sf(abs(t), df=dof)

0.08363231544793762

## Duas amostras

Duas amostras são independentes quando a amostra selecionada de uma
população não é relacionada à amostra selecionada da segunda população.
Duas amostras são dependentes quando cada elemento de uma amostra
corresponde a um elemento da outra amostra.

### Desvio-padrão populacional conhecido, amostras independentes

![image.png](attachment:image.png)

Exemplo: <br>

Um grupo de analistas afirmou que existe diferença entre as médias dos
gastos em cartões de crédito em São Paulo e no Rio de Janeiro.<br> Eles se
basearam em amostras (independente) de 250 pessoas de cada um desses
estados e tiverem esse resultado: <br><br>
Média de gastos no cartão para 250 pessoas no Rio de Janeiro: <br>
x1 = 4.777 reais
 <br>
Média de gastos no cartão para 250 pessoas em São Paulo: <br>
x2 = 4.866 reais

In [8]:
x1 = 4.777
x2 = 4.866
sigma_rio = 1.045
sigma_sp = 1.350

Na fórmula acima, μ1 - μ2 é nossa “premissa da hipótese nula”. Dessa forma,
usamos a hipótese nula como valor μ1 - μ2, ou seja, se μ1 - μ2 = 0 pois, em nossa
hipótese nula, estamos afirmando que μ1 = μ2

In [9]:
z = ((x1 - x2) - (0)) / math.sqrt((sigma_rio**2/250) + (sigma_sp**2/250))
z

-0.8242825738313437

### O cálculo pode ser feito nesse site:

https://www.statology.org/two-sample-z-test-calculator/

A área que compreende z = -0.82 é 0,4108 (bicaudal), que corresponde ao
nosso p-valor. O p-valor calculado é maior do que nosso nível de significância
(0.05), ou seja não devemos rejeitar a hipótese nula. Portanto, a 95% de
confiança, dizemos que a média é igual em ambos os grupos. <br>Portanto, São
Paulo não tem maiores gastos do que o Rio de Janeiro.

### Desvio-padrão populacional desconhecido, amostras independentes

![image.png](attachment:image.png)

### Há duas formas para Sx1 - x2

variâncias populacionais são consideradas iguais:
![image.png](attachment:image.png)

variâncias populacionais não são iguais ou se não sabemos:
![image-2.png](attachment:image-2.png)

O grau de liberdade nesse caso é dado por:
![image-4.png](attachment:image-4.png)

