### Introdu√ß√£o aos Teses de Hip√≥teses

Um teste de hip√≥teses √© um procedimento que usa estat√≠stica amostral para testar uma alega√ß√£o sobre o valor de um par√¢metro populacional. Pesquisadores das mais diversas √°reas contam com os testes de hip√≥teses para a tomada de decis√µes sobre novos 
medicamentos ou resultados de elei√ß√µes, por exemplo.

#### Teste de hip√≥teses para uma m√©dia quando $\sigma$ √© conhecido (Teste z para uma amostra)

O objetivo dos testes de hip√≥teses para uma m√©dia √© avaliar afirma√ß√µes feitas a respeito da m√©dia populacional. Os testes de hip√≥teses para m√©dia exigem dados quantitativos, isto √©, dados cont√≠nuos ou discretos.

O teste de hip√≥teses descrito nesta se√ß√£o ser√° utilizado para uma m√©dia quando odesvio padr√£o populacional ($\sigma$) for conhecido.

Identificadas as hip√≥teses estat√≠sticas (H0 e Ha) e definido o n√≠vel de signific√¢ncia ($\alpha$) podemos proceder ao c√°lculo da estat√≠stica de teste utilizando a f√≥rmula a seguir:


$$ Z_{teste} = \dfrac{\bar{x} - \mu_0 }{\dfrac{\sigma}{\sqrt{n}}} $$

##### Exemplo 

(Adaptado de Levine et al.) Uma das principais medidas de qualidade dos servi√ßos oferecidos por qualquer organiza√ß√£o corresponde √† velocidade atrav√©s da qual ela responde a uma reclama√ß√£o feita pelos clientes. Uma grande loja de departamentos, de controle familiar passou por uma grande expans√£o nos √∫ltimos anos. Foi selecionada uma amostra de 50 reclama√ß√µes com rela√ß√£o √† instala√ß√£o de pisos deste ano, ou seja, correspondem ao tempo de espera (em dias) entre o recebimento da reclama√ß√£o e a solu√ß√£o do problema relacionado com a reclama√ß√£o. Nesta amostra o tempo m√©dio de espera foi de 29 dias. Sabe-se que o desvio padr√£o da popula√ß√£o √© 
de 21 dias. O gerente afirma que o tempo m√©dio de espera √© de no m√°ximo 20 dias. Com um n√≠vel de 5% de signific√¢ncia h√° evid√™ncias que comprovem a alega√ß√£o do gerente?

Como o desvio padr√£o populacional √© conhecido ($\sigma$ =21) podemos utilizar o teste z para uma m√©dia. A partir do enunciado podemos identificar as hip√≥teses nula e alternativa da seguinte maneira:

$H_0 : \mu \leq 20$ <br>
$H_1 : \mu > 20$

In [None]:
$=$ "$\geq$" e "$\leq$" "$\neq$"

In [5]:
import numpy as np
import pandas as pd
from scipy.stats import norm
from scipy.stats import t
from scipy.stats import f as ff

In [81]:
a = 0.05
n = 50
media = 29
sigma = 21
m0 = 20

In [82]:
# Calcular o Z Alpha
norm.ppf(0.95)

1.6448536269514722

In [83]:
z = (media - m0) / (sigma / ( np.sqrt(n)))
z

3.0304576336566322

O crit√©rio de decis√£o baseado no valor p √© feito da seguinte maneira:
- Rejeitar a hip√≥tese nula ($H_0$) se o valor p √© no m√°ximo igual ao n√≠vel de signific√¢ncia ($\alpha$).
- N√£o rejeitar a hip√≥tese nula ($H_0$) se o valor p √© maior do que o n√≠vel de signific√¢ncia ($\alpha$).

In [84]:
# Para calcular o valor-P a direita
p = norm.sf(z)
p

0.0012209172101383958

In [28]:
# Para calcular o valor-P a esquerda
p = norm.cdf(z)
p

0.9987790827898616

In [34]:
# Para calcular o valor-P Bicaudal
p = 2 * norm.cdf(z)
p

1.9975581655797232

##### Exerc√≠cio
(Adaptado de Stevenson, 2001) Suponha que queiramos avaliar a afirma√ß√£o de um fabricante, de que seus pneus radiais suportam uma quilometragem de 40000 milhas, no m√≠nimo. Para uma amostra aleat√≥ria de 49 pneus observou-se uma m√©dia de dura√ß√£o de 38000 milhas. Sabe-se que o desvio padr√£o populacional da dura√ß√£o dos pneus √© de 3500 milhas. Utilize um n√≠vel de signific√¢ncia de 0,03. O que voc√™ pode concluir? 

$H_0: \mu \geq 40000$ <br>
$H_1: \mu < 40000$

In [44]:
n = 49
sigma = 3500
a = 0.03
m0 = 40000
x = 38000

In [46]:
t_alpha = round(norm.ppf(1 - a), 2)
t_alpha

1.88

In [48]:
z = (x -m0) / (sigma / np.sqrt(n))
z 

-4.0

In [62]:
p = norm.cdf(z)
print(f'{p:,.5f}')

0.00003


In [63]:
# se valor-p for menor que a signific√¢ncia (a) aceita a hip√≥tese O 
if p > a:
    print("Aceita H0")
else:
    print("Rejeita H0")

Rejeita H0


##### Exerc√≠cio
Um representante de um grupo comunit√°rio informa a um potencial construtor de um shopping, que a renda familiar m√©dia mensal nesta √°rea √© superior a $\text{R\$}$6500. Suponha que, para o tipo de √°rea envolvida, a renda familiar possa ser assumida como seguindo 
a distribui√ß√£o normal, e que o desvio padr√£o pode ser aceito como sendo igual a $\sigma$ = 2000, baseado em um estudo anterior. Para uma amostra aleat√≥ria de 55 resid√™ncias, a renda familiar m√©dia encontrada √© de R\$ 6300. Verifique se h√° evid√™ncias que confirmem a hip√≥tese do representante do grupo comunit√°rio, considere um n√≠vel de 2% de signific√¢ncia. Utilize a regi√£o cr√≠tica e o valor p para concluir o teste.

$H_0: \mu \leq 6500$ <br>
$H_1: \mu > 6500$

In [75]:
n = 55
sigma = 2000
m0 = 6500
x = 6300
a = 0.02

In [76]:
z_alpha = round(norm.ppf(1 - a), 2)
z_alpha

2.05

In [77]:
z = (x - m0) / (sigma / np.sqrt(n))
z

-0.7416198487095662

In [78]:
p = norm.sf(z)
p

0.7708411529334602

In [79]:
# se valor-p for menor que a signific√¢ncia (a) aceita a hip√≥tese O 
if p > a:
    print("Aceita H0")
else:
    print("Rejeita H0")

Aceita H0


#### Teste de hip√≥teses (z) com intervalos de confian√ßa
J√° vimos anteriormente o m√©todo de estima√ß√£o intervalar que consiste em encontrar uma estimativa intervalar de um par√¢metro populacional com cont√©m os valores
prov√°veis daquele par√¢metro. Por conseguinte, devemos rejeitar uma afirma√ß√£o de que o par√¢metro populacional tenha um valor que n√£o est√° compreendido no intervalo 
de confian√ßa.

√â importante lembrar que, como vimos o m√©todo de constru√ß√£o de intervalos de confian√ßa bilaterais para um par√¢metro, essa correspond√™ncia direta entre um 
intervalo de confian√ßa e um teste de hip√≥tese deve ser feita quando o teste √© bilateral.

##### Exerc√≠cio
1. Um estudante de direito quer conferir a alega√ß√£o de sua professora de que fraudadores condenados passam, em m√©dia 12,3 meses na cadeia. Uma amostra aleat√≥ria de 35 casos do arquivo judici√°rio indicou uma m√©dia de 11,5 meses. Suponha que o desvio padr√£o seja $\sigma$ = 3,8 meses. Adote um n√≠vel de 4% de signific√¢ncia. O que o estudante pode concluir a partir dos dados da amostra? Utilize o valor p e o intervalo de confian√ßa.

$H_0 : \mu = 20$ <br>
$H_1 : \mu \neq 20$

In [199]:
n = 35
x = 11.5
m0 = 12.3
sigma = 3.8
a = 0.04

In [200]:
z_alpha = norm.ppf(1 - a)
z_alpha

1.7506860712521692

In [201]:
z = (x - m0) / (sigma / ( np.sqrt(n)))
z

-1.245490480652552

In [202]:
p = 2 * norm.cdf(z)
p

0.21295151251770572

In [203]:
p = 2 * norm.sf(np.abs(z))
p

0.21295151251770572

In [48]:
# Conclus√£o
print(f'Conclui-se com {a * 100}% de signific√¢ncia que o tempo m√©dio que fraudadores condenados passam na cadeia √© de ' \
      f'{media} meses. Dessa forma, h√° evid√™ncias que confirmam a alega√ß√£o da professora.')

Conclui-se com 4.0% de signific√¢ncia que o tempo m√©dio que fraudadores condenados passam na cadeia √© de 12.3 meses. Dessa forma, h√° evid√™ncias que confirmam a alega√ß√£o da professora.


#### Teste de hip√≥teses para uma m√©dia quando $\sigma$ √© desconhecido(Teste t-Student para uma amostra)

O teste t-Student, assim como o teste z (visto anteriormente), √© um teste de hip√≥teses para a m√©dia. Ele ser√° utilizado quando $\sigma$ √© desconhecido e a popula√ß√£o original tem distribui√ß√£o essencialmente normal.

Quando o desvio padr√£o da popula√ß√£o n√£o √© conhecido (que √© o caso no teste t-Student), usa-se o desvio padr√£o da amostra como estimativa, substituindo $\sigma$ por $s$ nas f√≥rmulas. Isto n√£o acarreta maiores dificuldades, pois o desvio padr√£o amostral d√° 
uma aproxima√ß√£o bastante razo√°vel do verdadeiro valor, na maioria dos casos. Al√©m 
disso, pelo Teorema do Limite Central, sabemos que, quando o tamanho da amostra √© 
superior ou igual a 30, a distribui√ß√£o das m√©dias √© aproximadamente normal. Todavia, 
para amostras de menos de 30 observa√ß√µes, a aproxima√ß√£o normal n√£o √© adequada. 
Devemos ent√£o usar a distribui√ß√£o t-Student, que √© a distribui√ß√£o correta quando se 
usa s. 

Ap√≥s a identifica√ß√£o do teste a ser utilizado, procedemos com a defini√ß√£o das 
hip√≥teses estat√≠sticas ($H_0$ e $H_a$) e do n√≠vel de signific√¢ncia ($\alpha$). A partir da√≠ encontramos 
a estat√≠stica de teste:


$$ T_{teste} = \dfrac{\bar{x} - \mu_0 }{\dfrac{S}{\sqrt{n}}} $$

##### Observe o exemplo a seguir:
(Adaptado de Morettin & Bussab, 2007) A associa√ß√£o dos propriet√°rios de ind√∫strias metal√∫rgicas est√° muito preocupada com o tempo perdido com acidentes de trabalho, cuja m√©dia, nos √∫ltimos tempos tem sido da ordem de 60 horas/homem por ano. Tentou-se um programa de preven√ß√£o de acidentes, ap√≥s o qual foi tomada uma amostra de nove ind√∫strias e medido o n√∫mero de 
horas/homens perdidas por acidente obtendo-se uma m√©dia de 50 horas e um desvio padr√£o de 20 horas. Voc√™ diria, considerando-se um n√≠vel de signific√¢ncia de 5%, que houve alguma altera√ß√£o no tempo perdido com acidentes de trabalho?

Suponha que a popula√ß√£o segue aproximadamente a distribui√ß√£o normal.

Neste exemplo n√£o h√° qualquer informa√ß√£o sobre o desvio padr√£o populacional e, al√©m disso, sup√µe-se que a popula√ß√£o tem distribui√ß√£o aproximadamente normal. Portanto, temos que prosseguir com o teste utilizando a distribui√ß√£o t-Student:

$H_0 : \mu = 60$ <br>
$H_1 : \mu \neq 60$

In [94]:
from scipy.stats import t

In [34]:
media = 60
m0 = 50
s = 20
n = 9
a = 0.05
liberdade = n - 1
confianca = 1 - a

In [35]:
t_alpha = t.interval(confianca, liberdade, 0, 1)[1]
t_alpha

2.3060041350333704

In [36]:
tt = (m0 - media) / (s / (np.sqrt(n)))
tt

-1.5

In [37]:
# rejeita H0 se p =< a
p = 2 * t.cdf(tt, df = liberdade)
p

0.1720032919519113

In [96]:
# se valor-p for menor que a signific√¢ncia (a) aceita a hip√≥tese O 
if p > a:
    print("Aceita H0")
else:
    print("Rejeita H0")

Rejeita H0


##### Exerc√≠cio
(Adaptado de Morettin & Bussab) Um escrit√≥rio de investimentos acredita que o rendimento m√©dio das diversas a√ß√µes que movimenta √© de 20%. Uma nova estrat√©gia foi definida com o objetivo de aumentar o rendimento m√©dio das diversas a√ß√µes que movimenta. Para verificar esta hip√≥tese, tomaram-se 18 empresas ao acaso obtendo-se um rendimento m√©dio de 24,56% e um desvio padr√£o de 5%. 
Suponha que a popula√ß√£o tenha distribui√ß√£o aproximadamente normal. Fa√ßa o teste estat√≠stico para comprovar que a nova estrat√©gia √© realmente eficiente para aumentar o rendimento m√©dio das diversas a√ß√µes. Use um n√≠vel de signific√¢ncia de 1%.

$H_0 : \mu \leq 24,56$ <br>
$H_1 : \mu > 24,56$

In [191]:
n = 18
m0 = 20
x = 24.56
s = 5
a = 0.01
liberdade = n - 1

In [83]:
t_alpha = t.ppf(1 - a, n - 1)
t_alpha

2.5669339837199097

In [92]:
tt = (x - m0) / (s / np.sqrt(n))
tt

3.869288306652787

In [95]:
p = t.sf(tt, df = liberdade)
p

0.0006155271825812143

In [98]:
# se valor-p for menor que a signific√¢ncia (a) aceita a hip√≥tese O 
if p > a:
    print("Aceita H0")
else:
    print("Rejeita H0")

Rejeita H0


##### Exerc√≠cio
Uma amostra aleat√≥ria de oito pedidos dos arquivos de uma companhia mostra que os pedidos de certa pe√ßa de uma m√°quina forma despachados em: 12 10 17 
14 13 18 11 9 dias. Ao n√≠vel de 5% de signific√¢ncia , podemos concluir que, em m√©dia, tais pedidos s√£o despachados em menos de 10 dias?

$H_0: \mu \geq 10$ <br>
$H_1: \mu < 10$

In [193]:
from scipy.stats import t
amostra = [12, 10, 17, 14, 13, 18, 11, 9]
n = 8
a = 0.05
m0 = 10
x = np.mean(amostra)
s = np.std(amostra)
print(f'm√©dia da amostra {x}, desvio padr√£o da amostra {s}')

m√©dia da amostra 13.0, desvio padr√£o da amostra 3.0


In [194]:
t_alpha = t.ppf(1 - a, n - 1)
t_alpha

1.894578605061305

In [195]:
tt = (x - m0) / (s / np.sqrt(n))
tt

2.8284271247461903

In [196]:
p = t.cdf(tt, df = n - 1)
p

0.9872682191583804

In [197]:
if p > a:
    print("Aceita H0.")
else:
    print('Rejeita H0.')

Aceita H0.


In [198]:
# Outro metodo
from statsmodels.stats.weightstats import DescrStatsW
test = DescrStatsW(amostra)
ter = test.ttest_mean(value = m0, alternative = 'smaller')
ter

(2.6457513110645907, 0.9834272498681131, 7.0)

### Teste de hip√≥teses para uma propor√ß√£o
Os testes de hip√≥teses para propor√ß√µes s√£o adequados quando os dados sob an√°lise consistem de contagens ou frequ√™ncias de itens. A finalidade de tais testes √© avaliar afirma√ß√µes sobre a propor√ß√£o (ou percentagem) de uma popula√ß√£o.

As suposi√ß√µes associadas ao teste de hip√≥teses para uma propor√ß√£o s√£o descritas a seguir:

ÔÉº Devem ser verificadas as condi√ß√µes para um experimento binomial. Isto √©, temos um n√∫mero fixo de provas independentes com probabilidade constante, e cada prova comporta dois resultados, que s√£o designados como ‚Äúsucesso‚Äù e ‚Äúfracasso‚Äù.

ÔÉº As condi√ß√µes $n \cdot P_0 \geq 5$ e $n \cdot (1 - P_0) \geq 5$ s√£o ambas verificadas, de modo que a distribui√ß√£o binomial das propor√ß√µes amostrais pode ser aproximada por uma distribui√ß√£o normal com $\mu = n \cdot P_0$ e $\sigma = \sqrt{n \cdot P_0 \cdot (1 - P_0)}$ .
                                       
Se as duas suposi√ß√µes acima forem satisfeitas podemos realizar o teste de hip√≥teses para uma propor√ß√£o utilizando a tabela da distribui√ß√£o normal padr√£o.

A nota√ß√£o que utilizaremos √© a seguinte:

$n$ = tamanho da amostra;

$\hat p = \left( \dfrac{x}{n} \right)$ (propor√ß√£o amostral)

$P_0$ = propor√ß√£o populacional (usada nas hip√≥teses)

A estat√≠stica de teste que ser√° utilizda √© obtida por:

$$ Z_{teste} = \dfrac{\hat p - P_0}{\sqrt{\dfrac{P_0 \left(1 - P_0 \right)}{n}}} $$

#### Exemplo:
‚ÄúEm um estudo da efic√°cia do air-bag em autom√≥veis, constatou-se que, em 821 colis√µes de carros de tamanho m√©dio equipados com air-bag, 46 colis√µes resultaram em hospitaliza√ß√£o do motorista. Ao n√≠vel de signific√¢ncia de 0,01, teste a afirma√ß√£o de 
que a taxa de hospitaliza√ß√£o dos motoristas, nos casos de carros equipados com air-bag, √© inferior √† taxa de 7,8% para colis√µes de carros de tamanho m√©dio equipados com cintos autom√°ticos de seguran√ßa.‚Äù

$H_0: p \geq 0,078$ <br>
$H_1: p < 0,078$

In [17]:
a = 0.01
n = 821
x = 46
p0 = 0.078
pc = x / n

In [28]:
z_alpha = round(norm.ppf(1 - a),2)
z_alpha

2.33

In [29]:
z = round((pc - p0)/(np.sqrt(p0 * (1 - p0)/ n)),2)
z

-2.35

In [30]:
p = norm.cdf(z)
p

0.009386705534838566

In [31]:
# se valor-p for menor que a signific√¢ncia (a)
if p < a:
    print("Aceita H0")
else:
    print("Rejeita H0")

Aceita H0


##### Exerc√≠cio
Um sistema de reservas da companhia Y acusa uma taxa de 7% de n√£o-comparecimento. Adotou-se ent√£o um novo processo, pelo qual as reservas s√£o confirmadas no dia anterior ao do v√¥o, fazendo-se um estudo de 5218 reservas pelo novo sistema, selecionadas aleatoriamente. Se se registraram 333 n√£o-comparecimentos, teste a afirma√ß√£o de que a taxa de n√£o-comparecimento √© menor no novo sistema. O novo sistema se afigura eficiente na redu√ß√£o do n√£o-comparecimento? Utilize um n√≠vel de 2% de signific√¢ncia.


$H_0: \mu \geq 7\text{%}$ <br>
$H_1: \mu < 7\text{%}$

In [223]:
n = 5218
a = 0.02
p0 = 0.07
x = 333
pc = round(x / n, 4)
pc

0.0638

In [224]:
z_alpha = round(norm.ppf(1 - a), 2)
z_alpha

2.05

In [225]:
z = round((pc - p0) / (np.sqrt(p0 * (1 - p0) / n)), 4)
z

-1.7553

In [227]:
p = norm.cdf(z)
p

0.0396040032476464

In [228]:
if p > a:
    print('Aceita H0.')
else:
    print('Rejeita H0.')

Aceita H0.


##### Exerc√≠cio
Em um estudo de 71 fumantes que estavam procurando deixar de fumar utilizando uma terapia especial, 32 n√£o estavam fumando um ano ap√≥s o tratamento. Ao n√≠vel de 0,10 de signific√¢ncia, teste a afirma√ß√£o de que, dos fumantes que procuram deixar de fumar com aquela terapia, no m√°ximo 25% voltam a fumar um ano ap√≥s o tratamento. Esses resultados sugerem que a terapia n√£o √© eficaz?

$H_0: \mu \leq 25\text{%}$ <br>
$H_1: \mu > 25\text{%}$ 

In [245]:
n = 71
a = 0.10
p0 = 0.25
x = n - 32  # A amostra menos o inverso que estamos procurando, neste caso √© a popula√ß√£o menos os que n√£o voltaram a fumar
pc = x / n
pc

0.5492957746478874

In [246]:
t_alpha = norm.ppf(1 - a)
t_alpha

1.2815515655446004

In [247]:
z = (pc - p0) / (np.sqrt( (p0 * (1 - p0)) / n))
z

5.82410403353402

In [248]:
p = norm.sf(z)
p

2.8709900844071862e-09

In [249]:
if p > a:
    print('Aceita H0.')
else:
    print('Rejeita H0.')

Rejeita H0.


### Teste t-Student para duas m√©dias <br>(Amostras pareadas)
Uma amostra pareada corresponde ao levantamento de dados da mesma amostra em duas situa√ß√µes nas quais tenha interferido algum fator cujo efeito deseja-se avaliar. 

Exemplos:<br>
- Comparar o peso de um grupo de pessoas antes e depois de passarem por uma dieta rigorosa; <br>
- Verificar o tempo de resposta de um sistema antes e depois de algumas modifica√ß√µes serem implementadas; <br>
- Verificar a press√£o arterial de indiv√≠duos antes e depois de ingerirem uma medi√ß√£o. 

Uma amostra pareada de n observa√ß√µes, antes e depois da interven√ß√£o de um fator, pode ser representada como no Quadro 1.

|Indiv√≠duo|Antes do fator|Depois do fato|Diferen√ßa d|
|:-----:|:-----:|:----:|:--------:|
|1|$X_1$|$Y_1$|$D_1=X_1-Y_1$|
|2|$X_2$|$Y_2$|$D_2=X_2-Y_2$|
|n|$X_n$||$Y_n$|$D_n=X_n-Y_n$|

Passos para realiza√ß√£o do teste de hip√≥teses para compara√ß√£o duas m√©dias com amostras pareadas:
1. Passo: Estabele√ßa o n√≠vel de signific√¢ncia ($\alpha$) a ser adotado.
2. Passo: Estabelecer as hip√≥teses:
    H0: N√£o h√° diferen√ßa entre as m√©dias pareadas (antes e depois), ou seja, $\mu_1 = \mu_2$
    H1: As duas medidas realizadas (antes e depois) s√£o significativamente diferentes em rela√ß√£o √† vari√°vel testada, ou seja, $\mu_1 \neq \mu_2$. <br>
Devemos determinar as hip√≥teses estat√≠sticas a partir do problema a ser resolvido. Nesse material, trataremos somente da hip√≥tese bilateral.
3. Passo: Calcular as diferen√ßas d entre os pares de observa√ß√µes de cada indiv√≠duo.
4. Passo: Encontrar o valor $d$, que √© a m√©dia das diferen√ßas $d_i$:<br>
$$\bar{d}= \dfrac{\sum D_i}{n}$$
5. Passo: Calcular o desvio padr√£o ($S_d$) das diferen√ßas di:<br>
$$S_d=\sqrt{\dfrac{n\left(\sum D_i^2 \right) - \left( \sum D_i \right) ^2}{n \cdot \left( n - 1 \right)}}$$
6. Passo: Calcular a estat√≠stica de teste $T_p$:<br>
$$T_p = \dfrac{ \bar{d}}{ \dfrac{S_d}{\sqrt{n}}}$$
7. Passo: Calcular o valor p:
Valor p = $2 \cdot P \left( t > | T_p | \right)$, co $n-1$ graus de liberdade.

 Conclus√£o: 
- Se o valor p < n√≠vel de signific√¢ncia ($\alpha$), ent√£o h√° ind√≠cios para rejeitarmos H0.
- Se o valor p > n√≠vel de signific√¢ncia ($\alpha$), ent√£o h√° evid√™ncias suficientes para aceitarmos H0.
8. Passo: Outra op√ß√£o seria construir o intervalo de confian√ßa:
$$ \bar{d} \pm \left(T_{n-1; \dfrac{a}{2}} \right) \cdot \dfrac{S_d}{\sqrt{n}}$$

Conclus√£o: 
- Se os limites do intervalo de confian√ßa n√£o cont√™m 0 (zero), ent√£o h√° ind√≠cios para rejeitarmos H0.
- Se os limites do intervalo de confian√ßa cont√™m 0 (zero), ent√£o h√° evid√™ncias suficientes para aceitarmos H0.


#####  Exemplo

O Captopril √© um rem√©dio destinado a baixar a press√£o sist√≥lica. Feito o teste com este rem√©dio em pacientes, mediram-se suas press√µes sist√≥licas (em mmHg) antes e depois de tomarem o rem√©dio, com os resultados constantes da tabela a seguir. Pode-se dizer que haja diferen√ßa nas medidas da press√£o sist√≥lica antes e depois da ingest√£o do rem√©dio?

Tabela 1 - Press√£o sist√≥lica dos pacientes antes e depois de tomarem o Captopril<br>
Press√£o Sist√≥lica (em mmHg)

In [265]:
dados = [[200, 174, 198, 170, 179], [191, 170, 177, 167, 159]]
colunas = ['Antes', 'Depois']
df = pd.DataFrame(columns = colunas)
df['Antes'] = dados[0]
df['Depois'] = dados[1]
df

Unnamed: 0,Antes,Depois
0,200,191
1,174,170
2,198,177
3,170,167
4,179,159


1. Passo:
N√≠vel de signific√¢ncia ($\alpha$) = 5%, ou seja, 0,05 $\to$ Como o n√≠vel de signific√¢ncia n√£o foi especificado no problema, adotaremos o ‚Äúpadr√£o‚Äù.

2. Passo: <br>
$H_0: \mu_1 = \mu_2 \to \mu_1 - \mu_2 = 0$ <br>
$H_1: \mu_1 \neq \mu_2 \to \mu_1 - \mu_2 \neq 0$

3. Passo: Calcular as diferen√ßas $D_i$ e o valor de $D_i^2$

In [287]:
df['di'] = df['Antes'] - df['Depois']
df['di2'] = df['di']**2
print('A soma de di √©',sum(df['di']))
print('A soma de di2 √©',sum(df['di2']))
df

A soma de di √© 57
A soma de di2 √© 947


Unnamed: 0,Antes,Depois,di,di2
0,200,191,9,81
1,174,170,4,16
2,198,177,21,441
3,170,167,3,9
4,179,159,20,400


4. Passo: Encontrar o valor $\bar{d}$, que √© a m√©dia das diferen√ßas di:<br>
$\bar{d} = \dfrac{ \sum d}{n}$

In [272]:
d_ = df['di'].mean()
d_

11.4

5. Passo: Calcular o desvio padr√£o $\left( S_d \right)$ das diferen√ßas $D_i$. <br>
$S_d=\sqrt{\dfrac{n\left(\sum D_i^2 \right) - \left( \sum D_i \right) ^2}{n \cdot \left( n - 1 \right)}}$

In [296]:
sd = round(np.sqrt(((len(df)*(df['di2'].sum()))-(df['di'].sum())**2)  / ( len(df) * (len(df) - 1))), 2)
sd

8.62

6. Passo: Calcular a estat√≠stica de teste $T_p$: <br>
$T_p = \dfrac{ \bar{d}}{ \dfrac{S_d}{\sqrt{n}}}$

In [302]:
tp = round(d_ / (sd / np.sqrt(len(df))), 2)
tp 

2.96

7. Passo: Calcular o valor-p utilizando a tabela t-Student:

In [308]:
p = t.sf(np.abs(tp), len(df) - 1) * 2
p

0.04155443516210595

8. Passo O c√°lculo do intervalo de confian√ßa.

In [311]:
resp = t.interval(0.95, 4, d_, sd/ (5 ** 0.5))
resp

(0.6968563354835347, 22.103143664516466)

In [314]:
t_alpha = t.interval(0.95, 4)[1]
t_alpha

2.7764451051977987

In [315]:
if p > 0.05:
    print('Aceita H0.')
else:
    print('Rejeita H0.')

Rejeita H0.


In [316]:
# Pesquisar como fazer assim
from scipy.stats import wilcoxon

##### Exerc√≠cio
Uma distribuidora de combust√≠veis deseja verificar se um novo tipo de gasolina √© eficaz na revitaliza√ß√£o de motores velhos. Com esse objetivo, seleciona 12 autom√≥veis de um mesmo modelo com mais de 8 anos de uso e, ap√≥s regulagem de seus motores, verifica o consumo de combust√≠vel (em km/litro). Em seguida, o carro √© abastecido com o novo tipo de combust√≠vel durante 15 semanas, e uma nova aferi√ß√£o do consumo √© feita. Defina as vari√°veis aleat√≥rias Xi e Yi como o rendimento do autom√≥vel i respectivamente antes e ap√≥s as 15 semanas. Vemos que Xi e Yi foram medidas em uma mesma unidade amostral e, assim, √© razo√°vel assumir que exista alguma depend√™ncia entre elas. Ao medir a caracter√≠stica de interesse em duas ocasi√µes, para cada uma das unidades amostrais, pretende-se diminuir a influ√™ncia de outros fatores e ressaltar um poss√≠vel efeito do tipo de gasolina no desempenho do ve√≠culo.

Os dados coletados para os 12 autom√≥veis s√£o apresentados na tabela a seguir:

In [341]:
dados =  {"Ap√≥s": [11.6, 8.8, 9.9, 9.5, 11.6, 9.1, 10.6, 10.8, 13.4, 10.6, 10.5, 11.4],
          "Antes": [8.1, 7.9, 6.8, 7.8, 7.6, 7.9, 5.7, 8.4, 8, 9.5, 8, 6.8]}
df = pd.DataFrame(dados)
df

Unnamed: 0,Ap√≥s,Antes
0,11.6,8.1
1,8.8,7.9
2,9.9,6.8
3,9.5,7.8
4,11.6,7.6
5,9.1,7.9
6,10.6,5.7
7,10.8,8.4
8,13.4,8.0
9,10.6,9.5


Utilizando um n√≠vel de signific√¢ncia de 5%, verifique se houve diferen√ßa no redimento dos ve√≠culos.

In [345]:
n = len(df)
a = 0.05
t_alpha = round(t.interval(1 - a, n - 1)[1], 4)

In [346]:
df['di'] = df["Ap√≥s"] - df["Antes"]
df['di2'] = df['di'] ** 2
df

Unnamed: 0,Ap√≥s,Antes,di,di2
0,11.6,8.1,3.5,12.25
1,8.8,7.9,0.9,0.81
2,9.9,6.8,3.1,9.61
3,9.5,7.8,1.7,2.89
4,11.6,7.6,4.0,16.0
5,9.1,7.9,1.2,1.44
6,10.6,5.7,4.9,24.01
7,10.8,8.4,2.4,5.76
8,13.4,8.0,5.4,29.16
9,10.6,9.5,1.1,1.21


In [349]:
d_ = df['di'].mean()
d_

2.941666666666667

In [350]:
sd = round(np.sqrt(((len(df)*(df['di2'].sum()))-(df['di'].sum())**2)  / ( len(df) * (len(df) - 1))), 2)
sd

1.56

In [351]:
tp = round(d_ / (sd / np.sqrt(len(df))), 2)
tp 

6.53

In [352]:
p = t.sf(np.abs(tp), len(df) - 1) * 2
p

4.249819179929982e-05

In [353]:
if p > a:
    print("Aceita H0.")
else:
    print("Rejeita H0.")

Rejeita H0.


In [391]:
# Compara√ß√£o autom√°tica 
from scipy.stats import ttest_rel

In [392]:
ttest_rel(df['Antes'], df['Ap√≥s'])

Ttest_relResult(statistic=-6.539586006960168, pvalue=4.194603259445353e-05)

### Compara√ß√£o de duas m√©dias: teste t-Student <br>(Amostras independentes)
Uma quest√£o que aparece com frequ√™ncia √©: ‚ÄúO m√©todo A √© melhor do que o m√©todo B?‚Äù 

Em termos estat√≠sticos, ela equivale a comparar dois conjuntos de informa√ß√µes, resultantes das medidas obtidas da aplica√ß√£o dos dois m√©todos a dois conjuntos de objetos ou indiv√≠duos.

O teste t-Student, ou simplesmente teste t, √© o m√©todo mais utilizado para se avaliarem as diferen√ßas entre as m√©dias de dois grupos para os casos em que as vari√¢ncias populacionais s√£o desconhecidas. 

Suponha que queremos comparar duas m√©dias de duas popula√ß√µes independentes e ambas com distribui√ß√£o Normal. Da popula√ß√£o 1 retiramos uma amostra aleat√≥ria de tamanho e da popula√ß√£o 2 retiramos uma amostra aleat√≥ria de tamanho .

Suposi√ß√µes:<br>
**‚úì** As duas amostras s√£o independentes;<br>
**‚úì** As duas amostras s√£o extra√≠das aleatoriamente de popula√ß√µes distribu√≠das normalmente. Caso a suposi√ß√£o de normalidade n√£o seja comprovada pode-se optar por realizar testes n√£o-param√©tricos. Estes n√£o necessitam de pressupostos sobre a distribui√ß√£o dos dados.

Consideramos dois casos distintos para o teste de hip√≥teses para compara√ß√£o de duas m√©dias. O primeiro caso em que as vari√¢ncias das popula√ß√µes s√£o desconhecidas, por√©m iguais (homocedasticidade) e o segundo caso em que as vari√¢ncias s√£o desconhecidas e distintas (heterocedasticidade).


**Caso 1: As duas popula√ß√µes parecem ter vari√¢ncias iguais (Homoced√°sticas):**


Nota√ß√£o utilizada:<br>
$\bar{x_1}$ = m√©dia da 1¬™ amostra <br>
$\bar{x_2}$ = m√©dia da 2¬™ amostra <br>
$\bar{n_1}$ = tamanho da 1¬™ amostra <br>
$\bar{n_2}$ = tamanho da 2¬™ amostra <br>
$\bar{S_1^2}$ = vari√¢ncia da 1¬™ amostra <br>
$\bar{S_2^2}$ = vari√¢ncia da 2¬™ amostra

Hip√≥teses: <br>
$H_0: \mu_1 = \mu_2$  versus  $H_A: \mu_1 \neq \mu_2   \to$ Hip√≥tese bilateral<br>
$H_0: \mu_1 \leq \mu_2$  versus  $H_A: \mu_1 > \mu_2   \to$ Hip√≥tese unilateral √† direita<br>
$H_0: \mu_1 \geq \mu_2$  versus  $H_A: \mu_1 < \mu_2   \to$ Hip√≥tese unilateral √† esquerda


Estat√≠stica de teste:<br>
$$ t_o = \dfrac{\left( \bar{x_1} - \bar{x_2} \right)}{ \sqrt{ \dfrac{s_{comb}^2}{n_1} + \dfrac{s_{comb}^2}{n_2}}} $$

Como a vari√¢ncia populacional $\sigma^2$ √© desconhecida, precisar√° ser estimada. Tendo em vista que $s_1^2 \text{e} s_2^2$ s√£o 
ambos estimadores n√£o viciados dessa vari√¢ncia, usaremos como estimativa para $\sigma^2$ uma combina√ß√£o deles, a vari√¢ncia combinada, que √© encontrada da seguinte maneira:
$$ S_{comb}^2 = \dfrac{ \left(n_1 - 1 \right)s_1^2 + \left(n_3 - 1 \right)s_2^2}{\left(n_1 - 1\right)+\left(n_2-1\right)} $$

valor p:

| Tipo de teste |Valor P|
| :-------|--------|
| Unilateral direito | √Årea √† direita da estat√≠stica de teste |
| Bilateral | 2 x a √°rea √† direita do m√≥dulo da estat√≠stica de teste |
| Unilateral esquerdo | √Årea √† esquerda da estat√≠stica de teste |

N√∫mero de graus de liberdade quando as vari√¢ncias amostrais s√£o combinadas: $gl = n_1 + n_2 ‚Äì 2$

Concluindo um teste de hip√≥tese utilizando o valor p:<br>
- Se valor p > $\alpha$, ent√£o aceitamos $H_0$; <br>
- Se valor p < $\alpha$, ent√£o rejeitamos $H_0$. <br>
Conclus√£o utilizando o intervalo de confian√ßa (somente para hip√≥teses bilaterais):

Intervalo de confian√ßa: $\left(\bar{x_1}-\bar{x_2}\right)\pm\left(t_{gl;\dfrac{\alpha}{2}}\right)\cdot\sqrt{\dfrac{s_{comb}^2}{n_1}+\dfrac{s_{comb}^2}{n_2}}$

**Por meio desse intervalo de confian√ßa √© poss√≠vel obter duas respostas:**<br><br>
**‚úì** Verificar se as duas m√©dias s√£o iguais ou diferentes:<br>
        Podemos rescrever as hip√≥teses estat√≠sticas da seguinte maneira:
        
        
$H_0:\mu_1-\mu_2=0$  versus $H_1:\mu_1\mu_2\neq$
       
        
  Ou seja, se o intervalo cont√©m 0 (zero) h√° ind√≠cios de que as duas m√©dias s√£o iguais, caso contr√°rio, se o intervalo n√£o cont√©m 0 (zero) pode-se concluir com 100(1-$\alpha$)% de confian√ßa que as duas m√©dias s√£o diferentes.
        
        
**‚úì** Se o intervalo de confian√ßa indicar que as duas m√©dias s√£o diferentes √© poss√≠vel verificar qual m√©dia √© maior ou menor:


        - Se os limites do intervalo do confian√ßa apresentam sinal negativo (-) pode-se dizer que a m√©dia da 2¬™ amostra √© maior do que a m√©dia da 1¬™ amostra.<br>
        - Ao contr√°rio, se os limites do intervalo apresentarem sinal positivo (+) conclui-se que a m√©dia da 1¬™ amostra √© maior que a m√©dia da 2¬™ amostra.

**Caso 1: As duas popula√ß√µes parecem ter vari√¢ncias desiguais (Heteroced√°sticas):**


Nota√ß√£o utilizada:<br>
$\bar{x_1}$ = m√©dia da 1¬™ amostra <br>
$\bar{x_2}$ = m√©dia da 2¬™ amostra <br>
$\bar{n_1}$ = tamanho da 1¬™ amostra <br>
$\bar{n_2}$ = tamanho da 2¬™ amostra <br>
$\bar{S_1^2}$ = vari√¢ncia da 1¬™ amostra <br>
$\bar{S_2^2}$ = vari√¢ncia da 2¬™ amostra

Hip√≥teses: <br>
$H_0: \mu_1 = \mu_2$  versus  $H_A: \mu_1 \neq \mu_2   \to$ Hip√≥tese bilateral<br>
$H_0: \mu_1 \leq \mu_2$  versus  $H_A: \mu_1 > \mu_2   \to$ Hip√≥tese unilateral √† direita<br>
$H_0: \mu_1 \geq \mu_2$  versus  $H_A: \mu_1 < \mu_2   \to$ Hip√≥tese unilateral √† esquerda

Estat√≠stica de teste:
$$ t_0=\dfrac{\left(\bar{x_1}-\bar{x_2}\right)}{\sqrt{\dfrac{s_1^2}{n_1}+\dfrac{s_2^2}{n_2}}} $$

valor p:

| Tipo de teste |Valor P|
| :-------|--------|
| Unilateral direito | √Årea √† direita da estat√≠stica de teste |
| Bilateral | 2 x a √°rea √† direita do m√≥dulo da estat√≠stica de teste |
| Unilateral esquerdo | √Årea √† esquerda da estat√≠stica de teste |

N√∫mero de graus de liberdade: **o menor dos dois $n_1 ‚Äì 1 \text{ e }  n_2 ‚Äì 1$**<br><br>
Intervalo de confian√ßa (para hip√≥teses bilaterais): 
$$ \left(\bar{x_1}-\bar{x_2}\right)\pm\left(t_{gl;\dfrac{\alpha}{2}}\right)\cdot\sqrt{\dfrac{s_1^2}{n_1}+\dfrac{s_1^2}{n_2}}$$
A conclus√£o do teste de hip√≥teses utilizando o valor p ou o intervalo de confian√ßa deve ser feita da mesma maneira como descrito no Caso 1.


### Compara√ß√£o de duas vari√¢ncias: Teste Bilateral
Esse teste √©, muitas vezes, usado em conex√£o com o teste t-Sudent para duas m√©dias (amostras independentes), em que √© necess√°rio verificar a homocedasticidade (igualdade) ou heterocedasticidade (diferen√ßa) das vari√¢ncias. Suponha que temos duas amostras aleat√≥rias e independentes, de tamanhos n1 e n2, retiradas de duas popula√ß√µes normais com vari√¢ncias $\sigma_1^2$ e $\sigma_2^2$. Desejamos testar a hip√≥tese bilateral:
$$ H_0:\sigma_1^2=\sigma_2^2$-------$H_A:\sigma_1^2\neq\sigma_2^2 $$

Para isso, utilizaremos a seguinte estat√≠stica de teste:
$$ F=\dfrac{s_1^2}{s_2^2} $$
onde $s_1^2$ e $s_2^2$ s√£o as vari√¢ncias amostrais correspondentes. Baseado na suposi√ß√£o de que as popula√ß√µes amostradas t√™m distribui√ß√£o normal e que a hip√≥tese nula √© $\sigma_1^2=\sigma_2^2$, pode ser mostrado que a estat√≠stica de teste F, chamada de raz√£o de vari√¢ncias, segue o modelo Fisher-Snedecor, que √© caracterizado pelos graus de liberdade associados √†s quantidades presentes no numerador (n1 ‚Äì 1) e no denominador (n2 ‚Äì 1) da estat√≠stica de teste.Para um teste bilateral, a regra de decis√£o para um n√≠vel de signific√¢ncia ($\alpha$) √©: 

Rejeitar $H_0$ se: $F < F_L$ ou se $F > F_r$<br><br>

onde os valores cr√≠ticos s√£o obtidos por: $F_L=\dfrac{1}{F_{n_2-1;n_1-1;\dfrac{\alpha}{2}}}$ e $F_R=F_{n_1-1;n_2-1:\dfrac{\alpha}{2}}$


Os valores $ùêπ_{ùëõ_2‚àí1;ùëõ_1‚àí1;\dfrac{\alpha}{2}}$ e $F_{n_1-1,n_2-1;\dfrac{\alpha}{2}}$ s√£o encontrados na tabela F.

Caso contr√°rio, n√£o rejeitamos $H_0$.

##### Exemplo
Um fabricante de esferas para rolamentos desenvolveu um novo m√©todo de produ√ß√£o, mais barato. Entretanto, ele desconfia que os novos lotes apresentam variabilidade diferente daqueles 
produzidos pelo m√©todo antigo (com rela√ß√£o ao di√¢metro das esferas). Para cada m√©todo, ele selecionou uma amostra aleat√≥ria. As medidas descritivas para cada m√©todo encontram-se a 
seguir:
    
M√©todo antigo: $n_1 = 15 ;\bar{x_1} = 29.93 mm ; s_1^2 = 0.03 mm^2$ <br>
M√©todo novo: $n_2 = 10 ; \bar{x_2} = 29.89 mm ; s_2^2 = 0.19 mm^2$
    
Nesse exemplo vamos construir o teste bilateral para compara√ß√£o de duas vari√¢ncias para um n√≠vel de signific√¢ncia de 5%.


In [7]:
n1 = 15 
n2 = 10
x1 = 29.93
x2 = 29.89
s1 = 0.03
s2 = 0.19
a = 0.05

$H_0: \sigma_1^2=\sigma_2^2$<BR>
$H_A:\sigma_1^2\neq\sigma_2^2$

Estat√≠stica de teste: <br>
$F=\dfrac{s_1^2}{S_2^2}$

In [30]:
f = s1/s2
f

0.15789473684210525

Para obter os valores cr√≠ticos devemos consultar a tabela F:<br>
$ùêπ_{ùëõ_2‚àí1;ùëõ_1‚àí1;\dfrac{\alpha}{2}}$ e $F_{n_1-1,n_2-1;\dfrac{\alpha}{2}}$

In [29]:
from scipy.stats import f as ff

In [12]:
fn2 = f.interval(1 - a, n2 - 1, n1 - 1)[1]
fn2

3.2093003408966854

In [14]:
fn1 = f.interval(1-a, n1-1, n2-1)[1]
fn1

3.7979524823204254

Valores cr√≠ticos s√£o obtidos por:<br>
$F_L=\dfrac{1}{F_{n_2-1;n_1-1;\dfrac{\alpha}{2}}}$ e $F_R=F_{n_1-1;n_2-1:\dfrac{\alpha}{2}}$

In [33]:
fl = 1/fn2
fl

0.3115943955935884

In [21]:
fr = fn1
fr

numpy.float64

In [23]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0.')
else:
    print('Aceita H0.')

Rejeita H0.


In [31]:
p = ff.cdf(f, n1-1, n2-1)

0.0012161724137402209

In [34]:
ff.cdf(f, n2-1, n1-1)

0.004333293100170335

In [35]:
from scipy.stats import f_oneway
f_oneway(amostra1, amostra2)
#Quando tem a base das amostras

##### Exerc√≠cios
Um analista da qualidade quer avaliar se existe diferen√ßa na variabilidade da produ√ß√£o de eixo comando desenvolvido por dois sistemas de usinagem. A tabela a seguir apresenta as medidas descritivas de duas popula√ß√µes independentes com distribui√ß√£o Normal. Podemos dizer que as vari√¢ncias de ambas s√£o iguais? Utilize um n√≠vel de signific√¢ncia de 5%.

||Tamanho da amostra|M√©dia da amostra | Desvio padr√£o da amostra|
|------|-----|-----|-----|
|Sistema de usinagem 1|25|19.3266|1.3623|
|Sistema de usinagem 2|30|24.4729|2.8876

In [52]:
a = 0.05
n1 = 25
n2 = 30
x1 = 19.3266
x2 = 24.4729
s1 = 1.3623 **2
s2 = 2.8876 **2

In [54]:
f = s1 / s2
f

0.22257247079146414

fn2 = ff.interval(1 - a, n2 - 1, n1 - 1)[1]
fn2

In [41]:
fn1 = ff.interval(1 - a, n1 - 1, n2 - 1)[1]
fn1

2.1540059930711766

In [43]:
fl = 1/fn2
fl

0.4509699296669817

In [44]:
fr = fn1
fr

2.1540059930711766

In [50]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0.')
else:
    print('Aceita H0.')

Rejeita H0.


##### Exerc√≠cio
Um consultor de sa√∫de deseja comparar os √≠ndices de satisfa√ß√£o dos pacientes de dois hospitais. O consultor coleta as classifica√ß√µes de 20 pacientes para cada um dos hospitais. 
No hospital A a vari√¢ncia observada foi igual a 66,958 e no hospital B foi de 154,537. Execute um teste de duas vari√¢ncias para determinar se os desvios-padr√£o nas avalia√ß√µes 
dos pacientes dos dois hospitais s√£o diferentes. Utilize um n√≠vel de signific√¢ncia de 5%.

In [56]:
n1 = 20
n2 = 20
a = 0.05
s1 = 66.958
s2 = 154.537

In [61]:
f = s1 / s2
f

0.43328135009738766

In [60]:
fn2 = ff.interval(1 - a, n2 - 1, n1 - 1)[1]
fn2

2.5264509335792606

In [62]:
fn1 = ff.interval(1 - a, n1 - 1, n2 - 1)[1]
fn1

2.5264509335792606

In [63]:
fl = 1 / fn2
fl

0.3958121595432234

In [64]:
fr = fn1
fr

2.5264509335792606

In [65]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0.')
else:
    print('Aceita H0.')

Aceita H0.


##### Exemplo
Digitadores s√£o treinados em uma empresa em duas turmas distintas. Na primeira, denominada turma J, utiliza-se um m√©todo japon√™s de ensino, ao passo que na segunda turma, denominada turma A, utiliza-se um m√©todo alem√£o. Deseja-se comparar os dois m√©todos e para tanto, 16 alunos de cada turma foram escolhidos aleatoriamente e uma mesma tarefa foi atribu√≠da a cada um. Ao final do experimento, o tempo gasto na realiza√ß√£o da tarefa, para cada aluno, foi anotado. No processo, dois computadores utilizados pelos alunos selecionados da turma J e tr√™s da turma A apresentaram problemas que impediram a realiza√ß√£o da tarefa; o tamanho da amostra foi assim reduzido para 14 e 13, respectivamente, para as turmas J e A. Os dados obtidos encontram-se resumidos a 
seguir:

|Turma|n|M√©dia|Desvio Padr√£o|
|:-------:|:-------:|:-------:|:-------:|
J|14|11,57|4,1|
A|13|15,38|4,3|

Considerando-se um n√≠vel de 5% de signific√¢ncia, verifique se h√° evid√™ncias suficientes para afirmar que os dois m√©todos s√£o equivalentes, ou seja, o tempo m√©dio para as duas turmas s√£o iguais.

Precisamos verificar se existe diferen√ßa entre duas m√©dias e, para isso, √© necess√°rio avaliar se estamos trabalhando com duas popula√ß√µes homoced√°sticas ou heteroced√°sticas. Dessa forma, primeiramente, executaremos o teste bilateral para duas vari√¢ncias:

Hip√≥teses estat√≠sticas:<br>
$H_0:\sigma_J^2=\sigma_A^2$<br>
$H_A:\sigma_J^2\neq\sigma_A^2$

In [250]:
nj = 14
na = 13
xj = 11.57
xa = 15.38
sj = 4.1 ** 2
sa = 4.3 ** 2
a = 0.05

In [251]:
f = sj / sa
f

0.9091400757166036

In [252]:
fl = 1 / ff.interval(1 - a, na - 1, nj - 1)[1]
fl

0.3171406419422584

In [253]:
fr = ff.interval(1 - a, nj - 1, na - 1)[1]
fr

3.2392633174271053

In [254]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0 -- heteroced√°sticas')
else:
    print('Aceita H0 -- homoced√°sticas')

Aceita H0 -- homoced√°sticas


In [255]:
#Sc^2{comb}
sc2 = ((nj - 1)*sj + (na - 1)*sa)/((nj-1) +(na - 1))

In [256]:
# Estat√≠stica de teste:
t0 = (xj - xa)/np.sqrt((sc2/nj)+(sc2/na))
t0

-2.356786306494855

In [257]:
#Pesquisar como encontrar o valor p
p = t.sf(np.abs(t0), df = 25) * 2
p

0.026574633017822705

In [79]:
# valor t_alpha
t_alpha = t.interval(0.95, 25)[1]
t_alpha

2.059538552753294

In [81]:
# Calculando o intervalo de confian√ßa
int_conf = t.interval(1 - a, (nj + na) - 2, (xj - xa), np.sqrt((s2/nj)+(s2/13)))
int_conf

(-7.139466852537987, -0.4805331474620136)

In [89]:
if p < a:
    print("Rejeita H0")
else:
    print("Aceita H0")

Rejeita H0


##### Exemplo
Uma empresa avaliadora de im√≥veis est√° estudando as regi√µes central e oeste da cidade de S√£o Paulo. O objetivo principal √© verificar se o pre√ßo m√©dio (em R\$ 10.000,00), praticado para im√≥veis comerciais de um dado tamanho, √© o mesmo nas duas √°reas. Duas amostras aleat√≥rias foram selecionadas de cada regi√£o. As medidas resumo para esse estudo encontram-se a seguir:


| Regi√£o      |n|M√©dia|Desvio padr√£o|
|:-----------:|----------- | ----------- |----------|
|Central      |20|40,2|0,7|
|Oeste        |15|36,7|1,9|

Considerando-se um n√≠vel de 5% de signific√¢ncia, o que voc√™ pode concluir?

Assim como no exemplo 1, estamos trabalhando com a compara√ß√£o de duas m√©dias em dois grupos distintos (regi√£o central e oeste). Para isso, √© necess√°rio avaliar se estamos trabalhando com duas popula√ß√µes homoced√°sticas ou heteroced√°sticas. Dessa forma, primeiramente, executaremos o teste bilateral para duas vari√¢ncias:

In [91]:
n1 = 20
n2 = 15
x1 = 40.2
x2 = 36.7
s1 = 0.7 ** 2
s2 = 1.9 ** 2
a = 0.05

In [92]:
f = s1 / s2
f

0.13573407202216065

In [96]:
fl = 1 / ff.interval(1 - a, n2 - 1, n1 - 1)[1]
fl

0.37779645661935185

In [97]:
fr = ff.interval(1 - a, n1 - 1, n2 - 1)[1]
fr

2.8607215359970652

In [95]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0 -- heteroced√°sticas')
else:
    print('Aceita H0 -- homoced√°sticas')

Rejeita H0 -- heteroced√°sticas


Hip√≥teses estat√≠sticas:<br>
$H_0:\mu_1=\mu_2$<br>
$H_A:\mu_1\neq\mu_2$

In [100]:
#Estat√≠stica de teste
t0 = (x1 - x2)/np.sqrt((s1/n1)+(s2/n2))
t0

6.796863993846612

In [107]:
# popula√ß√µes heteroced√°sticas usar√° o menor valor como graus de liberdade
t_alpha = t.interval(0.95, 14)[1]
t_alpha

2.1447866879169273

In [112]:
# popula√ß√µes heteroced√°sticas usar√° o menor valor como graus de liberdade
# Verificar o teste p que n√£o est√° batendo
p = t.sf(t0, 14) * 2
p

8.640740672982558e-06

In [113]:
# Intervalo de confian√ßa (para hip√≥teses bilaterais):
int_conf = t.interval(1 - a, 14, (x1 - x2), np.sqrt((s1/n1)+(s2/n2)))
int_conf

(2.3955563309041765, 4.604443669095824)

In [114]:
if p < a:
    print("Rejeita H0")
else:
    print("Aceita H0")

Rejeita H0


##### Exerc√≠cio
 Uma nova t√©cnica de impress√£o 3D foi desenvolvida. Para comparar a efici√™ncia entre a t√©cnica tradicional e a nova t√©cnica foi feita uma an√°lise do tempo de secagem (em minutos). Uma amostra de 14 cubos impressos pelo m√©todo tradicional (m√©todo 1) apontou uma m√©dia de 121 minutos e um desvio padr√£o de 16 minutos. 10 cubos impressos pelo novo m√©todo (m√©todo 2) indicaram uma m√©dia 
de 112 minutos e um desvio padr√£o de 15 minutos. Ao n√≠vel de signific√¢ncia de 5%, podemos afirmar que existe diferen√ßa nos tempos de secagem das duas t√©cnicas? Assuma que os desvios padr√µes populacionais s√£o iguais.

In [178]:
n1 = 14
n2 = 10
x1 = 121
x2 = 112
s1 = 16 ** 2
s2 = 15 ** 2
a = 0.05

Hip√≥teses estat√≠sticas:

$H_0:\sigma_1^2=\sigma_2^2$<br>
$H_1:\sigma_1^2\neq\sigma_2^2$

In [179]:
# Verificar se as popula√ß√µes s√£o homoced√°sticas ou heterocid√°sticas
f = s1/s2
f

1.1377777777777778

In [180]:
fl = 1 / ff.interval(1 - a, n2 - 1, n1 - 1)[1]
fl

0.3019294125759975

In [181]:
fr = ff.interval(1 - a, n1 - 1, n2 - 1)[1]
fr

3.8305955783109256

In [182]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0 -- heteroced√°sticas')
else:
    print('Aceita H0 -- homoced√°sticas')

Aceita H0 -- homoced√°sticas


In [183]:
#Sc^2{comb}
sc2 = ((n1 - 1)*s1 + (n2 - 1)*s2)/((n1-1) +(n2 - 1))
sc2

243.3181818181818

In [185]:
# Estat√≠stica de teste:
t0 = (x1 - x2)/np.sqrt((sc2/n1)+(sc2/n2))
t0

1.3935213444162045

In [186]:
# valor-p
p = t.sf(t0, (n1 + n2) - 2) * 2
p

0.1773818427415405

In [187]:
# Intervalo de confian√ßa
int_conf = t.interval(1 - a, (n1 + n2) - 2, (x1 - x2), np.sqrt((sc2/n1)+(sc2/n2)))
int_conf

(-4.394023482973994, 22.394023482973992)

##### Exerc√≠cio
 Uma empresa realizou um estudo para avaliar o tempo m√©dio de adapta√ß√£o de funcion√°rios rec√©m formados e de funcion√°rios que atuam no mercado h√° mais tempo. Foram selecionados aleatoriamente 26 rec√©m formados, obtendo-se um tempo m√©dio de adapta√ß√£o de 2,8 anos e um desvio padr√£o de 0,6 anos.; 26 funcion√°rios que atuam no mercado h√° mais tempo, obtendo-se um tempo m√©dio de 
adapta√ß√£o de 2,3 anos e um desvio padr√£o de 0,7 anos. Teste a hip√≥tese de que existe diferen√ßa entre os tempos m√©dios de adapta√ß√£o, considerando um n√≠vel de 5% de signific√¢ncia. Assuma que os desvios padr√µes populacionais s√£o iguais.

In [188]:
n1 = 26
n2 = 26
x1 = 2.8
x2 = 2.3
s1 = 0.6 ** 2
s2 = 0.7 ** 2
a = 0.05

In [189]:
f = s1/s2
f

0.7346938775510204

In [190]:
fl = 1 / ff.interval(1 - a, n2 - 1, n1 - 1)[1]
fl

0.4483697532971971

In [191]:
fr = ff.interval(1 - a, n1 -1, n2 - 1)[1]
fr

2.2303020947471466

In [192]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0 -- heteroced√°sticas')
else:
    print('Aceita H0 -- homoced√°sticas')

Aceita H0 -- homoced√°sticas


In [193]:
#Sc^2{comb}
sc2 = ((n1 - 1)*s1 + (n2 - 1)*s2)/((n1-1) +(n2 - 1))
sc2

0.425

In [194]:
# Estat√≠stica de teste:
t0 = (x1 - x2)/np.sqrt((sc2/n1)+(sc2/n2))
t0

2.7653315937748606

In [195]:
# Valor P
p = t.sf(t0, (n1 + n2) - 2) * 2
p

0.007944885627311018

In [196]:
# Intervalo de confian√ßa = 
int_conf = t.interval(1- a, (n1 + n2) - 2, (x1 - x2), np.sqrt((sc2/n1)+(sc2/n2)))
int_conf

(0.13683214081147682, 0.8631678591885232)

##### Exerc√≠cio
Deseja-se saber se 2 m√°quinas de empacotar caf√© est√£o fornecendo o mesmo peso m√©dio em kg. Extraem-se duas amostras, uma de cada m√°quina (supondo que os pesos das amostras sigam uma distribui√ß√£o normal):

- M√°quina Nova: 36 amostras, m√©dia = 0,81 kg, vari√¢ncia = 0,00020 kg2.
- M√°quina Velha: 39 amostras, m√©dia = 0,78 kg, vari√¢ncia = 0,00135 kg2.

Qual √© a sua conclus√£o a 5% de signific√¢ncia? Assuma que os desvios padr√µes populacionais s√£o diferentes.

In [197]:
n1 = 36
n2 = 39
x1 = 0.81
x2 = 0.78
s1 = 0.00020
s2 = 0.00135
a = 0.05

In [198]:
f= s1/s2
f

0.14814814814814814

In [199]:
fl = 1 / ff.interval(1 - a, n2 - 1, n1 - 1)[1]
fl

0.514700235866965

In [200]:
fr = ff.interval(1 - a, n1 - 1, n2 - 1)[1]
fr

1.925429759503854

In [201]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0 -- heteroced√°sticas')
else:
    print('Aceita H0 -- homoced√°sticas')

Rejeita H0 -- heteroced√°sticas


In [202]:
#Estat√≠stica de teste
t0 = (x1 - x2)/np.sqrt((s1/n1)+(s2/n2))
t0

4.733313355267003

In [203]:
# Valor p
p = t.sf(t0, n1 -1) * 2
p

3.5808744161889e-05

In [208]:
# Intervalo de Confian√ßa:
int_conf = t.interval(1 -a, n1 - 1, (x1 - x2), np.sqrt((s1/n1)+(s2/n2)))
int_conf

(0.017133064456900996, 0.04286693554309906)

In [209]:
if p < a :
    print("Rejeita H0")
else:
    print('Aceita H0')

Rejeita H0


##### Exerc√≠cio
 Os dados a seguir referem-se ao conte√∫do m√©dio de material s√≥lido em suspens√£o (mg $L^{-1}$) nas √°guas dos rios Verde e Crespo. O material s√≥lido em suspens√£o difere nos dois rios? Utilize um n√≠vel de 5% de signific√¢ncia e assuma que os desvios padr√µes populacionais s√£o diferentes. Comente o resultado.

In [135]:
dados = {
        "Rio Verde": [210, 242, 226, 268, 251, 206, 218, 215, 207],
        "Rio Crespo": [410, 390, 501, 420, 480, 456, 495, 507, 385]
    }

df = pd.DataFrame(dados)
df

Unnamed: 0,Rio Verde,Rio Crespo
0,210,410
1,242,390
2,226,501
3,268,420
4,251,480
5,206,456
6,218,495
7,215,507
8,207,385


In [244]:
n1 = len(df['Rio Verde'])
n2 = len(df['Rio Crespo'])
x1 = df['Rio Verde'].mean()
x2 = df['Rio Crespo'].mean()
s1 = df['Rio Verde'].var()
s2 = df['Rio Crespo'].var()

In [219]:
f = s1 / s2
f

0.20060631402885218

In [220]:
fl = 1 / ff.interval(1 - a, n2 - 1, n1 - 1)[1]
fl

0.2255676466069824

In [221]:
fr = ff.interval(1 - a, n1 - 1, n2 - 1)[1]
fr

4.433259889182375

In [222]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0 -- heteroced√°sticas')
else:
    print('Aceita H0 -- homoced√°sticas')

Rejeita H0 -- heteroced√°sticas


In [268]:
# n√£o funcionou, verificar
from scipy.stats import wilcoxon
wilcoxon(df['Rio Verde'], df['Rio Crespo'])

WilcoxonResult(statistic=0.0, pvalue=0.00390625)

In [227]:
#Estat√≠stica de teste
t0 = (x1 - x2)/np.sqrt((s1/n1)+(s2/n2))
t0

-12.447734878820677

In [248]:
# Valor p -- n√£o esquecer em transformar em valor absoluto
p = t.sf(np.abs(t0), n1 - 1) * 2
p

1.620892535131476e-06

In [229]:
# Intervalo de Confian√ßa:
int_conf = t.interval(1 -a, n1 - 1, (x1 - x2), np.sqrt((s1/n1)+(s2/n2)))
int_conf

(-263.5216773182908, -181.14498934837582)

In [249]:
if p < a :
    print("Rejeita H0")
else:
    print('Aceita H0')

Rejeita H0


In [261]:
from scipy.stats import ttest_ind


In [263]:
ttest_ind(df['Rio Verde'], df['Rio Crespo'], equal_var = False)

Ttest_indResult(statistic=-12.447734878820677, pvalue=7.366844454621054e-08)