### Introdução aos Teses de Hipóteses

Um teste de hipóteses é um procedimento que usa estatística amostral para testar uma alegação sobre o valor de um parâmetro populacional. Pesquisadores das mais diversas áreas contam com os testes de hipóteses para a tomada de decisões sobre novos 
medicamentos ou resultados de eleições, por exemplo.

#### Teste de hipóteses para uma média quando $\sigma$ é conhecido (Teste z para uma amostra)

O objetivo dos testes de hipóteses para uma média é avaliar afirmações feitas a respeito da média populacional. Os testes de hipóteses para média exigem dados quantitativos, isto é, dados contínuos ou discretos.

O teste de hipóteses descrito nesta seção será utilizado para uma média quando odesvio padrão populacional ($\sigma$) for conhecido.

Identificadas as hipóteses estatísticas (H0 e Ha) e definido o nível de significância ($\alpha$) podemos proceder ao cálculo da estatística de teste utilizando a fórmula a seguir:


$$ Z_{teste} = \dfrac{\bar{x} - \mu_0 }{\dfrac{\sigma}{\sqrt{n}}} $$

##### Exemplo 

(Adaptado de Levine et al.) Uma das principais medidas de qualidade dos serviços oferecidos por qualquer organização corresponde à velocidade através da qual ela responde a uma reclamação feita pelos clientes. Uma grande loja de departamentos, de controle familiar passou por uma grande expansão nos últimos anos. Foi selecionada uma amostra de 50 reclamações com relação à instalação de pisos deste ano, ou seja, correspondem ao tempo de espera (em dias) entre o recebimento da reclamação e a solução do problema relacionado com a reclamação. Nesta amostra o tempo médio de espera foi de 29 dias. Sabe-se que o desvio padrão da população é 
de 21 dias. O gerente afirma que o tempo médio de espera é de no máximo 20 dias. Com um nível de 5% de significância há evidências que comprovem a alegação do gerente?

Como o desvio padrão populacional é conhecido ($\sigma$ =21) podemos utilizar o teste z para uma média. A partir do enunciado podemos identificar as hipóteses nula e alternativa da seguinte maneira:

$H_0 : \mu \leq 20$ <br>
$H_1 : \mu > 20$

In [None]:
$=$ "$\geq$" e "$\leq$" "$\neq$"

In [5]:
import numpy as np
import pandas as pd
from scipy.stats import norm
from scipy.stats import t
from scipy.stats import f as ff

In [81]:
a = 0.05
n = 50
media = 29
sigma = 21
m0 = 20

In [82]:
# Calcular o Z Alpha
norm.ppf(0.95)

1.6448536269514722

In [83]:
z = (media - m0) / (sigma / ( np.sqrt(n)))
z

3.0304576336566322

O critério de decisão baseado no valor p é feito da seguinte maneira:
- Rejeitar a hipótese nula ($H_0$) se o valor p é no máximo igual ao nível de significância ($\alpha$).
- Não rejeitar a hipótese nula ($H_0$) se o valor p é maior do que o nível de significância ($\alpha$).

In [84]:
# Para calcular o valor-P a direita
p = norm.sf(z)
p

0.0012209172101383958

In [28]:
# Para calcular o valor-P a esquerda
p = norm.cdf(z)
p

0.9987790827898616

In [34]:
# Para calcular o valor-P Bicaudal
p = 2 * norm.cdf(z)
p

1.9975581655797232

##### Exercício
(Adaptado de Stevenson, 2001) Suponha que queiramos avaliar a afirmação de um fabricante, de que seus pneus radiais suportam uma quilometragem de 40000 milhas, no mínimo. Para uma amostra aleatória de 49 pneus observou-se uma média de duração de 38000 milhas. Sabe-se que o desvio padrão populacional da duração dos pneus é de 3500 milhas. Utilize um nível de significância de 0,03. O que você pode concluir? 

$H_0: \mu \geq 40000$ <br>
$H_1: \mu < 40000$

In [44]:
n = 49
sigma = 3500
a = 0.03
m0 = 40000
x = 38000

In [46]:
t_alpha = round(norm.ppf(1 - a), 2)
t_alpha

1.88

In [48]:
z = (x -m0) / (sigma / np.sqrt(n))
z 

-4.0

In [62]:
p = norm.cdf(z)
print(f'{p:,.5f}')

0.00003


In [63]:
# se valor-p for menor que a significância (a) aceita a hipótese O 
if p > a:
    print("Aceita H0")
else:
    print("Rejeita H0")

Rejeita H0


##### Exercício
Um representante de um grupo comunitário informa a um potencial construtor de um shopping, que a renda familiar média mensal nesta área é superior a $\text{R\$}$6500. Suponha que, para o tipo de área envolvida, a renda familiar possa ser assumida como seguindo 
a distribuição normal, e que o desvio padrão pode ser aceito como sendo igual a $\sigma$ = 2000, baseado em um estudo anterior. Para uma amostra aleatória de 55 residências, a renda familiar média encontrada é de R\$ 6300. Verifique se há evidências que confirmem a hipótese do representante do grupo comunitário, considere um nível de 2% de significância. Utilize a região crítica e o valor p para concluir o teste.

$H_0: \mu \leq 6500$ <br>
$H_1: \mu > 6500$

In [75]:
n = 55
sigma = 2000
m0 = 6500
x = 6300
a = 0.02

In [76]:
z_alpha = round(norm.ppf(1 - a), 2)
z_alpha

2.05

In [77]:
z = (x - m0) / (sigma / np.sqrt(n))
z

-0.7416198487095662

In [78]:
p = norm.sf(z)
p

0.7708411529334602

In [79]:
# se valor-p for menor que a significância (a) aceita a hipótese O 
if p > a:
    print("Aceita H0")
else:
    print("Rejeita H0")

Aceita H0


#### Teste de hipóteses (z) com intervalos de confiança
Já vimos anteriormente o método de estimação intervalar que consiste em encontrar uma estimativa intervalar de um parâmetro populacional com contém os valores
prováveis daquele parâmetro. Por conseguinte, devemos rejeitar uma afirmação de que o parâmetro populacional tenha um valor que não está compreendido no intervalo 
de confiança.

É importante lembrar que, como vimos o método de construção de intervalos de confiança bilaterais para um parâmetro, essa correspondência direta entre um 
intervalo de confiança e um teste de hipótese deve ser feita quando o teste é bilateral.

##### Exercício
1. Um estudante de direito quer conferir a alegação de sua professora de que fraudadores condenados passam, em média 12,3 meses na cadeia. Uma amostra aleatória de 35 casos do arquivo judiciário indicou uma média de 11,5 meses. Suponha que o desvio padrão seja $\sigma$ = 3,8 meses. Adote um nível de 4% de significância. O que o estudante pode concluir a partir dos dados da amostra? Utilize o valor p e o intervalo de confiança.

$H_0 : \mu = 20$ <br>
$H_1 : \mu \neq 20$

In [199]:
n = 35
x = 11.5
m0 = 12.3
sigma = 3.8
a = 0.04

In [200]:
z_alpha = norm.ppf(1 - a)
z_alpha

1.7506860712521692

In [201]:
z = (x - m0) / (sigma / ( np.sqrt(n)))
z

-1.245490480652552

In [202]:
p = 2 * norm.cdf(z)
p

0.21295151251770572

In [203]:
p = 2 * norm.sf(np.abs(z))
p

0.21295151251770572

In [48]:
# Conclusão
print(f'Conclui-se com {a * 100}% de significância que o tempo médio que fraudadores condenados passam na cadeia é de ' \
      f'{media} meses. Dessa forma, há evidências que confirmam a alegação da professora.')

Conclui-se com 4.0% de significância que o tempo médio que fraudadores condenados passam na cadeia é de 12.3 meses. Dessa forma, há evidências que confirmam a alegação da professora.


#### Teste de hipóteses para uma média quando $\sigma$ é desconhecido(Teste t-Student para uma amostra)

O teste t-Student, assim como o teste z (visto anteriormente), é um teste de hipóteses para a média. Ele será utilizado quando $\sigma$ é desconhecido e a população original tem distribuição essencialmente normal.

Quando o desvio padrão da população não é conhecido (que é o caso no teste t-Student), usa-se o desvio padrão da amostra como estimativa, substituindo $\sigma$ por $s$ nas fórmulas. Isto não acarreta maiores dificuldades, pois o desvio padrão amostral dá 
uma aproximação bastante razoável do verdadeiro valor, na maioria dos casos. Além 
disso, pelo Teorema do Limite Central, sabemos que, quando o tamanho da amostra é 
superior ou igual a 30, a distribuição das médias é aproximadamente normal. Todavia, 
para amostras de menos de 30 observações, a aproximação normal não é adequada. 
Devemos então usar a distribuição t-Student, que é a distribuição correta quando se 
usa s. 

Após a identificação do teste a ser utilizado, procedemos com a definição das 
hipóteses estatísticas ($H_0$ e $H_a$) e do nível de significância ($\alpha$). A partir daí encontramos 
a estatística de teste:


$$ T_{teste} = \dfrac{\bar{x} - \mu_0 }{\dfrac{S}{\sqrt{n}}} $$

##### Observe o exemplo a seguir:
(Adaptado de Morettin & Bussab, 2007) A associação dos proprietários de indústrias metalúrgicas está muito preocupada com o tempo perdido com acidentes de trabalho, cuja média, nos últimos tempos tem sido da ordem de 60 horas/homem por ano. Tentou-se um programa de prevenção de acidentes, após o qual foi tomada uma amostra de nove indústrias e medido o número de 
horas/homens perdidas por acidente obtendo-se uma média de 50 horas e um desvio padrão de 20 horas. Você diria, considerando-se um nível de significância de 5%, que houve alguma alteração no tempo perdido com acidentes de trabalho?

Suponha que a população segue aproximadamente a distribuição normal.

Neste exemplo não há qualquer informação sobre o desvio padrão populacional e, além disso, supõe-se que a população tem distribuição aproximadamente normal. Portanto, temos que prosseguir com o teste utilizando a distribuição t-Student:

$H_0 : \mu = 60$ <br>
$H_1 : \mu \neq 60$

In [94]:
from scipy.stats import t

In [34]:
media = 60
m0 = 50
s = 20
n = 9
a = 0.05
liberdade = n - 1
confianca = 1 - a

In [35]:
t_alpha = t.interval(confianca, liberdade, 0, 1)[1]
t_alpha

2.3060041350333704

In [36]:
tt = (m0 - media) / (s / (np.sqrt(n)))
tt

-1.5

In [37]:
# rejeita H0 se p =< a
p = 2 * t.cdf(tt, df = liberdade)
p

0.1720032919519113

In [96]:
# se valor-p for menor que a significância (a) aceita a hipótese O 
if p > a:
    print("Aceita H0")
else:
    print("Rejeita H0")

Rejeita H0


##### Exercício
(Adaptado de Morettin & Bussab) Um escritório de investimentos acredita que o rendimento médio das diversas ações que movimenta é de 20%. Uma nova estratégia foi definida com o objetivo de aumentar o rendimento médio das diversas ações que movimenta. Para verificar esta hipótese, tomaram-se 18 empresas ao acaso obtendo-se um rendimento médio de 24,56% e um desvio padrão de 5%. 
Suponha que a população tenha distribuição aproximadamente normal. Faça o teste estatístico para comprovar que a nova estratégia é realmente eficiente para aumentar o rendimento médio das diversas ações. Use um nível de significância de 1%.

$H_0 : \mu \leq 24,56$ <br>
$H_1 : \mu > 24,56$

In [191]:
n = 18
m0 = 20
x = 24.56
s = 5
a = 0.01
liberdade = n - 1

In [83]:
t_alpha = t.ppf(1 - a, n - 1)
t_alpha

2.5669339837199097

In [92]:
tt = (x - m0) / (s / np.sqrt(n))
tt

3.869288306652787

In [95]:
p = t.sf(tt, df = liberdade)
p

0.0006155271825812143

In [98]:
# se valor-p for menor que a significância (a) aceita a hipótese O 
if p > a:
    print("Aceita H0")
else:
    print("Rejeita H0")

Rejeita H0


##### Exercício
Uma amostra aleatória de oito pedidos dos arquivos de uma companhia mostra que os pedidos de certa peça de uma máquina forma despachados em: 12 10 17 
14 13 18 11 9 dias. Ao nível de 5% de significância , podemos concluir que, em média, tais pedidos são despachados em menos de 10 dias?

$H_0: \mu \geq 10$ <br>
$H_1: \mu < 10$

In [193]:
from scipy.stats import t
amostra = [12, 10, 17, 14, 13, 18, 11, 9]
n = 8
a = 0.05
m0 = 10
x = np.mean(amostra)
s = np.std(amostra)
print(f'média da amostra {x}, desvio padrão da amostra {s}')

média da amostra 13.0, desvio padrão da amostra 3.0


In [194]:
t_alpha = t.ppf(1 - a, n - 1)
t_alpha

1.894578605061305

In [195]:
tt = (x - m0) / (s / np.sqrt(n))
tt

2.8284271247461903

In [196]:
p = t.cdf(tt, df = n - 1)
p

0.9872682191583804

In [197]:
if p > a:
    print("Aceita H0.")
else:
    print('Rejeita H0.')

Aceita H0.


In [198]:
# Outro metodo
from statsmodels.stats.weightstats import DescrStatsW
test = DescrStatsW(amostra)
ter = test.ttest_mean(value = m0, alternative = 'smaller')
ter

(2.6457513110645907, 0.9834272498681131, 7.0)

### Teste de hipóteses para uma proporção
Os testes de hipóteses para proporções são adequados quando os dados sob análise consistem de contagens ou frequências de itens. A finalidade de tais testes é avaliar afirmações sobre a proporção (ou percentagem) de uma população.

As suposições associadas ao teste de hipóteses para uma proporção são descritas a seguir:

 Devem ser verificadas as condições para um experimento binomial. Isto é, temos um número fixo de provas independentes com probabilidade constante, e cada prova comporta dois resultados, que são designados como “sucesso” e “fracasso”.

 As condições $n \cdot P_0 \geq 5$ e $n \cdot (1 - P_0) \geq 5$ são ambas verificadas, de modo que a distribuição binomial das proporções amostrais pode ser aproximada por uma distribuição normal com $\mu = n \cdot P_0$ e $\sigma = \sqrt{n \cdot P_0 \cdot (1 - P_0)}$ .
                                       
Se as duas suposições acima forem satisfeitas podemos realizar o teste de hipóteses para uma proporção utilizando a tabela da distribuição normal padrão.

A notação que utilizaremos é a seguinte:

$n$ = tamanho da amostra;

$\hat p = \left( \dfrac{x}{n} \right)$ (proporção amostral)

$P_0$ = proporção populacional (usada nas hipóteses)

A estatística de teste que será utilizda é obtida por:

$$ Z_{teste} = \dfrac{\hat p - P_0}{\sqrt{\dfrac{P_0 \left(1 - P_0 \right)}{n}}} $$

#### Exemplo:
“Em um estudo da eficácia do air-bag em automóveis, constatou-se que, em 821 colisões de carros de tamanho médio equipados com air-bag, 46 colisões resultaram em hospitalização do motorista. Ao nível de significância de 0,01, teste a afirmação de 
que a taxa de hospitalização dos motoristas, nos casos de carros equipados com air-bag, é inferior à taxa de 7,8% para colisões de carros de tamanho médio equipados com cintos automáticos de segurança.”

$H_0: p \geq 0,078$ <br>
$H_1: p < 0,078$

In [17]:
a = 0.01
n = 821
x = 46
p0 = 0.078
pc = x / n

In [28]:
z_alpha = round(norm.ppf(1 - a),2)
z_alpha

2.33

In [29]:
z = round((pc - p0)/(np.sqrt(p0 * (1 - p0)/ n)),2)
z

-2.35

In [30]:
p = norm.cdf(z)
p

0.009386705534838566

In [31]:
# se valor-p for menor que a significância (a)
if p < a:
    print("Aceita H0")
else:
    print("Rejeita H0")

Aceita H0


##### Exercício
Um sistema de reservas da companhia Y acusa uma taxa de 7% de não-comparecimento. Adotou-se então um novo processo, pelo qual as reservas são confirmadas no dia anterior ao do vôo, fazendo-se um estudo de 5218 reservas pelo novo sistema, selecionadas aleatoriamente. Se se registraram 333 não-comparecimentos, teste a afirmação de que a taxa de não-comparecimento é menor no novo sistema. O novo sistema se afigura eficiente na redução do não-comparecimento? Utilize um nível de 2% de significância.


$H_0: \mu \geq 7\text{%}$ <br>
$H_1: \mu < 7\text{%}$

In [223]:
n = 5218
a = 0.02
p0 = 0.07
x = 333
pc = round(x / n, 4)
pc

0.0638

In [224]:
z_alpha = round(norm.ppf(1 - a), 2)
z_alpha

2.05

In [225]:
z = round((pc - p0) / (np.sqrt(p0 * (1 - p0) / n)), 4)
z

-1.7553

In [227]:
p = norm.cdf(z)
p

0.0396040032476464

In [228]:
if p > a:
    print('Aceita H0.')
else:
    print('Rejeita H0.')

Aceita H0.


##### Exercício
Em um estudo de 71 fumantes que estavam procurando deixar de fumar utilizando uma terapia especial, 32 não estavam fumando um ano após o tratamento. Ao nível de 0,10 de significância, teste a afirmação de que, dos fumantes que procuram deixar de fumar com aquela terapia, no máximo 25% voltam a fumar um ano após o tratamento. Esses resultados sugerem que a terapia não é eficaz?

$H_0: \mu \leq 25\text{%}$ <br>
$H_1: \mu > 25\text{%}$ 

In [245]:
n = 71
a = 0.10
p0 = 0.25
x = n - 32  # A amostra menos o inverso que estamos procurando, neste caso é a população menos os que não voltaram a fumar
pc = x / n
pc

0.5492957746478874

In [246]:
t_alpha = norm.ppf(1 - a)
t_alpha

1.2815515655446004

In [247]:
z = (pc - p0) / (np.sqrt( (p0 * (1 - p0)) / n))
z

5.82410403353402

In [248]:
p = norm.sf(z)
p

2.8709900844071862e-09

In [249]:
if p > a:
    print('Aceita H0.')
else:
    print('Rejeita H0.')

Rejeita H0.


### Teste t-Student para duas médias <br>(Amostras pareadas)
Uma amostra pareada corresponde ao levantamento de dados da mesma amostra em duas situações nas quais tenha interferido algum fator cujo efeito deseja-se avaliar. 

Exemplos:<br>
- Comparar o peso de um grupo de pessoas antes e depois de passarem por uma dieta rigorosa; <br>
- Verificar o tempo de resposta de um sistema antes e depois de algumas modificações serem implementadas; <br>
- Verificar a pressão arterial de indivíduos antes e depois de ingerirem uma medição. 

Uma amostra pareada de n observações, antes e depois da intervenção de um fator, pode ser representada como no Quadro 1.

|Indivíduo|Antes do fator|Depois do fato|Diferença d|
|:-----:|:-----:|:----:|:--------:|
|1|$X_1$|$Y_1$|$D_1=X_1-Y_1$|
|2|$X_2$|$Y_2$|$D_2=X_2-Y_2$|
|n|$X_n$||$Y_n$|$D_n=X_n-Y_n$|

Passos para realização do teste de hipóteses para comparação duas médias com amostras pareadas:
1. Passo: Estabeleça o nível de significância ($\alpha$) a ser adotado.
2. Passo: Estabelecer as hipóteses:
    H0: Não há diferença entre as médias pareadas (antes e depois), ou seja, $\mu_1 = \mu_2$
    H1: As duas medidas realizadas (antes e depois) são significativamente diferentes em relação à variável testada, ou seja, $\mu_1 \neq \mu_2$. <br>
Devemos determinar as hipóteses estatísticas a partir do problema a ser resolvido. Nesse material, trataremos somente da hipótese bilateral.
3. Passo: Calcular as diferenças d entre os pares de observações de cada indivíduo.
4. Passo: Encontrar o valor $d$, que é a média das diferenças $d_i$:<br>
$$\bar{d}= \dfrac{\sum D_i}{n}$$
5. Passo: Calcular o desvio padrão ($S_d$) das diferenças di:<br>
$$S_d=\sqrt{\dfrac{n\left(\sum D_i^2 \right) - \left( \sum D_i \right) ^2}{n \cdot \left( n - 1 \right)}}$$
6. Passo: Calcular a estatística de teste $T_p$:<br>
$$T_p = \dfrac{ \bar{d}}{ \dfrac{S_d}{\sqrt{n}}}$$
7. Passo: Calcular o valor p:
Valor p = $2 \cdot P \left( t > | T_p | \right)$, co $n-1$ graus de liberdade.

 Conclusão: 
- Se o valor p < nível de significância ($\alpha$), então há indícios para rejeitarmos H0.
- Se o valor p > nível de significância ($\alpha$), então há evidências suficientes para aceitarmos H0.
8. Passo: Outra opção seria construir o intervalo de confiança:
$$ \bar{d} \pm \left(T_{n-1; \dfrac{a}{2}} \right) \cdot \dfrac{S_d}{\sqrt{n}}$$

Conclusão: 
- Se os limites do intervalo de confiança não contêm 0 (zero), então há indícios para rejeitarmos H0.
- Se os limites do intervalo de confiança contêm 0 (zero), então há evidências suficientes para aceitarmos H0.


#####  Exemplo

O Captopril é um remédio destinado a baixar a pressão sistólica. Feito o teste com este remédio em pacientes, mediram-se suas pressões sistólicas (em mmHg) antes e depois de tomarem o remédio, com os resultados constantes da tabela a seguir. Pode-se dizer que haja diferença nas medidas da pressão sistólica antes e depois da ingestão do remédio?

Tabela 1 - Pressão sistólica dos pacientes antes e depois de tomarem o Captopril<br>
Pressão Sistólica (em mmHg)

In [265]:
dados = [[200, 174, 198, 170, 179], [191, 170, 177, 167, 159]]
colunas = ['Antes', 'Depois']
df = pd.DataFrame(columns = colunas)
df['Antes'] = dados[0]
df['Depois'] = dados[1]
df

Unnamed: 0,Antes,Depois
0,200,191
1,174,170
2,198,177
3,170,167
4,179,159


1. Passo:
Nível de significância ($\alpha$) = 5%, ou seja, 0,05 $\to$ Como o nível de significância não foi especificado no problema, adotaremos o “padrão”.

2. Passo: <br>
$H_0: \mu_1 = \mu_2 \to \mu_1 - \mu_2 = 0$ <br>
$H_1: \mu_1 \neq \mu_2 \to \mu_1 - \mu_2 \neq 0$

3. Passo: Calcular as diferenças $D_i$ e o valor de $D_i^2$

In [287]:
df['di'] = df['Antes'] - df['Depois']
df['di2'] = df['di']**2
print('A soma de di é',sum(df['di']))
print('A soma de di2 é',sum(df['di2']))
df

A soma de di é 57
A soma de di2 é 947


Unnamed: 0,Antes,Depois,di,di2
0,200,191,9,81
1,174,170,4,16
2,198,177,21,441
3,170,167,3,9
4,179,159,20,400


4. Passo: Encontrar o valor $\bar{d}$, que é a média das diferenças di:<br>
$\bar{d} = \dfrac{ \sum d}{n}$

In [272]:
d_ = df['di'].mean()
d_

11.4

5. Passo: Calcular o desvio padrão $\left( S_d \right)$ das diferenças $D_i$. <br>
$S_d=\sqrt{\dfrac{n\left(\sum D_i^2 \right) - \left( \sum D_i \right) ^2}{n \cdot \left( n - 1 \right)}}$

In [296]:
sd = round(np.sqrt(((len(df)*(df['di2'].sum()))-(df['di'].sum())**2)  / ( len(df) * (len(df) - 1))), 2)
sd

8.62

6. Passo: Calcular a estatística de teste $T_p$: <br>
$T_p = \dfrac{ \bar{d}}{ \dfrac{S_d}{\sqrt{n}}}$

In [302]:
tp = round(d_ / (sd / np.sqrt(len(df))), 2)
tp 

2.96

7. Passo: Calcular o valor-p utilizando a tabela t-Student:

In [308]:
p = t.sf(np.abs(tp), len(df) - 1) * 2
p

0.04155443516210595

8. Passo O cálculo do intervalo de confiança.

In [311]:
resp = t.interval(0.95, 4, d_, sd/ (5 ** 0.5))
resp

(0.6968563354835347, 22.103143664516466)

In [314]:
t_alpha = t.interval(0.95, 4)[1]
t_alpha

2.7764451051977987

In [315]:
if p > 0.05:
    print('Aceita H0.')
else:
    print('Rejeita H0.')

Rejeita H0.


In [316]:
# Pesquisar como fazer assim
from scipy.stats import wilcoxon

##### Exercício
Uma distribuidora de combustíveis deseja verificar se um novo tipo de gasolina é eficaz na revitalização de motores velhos. Com esse objetivo, seleciona 12 automóveis de um mesmo modelo com mais de 8 anos de uso e, após regulagem de seus motores, verifica o consumo de combustível (em km/litro). Em seguida, o carro é abastecido com o novo tipo de combustível durante 15 semanas, e uma nova aferição do consumo é feita. Defina as variáveis aleatórias Xi e Yi como o rendimento do automóvel i respectivamente antes e após as 15 semanas. Vemos que Xi e Yi foram medidas em uma mesma unidade amostral e, assim, é razoável assumir que exista alguma dependência entre elas. Ao medir a característica de interesse em duas ocasiões, para cada uma das unidades amostrais, pretende-se diminuir a influência de outros fatores e ressaltar um possível efeito do tipo de gasolina no desempenho do veículo.

Os dados coletados para os 12 automóveis são apresentados na tabela a seguir:

In [341]:
dados =  {"Após": [11.6, 8.8, 9.9, 9.5, 11.6, 9.1, 10.6, 10.8, 13.4, 10.6, 10.5, 11.4],
          "Antes": [8.1, 7.9, 6.8, 7.8, 7.6, 7.9, 5.7, 8.4, 8, 9.5, 8, 6.8]}
df = pd.DataFrame(dados)
df

Unnamed: 0,Após,Antes
0,11.6,8.1
1,8.8,7.9
2,9.9,6.8
3,9.5,7.8
4,11.6,7.6
5,9.1,7.9
6,10.6,5.7
7,10.8,8.4
8,13.4,8.0
9,10.6,9.5


Utilizando um nível de significância de 5%, verifique se houve diferença no redimento dos veículos.

In [345]:
n = len(df)
a = 0.05
t_alpha = round(t.interval(1 - a, n - 1)[1], 4)

In [346]:
df['di'] = df["Após"] - df["Antes"]
df['di2'] = df['di'] ** 2
df

Unnamed: 0,Após,Antes,di,di2
0,11.6,8.1,3.5,12.25
1,8.8,7.9,0.9,0.81
2,9.9,6.8,3.1,9.61
3,9.5,7.8,1.7,2.89
4,11.6,7.6,4.0,16.0
5,9.1,7.9,1.2,1.44
6,10.6,5.7,4.9,24.01
7,10.8,8.4,2.4,5.76
8,13.4,8.0,5.4,29.16
9,10.6,9.5,1.1,1.21


In [349]:
d_ = df['di'].mean()
d_

2.941666666666667

In [350]:
sd = round(np.sqrt(((len(df)*(df['di2'].sum()))-(df['di'].sum())**2)  / ( len(df) * (len(df) - 1))), 2)
sd

1.56

In [351]:
tp = round(d_ / (sd / np.sqrt(len(df))), 2)
tp 

6.53

In [352]:
p = t.sf(np.abs(tp), len(df) - 1) * 2
p

4.249819179929982e-05

In [353]:
if p > a:
    print("Aceita H0.")
else:
    print("Rejeita H0.")

Rejeita H0.


In [391]:
# Comparação automática 
from scipy.stats import ttest_rel

In [392]:
ttest_rel(df['Antes'], df['Após'])

Ttest_relResult(statistic=-6.539586006960168, pvalue=4.194603259445353e-05)

### Comparação de duas médias: teste t-Student <br>(Amostras independentes)
Uma questão que aparece com frequência é: “O método A é melhor do que o método B?” 

Em termos estatísticos, ela equivale a comparar dois conjuntos de informações, resultantes das medidas obtidas da aplicação dos dois métodos a dois conjuntos de objetos ou indivíduos.

O teste t-Student, ou simplesmente teste t, é o método mais utilizado para se avaliarem as diferenças entre as médias de dois grupos para os casos em que as variâncias populacionais são desconhecidas. 

Suponha que queremos comparar duas médias de duas populações independentes e ambas com distribuição Normal. Da população 1 retiramos uma amostra aleatória de tamanho e da população 2 retiramos uma amostra aleatória de tamanho .

Suposições:<br>
**✓** As duas amostras são independentes;<br>
**✓** As duas amostras são extraídas aleatoriamente de populações distribuídas normalmente. Caso a suposição de normalidade não seja comprovada pode-se optar por realizar testes não-paramétricos. Estes não necessitam de pressupostos sobre a distribuição dos dados.

Consideramos dois casos distintos para o teste de hipóteses para comparação de duas médias. O primeiro caso em que as variâncias das populações são desconhecidas, porém iguais (homocedasticidade) e o segundo caso em que as variâncias são desconhecidas e distintas (heterocedasticidade).


**Caso 1: As duas populações parecem ter variâncias iguais (Homocedásticas):**


Notação utilizada:<br>
$\bar{x_1}$ = média da 1ª amostra <br>
$\bar{x_2}$ = média da 2ª amostra <br>
$\bar{n_1}$ = tamanho da 1ª amostra <br>
$\bar{n_2}$ = tamanho da 2ª amostra <br>
$\bar{S_1^2}$ = variância da 1ª amostra <br>
$\bar{S_2^2}$ = variância da 2ª amostra

Hipóteses: <br>
$H_0: \mu_1 = \mu_2$  versus  $H_A: \mu_1 \neq \mu_2   \to$ Hipótese bilateral<br>
$H_0: \mu_1 \leq \mu_2$  versus  $H_A: \mu_1 > \mu_2   \to$ Hipótese unilateral à direita<br>
$H_0: \mu_1 \geq \mu_2$  versus  $H_A: \mu_1 < \mu_2   \to$ Hipótese unilateral à esquerda


Estatística de teste:<br>
$$ t_o = \dfrac{\left( \bar{x_1} - \bar{x_2} \right)}{ \sqrt{ \dfrac{s_{comb}^2}{n_1} + \dfrac{s_{comb}^2}{n_2}}} $$

Como a variância populacional $\sigma^2$ é desconhecida, precisará ser estimada. Tendo em vista que $s_1^2 \text{e} s_2^2$ são 
ambos estimadores não viciados dessa variância, usaremos como estimativa para $\sigma^2$ uma combinação deles, a variância combinada, que é encontrada da seguinte maneira:
$$ S_{comb}^2 = \dfrac{ \left(n_1 - 1 \right)s_1^2 + \left(n_3 - 1 \right)s_2^2}{\left(n_1 - 1\right)+\left(n_2-1\right)} $$

valor p:

| Tipo de teste |Valor P|
| :-------|--------|
| Unilateral direito | Área à direita da estatística de teste |
| Bilateral | 2 x a área à direita do módulo da estatística de teste |
| Unilateral esquerdo | Área à esquerda da estatística de teste |

Número de graus de liberdade quando as variâncias amostrais são combinadas: $gl = n_1 + n_2 – 2$

Concluindo um teste de hipótese utilizando o valor p:<br>
- Se valor p > $\alpha$, então aceitamos $H_0$; <br>
- Se valor p < $\alpha$, então rejeitamos $H_0$. <br>
Conclusão utilizando o intervalo de confiança (somente para hipóteses bilaterais):

Intervalo de confiança: $\left(\bar{x_1}-\bar{x_2}\right)\pm\left(t_{gl;\dfrac{\alpha}{2}}\right)\cdot\sqrt{\dfrac{s_{comb}^2}{n_1}+\dfrac{s_{comb}^2}{n_2}}$

**Por meio desse intervalo de confiança é possível obter duas respostas:**<br><br>
**✓** Verificar se as duas médias são iguais ou diferentes:<br>
        Podemos rescrever as hipóteses estatísticas da seguinte maneira:
        
        
$H_0:\mu_1-\mu_2=0$  versus $H_1:\mu_1\mu_2\neq$
       
        
  Ou seja, se o intervalo contém 0 (zero) há indícios de que as duas médias são iguais, caso contrário, se o intervalo não contém 0 (zero) pode-se concluir com 100(1-$\alpha$)% de confiança que as duas médias são diferentes.
        
        
**✓** Se o intervalo de confiança indicar que as duas médias são diferentes é possível verificar qual média é maior ou menor:


        - Se os limites do intervalo do confiança apresentam sinal negativo (-) pode-se dizer que a média da 2ª amostra é maior do que a média da 1ª amostra.<br>
        - Ao contrário, se os limites do intervalo apresentarem sinal positivo (+) conclui-se que a média da 1ª amostra é maior que a média da 2ª amostra.

**Caso 1: As duas populações parecem ter variâncias desiguais (Heterocedásticas):**


Notação utilizada:<br>
$\bar{x_1}$ = média da 1ª amostra <br>
$\bar{x_2}$ = média da 2ª amostra <br>
$\bar{n_1}$ = tamanho da 1ª amostra <br>
$\bar{n_2}$ = tamanho da 2ª amostra <br>
$\bar{S_1^2}$ = variância da 1ª amostra <br>
$\bar{S_2^2}$ = variância da 2ª amostra

Hipóteses: <br>
$H_0: \mu_1 = \mu_2$  versus  $H_A: \mu_1 \neq \mu_2   \to$ Hipótese bilateral<br>
$H_0: \mu_1 \leq \mu_2$  versus  $H_A: \mu_1 > \mu_2   \to$ Hipótese unilateral à direita<br>
$H_0: \mu_1 \geq \mu_2$  versus  $H_A: \mu_1 < \mu_2   \to$ Hipótese unilateral à esquerda

Estatística de teste:
$$ t_0=\dfrac{\left(\bar{x_1}-\bar{x_2}\right)}{\sqrt{\dfrac{s_1^2}{n_1}+\dfrac{s_2^2}{n_2}}} $$

valor p:

| Tipo de teste |Valor P|
| :-------|--------|
| Unilateral direito | Área à direita da estatística de teste |
| Bilateral | 2 x a área à direita do módulo da estatística de teste |
| Unilateral esquerdo | Área à esquerda da estatística de teste |

Número de graus de liberdade: **o menor dos dois $n_1 – 1 \text{ e }  n_2 – 1$**<br><br>
Intervalo de confiança (para hipóteses bilaterais): 
$$ \left(\bar{x_1}-\bar{x_2}\right)\pm\left(t_{gl;\dfrac{\alpha}{2}}\right)\cdot\sqrt{\dfrac{s_1^2}{n_1}+\dfrac{s_1^2}{n_2}}$$
A conclusão do teste de hipóteses utilizando o valor p ou o intervalo de confiança deve ser feita da mesma maneira como descrito no Caso 1.


### Comparação de duas variâncias: Teste Bilateral
Esse teste é, muitas vezes, usado em conexão com o teste t-Sudent para duas médias (amostras independentes), em que é necessário verificar a homocedasticidade (igualdade) ou heterocedasticidade (diferença) das variâncias. Suponha que temos duas amostras aleatórias e independentes, de tamanhos n1 e n2, retiradas de duas populações normais com variâncias $\sigma_1^2$ e $\sigma_2^2$. Desejamos testar a hipótese bilateral:
$$ H_0:\sigma_1^2=\sigma_2^2$-------$H_A:\sigma_1^2\neq\sigma_2^2 $$

Para isso, utilizaremos a seguinte estatística de teste:
$$ F=\dfrac{s_1^2}{s_2^2} $$
onde $s_1^2$ e $s_2^2$ são as variâncias amostrais correspondentes. Baseado na suposição de que as populações amostradas têm distribuição normal e que a hipótese nula é $\sigma_1^2=\sigma_2^2$, pode ser mostrado que a estatística de teste F, chamada de razão de variâncias, segue o modelo Fisher-Snedecor, que é caracterizado pelos graus de liberdade associados às quantidades presentes no numerador (n1 – 1) e no denominador (n2 – 1) da estatística de teste.Para um teste bilateral, a regra de decisão para um nível de significância ($\alpha$) é: 

Rejeitar $H_0$ se: $F < F_L$ ou se $F > F_r$<br><br>

onde os valores críticos são obtidos por: $F_L=\dfrac{1}{F_{n_2-1;n_1-1;\dfrac{\alpha}{2}}}$ e $F_R=F_{n_1-1;n_2-1:\dfrac{\alpha}{2}}$


Os valores $𝐹_{𝑛_2−1;𝑛_1−1;\dfrac{\alpha}{2}}$ e $F_{n_1-1,n_2-1;\dfrac{\alpha}{2}}$ são encontrados na tabela F.

Caso contrário, não rejeitamos $H_0$.

##### Exemplo
Um fabricante de esferas para rolamentos desenvolveu um novo método de produção, mais barato. Entretanto, ele desconfia que os novos lotes apresentam variabilidade diferente daqueles 
produzidos pelo método antigo (com relação ao diâmetro das esferas). Para cada método, ele selecionou uma amostra aleatória. As medidas descritivas para cada método encontram-se a 
seguir:
    
Método antigo: $n_1 = 15 ;\bar{x_1} = 29.93 mm ; s_1^2 = 0.03 mm^2$ <br>
Método novo: $n_2 = 10 ; \bar{x_2} = 29.89 mm ; s_2^2 = 0.19 mm^2$
    
Nesse exemplo vamos construir o teste bilateral para comparação de duas variâncias para um nível de significância de 5%.


In [7]:
n1 = 15 
n2 = 10
x1 = 29.93
x2 = 29.89
s1 = 0.03
s2 = 0.19
a = 0.05

$H_0: \sigma_1^2=\sigma_2^2$<BR>
$H_A:\sigma_1^2\neq\sigma_2^2$

Estatística de teste: <br>
$F=\dfrac{s_1^2}{S_2^2}$

In [30]:
f = s1/s2
f

0.15789473684210525

Para obter os valores críticos devemos consultar a tabela F:<br>
$𝐹_{𝑛_2−1;𝑛_1−1;\dfrac{\alpha}{2}}$ e $F_{n_1-1,n_2-1;\dfrac{\alpha}{2}}$

In [29]:
from scipy.stats import f as ff

In [12]:
fn2 = f.interval(1 - a, n2 - 1, n1 - 1)[1]
fn2

3.2093003408966854

In [14]:
fn1 = f.interval(1-a, n1-1, n2-1)[1]
fn1

3.7979524823204254

Valores críticos são obtidos por:<br>
$F_L=\dfrac{1}{F_{n_2-1;n_1-1;\dfrac{\alpha}{2}}}$ e $F_R=F_{n_1-1;n_2-1:\dfrac{\alpha}{2}}$

In [33]:
fl = 1/fn2
fl

0.3115943955935884

In [21]:
fr = fn1
fr

numpy.float64

In [23]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0.')
else:
    print('Aceita H0.')

Rejeita H0.


In [31]:
p = ff.cdf(f, n1-1, n2-1)

0.0012161724137402209

In [34]:
ff.cdf(f, n2-1, n1-1)

0.004333293100170335

In [35]:
from scipy.stats import f_oneway
f_oneway(amostra1, amostra2)
#Quando tem a base das amostras

##### Exercícios
Um analista da qualidade quer avaliar se existe diferença na variabilidade da produção de eixo comando desenvolvido por dois sistemas de usinagem. A tabela a seguir apresenta as medidas descritivas de duas populações independentes com distribuição Normal. Podemos dizer que as variâncias de ambas são iguais? Utilize um nível de significância de 5%.

||Tamanho da amostra|Média da amostra | Desvio padrão da amostra|
|------|-----|-----|-----|
|Sistema de usinagem 1|25|19.3266|1.3623|
|Sistema de usinagem 2|30|24.4729|2.8876

In [52]:
a = 0.05
n1 = 25
n2 = 30
x1 = 19.3266
x2 = 24.4729
s1 = 1.3623 **2
s2 = 2.8876 **2

In [54]:
f = s1 / s2
f

0.22257247079146414

fn2 = ff.interval(1 - a, n2 - 1, n1 - 1)[1]
fn2

In [41]:
fn1 = ff.interval(1 - a, n1 - 1, n2 - 1)[1]
fn1

2.1540059930711766

In [43]:
fl = 1/fn2
fl

0.4509699296669817

In [44]:
fr = fn1
fr

2.1540059930711766

In [50]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0.')
else:
    print('Aceita H0.')

Rejeita H0.


##### Exercício
Um consultor de saúde deseja comparar os índices de satisfação dos pacientes de dois hospitais. O consultor coleta as classificações de 20 pacientes para cada um dos hospitais. 
No hospital A a variância observada foi igual a 66,958 e no hospital B foi de 154,537. Execute um teste de duas variâncias para determinar se os desvios-padrão nas avaliações 
dos pacientes dos dois hospitais são diferentes. Utilize um nível de significância de 5%.

In [56]:
n1 = 20
n2 = 20
a = 0.05
s1 = 66.958
s2 = 154.537

In [61]:
f = s1 / s2
f

0.43328135009738766

In [60]:
fn2 = ff.interval(1 - a, n2 - 1, n1 - 1)[1]
fn2

2.5264509335792606

In [62]:
fn1 = ff.interval(1 - a, n1 - 1, n2 - 1)[1]
fn1

2.5264509335792606

In [63]:
fl = 1 / fn2
fl

0.3958121595432234

In [64]:
fr = fn1
fr

2.5264509335792606

In [65]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0.')
else:
    print('Aceita H0.')

Aceita H0.


##### Exemplo
Digitadores são treinados em uma empresa em duas turmas distintas. Na primeira, denominada turma J, utiliza-se um método japonês de ensino, ao passo que na segunda turma, denominada turma A, utiliza-se um método alemão. Deseja-se comparar os dois métodos e para tanto, 16 alunos de cada turma foram escolhidos aleatoriamente e uma mesma tarefa foi atribuída a cada um. Ao final do experimento, o tempo gasto na realização da tarefa, para cada aluno, foi anotado. No processo, dois computadores utilizados pelos alunos selecionados da turma J e três da turma A apresentaram problemas que impediram a realização da tarefa; o tamanho da amostra foi assim reduzido para 14 e 13, respectivamente, para as turmas J e A. Os dados obtidos encontram-se resumidos a 
seguir:

|Turma|n|Média|Desvio Padrão|
|:-------:|:-------:|:-------:|:-------:|
J|14|11,57|4,1|
A|13|15,38|4,3|

Considerando-se um nível de 5% de significância, verifique se há evidências suficientes para afirmar que os dois métodos são equivalentes, ou seja, o tempo médio para as duas turmas são iguais.

Precisamos verificar se existe diferença entre duas médias e, para isso, é necessário avaliar se estamos trabalhando com duas populações homocedásticas ou heterocedásticas. Dessa forma, primeiramente, executaremos o teste bilateral para duas variâncias:

Hipóteses estatísticas:<br>
$H_0:\sigma_J^2=\sigma_A^2$<br>
$H_A:\sigma_J^2\neq\sigma_A^2$

In [250]:
nj = 14
na = 13
xj = 11.57
xa = 15.38
sj = 4.1 ** 2
sa = 4.3 ** 2
a = 0.05

In [251]:
f = sj / sa
f

0.9091400757166036

In [252]:
fl = 1 / ff.interval(1 - a, na - 1, nj - 1)[1]
fl

0.3171406419422584

In [253]:
fr = ff.interval(1 - a, nj - 1, na - 1)[1]
fr

3.2392633174271053

In [254]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0 -- heterocedásticas')
else:
    print('Aceita H0 -- homocedásticas')

Aceita H0 -- homocedásticas


In [255]:
#Sc^2{comb}
sc2 = ((nj - 1)*sj + (na - 1)*sa)/((nj-1) +(na - 1))

In [256]:
# Estatística de teste:
t0 = (xj - xa)/np.sqrt((sc2/nj)+(sc2/na))
t0

-2.356786306494855

In [257]:
#Pesquisar como encontrar o valor p
p = t.sf(np.abs(t0), df = 25) * 2
p

0.026574633017822705

In [79]:
# valor t_alpha
t_alpha = t.interval(0.95, 25)[1]
t_alpha

2.059538552753294

In [81]:
# Calculando o intervalo de confiança
int_conf = t.interval(1 - a, (nj + na) - 2, (xj - xa), np.sqrt((s2/nj)+(s2/13)))
int_conf

(-7.139466852537987, -0.4805331474620136)

In [89]:
if p < a:
    print("Rejeita H0")
else:
    print("Aceita H0")

Rejeita H0


##### Exemplo
Uma empresa avaliadora de imóveis está estudando as regiões central e oeste da cidade de São Paulo. O objetivo principal é verificar se o preço médio (em R\$ 10.000,00), praticado para imóveis comerciais de um dado tamanho, é o mesmo nas duas áreas. Duas amostras aleatórias foram selecionadas de cada região. As medidas resumo para esse estudo encontram-se a seguir:


| Região      |n|Média|Desvio padrão|
|:-----------:|----------- | ----------- |----------|
|Central      |20|40,2|0,7|
|Oeste        |15|36,7|1,9|

Considerando-se um nível de 5% de significância, o que você pode concluir?

Assim como no exemplo 1, estamos trabalhando com a comparação de duas médias em dois grupos distintos (região central e oeste). Para isso, é necessário avaliar se estamos trabalhando com duas populações homocedásticas ou heterocedásticas. Dessa forma, primeiramente, executaremos o teste bilateral para duas variâncias:

In [91]:
n1 = 20
n2 = 15
x1 = 40.2
x2 = 36.7
s1 = 0.7 ** 2
s2 = 1.9 ** 2
a = 0.05

In [92]:
f = s1 / s2
f

0.13573407202216065

In [96]:
fl = 1 / ff.interval(1 - a, n2 - 1, n1 - 1)[1]
fl

0.37779645661935185

In [97]:
fr = ff.interval(1 - a, n1 - 1, n2 - 1)[1]
fr

2.8607215359970652

In [95]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0 -- heterocedásticas')
else:
    print('Aceita H0 -- homocedásticas')

Rejeita H0 -- heterocedásticas


Hipóteses estatísticas:<br>
$H_0:\mu_1=\mu_2$<br>
$H_A:\mu_1\neq\mu_2$

In [100]:
#Estatística de teste
t0 = (x1 - x2)/np.sqrt((s1/n1)+(s2/n2))
t0

6.796863993846612

In [107]:
# populações heterocedásticas usará o menor valor como graus de liberdade
t_alpha = t.interval(0.95, 14)[1]
t_alpha

2.1447866879169273

In [112]:
# populações heterocedásticas usará o menor valor como graus de liberdade
# Verificar o teste p que não está batendo
p = t.sf(t0, 14) * 2
p

8.640740672982558e-06

In [113]:
# Intervalo de confiança (para hipóteses bilaterais):
int_conf = t.interval(1 - a, 14, (x1 - x2), np.sqrt((s1/n1)+(s2/n2)))
int_conf

(2.3955563309041765, 4.604443669095824)

In [114]:
if p < a:
    print("Rejeita H0")
else:
    print("Aceita H0")

Rejeita H0


##### Exercício
 Uma nova técnica de impressão 3D foi desenvolvida. Para comparar a eficiência entre a técnica tradicional e a nova técnica foi feita uma análise do tempo de secagem (em minutos). Uma amostra de 14 cubos impressos pelo método tradicional (método 1) apontou uma média de 121 minutos e um desvio padrão de 16 minutos. 10 cubos impressos pelo novo método (método 2) indicaram uma média 
de 112 minutos e um desvio padrão de 15 minutos. Ao nível de significância de 5%, podemos afirmar que existe diferença nos tempos de secagem das duas técnicas? Assuma que os desvios padrões populacionais são iguais.

In [178]:
n1 = 14
n2 = 10
x1 = 121
x2 = 112
s1 = 16 ** 2
s2 = 15 ** 2
a = 0.05

Hipóteses estatísticas:

$H_0:\sigma_1^2=\sigma_2^2$<br>
$H_1:\sigma_1^2\neq\sigma_2^2$

In [179]:
# Verificar se as populações são homocedásticas ou heterocidásticas
f = s1/s2
f

1.1377777777777778

In [180]:
fl = 1 / ff.interval(1 - a, n2 - 1, n1 - 1)[1]
fl

0.3019294125759975

In [181]:
fr = ff.interval(1 - a, n1 - 1, n2 - 1)[1]
fr

3.8305955783109256

In [182]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0 -- heterocedásticas')
else:
    print('Aceita H0 -- homocedásticas')

Aceita H0 -- homocedásticas


In [183]:
#Sc^2{comb}
sc2 = ((n1 - 1)*s1 + (n2 - 1)*s2)/((n1-1) +(n2 - 1))
sc2

243.3181818181818

In [185]:
# Estatística de teste:
t0 = (x1 - x2)/np.sqrt((sc2/n1)+(sc2/n2))
t0

1.3935213444162045

In [186]:
# valor-p
p = t.sf(t0, (n1 + n2) - 2) * 2
p

0.1773818427415405

In [187]:
# Intervalo de confiança
int_conf = t.interval(1 - a, (n1 + n2) - 2, (x1 - x2), np.sqrt((sc2/n1)+(sc2/n2)))
int_conf

(-4.394023482973994, 22.394023482973992)

##### Exercício
 Uma empresa realizou um estudo para avaliar o tempo médio de adaptação de funcionários recém formados e de funcionários que atuam no mercado há mais tempo. Foram selecionados aleatoriamente 26 recém formados, obtendo-se um tempo médio de adaptação de 2,8 anos e um desvio padrão de 0,6 anos.; 26 funcionários que atuam no mercado há mais tempo, obtendo-se um tempo médio de 
adaptação de 2,3 anos e um desvio padrão de 0,7 anos. Teste a hipótese de que existe diferença entre os tempos médios de adaptação, considerando um nível de 5% de significância. Assuma que os desvios padrões populacionais são iguais.

In [188]:
n1 = 26
n2 = 26
x1 = 2.8
x2 = 2.3
s1 = 0.6 ** 2
s2 = 0.7 ** 2
a = 0.05

In [189]:
f = s1/s2
f

0.7346938775510204

In [190]:
fl = 1 / ff.interval(1 - a, n2 - 1, n1 - 1)[1]
fl

0.4483697532971971

In [191]:
fr = ff.interval(1 - a, n1 -1, n2 - 1)[1]
fr

2.2303020947471466

In [192]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0 -- heterocedásticas')
else:
    print('Aceita H0 -- homocedásticas')

Aceita H0 -- homocedásticas


In [193]:
#Sc^2{comb}
sc2 = ((n1 - 1)*s1 + (n2 - 1)*s2)/((n1-1) +(n2 - 1))
sc2

0.425

In [194]:
# Estatística de teste:
t0 = (x1 - x2)/np.sqrt((sc2/n1)+(sc2/n2))
t0

2.7653315937748606

In [195]:
# Valor P
p = t.sf(t0, (n1 + n2) - 2) * 2
p

0.007944885627311018

In [196]:
# Intervalo de confiança = 
int_conf = t.interval(1- a, (n1 + n2) - 2, (x1 - x2), np.sqrt((sc2/n1)+(sc2/n2)))
int_conf

(0.13683214081147682, 0.8631678591885232)

##### Exercício
Deseja-se saber se 2 máquinas de empacotar café estão fornecendo o mesmo peso médio em kg. Extraem-se duas amostras, uma de cada máquina (supondo que os pesos das amostras sigam uma distribuição normal):

- Máquina Nova: 36 amostras, média = 0,81 kg, variância = 0,00020 kg2.
- Máquina Velha: 39 amostras, média = 0,78 kg, variância = 0,00135 kg2.

Qual é a sua conclusão a 5% de significância? Assuma que os desvios padrões populacionais são diferentes.

In [197]:
n1 = 36
n2 = 39
x1 = 0.81
x2 = 0.78
s1 = 0.00020
s2 = 0.00135
a = 0.05

In [198]:
f= s1/s2
f

0.14814814814814814

In [199]:
fl = 1 / ff.interval(1 - a, n2 - 1, n1 - 1)[1]
fl

0.514700235866965

In [200]:
fr = ff.interval(1 - a, n1 - 1, n2 - 1)[1]
fr

1.925429759503854

In [201]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0 -- heterocedásticas')
else:
    print('Aceita H0 -- homocedásticas')

Rejeita H0 -- heterocedásticas


In [202]:
#Estatística de teste
t0 = (x1 - x2)/np.sqrt((s1/n1)+(s2/n2))
t0

4.733313355267003

In [203]:
# Valor p
p = t.sf(t0, n1 -1) * 2
p

3.5808744161889e-05

In [208]:
# Intervalo de Confiança:
int_conf = t.interval(1 -a, n1 - 1, (x1 - x2), np.sqrt((s1/n1)+(s2/n2)))
int_conf

(0.017133064456900996, 0.04286693554309906)

In [209]:
if p < a :
    print("Rejeita H0")
else:
    print('Aceita H0')

Rejeita H0


##### Exercício
 Os dados a seguir referem-se ao conteúdo médio de material sólido em suspensão (mg $L^{-1}$) nas águas dos rios Verde e Crespo. O material sólido em suspensão difere nos dois rios? Utilize um nível de 5% de significância e assuma que os desvios padrões populacionais são diferentes. Comente o resultado.

In [135]:
dados = {
        "Rio Verde": [210, 242, 226, 268, 251, 206, 218, 215, 207],
        "Rio Crespo": [410, 390, 501, 420, 480, 456, 495, 507, 385]
    }

df = pd.DataFrame(dados)
df

Unnamed: 0,Rio Verde,Rio Crespo
0,210,410
1,242,390
2,226,501
3,268,420
4,251,480
5,206,456
6,218,495
7,215,507
8,207,385


In [244]:
n1 = len(df['Rio Verde'])
n2 = len(df['Rio Crespo'])
x1 = df['Rio Verde'].mean()
x2 = df['Rio Crespo'].mean()
s1 = df['Rio Verde'].var()
s2 = df['Rio Crespo'].var()

In [219]:
f = s1 / s2
f

0.20060631402885218

In [220]:
fl = 1 / ff.interval(1 - a, n2 - 1, n1 - 1)[1]
fl

0.2255676466069824

In [221]:
fr = ff.interval(1 - a, n1 - 1, n2 - 1)[1]
fr

4.433259889182375

In [222]:
if f < float(fl) or f > float(fr):
    print('Rejeita H0 -- heterocedásticas')
else:
    print('Aceita H0 -- homocedásticas')

Rejeita H0 -- heterocedásticas


In [268]:
# não funcionou, verificar
from scipy.stats import wilcoxon
wilcoxon(df['Rio Verde'], df['Rio Crespo'])

WilcoxonResult(statistic=0.0, pvalue=0.00390625)

In [227]:
#Estatística de teste
t0 = (x1 - x2)/np.sqrt((s1/n1)+(s2/n2))
t0

-12.447734878820677

In [248]:
# Valor p -- não esquecer em transformar em valor absoluto
p = t.sf(np.abs(t0), n1 - 1) * 2
p

1.620892535131476e-06

In [229]:
# Intervalo de Confiança:
int_conf = t.interval(1 -a, n1 - 1, (x1 - x2), np.sqrt((s1/n1)+(s2/n2)))
int_conf

(-263.5216773182908, -181.14498934837582)

In [249]:
if p < a :
    print("Rejeita H0")
else:
    print('Aceita H0')

Rejeita H0


In [261]:
from scipy.stats import ttest_ind


In [263]:
ttest_ind(df['Rio Verde'], df['Rio Crespo'], equal_var = False)

Ttest_indResult(statistic=-12.447734878820677, pvalue=7.366844454621054e-08)