# Lista de exercícios sobre teste de hipótese

# Questão 1
Semeadura de nuvens, um processo em que químicos, tais
como iodeto de prata e dióxido de carbono congelado, são introduzidos nas nuvens por avião para provocar chuva, foi amplamente usada no século XX. A pesquisa
[“Reassessment of Rain Enhancement Experiments and Operations in Israel Including Synoptic Considerations”, Journal of Atmospheric Research (2010, Vol. 97(4), pp. 513-525)] questiona a eficiência deste método. Um experimento foi feito estabelecendo aleatoriamente que 52 nuvens seriam semeadas ou não. A quantidade de chuva gerada foi então medida em acre-pé. A seguir, os dados de nuvens semeadas e não semeadas:

Categoria | Quantidade de Chuva |
---|---|
**Não semeadas** | 81,2 26,1 95,0 41,1 28,6 21,7 11,5 68,5 345,5 321,2 1202,6 1,0 4,9 163,0 372,4 244,3 47,3 87,0 26,3 24,4 830,1 4,9 36,6 147,8 17,3 29,0 |
**Semeadas** | 274,7 302,8 242,5 255,0 17,5 115,3 31,4 703,4 334,1 1697,8 118,3 198,6 129,6 274,7 119,0 1656,0 7,7 430,0 40,6 92,4 200,7 32,7 4,1 978,0 489,1 2745,6 |

Com base em seus conhecimentos estatísticos, discuta se a semeadura de nuvens afeta a quantidade de chuva.

# Questão 2

As pesquisas para a eleição presidencial de 2018 do estado de São Paulo forneceram os seguintes resultados. Havia 2020 pessoas consultadas nas pesquisas e 768 eram graduadas em faculdades. Das pessoas graduadas em faculdades, 412 votaram em Haddad. Das pessoas não graduadas 536 votaram em Haddad. Assim, ter ou não graduação influencia no voto em Haddad?

# <font color='red'>Questão 3</font>

Um artigo publicado em *Growth: A Journal Devoted to Problems of Normal and Abnormal Growth* [“Comparison of Measured and Estimated Fat-Free Weight, Fat, Potassium and Nitrogen of Growing Guinea Pigs” (1982, Vol. 46(4), pp. 306-321)] mediu o peso (em gramas) do corpo dos leitões em seu nascimento.

421,0 452,6 456,1 494,6 373,8 90,5 110,7 96,4 81,7 102,4
241,0 296,0 317,0 290,9 256,5 447,8 687,6 705,7 879,0 88,8 296,0 273,0 268,0 227,5 279,3 258,5 296,0

a. Teste a hipótese de que o peso médio do corpo é de 300 gramas. Use $\alpha = 0.05$.

b. Qual é o menor nível de significância ao qual você rejeitar a hipótese nula?

In [None]:
import numpy as np
import scipy.stats as st
import matplotlib.pyplot as plt

dados = np.array([421.0, 452.6, 456.1, 494.6, 373.8, 90.5, 110.7, 96.4, 81.7, 102.4, 241.0, 296.0, 317.0, 290.9, 256.5, 447.8, 687.6, 705.7, 879.0, 88.8, 296.0, 273.0, 268.0, 227.5, 279.3, 258.5, 296.0])

print(st.shapiro(dados))

#checar se população é simétrica
st.skew(dados)


ShapiroResult(statistic=0.8933742046356201, pvalue=0.009464943781495094)


1.0351031557205745

# Questão 4

Um artigo em *Fortune* (21 de setembro de 1992) afirmou que aproximadamente metade de todos os engenheiros continua seus estudos acadêmicos além do grau de bacharelado, recebendo no final o grau de mestre ou doutor. Dados de um artigo em *Engineering Horizons* (primavera de 1990) indicaram que 117 de 484 novos engenheiros graduados estavam planejando fazer pós-graduação.

Os dados da *Engineering Horizons* são consistentes com a afirmação reportada pela *Fortune*? Use $\alpha = 0.05$ para alcançar as suas conclusões. Encontre o valor P para o teste.

In [None]:
import numpy as np
from statsmodels.stats.proportion import proportions_ztest

n = 484
amostra = 117
value = 0.5
stat, pval = proportions_ztest(amostra, n, value, prop_var=value)
print(stat, pval)


-11.363636363636362 6.34475040317164e-30


# Questão 5

Um artigo em *Biological Trace Element Research* [“Interaction of Dietary Calcium, Manganese, and Manganese Source (Mn Oxide or Mn Methionine Complex) or Chick Performance and Manganese Utilization” (1991, Vol. 29(3), pp. 217-228)] mostrou os seguintes
resultados de ensaio de manganês em tecidos do fígado de pintos alimentados com dietas ricas em Ca.

6,02 6,08 7,11 5,73 5,32 7,10 5,29 5,84 6,03 5,99 4,53 6,81

a. Teste a hipótese $H_0: \sigma^2 = 0.6$ versus $H_a: \sigma^2 \neq 0.6$, usando $\alpha = 0.01$.

b. Qual é o valor P para esse teste?

In [None]:
import scipy.stats as st
import numpy as np

def chi2test(x, sigma0, alternative = "two-tailed"):
    n = len(x)
    df = n-1
    X = df * np.var(x,ddof=1) / sigma0**2
    pless = st.chi2.cdf(X,df)
    pgreater = 1 - pless
    ptwo = 2*min(pless,pgreater)
    if alternative == "lower":
        return X,pless
    elif alternative == "upper":
        return X,pgreater
    else:
        return X,ptwo

amostra = [6.02, 6.08, 7.11, 5.73, 5.32, 7.10 ,5.29, 5.84, 6.03, 5.99, 4.53 , 6.81]
print(np.var(amostra,ddof=1), len(amostra))
chi2test(amostra, sigma0 = np.sqrt(0.6))

0.5754568181818179 12


(10.55004166666666, 0.9633827494377649)

#Questão 6

Um engenheiro da computação está investigando o desempenho de duas diferentes linguagens de programação na melhoria de tarefas computacionais. Doze programadores experientes, familiarizados
com ambas as linguagens, codificaram uma função‐padrão nas duas linguagens. O tempo (em minutos) foi registrado, e os dados são mostrados a seguir.

Programador|Tempo da LP1|Tempo da LP2|
---|---|---|
1|17|18
2|16|14
3|21|19
4|14|11
5|18|23
6|24|21
7|16|10
8|14|13
9|21|19
10|23|24
11|13|15
12|18|20

a. A suposição de a diferença no tempo de codificação ser normalmente distribuída é razoável?

b. Existe evidência estatística de que uma linguagem de programação seja preferível?

**Solução:**

In [None]:
import pandas as pd
import scipy.stats as st
import matplotlib.pyplot as plt
import numpy as np

lp1=np.array([17,16,21,14,18,24,16,14,21,23,13,18])
lp2=np.array([18,14,19,11,23,21,10,13,19,24,15,20])

lpdiff = lp1-lp2

print(st.shapiro(lpdiff))
st.ttest_rel(lp1,lp2)

ShapiroResult(statistic=0.9616504907608032, pvalue=0.8071103096008301)


Ttest_relResult(statistic=0.7790356549761621, pvalue=0.45239285834490617)

# Questão 7

Um plano de saúde monitora o número de cateterismos feitos por mês em cada uma de suas clínicas. A seguir, são apresentados os dados do ano mais recente para uma clínica particular (a variável reportada é o número de cateterismos por mês expresso como o número
de cateterismos por mil membros do plano de saúde):
2,31, 2,09, 2,36, 1,95, 1,98, 2,25, 2,16, 2,07, 1,88, 1,94, 1,97, 2,02. Com base nisto:

Historicamente, o número médio de exames por mês feitos por todas as clínicas no sistema tem sido 1,95. Existe evidência estatística de que essa clínica particular faça em média mais cateterismos do que a média de todo o sistema?

# Questão 8

Sabe-se que a vida, em horas, de uma bateria é aproximadamente distribuída normalmente, com desvio-padrão $\sigma = 1.25$ hora. Uma amostra aleatória de dez baterias tem uma vida média de $\bar{x} = 40.5$ horas. Há evidência estatística que suporte a alegação de que a vida da bateria excede 40 horas? Use $\alpha = 0.05$.

# Questão 9

O gerente de uma frota de carros está testando duas marcas de pneus radiais. Ele coloca, ao acaso, um pneu de cada marca nas duas rodas traseiras de oito carros e anda com os carros até que os pneus se desgastem. Os dados da vida (em quilômetros) de cada pneu são mostrados a seguir.

Qual marca de pneu você prefere? Justifique sua resposta com base estatística.

Carro| Marca 1| Marca 2|
---|---|---|
1|36.925|34.318
2|45.300|42.280
3|36.240|35.500
4|32.100|31.950
5|37.210|38.015
6|48.360|47.800
7|38.200|37.810
8|33.500|33.215

#Questão 10

A poluição do ar tem sido relacionada com os menores pesos observados em recém-nascidos. Em um estudo reportado no Journal of the
*American Medical Association*, pesquisadores examinaram a proporção de bebês com baixo peso nascidos de mães expostas a elevadas doses de fuligem e cinzas durante o ataque ao World Trade Center em 11 de setembro de 2001. Dos 182 bebês nascidos dessas mães, 15 foram classificados como apresentando baixo peso. Dos 2300 bebês nascidos no mesmo período em Nova York, em outro hospital, 92
foram classificados como presentando baixo peso. Com base nisso, **podemos dizer que existe evidência estatística para sugerir que as mães expostas tenham
<u>maior</u> incidência de bebês nascidos abaixo do peso**? Use $\alpha = 0.05$.

# Questão 11

A dose diária de zinco recomendada entre homens com mais de 50 anos é de 15 mg/dia. Um artigo científico apresenta as seguintes estatísticas sobre ingestão de zinco para homens com 65-74 anos: $n=115$, $\bar{x}=11.3$ e $s=6.43$. Esses dados indicam que a ingestão de zinco diária média na população dos homens entre 65-74 anos cai abaixo da dose diária recomendada?

In [None]:
import scipy.stats as st
import numpy as np

z0 = (11.3-15)/(6.43/np.sqrt(115))

inf = st.norm.cdf(z0)
print("Probabilidade de ser  um valor inferior: ",inf)

Probabilidade de ser  um valor inferior:  3.3978156879602053e-10


# <font color='red'>Questão 12</font>

Uma amostra aleatória de 12 resistores de 100 $\Omega$ foi obtida em uma loja. Em laboratório, a resistividade destes resistores foi medida obtendo os seguintes valores:

104.3 89.6 89.9 95.6 95.2 90.0 98.8 103.7 98.3 106.4 102.0 91.1

Estes dados sugerem que a média populacional difere de 100 $\Omega$? Use $\alpha  = 0.05$.

In [None]:
import scipy.stats as st
import numpy as np

d=[104.3, 89.6, 89.9, 95.6, 95.2, 90.0, 98.8, 103.7, 98.3, 106.4, 102.0, 91.1]
t0 = (np.average(d)-100)/(np.std(d)/np.sqrt(len(d)-1))
print(t0,np.std(d))
st.ttest_1samp(d,100)

-1.6584890887833168 5.849376747426459


Ttest_1sampResult(statistic=-1.6584890887833168, pvalue=0.12543077302718036)

# <font color='red'>Questão 13</font>

Uma biblioteca faz um inventário completo de seus livros uma vez por ano, para detecção de livros em mau estado. Este é um processo custoso e o diretor da biblioteca deseja evitar estes gastos este ano. Para tanto o diretor seleciona uma amostra aleatória de 1000 livros da biblioteca e faz a inspeção destes livros. Caso a evidência estatística mostre que a verdadeira proporção de livros em mau estado seja menor do que 2%, então o inventário não será feito este ano.

Sabendo que 15 dos 1000 livros foram encontrados em mau estado, aconselhe o diretor da biblioteca acerca do que fazer (use $\alpha = 0.05$).

In [None]:
import numpy as np
from statsmodels.stats.proportion import proportions_ztest
livros = 1000
danificados = 15
value = .02
stat, pval = proportions_ztest(danificados, livros, value, prop_var=value, alternative="larger")
print(stat,pval)

-1.1293848786315643 0.8706322455321593


In [None]:
import pandas as pd
import scipy.stats as stats
from scipy.stats import binom
import matplotlib.pyplot as plt

n = 1000
x = 15
p = 0.02
alpha = 0.05

prob = binom.cdf(x, n, p)

print(prob)

if prob < alpha:
  print("H0 rejeitada, necessário fazer inventário")
if prob > alpha:
  print("H0 não rejeitada, não é necessário fazer o inventário")

# <font color='red'>Questão 14</font>

Uma empresa alega que 90% de seus consumidores são satisfeitos com seu produto. Uma amostra aleatória de 1000 consumidores foi selecionada para entrevista e 850
destes declararam estar satisfeitos ou muito satisfeitos com o produto. Há evidência estatística para suportar a alegação da empresa?

In [None]:
import numpy as np
from statsmodels.stats.proportion import proportions_ztest
livros = 1000
danificados = 850
value = .9
stat, pval = proportions_ztest(danificados, livros, value, prop_var=value)
print(stat,pval)

-5.270462766947305 1.3608022911356803e-07


Alunos: Daniel Campos,
 Davi Pantoja,
 Hiago Marinho



 realizando um teste de hipótese usando a distribuição binomial.

A hipótese nula (H0) é que a proporção verdadeira de consumidores satisfeitos é igual a 90%, enquanto a hipótese alternativa (H1) é que a proporção verdadeira é diferente de 90%.

Podemos calcular a proporção amostral de consumidores satisfeitos dividindo o número de entrevistados satisfeitos pelo tamanho da amostra:
p̂ = 850/1000 = 0,85

podemos também calcular o desvio padrão estimado da proporção amostral:
σ = sqrt((p̂ * (1 - p̂))/n)
σ = sqrt((0,85 * 0,15)/1000) ≈ 0,01299

Agora, podemos calcular a estatística do teste z:
z = (p̂ - p) / σ
z = (0,85 - 0,9) / 0,01299 ≈ -3,853

Considerando um nível de significância comum de 0,05, podemos consultar uma tabela de distribuição normal padrão para determinar o valor crítico de z para um teste bilateral. No nível de significância de 0,05, os valores críticos de z são aproximadamente -1,96 e 1,96.

Como o valor de z (-3,853) é menor do que -1,96, temos evidências estatísticas para rejeitar a hipótese nula. Portanto, com base na amostra de 1000 consumidores entrevistados, podemos concluir que há evidências de que a proporção verdadeira de consumidores satisfeitos não é de 90%, como alegado pela empresa.

#<font color='red'>Questão 15</font>

Considere a seguinte tabela de frequências de observações para a variável aleatória $X$:

|Valores| 0 | 1 | 2 | 3 | 4 ou mais |
---|---|---|---|---|---|
Frequência| 4| 21| 10| 13| 2|

Com base nessas 50 observações, a distribuição binomial, com $n = 6$ e $p = 0.25$, é um modelo apropriado? Faça um teste de aderência com $\alpha=0.05$.

<img height=700 src="https://cdn.discordapp.com/attachments/898195017561145345/1113236749167099964/D7F0535C-1D5F-43D3-B066-DD3856428E12.jpg" />

Vamos usar o **Teste qui-quadrado para adequação de ajuste** que compara frequências dos dados em grupos.

Neste teste cada grupo deve ter mais de 5 itens, portanto vamos reorganizar os dados em novas categorias, como mostrado abaixo. Além disso vamos calcular a frequência esperada, assumindo que os dados se distribuem como uma binomial com $n=6$ e $p=0.25$.

|Valores| 1 ou menos |  2 | 3 ou mais |
---|---|---|---|
Observada| 25| 10| 15|
Esperada| 26.7| 14.8| 8.5|

Sabemos que se $Y \sim Binomial(n=6,p=0.25)$ então $P(Y \leq 1) = 0.53$, $P(Y = 2) = 0.30$ e $P(Y \geq 3) = 0.17$.

In [None]:
import scipy.stats as st

p1 = st.binom.cdf(1,6,0.25)
print("P(Y<=1)",p1)
p2 = st.binom.pmf(2,6,0.25)
print("P(Y=2)",p2)
p3 = 1 - st.binom.cdf(2,6,0.25)
print("P(Y>=3)",p3)

obs = [25,10,15]
esp = [50*p1,50*p2,50*p3]
print(obs)
print(esp)

print(st.chisquare(obs,esp))

P(Y<=1) 0.533935546875
P(Y=2) 0.296630859375
P(Y>=3) 0.16943359375
[25, 10, 15]
[26.69677734375, 14.83154296875, 8.4716796875]
Power_divergenceResult(statistic=6.712530027448019, pvalue=0.03486523724266854)


# Questão 16

Uma companhia opera quatro máquinas em três turnos todo
dia. Dos registros de produção, são coletados os seguintes dados do número de interrupções:

Turno\Máquinas|A |B |C |D
---|---|---|---|---|
1 | 41 | 20 |12 |16|
2 |31 |11 |9 |14|
3 |15 |17 |16 |10|

Teste a hipótese (usando $\alpha=0.05$) de que as interrupções são independentes do turno.

# <font color='red'>Questão 17</font>

O teor de titânio em uma liga de um avião é um fator determinante da resistência. Uma amostra de 20 corpos de prova revela o seguinte teor (em percentagem) de titânio:

8,32; 8,05; 8,93; 8,65; 8,25; 8,46; 8,52; 8,35; 8,36; 8,41; 8,42; 8,30; 8,71; 8,75; 8,60; 8,83; 8,50; 8,38; 8,29; 8,46

Sabendo que para haver segurança a mediana do teor de titânio deve ser 8,5 %, há evidência estatística que indique que esta liga difere do nível de segurança?

In [None]:
from statsmodels.stats.descriptivestats import sign_test

# Amostra de valores
amostra = [8.32, 8.05, 8.93, 8.65, 8.25, 8.46, 8.52, 8.35, 8.36, 8.41, 8.42, 8.30, 8.71, 8.75, 8.60, 8.83, 8.50, 8.38, 8.29, 8.46]

# Valor de referência
valor_referencia = 8.50

# Realizando o teste de sinal
stat, p_valor = sign_test(amostra, mu0=valor_referencia)

# Resultados
print("Estatística de teste:", stat)
print("Valor de p:", p_valor)

import scipy.stats as st
import numpy as np

#P(X<=7)+P(X>=12) = P(X<=7)+(1-P(X<=11))
st.binom.cdf(7,19,0.5)+(1-st.binom.cdf(11,19,0.5))

Estatística de teste: -2.5
Valor de p: 0.359283447265625


0.359283447265625

Teste de sinais:

Utilizamos o Teste de Sinais pois é um teste não paramétrico que pode ser usado para testar uma mediana populacional contra um valor hipotético k. Para esse teste iremos assumir que o valor de k é 8,5.

1º Passo: Verificar se a amostra é aleatória.

Não houve nenhum tipo de critério para selecionar as amostras, logo, elas são aleatórias.

2º Passo: Declare as hipóteses nula e alternativa.

H0: A mediana é 8,5. Ha: A mediana é diferente de 8,5.

3º Passo: Especifique o nível de significância.

Escolhemos o nível de confiança de 95%. Então nosso nível de significancia é a= 1 - 0,95 = 0,05.

4º Passo: Determine o tamanho da amostra n, atribuindo sinais +, sinais – e zeros aos dados da amostra.

Primeiro ordenamos nossos dados e atribuimos sinais - e +, os valores menores que 8,5 receberão o sinal - e os valores maiores receberão o sinal +, valores iguais recebem um 0 e não são considerados para n.

-8,05

-8,25

-8,29

-8,30

-8,32

-8,35

-8,36

-8,38

-8,41

-8,42

-8,46

-8,46

0 8,50

+8,52

+8,60

+8,65

+8,71

+8,75

+8,83

+8,93

n = 19

5º Passo: Determine o valor crítico.

O valor crítico foi determinado de acordo com a tabela de valores do próprio Teste de Sinais. Como nosso valor de significancia é 0,05 e n = 19, o valor crítico é 4.

6º Passo: Encontre a estatística de teste.

Como temos 12 valores na amostra com o sinal - e 7 valores com o sinal +, utilizamos o valor 7 como nosso menor número de sinais, ou seja, a estatística do teste.

7º Passo: Tome uma decisão para rejeitar ou não rejeitar a hipótese nula.

Se a estatística de teste é menor ou igual ao valor crítico, então rejeite H0. Caso contrário, não rejeite H0.

Estatística do teste = 7

Valor crítico = 4

Como a estatística do teste é maior que o valor crítico, não podemos rejeitar a hipótese nula.

Sendo assim, não há evidência estatística de que a liga difere no nível de segurança.

In [None]:
import scipy.stats as st

st.binom.ppf(0.025,19,0.5)

5.0

# Questão 18

Um engenheiro eletricista tem de projetar um circuito para operar com uma quantidade máxima de corrente em um tubo de imagem, de modo a encontrar uma imagem com brilho suficiente. Dentro de suas restrições de projeto, ele desenvolveu dois circuitos candidatos e testou protótipos de cada um. Os dados resultantes (em microampères) são apresentados a seguir:

**Circuito 1**: 251, 255, 258, 257, 250, 251, 254, 250, 248

**Circuito 2**: 250, 253, 249, 256, 259, 252, 260, 251

Podemos dizer que as correntes médias dos circuitos são estatisticamente diferentes? Use $\alpha = 0.05$

# Questão 19

De uma amostra aleatória de 500 adultos residentes em um município, 385 foram favoráveis ao aumento do limite de velocidade de 60 km/h para 80 km/h em uma rodovia, enquanto em outra amostra de 400 adultos, residentes em outra vila, 267 foram favoráveis a esse aumento do limite de velocidade. Esses dados indicam que há uma diferença entre os residentes das duas vilas no tocante ao apoio para aumentar o limite de velocidade? Use $\alpha = 0.05$

#Questão 20

Estão sendo estudadas as taxas de queima de dois diferentes propelentes sólidos usados no sistema de escape da tripulação de aeronaves. Sabe‑se que ambos os propelentes têm aproximadamente o mesmo desvio‑padrão de taxa de queima; ou seja, $\sigma_1= \sigma_2=3$ centímetros por segundo. Duas amostras aleatórias de $n_1 = 20$ e $n_2 = 20$ espécimes são testadas; as taxas médias de queima das amostras são $\bar{x}_1 = 18$ centímetros por segundo e $\bar{x}_2 = 24$ centímetros por segundo. Teste a hipótese de que ambos os propelentes têm a mesma taxa média de queima. Use $\alpha=0.05$.