In [2]:
import math
import scipy.stats as stats

# **Atividade Testes de Hipóteses (2024.2)**

***Para todas as questões defina as hipóteses, indique qual é a estatística de teste que está sendo usada. Indique, através de intervalos, a Região crítica. Calcule o p-valor e lembre sempre de fazer a sua conclusão a respeito do problema.***


## *Questão 1*
(1.0 pts) Uma propaganda afirma que o consumo médio de gasolina de determinada marca de automóvel é de 15 litros por 100 quilômetros rodados. Um teste com 40 automóveis desta marca acusa um consumo médio de 15,6 litros por 100 quilômetros rodados com desvio padrão de 1 litro por 100 quilômetros rodados. O que se pode concluir sobre a propaganda? Use o nível de significância de 10%


$H_0$: $\mu = 15\\$
$H_a$: $\mu \neq 15\\$

$n = 40\\$
$\bar{X} = 15,6\\$
$s = 1\\$
$\alpha = 0.1\\$

Estatística de teste: $Z_0 \sim N\bigg(\mu_0, \dfrac{\sigma^2}{n}\bigg)\\$

$Z_0 = \dfrac{\bar{X} - \mu_0}{\sqrt{\dfrac{s^2}{n}}} = 0,6 \cdot \sqrt{40} = 3,7947$

In [3]:
stats.norm.ppf(0.95)

np.float64(1.6448536269514722)

$Z_{1 - \frac{\alpha}{2}} = 1.6448$

Como $Z_0 > Z_{1 - \frac{\alpha}{2}}$, rejeitamos a hipótese nula com nível de significância de 10%. Isso indica que há uma alta probabilidade da propaganda ser enganosa.

Região crítica $= (1.6448, +\infty)$

In [4]:
p_value = 2 * (1 - stats.norm.cdf(3.7949))
p_value

np.float64(0.00014770297615829264)

O p-value encontrado é muito próximo de 0, ou seja, a probabilidade de estarmos enganados ao rejeitar a hipótese nula é ínfima, ou seja, podemos afirmar que a propaganda é enganosa com um altíssimo nível de certeza.

## *Questão 2*

(1.0 pts) Depois de desenvolver um algoritmo para acelerar a execução de determinada tarefa rotineira em um escritório de contabilidade, o analista de sistema analisa uma amostra de 25 tempos, obtendo uma média 56,5 segundos e desvio padrão de 6 segundos. Dos dados passados, ele sabe que o tempo de execução é aproximadamente normal com média de 58,5 segundos. Use o nível de significância de 5% para decidir se o algoritmo do analista realmente melhorou o desempenho do sistema.


$$H_0: μ \geq 58,5$$
$$H_a: μ < 58,5$$

A estatística de teste é:

$$T_0 = \frac{\bar{X} - \mu}{s/\sqrt{n}}$$

In [5]:
n = 25  # sample size
sample_mean = 56.5  # sample mean
sample_std = 6  # sample standard deviation
population_mean = 58.5  # hypothesized population mean under H0
alpha = 0.05  # significance level

t_statistic = (sample_mean - population_mean) / (sample_std / math.sqrt(n))

critical_t = stats.t.ppf(alpha, df=n-1)

print(critical_t)


-1.7108820799094282


O intervalo da região crítica é:

$$(-\infty, -1.7108820799094282]$$


In [6]:
p_value = stats.t.cdf(t_statistic, df=n-1)

print(f"{t_statistic} < {critical_t}? {t_statistic < critical_t}")
print(f"p-valor = {p_value}")

-1.6666666666666667 < -1.7108820799094282? False
p-valor = 0.05429006151236145


Como não é verdade que t_statistic < critical_t, não conseguimos rejeitar H_0. Portanto, não temos evidências para afirmar que o algoritmo do analista realmente melhorou o desempenho do sistema.

## *Questão 3*

(1.0 pts) Dados históricos indicam que a variância na taxa de câmbio do iene japonês contra o dólar americano é aproximadamente 1,52. Obteve-se uma amostra aleatória de 30 taxas de câmbio de fechamento, que acusou uma variância $s^2 = 2,1$. Realize um teste de hipótese para verificar se houve mudança na variância na taxa de câmbio.

#### Pressupostos:
Hipótese nula: A variância da taxa de câmbio não mudou, ou seja, a variância histórica é igual à variância da amostra.

$H_0: \sigma^2 = 1,52$

Hipótese alternativa: A variância da taxa de câmbio não mudou, ou seja, a variância histórica é igual à variância da amostra.

$H_a: \sigma^2 \neq 1,52$

A estatística de teste a ser usada é a   que será aproximada por uma $\chi^2_{29}$ com $30-1 = 29$ graus de liberdade para a variância amostral por ser uma amostra pequena com $n < 30$. A fórmula será então:

$\chi^2 = \frac{(30-1) s^2}{\sigma^2_0}$

O nível de significância tomado é de 5%. Ou seja $\alpha = 0,05$

A partir disto, a região crítica é:
$$
]-\infty, \chi^2_{29;\frac{0,05}{2}}[  \,\,\, \cup \,\,\,  ]\chi^2_{29;1-\frac{0,05}{2}}, \infty[
$$

A partir da tabela temos que $\chi^2_{29;0,025} = 16,047$ e $\chi^2_{29;0,975} = 45,722$ ou seja rejeitamos a hipótese nula se a hipótese de teste cair no intervalo $]-\infty; 16,047[\,\,\, \cup \,\,\,]45,722; \infty[$

A estatística de teste neste caso assumo o valor de: $40,065$ (conforme calculado abaixo em código)

Então, o p-valor pode-se olhar na tabela que seria $2*(1-0,9) = 0,2$

A conclusão então é que a hipótese nula não é rejeitada. Isto significa que a variância na taxa de câmbio do iene japonês contra o dólar se manteve em comparação aos dados históricos.

In [7]:
estatistica_de_teste = 29*2.1/1.52
print(estatistica_de_teste)

40.06578947368421


## *Questão 4*
(1.0 pts) Um fabricante garante que pelo menos 90% das peças que fornece à linha de produção de uma determinada fábrica estão de acordo com as especificações exigidas.
A análise de uma amostra de 320 peças mostrou que 50 peças não estão de acordo com as especificações exigidas. A um nível significância de 2% e 10%, podemos dizer que é verdadeira a afirmação do fabricante?


$$H_0: p \geq 0.9$$
$$H_a: p < 0.9$$

A estatística de teste é:

$$Z_0 = \frac{p - p_0}{\sqrt{(p_0 * (1 - p_0)) / n}}$$

In [8]:
p_hat = 270 / 320
p0 = 0.9
n = 320
alpha = 0.02
z_statistic = (p_hat - p0) / math.sqrt((p0 * (1 - p0)) / n)

print(z_statistic)

critical_z = stats.norm.ppf(alpha)

print(f"Região crítica com alpha = {alpha}: {critical_z}")

alpha = 0.1
critical_z = stats.norm.ppf(alpha)

print(f"Região crítica com alpha = {alpha}: {critical_z}")


-3.3541019662496865
Região crítica com alpha = 0.02: -2.053748910631823
Região crítica com alpha = 0.1: -1.2815515655446004


In [9]:
p_value = stats.norm.cdf(z_statistic)
print(f"p-valor = {p_value}")

p-valor = 0.00039811507879540314


Independentemente do nível de significância, como z_statistic < critical_z, Rejeitamos H_0. Portanto, não é verdadeira a afirmação do fabricante.

## *Questão 5*

Para ajudar os lojistas em seu planejamento, a cada ano se realiza um estudo para se determinar quanto as pessoas pretendem gastar com presentes nas festas de fim de ano. Em uma pesquisa de novembro de 2023, obteve-se uma amostra de compradores e lhes foi pedido que estimassem a quantia que pretendiam gastar (em dólares) com presentes. A média amostral dos gastos antecipada foi relatada por gênero, grupo de idade, e nível de renda. Considere as estatísticas-resumo dadas na tabela que segue:


| Grupo de | Tamanho amostra  |  Média amostral  |  Desv Pad amostral  |
|----------|:----------------:|:----------------:|:-------------------:|
| Homens   | 21               | 784              | 37,5                |
| Mulheres | 19               | 652              | 17,01              |


* (1.5 pts) Historicamente, os homens relatam gastos maiores do que os das mulheres. Com base nos dados de 2023, há alguma evidência que sugira que a quantidade média que os homens pretendem gastar seja maior do que a quantidade média que as mulheres pretendem gastar? Use α = 0,05, e admita que as populações sejam normais.

* (1.5 pts) Pode-se afirmar, com o nível de significância de 1% que a variabilidade dos gastos com presentes do grupo das mulheres é menor do que a variabilidade dos gastos com presentes no grupo dos homens?

* (1.5 pts) Os lojistas, realizam uma nova enquete para determinar a proporção de pessoas de que pretendia ter gastos com presentes inferiores a $R\$ 500$. As proporções foram 0.37 e 0.48 para homens e mulheres, respectivamente. Quer se testar a hipótese nula de que a proporção de homens que gastam menos de $R\$ 500$ com presentes é igual que a proporção de mulheres, ao nível de significância de α = 0.03, podemos afirmar que isto é verdade? Obs.: utilize o tamanho de amostras das populações dado na tabela.



### questão a)

#### Pressupostos:

$\mu_h$ é a média dos gastos dos homens
$\mu_m$ é a média dos gastos das mulheres

- **Hipótese nula ($H_0$)**: A média dos gastos dos homens é igual à média dos gastos das mulheres.
  
  $H_0: \mu_h = \mu_m$
  
- **Hipótese alternativa ($H_a$)**: A média dos gastos dos homens é maior do que a média dos gastos das mulheres.

  $H_a: \mu_h > \mu_m$

Vamos resolver cada uma das questões passo a passo.

### Questão 1: Comparação das médias de gastos (Homens vs Mulheres)
**Hipóteses**:
- **Hipótese nula (H₀)**: A média dos gastos dos homens é igual à média dos gastos das mulheres.
  
  \[ H₀: \mu_h = \mu_m \]
  
- **Hipótese alternativa (H₁)**: A média dos gastos dos homens é maior do que a média dos gastos das mulheres.

  \[ H₁: \mu_h > \mu_m \]

Esta é uma comparação de duas médias, portanto, utilizamos o teste t para duas amostras independentes.

**Estatística de teste**:
A estatística de teste para o teste t para duas amostras independentes é dada por:

\[
t = \frac{\bar{X}_h - \bar{X}_m}{\sqrt{\frac{s_h^2}{n_h} + \frac{s_m^2}{n_m}}}
\]

Onde:
- \( \bar{X}_h \) e \( \bar{X}_m \) são as médias amostrais dos homens e mulheres, respectivamente.
- \( s_h \) e \( s_m \) são os desvios padrão amostrais dos homens e mulheres, respectivamente.
- \( n_h \) e \( n_m \) são os tamanhos das amostras de homens e mulheres, respectivamente.

**Valores conhecidos**:
- Homens: \( \bar{X}_h = 784 \), \( s_h = 37,5 \), \( n_h = 21 \)
- Mulheres: \( \bar{X}_m = 652 \), \( s_m = 17,01 \), \( n_m = 19 \)

Substituímos esses valores na fórmula da estatística t.

**Graus de liberdade (df)**:
Para o teste t, os graus de liberdade podem ser calculados usando a fórmula de Welch, considerando amostras de tamanhos diferentes e variâncias diferentes:

\[
df = \frac{\left( \frac{s_h^2}{n_h} + \frac{s_m^2}{n_m} \right)^2}{\frac{\left( \frac{s_h^2}{n_h} \right)^2}{n_h - 1} + \frac{\left( \frac{s_m^2}{n_m} \right)^2}{n_m - 1}}
\]

Com isso, calculamos o valor de t e a região crítica.

### Questão 2: Comparação das variabilidades dos gastos (Homens vs Mulheres)
**Hipóteses**:
- **Hipótese nula (H₀)**: A variabilidade dos gastos das mulheres é igual à dos homens.

  \[ H₀: \sigma_h^2 = \sigma_m^2 \]

- **Hipótese alternativa (H₁)**: A variabilidade dos gastos das mulheres é menor que a dos homens.

  \[ H₁: \sigma_h^2 > \sigma_m^2 \]

Para testar essa hipótese, usamos o **teste F** para comparar as variâncias de duas amostras.

**Estatística de teste**:
A estatística F para comparar variâncias é dada por:

\[
F = \frac{s_h^2}{s_m^2}
\]

Onde:
- \( s_h^2 \) é a variância amostral dos homens.
- \( s_m^2 \) é a variância amostral das mulheres.

Calculamos a estatística F e comparamos com a distribuição F para determinar a região crítica. O nível de significância é 1%, então procuramos o valor crítico de F para \( \alpha = 0,01 \).

### Questão 3: Teste de proporções (Homens vs Mulheres, gasto inferior a R$ 500)
**Hipóteses**:
- **Hipótese nula (H₀)**: A proporção de homens que gastam menos de R$ 500 é igual à proporção de mulheres.

  \[ H₀: p_h = p_m \]

- **Hipótese alternativa (H₁)**: A proporção de homens que gastam menos de R$ 500 é diferente da proporção de mulheres.

  \[ H₁: p_h \neq p_m \]

Neste caso, usamos o **teste de diferença de proporções**.

**Estatística de teste**:
A estatística de teste para a diferença de proporções é dada por:

\[
z = \frac{p_h - p_m}{\sqrt{ \hat{p}(1 - \hat{p}) \left( \frac{1}{n_h} + \frac{1}{n_m} \right) }}
\]

Onde:
- \( p_h = 0,37 \) e \( p_m = 0,48 \) são as proporções amostrais de homens e mulheres.
- \( n_h = 21 \) e \( n_m = 19 \) são os tamanhos das amostras.
- \( \hat{p} \) é a proporção combinada, dada por:

\[
\hat{p} = \frac{x_h + x_m}{n_h + n_m}
\]

Onde \( x_h \) e \( x_m \) são os números de sucessos (pessoas que gastam menos de R$ 500) nas amostras de homens e mulheres.

**Conclusão**:
- Calculamos a estatística \( z \) e verificamos o p-valor.
- Comparamos o p-valor com o nível de significância \( \alpha = 0,03 \).
- Se o p-valor for menor que \( \alpha \), rejeitamos a hipótese nula.

Agora, vamos calcular as estatísticas e tomar as decisões para cada questão.

It seems like I can’t do more advanced data analysis right now. Please try again later. If you would like, I can guide you through the steps to manually calculate the necessary statistics and interpret the results. Let me know how you'd like to proceed!

## *Questão 6*

(1.5 pts) Uma siderúrgica recebe carvão mineral de duas mineradoras como matéria-prima para a fabricação de aço. São obtidas aleatoriamente 48 unidades amostrais do produto fornecido pela mineradora A, para as quais se mede o conteúdo de enxofre. Com base nessas 48 medições calculam-se para essa variável uma média amostral de 0,60% e um desvio padrão amostral de 0,056%. Enquanto isso, outras 65 análises do carvão proveniente da mineradora B nos levam a uma média amostral de 0,70% de enxofre e um desvio padrão amostral de 0,065%. Decida se as médias populacionais podem ser consideradas diferentes.

Hipótese nula:

$H_0$: $\mu_A - \mu_B = 0 \\$

Hipótese alternativa:

$H_a$: $\mu_A - \mu_B \neq 0\\$

$n_A = 48, n_B = 65\\$
$\bar{X}_A = 0,006, \bar{X}_B = 0,007\\$
$s_A = 0,00056, s_B = 0,00065\\$



In [17]:
n_A = 48
n_B = 65
X_A = 0.006
X_B = 0.007
s_A = 0.00056
s_B = 0.00065

T = (X_A - X_B) / math.sqrt(s_A ** 2 / n_A + s_B ** 2 / n_B)
v = ((s_A ** 2 / n_A) + (s_B ** 2 / n_B)) ** 2 / ((s_A ** 2 / n_A) ** 2 / (n_A - 1) + (s_B ** 2 / n_B) ** 2 / (n_B - 1))

p_valor = 2 * (1 - stats.t.cdf(abs(T), v))
print(p_valor)

2.9753977059954195e-14


A estatística de teste sendo usada neste caso é a do  teste t para duas amostras independentes:

$t = \frac{\bar{X}_A - \bar{X}_B}{\sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}}}$

