# Probabilidade e Estatística

## Curso Superior de Tecnologia em Ciência de Dados

### Prof. Dr. Neylson Crepalde

Conteúdo abordado: testes de significância para proporções

Principal fonte: STEVENSON, Wiliam J.; DE FARIAS, Alfredo Alves. **Estatística aplicada à administração.** São Paulo: Harper e Row do Brasil, 1981.

---

# Testes de uma amostra para proporções

Os testes para proporções são adequados quando os dados sob análise consistem de contagens ou frequências de itens em duas ou mais classes.

Montamos o teste de hipótese do mesmo modo conforme estudado nas lições anteriores. A hipótese nula pode ser, por exemplo,

$$H_0 : p_0 = 0,20$$

Devemos então usar o valor 0,20 juntamente com o tamanho amostral $n$ para calcular $\sigma_{p_0}$. Suponhamos $n = 100$. Então

$$\sigma_{p_0} = \sqrt{\frac{(0,20)(1-0,20)}{100}} = 0,04$$

O símbolo $p_0$ é usado para denotar o valor especificado em $H_0$. O teste requer o cálculo da estatística $z$:

$$z = \frac{\text{proporção amostral} - \text{proporção alegada}}{\text{desvio padrão da proporção}} = \frac{(x/n) - p_0}{\sqrt{p_0(1-p_0)/n}}$$

---

# Exercícios

Stevenson (1981, p. 281-1)

---

# Testes de duas amostras para proporções

A finalidade de um teste de duas amostras é decidir se as duas *amostras independentes* foram extraídas de duas populações, ambas com a mesma proporção de elementos com determinada característica. O teste focaliza a diferença relativa (diferença dividida pelo desvio padrão da distribuição amostral) entre as duas proporções amostrais. 

A hipótese nula num teste de duas amostras é

$$H_0 : p_1 = p_2$$

As hipótese alternativas são

$$H_1 : p_1 \neq p_2$$
$$H_1 : p_1 > p_2$$
$$H_1 : p_1 < p_2$$

Contudo, ao contrário do teste de uma amostra, não há indicação do parâmetro populacional em $H_0$. Portanto, o valor de $p$ a ser usado vai ser obtido de forma um pouco diferente.

A estimativa combinada ("pooled") de $p$ pode ser calculada como segue

$$p = \frac{x_1 + x_2}{n_1 + n_2}$$

Este valor de $p$ é usado para calcular o desvio padrão da proporção que é semelhante às fórmulas prévias, exceto ao fato de que, agora, ele deve ser "ponderado" pelos dois tamanhos de amostra:

$$\sigma_p = \sqrt{p(1-p)[(1/n_1) + (1/n_2)]}$$

---

#### Exemplo

Pergunta-se aos eleitores de duas cidades se eles são contra ou a favor de determinada lei em curso. Para determinar se os eleitores das duas cidades diferem em termos da percentagem dos que favorecem a lei, toma-se uma amostra de 100 eleitores em cada cidade. Numa delas, 30 são a favor da lei, na outra, apenas 20.

Vamos implementar uma solução com `Julia`.

In [1]:
using Distributions, StatsPlots, StatsKit, Statistics

In [6]:
function teste_z_prop(x1, x2, n1, n2)
    p = (x1 + x2) / (n1 + n2)
    z = ((x1/n1) - (x2/n2)) / sqrt(p * (1-p) * ((1/n1) + (1/n2)))
    pvalor = ccdf(Normal(), z)
    return (round(z, digits=5), round(pvalor, digits=5))
end

teste_z_prop (generic function with 1 method)

In [8]:
teste_z_prop(30, 20, 100, 100)

(1.63299, 0.05124)

O p-valor de 0.051 indica o $z$ calculado na região de aceitação. Portanto, não rejeitamos a hipótese nula e concluímos que as duas proporções das cidades diferentes são estatisticamente iguais.

---

# Exercícios

Stevenson (1981, p. 285)

---

# Teste de $k$ amostras para proporções

A finalidade de um teste de $k$ amostras é avaliar a alegação de que $k$ amostras independentes provenham de populações que contenham a mesma proporção de determinado item. As hipóteses são

$$H_0 : \text{As proporções populacionais são todas iguais}$$
$$H_1 : \text{As proporções populacionais são não são iguais}$$

