# Valor-p (p-valor)

O **valor-p** é a probabilidade de se observar um valor do **estatístico de teste** tão extremo (ou mais extremo) quanto o obtido a partir da amostra, **assumindo que a hipótese nula ($H_0$) seja verdadeira**.

## Interpretação:

- Se o **valor-p é pequeno** (menor que o nível de significância $\alpha$), há **evidências contra $H_0$**, e rejeitamos a hipótese nula.
- Se o **valor-p é grande** (maior que $\alpha$), **não rejeitamos $H_0$**.

## Relação com o nível de significância:

- Nível de significância: $\alpha$ é a probabilidade máxima tolerada de rejeitar $H_0$ quando ela é verdadeira (erro tipo I).
- Regra de decisão:
  - Se $p \leq \alpha$ $\;\;\Rightarrow\;\;$ rejeitamos $H_0$.
  - Se $p > \alpha$ $\;\;\Rightarrow\;\;$ não rejeitamos $H_0$.

# Testes de Hipóteses

O **teste de hipóteses** é um procedimento estatístico usado para avaliar afirmações (hipóteses) sobre parâmetros populacionais com base em dados amostrais.

## Etapas de um teste de hipóteses:

1. **Definir as hipóteses:**
   - Hipótese nula: $H_0$ (afirmação inicial, considerada verdadeira até que haja evidências contrárias).
   - Hipótese alternativa: $H_1$ (aquilo que queremos testar/confirmar).

2. **Escolher o nível de significância:**
   - Denotado por $\alpha$ (geralmente 0,05 ou 0,01).

3. **Calcular o estatístico de teste:**
   - Depende do tipo de dado e da hipótese.
   - Ex.: teste $t$, teste $z$, teste qui-quadrado, etc.

4. **Determinar a região crítica ou calcular o valor-p.**

5. **Tomar a decisão:**
   - Se o valor-p $\leq \alpha$: rejeitamos $H_0$.
   - Se o valor-p $> \alpha$: não rejeitamos $H_0$.

---

## Tipos de testes de hipóteses:

- **Bilateral (ou bicaudal):**
  - $H_0: \mu = \mu_0$
  - $H_1: \mu \neq \mu_0$

- **Unilateral à direita (cauda superior):**
  - $H_0: \mu \leq \mu_0$
  - $H_1: \mu > \mu_0$

- **Unilateral à esquerda (cauda inferior):**
  - $H_0: \mu \geq \mu_0$
  - $H_1: \mu < \mu_0$

---

## Erros em testes de hipóteses:

- **Erro tipo I ($\alpha$):** rejeitar $H_0$ quando ela é verdadeira.
- **Erro tipo II ($\beta$):** não rejeitar $H_0$ quando $H_1$ é verdadeira.

# Exemplo prático: Teste de Hipótese para a Média

Vamos supor que queremos verificar se a **média de uma população** é igual a um valor conhecido $\mu_0$.

---

## Passos:

1. **Definir hipóteses:**
   - $H_0: \mu = \mu_0$
   - $H_1: \mu \neq \mu_0$ (teste bilateral)

2. **Definir nível de significância:**
   - $\alpha = 0.05$

3. **Coletar amostra e calcular estatístico de teste:**

O estatístico t é dado por:

$$
t \;=\; \frac{\bar{x} - \mu_0}{s / \sqrt{n}}
$$

onde:
- $\bar{x}$ = média amostral  
- $\mu_0$ = média hipotética  
- $s$ = desvio padrão amostral  
- $n$ = tamanho da amostra  

4. **Calcular o valor-p** usando a distribuição t de Student.

5. **Tomar a decisão:**
   - Se $p \leq \alpha$: rejeitamos $H_0$.
   - Se $p > \alpha$: não rejeitamos $H_0$.


In [30]:
import numpy as np
from scipy import stats

# Dados simulados (exemplo: notas de alunos)
dados = np.array([7.2, 6.8, 7.5, 6.9, 7.1, 6.7, 7.3, 7.0, 7.4, 6.8])

# Hipótese nula: média populacional = 7.0
mu0 = 7.0

# Estatísticas descritivas
media_amostral = np.mean(dados)
desvio_amostral = np.std(dados, ddof=1)
n = len(dados)

# Estatístico t manual
t_manual = (media_amostral - mu0) / (desvio_amostral / np.sqrt(n))

# Teste t com scipy
t_stat, p_valor = stats.ttest_1samp(dados, mu0)

print(f"Média amostral = {media_amostral:.3f}")
print(f"Estatístico t (manual) = {t_manual:.3f}")
print(f"Estatístico t (scipy)  = {t_stat:.3f}")
print(f"Valor-p = {p_valor:.5f}")

# Decisão
alpha = 0.05 # 95% de confiança
if p_valor <= alpha:
    print("Rejeitamos H0: evidências de que a média é diferente de", mu0)
else:
    print("Não rejeitamos H0: não há evidências contra a média", mu0)


Média amostral = 7.070
Estatístico t (manual) = 0.805
Estatístico t (scipy)  = 0.805
Valor-p = 0.44172
Não rejeitamos H0: não há evidências contra a média 7.0


# Exemplo prático: Teste de Hipótese Unilateral (Média > Valor)

Suponha que uma empresa deseja verificar se o **tempo médio de atendimento** 
de seus clientes **é maior que 15 minutos**.

---

## Passos:

1. **Definir hipóteses:**
   - $H_0: \mu \leq 15$
   - $H_1: \mu > 15$  (teste unilateral à direita)

2. **Definir nível de significância:**
   - $\alpha = 0.05$

3. **Coletar amostra e calcular estatístico de teste:**

$$
t \;=\; \frac{\bar{x} - \mu_0}{s / \sqrt{n}}
$$

onde:  
- $\bar{x}$ = média amostral  
- $\mu_0$ = média hipotética  
- $s$ = desvio padrão amostral  
- $n$ = tamanho da amostra  

4. **Calcular valor-p (cauda única):**

No teste unilateral à direita:
$$
p\_valor = 1 - P(T \leq t)
$$

5. **Decisão:**
- Se $p \leq \alpha$: rejeitamos $H_0$.  
- Se $p > \alpha$: não rejeitamos $H_0$.  


In [29]:
import numpy as np
from scipy import stats

# Dados simulados: tempos de atendimento em minutos
dados = np.array([16, 14, 17, 15, 18, 16, 15, 17, 16, 14])

# Hipótese nula: mu0 = 15 minutos
mu0 = 15

# Estatísticas
media_amostral = np.mean(dados)
desvio_amostral = np.std(dados, ddof=1)
n = len(dados)

# Estatístico t manual
t_manual = (media_amostral - mu0) / (desvio_amostral / np.sqrt(n))

# Teste t bilateral com scipy
t_stat, p_bilateral = stats.ttest_1samp(dados, mu0)

# Ajuste para unilateral (H1: mu > mu0)
p_unilateral = p_bilateral / 2 if t_stat > 0 else 1 - p_bilateral/2

print(f"Média amostral = {media_amostral:.3f}")
print(f"Estatístico t = {t_stat:.3f}")
print(f"Valor-p (unilateral) = {p_unilateral:.5f}")

# Decisão
alpha = 0.05 # 05% de significância
if p_unilateral <= alpha:
    print("Rejeitamos H0: evidências de que a média é MAIOR que", mu0)
else:
    print("Não rejeitamos H0: não há evidências de que a média seja maior que", mu0)


Média amostral = 15.800
Estatístico t = 1.922
Valor-p (unilateral) = 0.04342
Rejeitamos H0: evidências de que a média é MAIOR que 15


# Exemplo prático: Teste de Hipótese Unilateral (Média < Valor)

Suponha que um pesquisador deseja verificar se o **nível médio de poluição** em uma região
**é menor que 50 ppm**.

---

## Passos:

1. **Definir hipóteses:**
   - $H_0: \mu \geq 50$
   - $H_1: \mu < 50$  (teste unilateral à esquerda)

2. **Definir nível de significância:**
   - $\alpha = 0.05$

3. **Coletar amostra e calcular estatístico de teste:**

$$
t \;=\; \frac{\bar{x} - \mu_0}{s / \sqrt{n}}
$$

onde:  
- $\bar{x}$ = média amostral  
- $\mu_0$ = média hipotética  
- $s$ = desvio padrão amostral  
- $n$ = tamanho da amostra  

4. **Calcular valor-p (cauda única):**

No teste unilateral à esquerda:
$$
p\_valor = P(T \leq t)
$$

5. **Decisão:**
- Se $p \leq \alpha$: rejeitamos $H_0$.  
- Se $p > \alpha$: não rejeitamos $H_0$.  


In [31]:
import numpy as np
from scipy import stats

# Dados simulados: níveis de poluição (ppm)
dados = np.array([48, 47, 52, 46, 49, 50, 45, 47, 46, 48])

# Hipótese nula: mu0 = 50 ppm
mu0 = 50

# Estatísticas
media_amostral = np.mean(dados)
desvio_amostral = np.std(dados, ddof=1)
n = len(dados)

# Estatístico t manual
t_manual = (media_amostral - mu0) / (desvio_amostral / np.sqrt(n))

# Teste t bilateral com scipy
t_stat, p_bilateral = stats.ttest_1samp(dados, mu0)

# Ajuste para unilateral (H1: mu < mu0)
p_unilateral = p_bilateral / 2 if t_stat < 0 else 1 - p_bilateral/2

print(f"Média amostral = {media_amostral:.3f}")
print(f"Estatístico t = {t_stat:.3f}")
print(f"Valor-p (unilateral à esquerda) = {p_unilateral:.5f}")

# Decisão
alpha = 0.05
if p_unilateral <= alpha:
    print("Rejeitamos H0: evidências de que a média é MENOR que", mu0)
else:
    print("Não rejeitamos H0: não há evidências de que a média seja menor que", mu0)


Média amostral = 47.800
Estatístico t = -3.317
Valor-p (unilateral à esquerda) = 0.00449
Rejeitamos H0: evidências de que a média é MENOR que 50


# Testes de Hipóteses para **Proporção** (p)

## Contexto
Queremos testar afirmações sobre a **proporção verdadeira** $p$ (ex.: % de reservas pela web).  
Seja $X \sim \text{Binomial}(n, p)$ e a proporção amostral $\hat{p} = X/n$.

## Estatístico de teste (aproximação Normal)
Quando $n$ é moderado e $n p_0$ e $n(1-p_0)$ não são muito pequenos, usamos o **z-teste**:
$$
z \;=\; \frac{\hat{p} - p_0}{\sqrt{\dfrac{p_0(1-p_0)}{n}}}
$$
onde $p_0$ é a proporção sob $H_0$ e $z$ é comparado à Normal padrão.

> **Alternativa exata:** quando $n$ é pequeno ou condições não atendidas, use o **teste exato binomial**.

---

## Formulação das hipóteses

### Teste bilateral
- $H_0: p = p_0$
- $H_1: p \neq p_0$
- **valor-p:** $p = 2\cdot \min\{P(X \le x),\,P(X \ge x)\}$ (exato)  
  ou $p = 2\,[1-\Phi(|z|)]$ (normal)

### Teste unilateral à direita
- $H_0: p \le p_0$
- $H_1: p > p_0$
- **valor-p:** $p = P(X \ge x)$ (exato)  
  ou $p = 1-\Phi(z)$ (normal)

### Teste unilateral à esquerda
- $H_0: p \ge p_0$
- $H_1: p < p_0$
- **valor-p:** $p = P(X \le x)$ (exato)  
  ou $p = \Phi(z)$ (normal)

---

## Regra de decisão (nível $\alpha$)
- Se **valor-p $\le \alpha$** → **rejeite $H_0$**.  
- Se **valor-p $> \alpha$** → **não rejeite $H_0$**.

---

## Exemplo (hotel)
Uma amostra de $n=25$ reservas teve $x=15$ via web ($\hat{p}=0{,}6$).  
Vamos testar contra $p_0 = 0{,}5$:

1) Bilateral: $H_0: p = 0{,}5$ vs $H_1: p \neq 0{,}5$  
2) Direita: $H_0: p \le 0{,}5$ vs $H_1: p > 0{,}5$  
3) Esquerda: $H_0: p \ge 0{,}5$ vs $H_1: p < 0{,}5$


In [32]:
import math

# -------- utilidades --------
def z_from_phat(phat, p0, n):
    se0 = math.sqrt(p0*(1-p0)/n)
    return (phat - p0) / se0

def p_from_z_bilateral(z):
    try:
        from scipy.stats import norm
        return 2*(1 - norm.cdf(abs(z)))
    except Exception:
        # aproximação pela função de erro
        # Phi(z) ≈ 0.5*(1 + erf(z/sqrt(2)))
        import math
        Phi = 0.5*(1 + math.erf(abs(z)/math.sqrt(2)))
        return 2*(1 - Phi)

def p_from_z_right(z):
    try:
        from scipy.stats import norm
        return 1 - norm.cdf(z)
    except Exception:
        import math
        Phi = 0.5*(1 + math.erf(z/math.sqrt(2)))
        return 1 - Phi

def p_from_z_left(z):
    try:
        from scipy.stats import norm
        return norm.cdf(z)
    except Exception:
        import math
        return 0.5*(1 + math.erf(z/math.sqrt(2)))

def binom_exact_pvals(x, n, p0):
    """
    Retorna p-valor exato para bilateral, direita e esquerda usando scipy se disponível.
    """
    try:
        from scipy.stats import binomtest
        res_bi = binomtest(x, n, p0, alternative='two-sided')
        res_rt = binomtest(x, n, p0, alternative='greater')
        res_lf = binomtest(x, n, p0, alternative='less')
        return res_bi.pvalue, res_rt.pvalue, res_lf.pvalue
    except Exception:
        # fallback simples (sem scipy): retorna None
        return None, None, None

def decide(pvalue, alpha=0.05):
    return "Rejeita H0" if pvalue <= alpha else "Não rejeita H0"

# -------- exemplo: hotel --------
n = 25
x = 15
p0 = 0.50
phat = x / n
alpha = 0.05

z = z_from_phat(phat, p0, n)
p_bi_norm = p_from_z_bilateral(z)
p_rt_norm = p_from_z_right(z)
p_lf_norm = p_from_z_left(z)

p_bi_ex, p_rt_ex, p_lf_ex = binom_exact_pvals(x, n, p0)

print("=== Aproximação Normal (z-teste) ===")
print(f"n={n}, x={x}, p̂={phat:.4f}, p0={p0:.2f}, z={z:.4f}")
print(f"Bilateral  (H1: p ≠ p0)  -> p={p_bi_norm:.6f}  -> {decide(p_bi_norm, alpha)}")
print(f"Direita    (H1: p > p0)  -> p={p_rt_norm:.6f}  -> {decide(p_rt_norm, alpha)}")
print(f"Esquerda   (H1: p < p0)  -> p={p_lf_norm:.6f}  -> {decide(p_lf_norm, alpha)}")

print("\n=== Teste Exato Binomial (se disponível) ===")
if p_bi_ex is not None:
    print(f"Bilateral  (H1: p ≠ p0)  -> p={p_bi_ex:.6f}  -> {decide(p_bi_ex, alpha)}")
    print(f"Direita    (H1: p > p0)  -> p={p_rt_ex:.6f}  -> {decide(p_rt_ex, alpha)}")
    print(f"Esquerda   (H1: p < p0)  -> p={p_lf_ex:.6f}  -> {decide(p_lf_ex, alpha)}")
else:
    print("scipy indisponível — p-valores exatos não calculados.")


=== Aproximação Normal (z-teste) ===
n=25, x=15, p̂=0.6000, p0=0.50, z=1.0000
Bilateral  (H1: p ≠ p0)  -> p=0.317311  -> Não rejeita H0
Direita    (H1: p > p0)  -> p=0.158655  -> Não rejeita H0
Esquerda   (H1: p < p0)  -> p=0.841345  -> Não rejeita H0

=== Teste Exato Binomial (se disponível) ===
Bilateral  (H1: p ≠ p0)  -> p=0.424356  -> Não rejeita H0
Direita    (H1: p > p0)  -> p=0.212178  -> Não rejeita H0
Esquerda   (H1: p < p0)  -> p=0.885239  -> Não rejeita H0


# Teste de Duas Variâncias (teste F)

## Objetivo
Verificar se duas populações têm a **mesma variância**. O teste clássico é o **teste F (Fisher–Snedecor)**.

---

## Hipóteses
Sejam $\sigma_1^2$ e $\sigma_2^2$ as variâncias populacionais:

- Hipótese nula:
  $$
  H_0: \sigma_1^2 = \sigma_2^2
  $$
- Hipótese alternativa (escolha uma):
  - Bilateral: $H_1: \sigma_1^2 \neq \sigma_2^2$
  - Unilateral (direita): $H_1: \sigma_1^2 > \sigma_2^2$
  - Unilateral (esquerda): $H_1: \sigma_1^2 < \sigma_2^2$

**Pressupostos importantes:** amostras independentes e populações aproximadamente normais. Se a normalidade for duvidosa, prefira testes mais robustos (ex.: Levene).

---

## Estatística de teste

Calcule as variâncias amostrais ($s_1^2$, $s_2^2$) com $ddof=1$ e a estatística

$$
F \;=\; \frac{s_1^2}{s_2^2}.
$$

Os graus de liberdade são $df_1 = n_1 - 1$ e $df_2 = n_2 - 1$.

---

## Valor-p e decisão

- Para **teste bilateral** (usar a distribuição $F$ com os graus de liberdade acima):
  $$
  p \;=\; 2\min\{\,P(F_{df_1,df_2} \le f),\; 1 - P(F_{df_1,df_2} \le f)\,\}
  $$
  (Equivalentemente: $p = 2\min\{F_F(f;df_1,df_2),\;1-F_F(f;df_1,df_2)\}$, onde $F_F$ é a CDF da $F$.)

- Para **teste unilateral (direita)**:
  $$
  p \;=\; 1 - F_F(f;df_1,df_2)
  $$
- Para **teste unilateral (esquerda)**:
  $$
  p \;=\; F_F(f;df_1,df_2)
  $$

**Regra de decisão:** se $p \le \alpha$, rejeitar $H_0$; caso contrário, não rejeitar $H_0$.

> Dica prática: às vezes é conveniente dividir **a maior variância pela menor** (assim $F\ge 1$) e ajustar os graus de liberdade na ordem correspondente; nesse caso para teste bilateral podemos usar $p = 2(1 - F_F(f;df_\text{num},df_\text{den}))$ porque a CDF estará abaixo de 0.5.

---

## Alternativas e robustez
- **Levene's test** ou **Brown–Forsythe** são opções mais robustas quando a normalidade não é confiável.
- **Bartlett's test** assume normalidade (sensível a desvios).

---

## Interpretação
- Se rejeitar $H_0$: evidência de que as variâncias são diferentes.
- Se não rejeitar $H_0$: sem evidência suficiente para afirmar diferenças nas variâncias.



In [33]:
import numpy as np
from scipy import stats

# Dados
grupo1 = np.array([8.2, 7.9, 8.5, 8.1, 8.0, 7.8, 8.3, 7.7])
grupo2 = np.array([8.4, 8.6, 8.8, 8.5, 8.9, 8.7, 9.0, 8.6])

# Variâncias amostrais
s1_sq = np.var(grupo1, ddof=1)
s2_sq = np.var(grupo2, ddof=1)

# Estatística F
F = s1_sq / s2_sq

# Graus de liberdade
df1 = len(grupo1) - 1
df2 = len(grupo2) - 1

# Valor-p (teste bilateral)
p_valor = 2 * min(stats.f.cdf(F, df1, df2), 1 - stats.f.cdf(F, df1, df2))

alpha = 0.05

print(f"Variância Grupo 1: {s1_sq:.4f}")
print(f"Variância Grupo 2: {s2_sq:.4f}")
print(f"Estatística F: {F:.4f}")
print(f"Valor-p: {p_valor:.4f}")

if p_valor <= alpha:
    print("Rejeitamos H0: As variâncias são diferentes.")
else:
    print("Não rejeitamos H0: Sem evidências de diferença entre as variâncias.")


Variância Grupo 1: 0.0712
Variância Grupo 2: 0.0413
Estatística F: 1.7273
Valor-p: 0.4879
Não rejeitamos H0: Sem evidências de diferença entre as variâncias.
