# 🔬 Testes de Hipótese: O Detetive da Estatística!
## *Tirando Conclusões com Confiança - Módulo 8 de 10*

### **Pedro Nunes Guth** | Expert em IA & Matemática AWS

---

Eaê pessoal! 🚀

Tá, mas o que é um **teste de hipótese**? Imagina que você é um detetive investigando se um suspeito é culpado ou inocente. Você não pode ter 100% de certeza, mas precisa tomar uma decisão baseada nas evidências, certo?

É exatamente isso que fazemos com testes de hipótese! A gente formula duas teorias:
- **H₀ (Hipótese Nula)**: "O suspeito é inocente" (status quo)
- **H₁ (Hipótese Alternativa)**: "O suspeito é culpado" (o que queremos provar)

E aí? **Bora** desvendar esse mistério estatístico! 🕵️‍♂️

In [None]:
# Setup inicial - Imports que vamos usar nessa jornada!
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import norm, t, chi2
import warnings
warnings.filterwarnings('ignore')

# Configurações visuais - deixando tudo liiindo!
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

print("🎯 Bibliotecas carregadas! Vamos começar nossa investigação estatística!")

## 🧠 Fundamentos: O que São Testes de Hipótese?

Tá, vamos por partes! Nos módulos anteriores a gente viu:
- **Módulo 7**: Como usar amostras para falar sobre populações (Teorema do Limite Central)
- **Módulo 2**: Distribuições de probabilidade (Normal, t-Student...)

Agora vamos **juntar tudo isso** para tomar decisões!

### A Estrutura de um Teste de Hipótese:

```mermaid
graph TD
    A[Formulação das Hipóteses] --> B[Escolha do Teste Estatístico]
    B --> C[Coleta de Dados]
    C --> D[Cálculo da Estatística de Teste]
    D --> E[Cálculo do Valor-p]
    E --> F[Decisão: Rejeitar ou Não H₀]
    F --> G[Interpretação dos Resultados]
```

### **Dica do Pedro**: 
Lembra do filme "12 Homens e uma Sentença"? O júri assume que o réu é inocente (H₀) até que as evidências provem o contrário. É exatamente assim que funciona!

## 📊 As Hipóteses: Nula vs Alternativa

### Hipótese Nula (H₀):
- É o **status quo**, a situação atual
- "Não há diferença", "Não há efeito", "São iguais"
- É o que **assumimos ser verdade** até prova em contrário

### Hipótese Alternativa (H₁ ou Hₐ):
- É o que **queremos provar**
- "Há diferença", "Há efeito", "São diferentes"
- Pode ser **bilateral** (≠) ou **unilateral** (> ou <)

### Exemplos Brasileiríssimos:

**Exemplo 1 - Churrasco vs Feijoada:**
- H₀: "Churrasco e feijoada têm a mesma preferência" (μ₁ = μ₂)
- H₁: "Churrasco é mais preferido que feijoada" (μ₁ > μ₂)

**Exemplo 2 - Nota do ENEM:**
- H₀: "A média nacional do ENEM é 500 pontos" (μ = 500)
- H₁: "A média nacional do ENEM é diferente de 500 pontos" (μ ≠ 500)

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-08_img_01.png)

In [None]:
# Vamos simular dados para o exemplo do ENEM
np.random.seed(42)

# Simulando notas do ENEM de uma amostra de estudantes
# Vamos fingir que a média real é 520 (mas não sabemos isso!)
notas_enem = np.random.normal(loc=520, scale=100, size=1000)

# Estatísticas descritivas
media_amostral = np.mean(notas_enem)
desvio_amostral = np.std(notas_enem, ddof=1)  # ddof=1 para amostra
n = len(notas_enem)

print(f"📊 Dados da nossa amostra:")
print(f"   Tamanho da amostra (n): {n}")
print(f"   Média amostral (x̄): {media_amostral:.2f}")
print(f"   Desvio padrão amostral (s): {desvio_amostral:.2f}")
print(f"")
print(f"🤔 Nossa pergunta:")
print(f"   H₀: μ = 500 (a média é 500)")
print(f"   H₁: μ ≠ 500 (a média é diferente de 500)")

## 🎯 A Matemática dos Testes: Estatísticas de Teste

Agora vem a parte **maneira**! Como transformar nossos dados em evidência?

### Teste t para Uma Amostra:

A fórmula da **estatística t** é:

$$t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}}$$

Onde:
- $\bar{x}$ = média amostral
- $\mu_0$ = valor hipotético da média populacional (H₀)
- $s$ = desvio padrão amostral
- $n$ = tamanho da amostra

### Por que essa fórmula funciona?

Lembra do **Módulo 7** onde falamos sobre o Teorema do Limite Central? A distribuição das médias amostrais segue uma normal com:

$$\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$$

Quando **padronizamos** isso (como fazíamos com o Z-score), obtemos a estatística t!

### **Dica do Pedro**: 
A estatística t é como um **"medidor de surpresa"**. Quanto maior o |t|, mais surpreendente é nosso resultado se H₀ fosse verdade!

In [None]:
# Calculando a estatística t manualmente
mu_0 = 500  # Valor da hipótese nula
x_bar = media_amostral  # Média amostral
s = desvio_amostral     # Desvio padrão amostral
n = len(notas_enem)     # Tamanho da amostra

# Fórmula da estatística t
t_estatistica = (x_bar - mu_0) / (s / np.sqrt(n))

# Graus de liberdade
graus_liberdade = n - 1

print(f"🧮 Calculando a estatística t:")
print(f"")
print(f"   t = (x̄ - μ₀) / (s / √n)")
print(f"   t = ({x_bar:.2f} - {mu_0}) / ({s:.2f} / √{n})")
print(f"   t = {x_bar - mu_0:.2f} / {s/np.sqrt(n):.2f}")
print(f"   t = {t_estatistica:.4f}")
print(f"")
print(f"   Graus de liberdade: {graus_liberdade}")

# Comparando com a função do scipy
t_scipy, p_valor_scipy = stats.ttest_1samp(notas_enem, mu_0)
print(f"")
print(f"✅ Conferindo com scipy.stats:")
print(f"   Estatística t: {t_scipy:.4f}")
print(f"   Valor-p: {p_valor_scipy:.6f}")

## 🎪 O Valor-p: A Estrela do Show!

Tá, mas o que diabos é esse **valor-p** que todo mundo fala?

### Definição Formal:
O **valor-p** é a probabilidade de obtermos um resultado **igual ou mais extremo** que o observado, **assumindo que H₀ é verdadeira**.

### Traduzindo para o Português Claro:
"Se a hipótese nula fosse verdade, qual seria a chance de eu ver dados tão malucos quanto esses?"

### Fórmula Matemática:
Para um teste bilateral:

$$p = 2 \times P(T \geq |t_{obs}|)$$

Onde $T$ segue uma distribuição t-Student com $n-1$ graus de liberdade.

### Interpretação:
- **p ≤ 0.05**: "Cara, isso é muito improvável! Vou rejeitar H₀"
- **p > 0.05**: "Hmm, pode ser coincidência. Não vou rejeitar H₀"

### **Dica do Pedro**: 
O valor-p NÃO é a probabilidade de H₀ ser verdadeira! É a probabilidade dos dados, dado que H₀ é verdadeira. Diferença crucial!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-08_img_02.png)

In [None]:
# Visualizando o conceito de valor-p
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gráfico 1: Distribuição t e nossa estatística
x = np.linspace(-4, 4, 1000)
y = stats.t.pdf(x, df=graus_liberdade)

ax1.plot(x, y, 'b-', linewidth=2, label=f'Distribuição t (gl={graus_liberdade})')
ax1.axvline(t_estatistica, color='red', linestyle='--', linewidth=2, 
           label=f'Nossa estatística t = {t_estatistica:.3f}')
ax1.axvline(-t_estatistica, color='red', linestyle='--', linewidth=2, alpha=0.7)

# Sombreando a área do valor-p
x_right = x[x >= abs(t_estatistica)]
y_right = stats.t.pdf(x_right, df=graus_liberdade)
x_left = x[x <= -abs(t_estatistica)]
y_left = stats.t.pdf(x_left, df=graus_liberdade)

ax1.fill_between(x_right, y_right, alpha=0.3, color='red', label=f'Valor-p = {p_valor_scipy:.4f}')
ax1.fill_between(x_left, y_left, alpha=0.3, color='red')

ax1.set_title('Distribuição t e Valor-p (Teste Bilateral)')
ax1.set_xlabel('Estatística t')
ax1.set_ylabel('Densidade')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Gráfico 2: Histograma dos dados originais
ax2.hist(notas_enem, bins=50, density=True, alpha=0.7, color='skyblue', 
         edgecolor='black', label='Dados da Amostra')
ax2.axvline(media_amostral, color='red', linestyle='-', linewidth=2, 
           label=f'Média Amostral = {media_amostral:.1f}')
ax2.axvline(mu_0, color='green', linestyle='--', linewidth=2, 
           label=f'H₀: μ = {mu_0}')

ax2.set_title('Distribuição das Notas do ENEM')
ax2.set_xlabel('Nota')
ax2.set_ylabel('Densidade')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"🎯 Interpretação:")
print(f"   Se H₀ fosse verdade (μ = 500), a chance de ver")
print(f"   uma estatística t tão extrema quanto {t_estatistica:.3f}")
print(f"   seria de apenas {p_valor_scipy:.4f} ({p_valor_scipy*100:.2f}%)")

## ⚖️ Tomando a Decisão: Nível de Significância

Agora vem a **hora da verdade**! Como decidir se rejeitamos H₀ ou não?

### Nível de Significância (α):
É o nosso **"limite de tolerância"** para erro. Geralmente usamos:
- **α = 0.05** (5%): Padrão na maioria das áreas
- **α = 0.01** (1%): Para decisões mais críticas
- **α = 0.10** (10%): Para análises exploratórias

### Regra de Decisão:
- Se **p-valor ≤ α**: Rejeitamos H₀ (resultado "estatisticamente significativo")
- Se **p-valor > α**: Não rejeitamos H₀ (não temos evidência suficiente)

### Os Dois Tipos de Erro:

| Realidade → | H₀ é Verdadeira | H₀ é Falsa |
|-------------|-----------------|------------|
| **Não Rejeitamos H₀** | ✅ Decisão Correta | ❌ **Erro Tipo II** (β) |
| **Rejeitamos H₀** | ❌ **Erro Tipo I** (α) | ✅ Decisão Correta |

### **Dica do Pedro**: 
Lembra do sistema judiciário? Erro Tipo I é condenar um inocente, Erro Tipo II é absolver um culpado. Qual é pior? Depende do contexto!

In [None]:
# Função para realizar teste de hipótese completo
def teste_hipotese_completo(dados, mu_0, alpha=0.05, teste='bilateral'):
    """
    Realiza um teste de hipótese completo para uma amostra
    
    Parâmetros:
    - dados: array com os dados da amostra
    - mu_0: valor da hipótese nula
    - alpha: nível de significância
    - teste: 'bilateral', 'menor' ou 'maior'
    """
    
    n = len(dados)
    x_bar = np.mean(dados)
    s = np.std(dados, ddof=1)
    
    # Estatística t
    t_stat = (x_bar - mu_0) / (s / np.sqrt(n))
    gl = n - 1
    
    # Valor-p dependendo do tipo de teste
    if teste == 'bilateral':
        p_valor = 2 * (1 - stats.t.cdf(abs(t_stat), gl))
        hipotese_alt = f"μ ≠ {mu_0}"
    elif teste == 'maior':
        p_valor = 1 - stats.t.cdf(t_stat, gl)
        hipotese_alt = f"μ > {mu_0}"
    else:  # teste == 'menor'
        p_valor = stats.t.cdf(t_stat, gl)
        hipotese_alt = f"μ < {mu_0}"
    
    # Decisão
    decisao = "Rejeitar H₀" if p_valor <= alpha else "Não rejeitar H₀"
    significativo = "Sim" if p_valor <= alpha else "Não"
    
    # Resultados
    print(f"📊 TESTE DE HIPÓTESE - RESULTADOS COMPLETOS")
    print(f"="*50)
    print(f"Dados da Amostra:")
    print(f"  • Tamanho (n): {n}")
    print(f"  • Média (x̄): {x_bar:.3f}")
    print(f"  • Desvio Padrão (s): {s:.3f}")
    print(f"")
    print(f"Hipóteses:")
    print(f"  • H₀: μ = {mu_0}")
    print(f"  • H₁: {hipotese_alt}")
    print(f"")
    print(f"Estatísticas do Teste:")
    print(f"  • Estatística t: {t_stat:.4f}")
    print(f"  • Graus de liberdade: {gl}")
    print(f"  • Valor-p: {p_valor:.6f}")
    print(f"  • Nível de significância (α): {alpha}")
    print(f"")
    print(f"Decisão:")
    print(f"  • {decisao}")
    print(f"  • Estatisticamente significativo: {significativo}")
    
    return {
        'estatistica_t': t_stat,
        'p_valor': p_valor,
        'decisao': decisao,
        'significativo': significativo
    }

# Testando nossa função com os dados do ENEM
resultado = teste_hipotese_completo(notas_enem, mu_0=500, alpha=0.05)

## 🔄 Tipos de Testes: Bilateral vs Unilateral

Dependendo da nossa **pergunta de pesquisa**, podemos ter diferentes tipos de teste:

### 1. Teste Bilateral (Two-tailed):
- **H₁**: μ ≠ μ₀ ("é diferente de")
- Testamos se há diferença **em qualquer direção**
- Dividimos α entre as duas caudas da distribuição

### 2. Teste Unilateral Direito:
- **H₁**: μ > μ₀ ("é maior que")
- Testamos apenas se é **significativamente maior**
- Todo α fica na cauda direita

### 3. Teste Unilateral Esquerdo:
- **H₁**: μ < μ₀ ("é menor que")
- Testamos apenas se é **significativamente menor**
- Todo α fica na cauda esquerda

### Quando usar cada um?
- **Bilateral**: "Quero saber se há diferença" (mais comum)
- **Unilateral**: "Tenho uma direção específica em mente"

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-08_img_03.png)

In [None]:
# Comparando os três tipos de teste com um exemplo
# Vamos simular que um novo método de ensino foi testado
np.random.seed(123)
notas_novo_metodo = np.random.normal(loc=515, scale=95, size=150)

print("🎓 EXEMPLO: Eficácia de um Novo Método de Ensino")
print("="*60)
print("Contexto: Testamos se um novo método de ensino melhora as notas.")
print("Média histórica: 500 pontos")
print(f"Média com novo método: {np.mean(notas_novo_metodo):.2f} pontos")
print()

# Teste 1: Bilateral
print("🔄 TESTE BILATERAL:")
print("   H₀: μ = 500 (método não faz diferença)")
print("   H₁: μ ≠ 500 (método faz alguma diferença)")
resultado_bilateral = teste_hipotese_completo(notas_novo_metodo, 500, 0.05, 'bilateral')
print()

print("➡️ TESTE UNILATERAL DIREITO:")
print("   H₀: μ ≤ 500 (método não melhora)")
print("   H₁: μ > 500 (método melhora as notas)")
resultado_direito = teste_hipotese_completo(notas_novo_metodo, 500, 0.05, 'maior')
print()

In [None]:
# Visualizando a diferença entre os tipos de teste
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# Parâmetros para os gráficos
x = np.linspace(-4, 4, 1000)
y = stats.t.pdf(x, df=149)  # 150-1 graus de liberdade
t_calculado = (np.mean(notas_novo_metodo) - 500) / (np.std(notas_novo_metodo, ddof=1) / np.sqrt(150))

# Teste Bilateral
axes[0].plot(x, y, 'b-', linewidth=2)
axes[0].axvline(t_calculado, color='red', linestyle='--', linewidth=2, label=f't = {t_calculado:.3f}')
axes[0].axvline(-1.96, color='green', linestyle=':', linewidth=1, label='Crítico (±1.96)')
axes[0].axvline(1.96, color='green', linestyle=':', linewidth=1)

# Região crítica bilateral
x_crit_left = x[x <= -1.96]
x_crit_right = x[x >= 1.96]
axes[0].fill_between(x_crit_left, stats.t.pdf(x_crit_left, 149), alpha=0.3, color='red')
axes[0].fill_between(x_crit_right, stats.t.pdf(x_crit_right, 149), alpha=0.3, color='red')

axes[0].set_title('Teste Bilateral\n(α/2 = 0.025 em cada cauda)')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Teste Unilateral Direito
axes[1].plot(x, y, 'b-', linewidth=2)
axes[1].axvline(t_calculado, color='red', linestyle='--', linewidth=2, label=f't = {t_calculado:.3f}')
axes[1].axvline(1.645, color='green', linestyle=':', linewidth=1, label='Crítico (1.645)')

# Região crítica direita
x_crit_right = x[x >= 1.645]
axes[1].fill_between(x_crit_right, stats.t.pdf(x_crit_right, 149), alpha=0.3, color='red')

axes[1].set_title('Teste Unilateral Direito\n(α = 0.05 na cauda direita)')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

# Teste Unilateral Esquerdo
axes[2].plot(x, y, 'b-', linewidth=2)
axes[2].axvline(t_calculado, color='red', linestyle='--', linewidth=2, label=f't = {t_calculado:.3f}')
axes[2].axvline(-1.645, color='green', linestyle=':', linewidth=1, label='Crítico (-1.645)')

# Região crítica esquerda
x_crit_left = x[x <= -1.645]
axes[2].fill_between(x_crit_left, stats.t.pdf(x_crit_left, 149), alpha=0.3, color='red')

axes[2].set_title('Teste Unilateral Esquerdo\n(α = 0.05 na cauda esquerda)')
axes[2].legend()
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"🔍 Observação:")
print(f"Com a mesma estatística t = {t_calculado:.3f}:")
print(f"  • Teste bilateral: Rejeita H₀? {abs(t_calculado) > 1.96}")
print(f"  • Teste unilateral direito: Rejeita H₀? {t_calculado > 1.645}")
print(f"  • Teste unilateral esquerdo: Rejeita H₀? {t_calculado < -1.645}")

## 🎯 Exercício Prático 1: Teste do Cafezinho

**Contexto**: Uma cafeteria afirma que seus clientes gastam em média R$ 25,00 por visita. Você suspeita que gastam mais que isso e coletou dados de 80 clientes.

**Sua missão**:
1. Formule as hipóteses (H₀ e H₁)
2. Escolha o tipo de teste apropriado
3. Calcule a estatística de teste
4. Determine o valor-p
5. Tome uma decisão com α = 0.05

**Dica do Pedro**: Pense bem no tipo de teste! Você tem uma suspeita **específica** sobre a direção da diferença?

In [None]:
# Dados do exercício do cafezinho
np.random.seed(456)
gastos_cafeteria = np.random.normal(loc=27.5, scale=8.2, size=80)

print("☕ EXERCÍCIO: Teste do Cafezinho")
print("="*40)
print(f"Dados coletados: {len(gastos_cafeteria)} clientes")
print(f"Gasto médio observado: R$ {np.mean(gastos_cafeteria):.2f}")
print(f"Desvio padrão: R$ {np.std(gastos_cafeteria, ddof=1):.2f}")
print(f"Afirmação da cafeteria: R$ 25,00")
print()

# COMPLETE O CÓDIGO ABAIXO:
# 1. Formule as hipóteses
print("1️⃣ Hipóteses:")
print("   H₀: _______________")  # Complete aqui
print("   H₁: _______________")  # Complete aqui
print()

# 2. Que tipo de teste usar?
tipo_teste = "___"  # 'bilateral', 'maior' ou 'menor'?
print(f"2️⃣ Tipo de teste: {tipo_teste}")
print()

# 3. Execute o teste
# resultado = teste_hipotese_completo(gastos_cafeteria, ?, ?, ?)

print("\n🤔 Pense nas respostas e depois execute o teste!")

In [None]:
# SOLUÇÃO DO EXERCÍCIO DO CAFEZINHO
print("☕ SOLUÇÃO: Teste do Cafezinho")
print("="*40)

# 1. Hipóteses corretas
print("1️⃣ Hipóteses:")
print("   H₀: μ ≤ 25 (gastos são no máximo R$ 25,00)")
print("   H₁: μ > 25 (gastos são maiores que R$ 25,00)")
print()

# 2. Tipo de teste
print("2️⃣ Tipo de teste: UNILATERAL DIREITO")
print("   Justificativa: Temos suspeita específica de que gastam MAIS")
print()

# 3. Executando o teste
resultado_cafe = teste_hipotese_completo(gastos_cafeteria, mu_0=25, alpha=0.05, teste='maior')

print(f"\n💡 Interpretação:")
if resultado_cafe['significativo'] == 'Sim':
    print(f"   ✅ Há evidência estatística suficiente para afirmar que")
    print(f"      os clientes gastam mais que R$ 25,00 por visita!")
else:
    print(f"   ❌ Não há evidência estatística suficiente para afirmar que")
    print(f"      os clientes gastam mais que R$ 25,00 por visita.")

## 📈 Outros Testes Importantes: Além do Teste t

O teste t é **maneiro**, mas não é o único! Vamos ver outros testes importantes:

### 1. Teste Z (Para Amostras Grandes):
Quando $n \geq 30$ e conhecemos $\sigma$ populacional:

$$Z = \frac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}$$

### 2. Teste Chi-Quadrado (Para Variâncias):
Para testar se a variância populacional é igual a um valor específico:

$$\chi^2 = \frac{(n-1)s^2}{\sigma_0^2}$$

### 3. Teste de Proporção:
Para testar proporções (ex: % de aprovação):

$$Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}$$

### Quando usar cada um?
- **Teste t**: Médias com σ desconhecido (mais comum)
- **Teste Z**: Médias com σ conhecido ou n muito grande
- **Chi-quadrado**: Variâncias ou testes de independência
- **Proporção**: Percentuais, taxas, probabilidades

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-08_img_04.png)

In [None]:
# Exemplo prático: Teste de Proporção
# Cenário: Uma empresa diz que 80% dos clientes estão satisfeitos
# Pesquisa: 250 clientes, 190 satisfeitos

def teste_proporcao(sucessos, n, p0, alpha=0.05, teste='bilateral'):
    """
    Realiza teste de hipótese para proporção
    """
    # Proporção amostral
    p_hat = sucessos / n
    
    # Estatística Z
    z_stat = (p_hat - p0) / np.sqrt(p0 * (1 - p0) / n)
    
    # Valor-p
    if teste == 'bilateral':
        p_valor = 2 * (1 - norm.cdf(abs(z_stat)))
    elif teste == 'maior':
        p_valor = 1 - norm.cdf(z_stat)
    else:  # menor
        p_valor = norm.cdf(z_stat)
    
    # Decisão
    decisao = "Rejeitar H₀" if p_valor <= alpha else "Não rejeitar H₀"
    
    return {
        'p_amostral': p_hat,
        'z_estatistica': z_stat,
        'p_valor': p_valor,
        'decisao': decisao
    }

# Dados do problema
clientes_satisfeitos = 190
total_clientes = 250
proporcao_alegada = 0.80

print("📊 TESTE DE PROPORÇÃO: Satisfação do Cliente")
print("="*50)
print(f"Amostra: {clientes_satisfeitos}/{total_clientes} clientes satisfeitos")
print(f"Proporção amostral: {clientes_satisfeitos/total_clientes:.3f} (76%)")
print(f"Alegação da empresa: {proporcao_alegada:.3f} (80%)")
print()

print("Hipóteses:")
print(f"  H₀: p = 0.80 (80% dos clientes estão satisfeitos)")
print(f"  H₁: p ≠ 0.80 (proporção é diferente de 80%)")
print()

# Executando o teste
resultado_prop = teste_proporcao(clientes_satisfeitos, total_clientes, proporcao_alegada)

print(f"Resultados:")
print(f"  Estatística Z: {resultado_prop['z_estatistica']:.4f}")
print(f"  Valor-p: {resultado_prop['p_valor']:.6f}")
print(f"  Decisão: {resultado_prop['decisao']}")

# Interpretação
if resultado_prop['p_valor'] <= 0.05:
    print(f"\n✅ Conclusão: Há evidência estatística de que a proporção")
    print(f"   de clientes satisfeitos é diferente de 80%.")
else:
    print(f"\n❌ Conclusão: Não há evidência estatística suficiente para")
    print(f"   afirmar que a proporção é diferente de 80%.")

## ⚠️ Cuidados e Interpretações: Evitando Pegadinhas

Tá, agora vamos para a parte **crucial**: como NÃO cair nas pegadinhas dos testes de hipótese!

### 1. O que o valor-p NÃO é:
- ❌ **NÃO** é a probabilidade de H₀ ser verdadeira
- ❌ **NÃO** é a probabilidade de ter cometido um erro
- ❌ **NÃO** é o "tamanho" do efeito

### 2. O que "estatisticamente significativo" NÃO significa:
- ❌ **NÃO** significa "importante na prática"
- ❌ **NÃO** significa "grande diferença"
- ❌ **NÃO** significa "certeza absoluta"

### 3. Interpretação Correta:
- ✅ "Há evidência estatística suficiente para..."
- ✅ "Os dados são inconsistentes com H₀"
- ✅ "Rejeitamos H₀ ao nível de 5%"

### 4. Significância vs Importância Prática:
Com amostras **muito grandes**, diferenças **minúsculas** podem ser estatisticamente significativas, mas **irrelevantes** na prática!

### **Dica do Pedro**: 
Lembra da frase: "Todos os modelos estão errados, mas alguns são úteis"? Com testes de hipótese: "Toda H₀ é falsa, mas algumas são úteis aproximações!"



In [None]:
# Demonstrando o problema da significância vs importância prática
np.random.seed(789)

# Simulando dois cenários: amostra pequena vs grande
print("🔍 SIGNIFICÂNCIA vs IMPORTÂNCIA PRÁTICA")
print("="*50)

# Cenário 1: Amostra pequena, diferença grande
print("📊 Cenário 1: Amostra Pequena (n=30)")
amostra_pequena = np.random.normal(loc=505, scale=100, size=30)  # Diferença de 5 pontos
t1, p1 = stats.ttest_1samp(amostra_pequena, 500)
print(f"   Média amostral: {np.mean(amostra_pequena):.2f}")
print(f"   Diferença da H₀: {np.mean(amostra_pequena) - 500:.2f} pontos")
print(f"   Valor-p: {p1:.6f}")
print(f"   Significativo (α=0.05): {'Sim' if p1 < 0.05 else 'Não'}")
print()

# Cenário 2: Amostra grande, diferença pequena
print("📊 Cenário 2: Amostra Grande (n=10000)")
amostra_grande = np.random.normal(loc=501, scale=100, size=10000)  # Diferença de apenas 1 ponto!
t2, p2 = stats.ttest_1samp(amostra_grande, 500)
print(f"   Média amostral: {np.mean(amostra_grande):.2f}")
print(f"   Diferença da H₀: {np.mean(amostra_grande) - 500:.2f} pontos")
print(f"   Valor-p: {p2:.6f}")
print(f"   Significativo (α=0.05): {'Sim' if p2 < 0.05 else 'Não'}")
print()

print("💡 LIÇÃO IMPORTANTE:")
print(f"   O Cenário 2 é estatisticamente significativo, mas a diferença")
print(f"   prática é mínima (apenas 1 ponto vs 5 pontos do Cenário 1).")
print(f"   ")
print(f"   Sempre considere:")
print(f"   • Significância estatística (valor-p)")
print(f"   • Significância prática (tamanho do efeito)")
print(f"   • Contexto do problema")

# Visualizando a diferença
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gráfico 1: Amostra pequena
ax1.hist(amostra_pequena, bins=15, alpha=0.7, color='lightblue', edgecolor='black')
ax1.axvline(np.mean(amostra_pequena), color='red', linestyle='-', linewidth=2, 
           label=f'Média = {np.mean(amostra_pequena):.1f}')
ax1.axvline(500, color='green', linestyle='--', linewidth=2, label='H₀: μ = 500')
ax1.set_title(f'Amostra Pequena (n=30)\np-valor = {p1:.4f}')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Gráfico 2: Amostra grande
ax2.hist(amostra_grande, bins=50, alpha=0.7, color='lightcoral', edgecolor='black')
ax2.axvline(np.mean(amostra_grande), color='red', linestyle='-', linewidth=2, 
           label=f'Média = {np.mean(amostra_grande):.1f}')
ax2.axvline(500, color='green', linestyle='--', linewidth=2, label='H₀: μ = 500')
ax2.set_title(f'Amostra Grande (n=10000)\np-valor = {p2:.6f}')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 🎯 Exercício Prático 2: Análise Completa

**Cenário Real**: Você trabalha em uma empresa de delivery e quer saber se o tempo médio de entrega mudou após uma nova logística. 

**Dados Históricos**: Tempo médio = 35 minutos
**Nova Amostra**: 200 entregas após a mudança

**Sua Análise Deve Incluir**:
1. Formulação das hipóteses
2. Análise exploratória dos dados
3. Verificação das suposições do teste
4. Execução do teste apropriado
5. Interpretação dos resultados
6. Discussão sobre significância prática

**Desafio Extra**: E se você quiser testar especificamente se o tempo **diminuiu**? Como isso mudaria sua análise?

In [None]:
# Dados para o exercício do delivery
np.random.seed(2024)

# Simulando tempos de entrega após nova logística
# (Vamos simular uma melhoria real de ~3 minutos)
tempos_entrega = np.random.normal(loc=32, scale=8, size=200)

print("🚚 EXERCÍCIO COMPLETO: Análise do Delivery")
print("="*50)
print(f"Contexto: Nova logística implementada")
print(f"Tempo histórico médio: 35 minutos")
print(f"Amostra atual: {len(tempos_entrega)} entregas")
print()

# 1. ANÁLISE EXPLORATÓRIA
print("1️⃣ ANÁLISE EXPLORATÓRIA:")
print(f"   Média: {np.mean(tempos_entrega):.2f} min")
print(f"   Mediana: {np.median(tempos_entrega):.2f} min")
print(f"   Desvio Padrão: {np.std(tempos_entrega, ddof=1):.2f} min")
print(f"   Mínimo: {np.min(tempos_entrega):.2f} min")
print(f"   Máximo: {np.max(tempos_entrega):.2f} min")
print()

# COMPLETE SUA ANÁLISE AQUI:
print("2️⃣ SUAS HIPÓTESES:")
print("   H₀: _______________")
print("   H₁: _______________")
print()

print("3️⃣ TIPO DE TESTE ESCOLHIDO: _______________")
print()

print("4️⃣ EXECUTE O TESTE E INTERPRETE OS RESULTADOS!")

# Visualização dos dados
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Histograma
ax1.hist(tempos_entrega, bins=20, alpha=0.7, color='lightgreen', edgecolor='black')
ax1.axvline(np.mean(tempos_entrega), color='red', linestyle='-', linewidth=2, 
           label=f'Nova Média = {np.mean(tempos_entrega):.1f} min')
ax1.axvline(35, color='blue', linestyle='--', linewidth=2, 
           label='Média Histórica = 35 min')
ax1.set_title('Distribuição dos Tempos de Entrega')
ax1.set_xlabel('Tempo (minutos)')
ax1.set_ylabel('Frequência')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Box plot
ax2.boxplot(tempos_entrega, vert=True)
ax2.axhline(35, color='blue', linestyle='--', linewidth=2, 
           label='Média Histórica = 35 min')
ax2.set_title('Box Plot - Tempos de Entrega')
ax2.set_ylabel('Tempo (minutos)')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# SOLUÇÃO COMPLETA DO EXERCÍCIO DO DELIVERY
print("🚚 SOLUÇÃO COMPLETA: Análise do Delivery")
print("="*50)

# 2. Hipóteses
print("2️⃣ HIPÓTESES:")
print("   H₀: μ = 35 (tempo médio não mudou)")
print("   H₁: μ ≠ 35 (tempo médio mudou) - TESTE BILATERAL")
print()
print("   Alternativa para teste unilateral:")
print("   H₀: μ ≥ 35 (tempo não diminuiu)")
print("   H₁: μ < 35 (tempo diminuiu) - TESTE UNILATERAL ESQUERDO")
print()

# 3. Teste bilateral
print("3️⃣ TESTE BILATERAL:")
resultado_delivery_bi = teste_hipotese_completo(tempos_entrega, mu_0=35, alpha=0.05, teste='bilateral')
print()

# 4. Teste unilateral (se quisermos testar se diminuiu)
print("4️⃣ TESTE UNILATERAL (H₁: μ < 35):")
resultado_delivery_uni = teste_hipotese_completo(tempos_entrega, mu_0=35, alpha=0.05, teste='menor')
print()

# 5. Análise da significância prática
diferenca_pratica = np.mean(tempos_entrega) - 35
print("5️⃣ SIGNIFICÂNCIA PRÁTICA:")
print(f"   Diferença observada: {diferenca_pratica:.2f} minutos")
print(f"   Percentual de melhoria: {abs(diferenca_pratica)/35*100:.1f}%")
print()
if abs(diferenca_pratica) >= 2:
    print("   ✅ A diferença parece ter importância prática!")
    print("      Uma redução de ~3 minutos pode impactar satisfação.")
else:
    print("   ⚠️ A diferença pode não ter importância prática significativa.")

print()
print("6️⃣ CONCLUSÃO FINAL:")
if resultado_delivery_bi['significativo'] == 'Sim':
    print("   ✅ Há evidência estatística forte de que a nova logística")
    print("      alterou o tempo médio de entrega.")
    if diferenca_pratica < 0:
        print("   🚀 Especificamente, os dados sugerem uma MELHORIA!")
        print(f"      Redução média: {abs(diferenca_pratica):.1f} minutos")
else:
    print("   ❌ Não há evidência estatística suficiente de mudança")
    print("      no tempo médio de entrega.")

## 🔗 Conexões com o Curso: Juntando os Pontos

**Liiindo!** Agora vamos conectar tudo que vimos até agora:

### Módulos Anteriores que Usamos:

**Módulo 1 (Medidas de Centralidade)**:
- Média amostral ($\bar{x}$) é nosso estimador principal
- Desvio padrão (s) mede a variabilidade dos dados

**Módulo 2 (Distribuições)**:
- Distribuição Normal: base dos nossos testes
- Distribuição t-Student: quando σ é desconhecido

**Módulo 7 (Amostragem e TLC)**:
- Teorema do Limite Central: $\bar{X} \sim N(\mu, \sigma^2/n)$
- Erro padrão: $SE = \frac{s}{\sqrt{n}}$

### Preparando para os Próximos Módulos:

**Módulo 9 (Intervalos de Confiança)**:
- Teste de hipótese e IC são **duas faces da mesma moeda**
- Se μ₀ estiver fora do IC 95%, rejeitamos H₀ (α = 0.05)

**Módulo 10 (Validação de Modelos)**:
- Testes de hipótese para avaliar performance de modelos
- Comparar acurácias, testar diferenças entre modelos

```mermaid
graph LR
    A[Módulo 7: TLC] --> B[Módulo 8: Testes]
    B --> C[Módulo 9: IC]
    B --> D[Módulo 10: Validação]
    E[Módulo 2: Distribuições] --> B
    F[Módulo 1: Estatísticas] --> B
```

In [None]:
# Demonstrando a conexão entre Testes de Hipótese e Intervalos de Confiança
from scipy import stats

# Usando os dados do ENEM novamente
print("🔗 CONEXÃO: Testes de Hipótese ↔ Intervalos de Confiança")
print("="*60)

# Dados do teste
media = np.mean(notas_enem)
desvio = np.std(notas_enem, ddof=1)
n = len(notas_enem)
alpha = 0.05

# Teste de hipótese (já fizemos)
t_stat = (media - 500) / (desvio / np.sqrt(n))
p_valor = 2 * (1 - stats.t.cdf(abs(t_stat), n-1))

# Intervalo de confiança (prévia do Módulo 9!)
t_critico = stats.t.ppf(1 - alpha/2, n-1)
margem_erro = t_critico * (desvio / np.sqrt(n))
ic_inferior = media - margem_erro
ic_superior = media + margem_erro

print(f"📊 TESTE DE HIPÓTESE (H₀: μ = 500):")
print(f"   Estatística t: {t_stat:.4f}")
print(f"   Valor-p: {p_valor:.6f}")
print(f"   Decisão: {'Rejeitar H₀' if p_valor < alpha else 'Não rejeitar H₀'}")
print()

print(f"📏 INTERVALO DE CONFIANÇA 95%:")
print(f"   IC: [{ic_inferior:.2f}, {ic_superior:.2f}]")
print(f"   500 está no IC? {'Não' if 500 < ic_inferior or 500 > ic_superior else 'Sim'}")
print()

print(f"🎯 CONEXÃO MÁGICA:")
if p_valor < alpha:
    print(f"   • Rejeitamos H₀ (p < 0.05)")
    print(f"   • 500 NÃO está no IC 95%")
    print(f"   ➡️ Ambos chegam à MESMA conclusão!")
else:
    print(f"   • Não rejeitamos H₀ (p ≥ 0.05)")
    print(f"   • 500 ESTÁ no IC 95%")
    print(f"   ➡️ Ambos chegam à MESMA conclusão!")

# Visualização da conexão
fig, ax = plt.subplots(figsize=(12, 6))

# Plotando o IC
ax.errorbar(media, 0, xerr=margem_erro, fmt='o', capsize=10, capthick=3, 
           color='blue', markersize=8, linewidth=3, label=f'IC 95%: [{ic_inferior:.1f}, {ic_superior:.1f}]')

# Marcando pontos importantes
ax.axvline(500, color='red', linestyle='--', linewidth=2, label='H₀: μ = 500')
ax.axvline(media, color='green', linestyle='-', linewidth=2, label=f'Média Amostral: {media:.1f}')

# Configurações do gráfico
ax.set_xlim(ic_inferior - 10, ic_superior + 10)
ax.set_ylim(-0.5, 0.5)
ax.set_xlabel('Nota ENEM')
ax.set_title('Conexão: Teste de Hipótese ↔ Intervalo de Confiança')
ax.legend()
ax.grid(True, alpha=0.3)

# Removendo y-axis (não é relevante aqui)
ax.set_yticks([])

plt.tight_layout()
plt.show()

## 🎓 Resumo e Próximos Passos

**Parabéns!** 🎉 Você dominou os **Testes de Hipótese**! 

### 🎯 O que Aprendemos Hoje:

1. **Conceitos Fundamentais**:
   - H₀ (hipótese nula) vs H₁ (hipótese alternativa)
   - Estatística de teste e sua distribuição
   - Valor-p e sua interpretação correta

2. **Tipos de Teste**:
   - Bilateral: μ ≠ μ₀
   - Unilateral direito: μ > μ₀  
   - Unilateral esquerdo: μ < μ₀

3. **Diferentes Testes**:
   - Teste t (médias, σ desconhecido)
   - Teste Z (médias, σ conhecido)
   - Teste de proporção

4. **Interpretação Cuidadosa**:
   - Significância estatística ≠ Importância prática
   - Erro Tipo I vs Erro Tipo II
   - Limitações e cuidados

### 🚀 Preparação para o Módulo 9:
No próximo módulo vamos ver **Intervalos de Confiança** - a outra face da moeda dos testes de hipótese!

### 🔧 Para Casa:
Pratique com dados reais! Pegue qualquer dataset e formule suas próprias hipóteses.

### **Dica Final do Pedro**: 
Teste de hipótese é como ser detetive: você nunca "prova" que o suspeito é culpado, apenas reúne evidências suficientes para uma decisão confiante. **Bora** para o próximo caso! 🕵️‍♂️



In [None]:
# Função final: Resumo visual de tudo que aprendemos
def resumo_visual_testes():
    fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(16, 12))
    
    # 1. Distribuição t e regiões críticas
    x = np.linspace(-4, 4, 1000)
    y = stats.t.pdf(x, df=30)
    
    ax1.plot(x, y, 'b-', linewidth=2, label='Distribuição t')
    ax1.fill_between(x[x <= -1.96], stats.t.pdf(x[x <= -1.96], 30), 
                    alpha=0.3, color='red', label='Região crítica')
    ax1.fill_between(x[x >= 1.96], stats.t.pdf(x[x >= 1.96], 30), 
                    alpha=0.3, color='red')
    ax1.set_title('Teste Bilateral (α = 0.05)')
    ax1.legend()
    ax1.grid(True, alpha=0.3)
    
    # 2. Relação entre n e poder do teste
    tamanhos_amostra = np.array([10, 30, 50, 100, 200, 500])
    poder_teste = 1 - stats.norm.cdf(1.96 - 0.5 * np.sqrt(tamanhos_amostra) / 10)
    
    ax2.plot(tamanhos_amostra, poder_teste, 'ro-', linewidth=2, markersize=6)
    ax2.set_xlabel('Tamanho da Amostra (n)')
    ax2.set_ylabel('Poder do Teste')
    ax2.set_title('Poder do Teste vs Tamanho da Amostra')
    ax2.grid(True, alpha=0.3)
    ax2.set_ylim(0, 1)
    
    # 3. Tipos de erro
    categorias = ['Erro Tipo I\n(α)', 'Erro Tipo II\n(β)', 'Decisão\nCorreta']
    valores = [0.05, 0.20, 0.75]
    cores = ['red', 'orange', 'green']
    
    ax3.bar(categorias, valores, color=cores, alpha=0.7)
    ax3.set_ylabel('Probabilidade')
    ax3.set_title('Tipos de Erro em Testes de Hipótese')
    ax3.set_ylim(0, 1)
    for i, v in enumerate(valores):
        ax3.text(i, v + 0.02, f'{v:.2f}', ha='center', va='bottom')
    ax3.grid(True, alpha=0.3)
    
    # 4. Evolução do valor-p com diferentes efeitos
    efeitos = np.linspace(0, 1, 50)
    p_valores = 2 * (1 - stats.norm.cdf(efeitos * np.sqrt(100)))
    
    ax4.plot(efeitos, p_valores, 'purple', linewidth=3)
    ax4.axhline(0.05, color='red', linestyle='--', linewidth=2, label='α = 0.05')
    ax4.axhline(0.01, color='orange', linestyle='--', linewidth=2, label='α = 0.01')
    ax4.set_xlabel('Tamanho do Efeito')
    ax4.set_ylabel('Valor-p')
    ax4.set_title('Valor-p vs Tamanho do Efeito (n=100)')
    ax4.legend()
    ax4.grid(True, alpha=0.3)
    ax4.set_yscale('log')
    
    plt.tight_layout()
    plt.show()

# Executando o resumo visual
print("📊 RESUMO VISUAL: Conceitos Principais dos Testes de Hipótese")
print("="*60)
resumo_visual_testes()

print("\n🎯 FÓRMULAS PRINCIPAIS PARA LEMBRAR:")
print("   • Estatística t: t = (x̄ - μ₀) / (s/√n)")
print("   • Valor-p bilateral: p = 2 × P(T ≥ |t|)")
print("   • Erro padrão: SE = s/√n")
print("   • Graus de liberdade: gl = n - 1")

print("\n🚀 PRÓXIMO: Módulo 9 - Intervalos de Confiança!")
print("   Onde vamos descobrir não apenas SE algo é diferente,")
print("   mas ONDE provavelmente está o valor verdadeiro!")