# üìä Exerc√≠cios Pr√°ticos: Teoria da Amostragem

Este notebook cont√©m exerc√≠cios pr√°ticos sobre tipos de amostragem, vi√©s e t√©cnicas de sele√ß√£o de amostras.

## Refer√™ncias Te√≥ricas

Os exerc√≠cios s√£o baseados em:
- **Cochran, W.G. (1977).** *Sampling Techniques*. 3. ed. New York: Wiley.
- **Thompson, S.K. (2012).** *Sampling*. 3. ed. Hoboken: Wiley.
- **Lohr, S.L. (2019).** *Sampling: Design and Analysis*. 2. ed. Boca Raton: CRC Press.

In [None]:
# Bibliotecas necess√°rias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# Configura√ß√µes
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
np.random.seed(42)

## Exerc√≠cio 1: Amostragem Aleat√≥ria Simples (AAS)

### Problema
Uma universidade tem 10.000 alunos e deseja estimar o tempo m√©dio que os estudantes gastam estudando por semana. Voc√™ precisa selecionar uma amostra aleat√≥ria simples de 100 alunos.

### Tarefas
1. Simule uma popula√ß√£o de 10.000 alunos com horas de estudo seguindo uma distribui√ß√£o normal (Œº=20, œÉ=5)
2. Selecione 3 amostras aleat√≥rias de 100 alunos cada
3. Calcule a m√©dia de cada amostra
4. Compare com a m√©dia populacional
5. Calcule o erro amostral para cada amostra

### Fundamento Te√≥rico
Segundo **Cochran (1977)**, na AAS, cada elemento tem probabilidade igual de sele√ß√£o: $P(i) = n/N$, onde $n$ √© o tamanho da amostra e $N$ √© o tamanho da popula√ß√£o.

In [None]:
# Solu√ß√£o do Exerc√≠cio 1

# 1. Criar popula√ß√£o
N = 10000  # Tamanho da popula√ß√£o
mu_pop = 20  # M√©dia populacional
sigma_pop = 5  # Desvio padr√£o populacional

populacao = np.random.normal(mu_pop, sigma_pop, N)
media_pop = populacao.mean()

print(f"Popula√ß√£o:")
print(f"  Tamanho: {N}")
print(f"  M√©dia real: {media_pop:.2f} horas")
print(f"  Desvio padr√£o real: {populacao.std():.2f} horas")

# 2 e 3. Selecionar amostras e calcular m√©dias
n = 100  # Tamanho da amostra
num_amostras = 3

print(f"\nAmostras Aleat√≥rias Simples (n={n}):")
for i in range(num_amostras):
    amostra = np.random.choice(populacao, size=n, replace=False)
    media_amostra = amostra.mean()
    erro = abs(media_amostra - media_pop)
    
    print(f"\nAmostra {i+1}:")
    print(f"  M√©dia: {media_amostra:.2f} horas")
    print(f"  Erro amostral: {erro:.2f} horas")
    print(f"  Erro relativo: {(erro/media_pop)*100:.2f}%")

## Exerc√≠cio 2: Amostragem Estratificada

### Problema
A mesma universidade tem alunos de 4 cursos diferentes com caracter√≠sticas distintas:
- Engenharia: 3000 alunos (m√©dia: 25h, œÉ=4)
- Medicina: 2000 alunos (m√©dia: 30h, œÉ=6)
- Humanas: 3000 alunos (m√©dia: 15h, œÉ=5)
- Artes: 2000 alunos (m√©dia: 18h, œÉ=7)

### Tarefas
1. Compare amostragem aleat√≥ria simples vs. estratificada proporcional
2. Calcule o erro de cada m√©todo
3. Demonstre quando a estratifica√ß√£o √© mais eficiente

### Fundamento Te√≥rico
**Lohr (2019)** demonstra que a amostragem estratificada reduz a vari√¢ncia quando os estratos s√£o homog√™neos internamente e heterog√™neos entre si. A vari√¢ncia do estimador estratificado √©:

$$V(\bar{y}_{st}) = \sum_{h=1}^{L} W_h^2 \frac{S_h^2}{n_h}$$

onde $W_h = N_h/N$ √© o peso do estrato.

In [None]:
# Solu√ß√£o do Exerc√≠cio 2

# Criar popula√ß√£o estratificada
estratos = {
    'Engenharia': {'N': 3000, 'media': 25, 'sigma': 4},
    'Medicina': {'N': 2000, 'media': 30, 'sigma': 6},
    'Humanas': {'N': 3000, 'media': 15, 'sigma': 5},
    'Artes': {'N': 2000, 'media': 18, 'sigma': 7}
}

# Gerar popula√ß√£o estratificada
pop_estratificada = []
for curso, params in estratos.items():
    dados = np.random.normal(params['media'], params['sigma'], params['N'])
    df_curso = pd.DataFrame({
        'horas': dados,
        'curso': curso
    })
    pop_estratificada.append(df_curso)

df_pop = pd.concat(pop_estratificada, ignore_index=True)
media_pop_real = df_pop['horas'].mean()

print("Popula√ß√£o Total:")
print(f"  Tamanho: {len(df_pop)}")
print(f"  M√©dia: {media_pop_real:.2f} horas\n")

# Estat√≠sticas por estrato
print("Estat√≠sticas por Curso:")
print(df_pop.groupby('curso')['horas'].agg(['count', 'mean', 'std']).round(2))

# 1. Amostragem Aleat√≥ria Simples
n_total = 200
amostra_aas = df_pop.sample(n=n_total, replace=False)
media_aas = amostra_aas['horas'].mean()
erro_aas = abs(media_aas - media_pop_real)

print(f"\n--- Amostragem Aleat√≥ria Simples (n={n_total}) ---")
print(f"M√©dia estimada: {media_aas:.2f} horas")
print(f"Erro: {erro_aas:.2f} horas")

# 2. Amostragem Estratificada Proporcional
amostras_estratificadas = []
for curso in estratos.keys():
    df_curso = df_pop[df_pop['curso'] == curso]
    prop = len(df_curso) / len(df_pop)
    n_estrato = int(n_total * prop)
    amostra_estrato = df_curso.sample(n=n_estrato, replace=False)
    amostras_estratificadas.append(amostra_estrato)

amostra_estratificada = pd.concat(amostras_estratificadas)
media_estratificada = amostra_estratificada['horas'].mean()
erro_estratificada = abs(media_estratificada - media_pop_real)

print(f"\n--- Amostragem Estratificada Proporcional (n={n_total}) ---")
print(f"M√©dia estimada: {media_estratificada:.2f} horas")
print(f"Erro: {erro_estratificada:.2f} horas")

# Compara√ß√£o
print(f"\n--- Compara√ß√£o ---")
print(f"Redu√ß√£o de erro: {((erro_aas - erro_estratificada)/erro_aas)*100:.1f}%")
print(f"Efici√™ncia relativa: {(erro_aas/erro_estratificada):.2f}x")

## Exerc√≠cio 3: Vi√©s de Sele√ß√£o

### Problema
Demonstrar o impacto do vi√©s de sele√ß√£o em uma pesquisa online sobre satisfa√ß√£o com servi√ßos de streaming.

### Cen√°rio
- Popula√ß√£o: 10.000 usu√°rios
- 60% est√£o satisfeitos (nota m√©dia: 8.0)
- 40% est√£o insatisfeitos (nota m√©dia: 3.0)
- Vi√©s: Usu√°rios insatisfeitos t√™m 3x mais probabilidade de responder

### Fundamento Te√≥rico
**Groves et al. (2009)** em *Survey Methodology* demonstram que o vi√©s de n√£o-resposta pode ser expresso como:

$$B(\bar{y}) = (\bar{y}_r - \bar{y}_{nr}) \times (1 - r)$$

onde $\bar{y}_r$ √© a m√©dia dos respondentes, $\bar{y}_{nr}$ dos n√£o-respondentes, e $r$ √© a taxa de resposta.

In [None]:
# Solu√ß√£o do Exerc√≠cio 3

# Popula√ß√£o
n_satisfeitos = 6000
n_insatisfeitos = 4000

pop_satisfeitos = np.random.normal(8.0, 1.0, n_satisfeitos)
pop_insatisfeitos = np.random.normal(3.0, 1.0, n_insatisfeitos)

populacao_total = np.concatenate([pop_satisfeitos, pop_insatisfeitos])
media_real = populacao_total.mean()

print(f"M√©dia populacional real: {media_real:.2f}")

# Simula√ß√£o SEM vi√©s (amostra aleat√≥ria)
amostra_sem_vies = np.random.choice(populacao_total, size=500, replace=False)
media_sem_vies = amostra_sem_vies.mean()

print(f"\nAmostragem SEM vi√©s:")
print(f"  M√©dia estimada: {media_sem_vies:.2f}")
print(f"  Erro: {abs(media_sem_vies - media_real):.2f}")

# Simula√ß√£o COM vi√©s (insatisfeitos t√™m 3x mais chance de responder)
# Probabilidades de resposta
prob_satisfeito = 0.25
prob_insatisfeito = 0.75  # 3x mais

# Respondentes satisfeitos e insatisfeitos
n_resp_satisfeitos = int(n_satisfeitos * prob_satisfeito * 0.083)  # ajuste para obter ~500 total
n_resp_insatisfeitos = int(n_insatisfeitos * prob_insatisfeito * 0.125)

resp_satisfeitos = np.random.choice(pop_satisfeitos, size=n_resp_satisfeitos, replace=False)
resp_insatisfeitos = np.random.choice(pop_insatisfeitos, size=n_resp_insatisfeitos, replace=False)

amostra_com_vies = np.concatenate([resp_satisfeitos, resp_insatisfeitos])
media_com_vies = amostra_com_vies.mean()

print(f"\nAmostragem COM vi√©s de n√£o-resposta:")
print(f"  Respondentes satisfeitos: {n_resp_satisfeitos}")
print(f"  Respondentes insatisfeitos: {n_resp_insatisfeitos}")
print(f"  M√©dia estimada: {media_com_vies:.2f}")
print(f"  Erro: {abs(media_com_vies - media_real):.2f}")
print(f"  Vi√©s: {media_com_vies - media_real:.2f}")

# Visualiza√ß√£o
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

# Popula√ß√£o
axes[0].hist(populacao_total, bins=30, alpha=0.7, color='gray', edgecolor='black')
axes[0].axvline(media_real, color='red', linestyle='--', linewidth=2, label=f'M√©dia real: {media_real:.2f}')
axes[0].set_title('Popula√ß√£o')
axes[0].set_xlabel('Satisfa√ß√£o (0-10)')
axes[0].set_ylabel('Frequ√™ncia')
axes[0].legend()

# Sem vi√©s
axes[1].hist(amostra_sem_vies, bins=20, alpha=0.7, color='green', edgecolor='black')
axes[1].axvline(media_sem_vies, color='blue', linestyle='--', linewidth=2, label=f'M√©dia: {media_sem_vies:.2f}')
axes[1].axvline(media_real, color='red', linestyle='--', linewidth=2, label=f'Real: {media_real:.2f}')
axes[1].set_title('Amostra SEM Vi√©s')
axes[1].set_xlabel('Satisfa√ß√£o (0-10)')
axes[1].legend()

# Com vi√©s
axes[2].hist(amostra_com_vies, bins=20, alpha=0.7, color='orange', edgecolor='black')
axes[2].axvline(media_com_vies, color='blue', linestyle='--', linewidth=2, label=f'M√©dia: {media_com_vies:.2f}')
axes[2].axvline(media_real, color='red', linestyle='--', linewidth=2, label=f'Real: {media_real:.2f}')
axes[2].set_title('Amostra COM Vi√©s')
axes[2].set_xlabel('Satisfa√ß√£o (0-10)')
axes[2].legend()

plt.tight_layout()
plt.show()

print(f"\n--- Impacto do Vi√©s ---")
print(f"Erro adicional devido ao vi√©s: {abs(media_com_vies - media_real) - abs(media_sem_vies - media_real):.2f} pontos")

## Exerc√≠cio 4: C√°lculo de Tamanho Amostral

### Problema
Calcular o tamanho amostral necess√°rio para diferentes cen√°rios de pesquisa.

### Fundamento Te√≥rico
Segundo **Cochran (1977)**, para estimar uma m√©dia populacional com precis√£o desejada, o tamanho amostral √©:

$$n = \frac{N \cdot Z^2 \cdot \sigma^2}{(N-1) \cdot E^2 + Z^2 \cdot \sigma^2}$$

onde:
- $N$ = tamanho da popula√ß√£o
- $Z$ = valor cr√≠tico (1.96 para 95% de confian√ßa)
- $\sigma^2$ = vari√¢ncia populacional
- $E$ = margem de erro desejada

In [None]:
# Solu√ß√£o do Exerc√≠cio 4

def calcular_tamanho_amostra(N, sigma, E, confianca=0.95):
    """
    Calcula tamanho amostral para estimativa de m√©dia.
    
    Par√¢metros:
    -----------
    N : int
        Tamanho da popula√ß√£o
    sigma : float
        Desvio padr√£o populacional
    E : float
        Margem de erro desejada
    confianca : float
        N√≠vel de confian√ßa (default=0.95)
    
    Retorna:
    --------
    n : int
        Tamanho amostral necess√°rio
    
    Refer√™ncia: Cochran (1977), Sampling Techniques, 3rd ed.
    """
    # Valor cr√≠tico Z
    Z = stats.norm.ppf((1 + confianca) / 2)
    
    # F√≥rmula para popula√ß√£o finita
    numerador = N * (Z**2) * (sigma**2)
    denominador = (N - 1) * (E**2) + (Z**2) * (sigma**2)
    
    n = numerador / denominador
    
    return int(np.ceil(n))

# Cen√°rios
cenarios = [
    {'nome': 'Pesquisa de Satisfa√ß√£o', 'N': 5000, 'sigma': 2.0, 'E': 0.3},
    {'nome': 'Estudo de Renda', 'N': 50000, 'sigma': 500, 'E': 50},
    {'nome': 'Avalia√ß√£o de Produto', 'N': 1000, 'sigma': 1.5, 'E': 0.2},
    {'nome': 'Pesquisa Eleitoral', 'N': 100000, 'sigma': 0.5, 'E': 0.03}
]

print("C√°lculo de Tamanho Amostral\n")
print("=" * 80)

resultados = []
for cenario in cenarios:
    n = calcular_tamanho_amostra(cenario['N'], cenario['sigma'], cenario['E'])
    prop = (n / cenario['N']) * 100
    
    print(f"\n{cenario['nome']}:")
    print(f"  Popula√ß√£o (N): {cenario['N']:,}")
    print(f"  Desvio padr√£o (œÉ): {cenario['sigma']}")
    print(f"  Margem de erro (E): {cenario['E']}")
    print(f"  Tamanho amostral necess√°rio: {n:,} ({prop:.1f}% da popula√ß√£o)")
    
    resultados.append({
        'Cen√°rio': cenario['nome'],
        'N': cenario['N'],
        'n': n,
        'Propor√ß√£o (%)': round(prop, 2)
    })

# Tabela resumo
print("\n" + "=" * 80)
print("\nResumo:")
df_resultados = pd.DataFrame(resultados)
print(df_resultados.to_string(index=False))

## Exerc√≠cio 5: Amostragem Sistem√°tica

### Problema
Implementar e comparar amostragem sistem√°tica com amostragem aleat√≥ria simples.

### Fundamento Te√≥rico
**Thompson (2012)** explica que na amostragem sistem√°tica, selecionamos cada k-√©simo elemento da popula√ß√£o, onde:

$$k = \frac{N}{n}$$

Este m√©todo √© eficiente quando a popula√ß√£o n√£o tem periodicidade. A vantagem √© a facilidade de implementa√ß√£o.

In [None]:
# Solu√ß√£o do Exerc√≠cio 5

# Popula√ß√£o ordenada (ex: lista de clientes por ordem de cadastro)
N = 1000
n = 50

# Popula√ß√£o com valores variados
np.random.seed(42)
populacao = np.random.gamma(shape=2, scale=50, size=N)  # Distribui√ß√£o assim√©trica
media_pop = populacao.mean()

print(f"Popula√ß√£o: N = {N}, m√©dia = {media_pop:.2f}\n")

# Amostragem Aleat√≥ria Simples
indices_aas = np.random.choice(N, size=n, replace=False)
amostra_aas = populacao[indices_aas]
media_aas = amostra_aas.mean()

print(f"Amostragem Aleat√≥ria Simples:")
print(f"  M√©dia: {media_aas:.2f}")
print(f"  Erro: {abs(media_aas - media_pop):.2f}\n")

# Amostragem Sistem√°tica
k = N // n  # Intervalo de sele√ß√£o
inicio = np.random.randint(0, k)  # Ponto de partida aleat√≥rio
indices_sistematica = np.arange(inicio, N, k)[:n]
amostra_sistematica = populacao[indices_sistematica]
media_sistematica = amostra_sistematica.mean()

print(f"Amostragem Sistem√°tica (k={k}, in√≠cio={inicio}):")
print(f"  M√©dia: {media_sistematica:.2f}")
print(f"  Erro: {abs(media_sistematica - media_pop):.2f}\n")

# Simula√ß√£o com m√∫ltiplas amostras
n_simulacoes = 1000
erros_aas = []
erros_sistematica = []

for _ in range(n_simulacoes):
    # AAS
    amostra = np.random.choice(populacao, size=n, replace=False)
    erros_aas.append(abs(amostra.mean() - media_pop))
    
    # Sistem√°tica
    inicio = np.random.randint(0, k)
    indices = np.arange(inicio, N, k)[:n]
    amostra = populacao[indices]
    erros_sistematica.append(abs(amostra.mean() - media_pop))

# Compara√ß√£o
print(f"--- Compara√ß√£o ({n_simulacoes} simula√ß√µes) ---")
print(f"Erro m√©dio AAS: {np.mean(erros_aas):.2f}")
print(f"Erro m√©dio Sistem√°tica: {np.mean(erros_sistematica):.2f}")
print(f"Desvio padr√£o AAS: {np.std(erros_aas):.2f}")
print(f"Desvio padr√£o Sistem√°tica: {np.std(erros_sistematica):.2f}")

# Visualiza√ß√£o
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

axes[0].hist(erros_aas, bins=30, alpha=0.7, color='blue', edgecolor='black', label='AAS')
axes[0].hist(erros_sistematica, bins=30, alpha=0.7, color='orange', edgecolor='black', label='Sistem√°tica')
axes[0].set_xlabel('Erro Absoluto')
axes[0].set_ylabel('Frequ√™ncia')
axes[0].set_title('Distribui√ß√£o dos Erros')
axes[0].legend()

axes[1].boxplot([erros_aas, erros_sistematica], labels=['AAS', 'Sistem√°tica'])
axes[1].set_ylabel('Erro Absoluto')
axes[1].set_title('Compara√ß√£o dos Erros')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## üìö Resumo e Conclus√µes

### Principais Aprendizados

1. **Amostragem Aleat√≥ria Simples (AAS)**:
   - M√©todo fundamental onde cada elemento tem probabilidade igual de sele√ß√£o
   - Refer√™ncia: **Cochran (1977)**

2. **Amostragem Estratificada**:
   - Reduz vari√¢ncia quando estratos s√£o homog√™neos internamente
   - Mais eficiente que AAS em popula√ß√µes heterog√™neas
   - Refer√™ncia: **Lohr (2019)**

3. **Vi√©s de Sele√ß√£o**:
   - Pode distorcer severamente os resultados
   - Vi√©s de n√£o-resposta √© especialmente problem√°tico
   - Refer√™ncia: **Groves et al. (2009)**

4. **Tamanho Amostral**:
   - Depende da variabilidade populacional, margem de erro e n√≠vel de confian√ßa
   - Para popula√ß√µes grandes, o tamanho amostral se estabiliza
   - Refer√™ncia: **Cochran (1977)**

5. **Amostragem Sistem√°tica**:
   - Eficiente e f√°cil de implementar
   - Cuidado com periodicidade na popula√ß√£o
   - Refer√™ncia: **Thompson (2012)**

### Refer√™ncias Bibliogr√°ficas

**COCHRAN, William G.** *Sampling Techniques*. 3. ed. New York: John Wiley & Sons, 1977.
- Obra cl√°ssica sobre teoria de amostragem

**LOHR, Sharon L.** *Sampling: Design and Analysis*. 2. ed. Boston: Brooks/Cole, 2019.
- Texto moderno com aplica√ß√µes pr√°ticas

**THOMPSON, Steven K.** *Sampling*. 3. ed. Hoboken: Wiley, 2012.
- Abordagem contempor√¢nea de m√©todos de amostragem

**GROVES, Robert M. et al.** *Survey Methodology*. 2. ed. Hoboken: Wiley, 2009.
- Metodologia completa de pesquisas por amostragem

**S√ÑRNDAL, Carl-Erik; SWENSSON, Bengt; WRETMAN, Jan.** *Model Assisted Survey Sampling*. New York: Springer, 1992.
- Abordagem avan√ßada usando modelos estat√≠sticos