# 📘 Lista de Exercícios Práticos – Amostragem

## 🧠 Questão 1 – Bancos: Amostragem Aleatória Simples

**Cenário:**  
Você tem uma base com 5.000 clientes de um banco. O gerente deseja entender a média de saldo bancário, mas não quer analisar todos.

**Tarefa:**  
- Selecione aleatoriamente **400 clientes**.  
- Calcule a média de saldo da amostra e compare com a da população.  

## 🧠 Questão 2 – Saúde: Amostragem Estratificada

**Cenário:**  
Em um hospital, há 3 faixas etárias de pacientes: jovens, adultos e idosos. Você deseja estudar a média de tempo de recuperação **respeitando a proporção de pacientes por faixa**.

**Tarefa:**  
- Simule uma população com essas 3 faixas.  
- Aplique amostragem estratificada proporcional (ex: 10% de cada grupo).  
- Compare a média total com a da amostra.  

## 🧠 Questão 3 – Psicologia: Amostragem Sistemática

**Cenário:**  
Uma pesquisa de avaliação emocional está sendo feita com 1.000 pessoas. Por limitação, você pode entrevistar apenas 100.

**Tarefa:**  
- Realize amostragem sistemática com intervalo $k = 10$.  
- Sorteie um ponto inicial e colete os índices da amostra.  
- Compare a média da variável 'nível de estresse' entre população e amostra.

## 🧠 Questão 4 – Finanças: Tamanho da Amostra

**Cenário:**  
Um analista deseja estimar o percentual de investidores satisfeitos em uma plataforma. Ele quer **95% de confiança** e **margem de erro de 5%**.

**Tarefa:**  
- Calcule o **tamanho mínimo da amostra** para uma população de 50.000 investidores, assumindo $p = 0{,}5$.  
- Simule e selecione essa amostra da população.


## 🧠 Questão 5 – Bancos: Amostragem por Conglomerado

**Cenário:**  
Um banco possui 50 agências, cada uma com cerca de 200 clientes.  
Para avaliar a qualidade do atendimento, você decide selecionar 5 agências **inteiras** para análise.

**Tarefa:**  
- Simule 50 grupos com saldos e IDs.  
- Sorteie 5 agências e colete todos os clientes delas.  
- Calcule a média de saldo nas agências sorteadas.


In [None]:
#Questão 1:

import pandas as pd
import numpy as np

np.random.seed(42)  
dados = {
    "cliente_id": range(1, 5001),
    "saldo": np.random.uniform(0, 50000, 5000)  # saldo aleatório
}
df = pd.DataFrame(dados)


media_populacao = df["saldo"].mean()


amostra = df.sample(n=400, random_state=42)  


media_amostra = amostra["saldo"].mean()


print(f"Média da população (5000 clientes): {media_populacao:.2f}")
print(f"Média da amostra (400 clientes): {media_amostra:.2f}")
print(f"Erro da estimativa: {abs(media_populacao - media_amostra):.2f}")

In [None]:
#questão 2:
import pandas as pd
import numpy as np


np.random.seed(42)


n_jovens = 2000
n_adultos = 2500
n_idosos = 500


jovens = np.random.normal(loc=5, scale=1.5, size=n_jovens)     # média ~5 dias
adultos = np.random.normal(loc=8, scale=2.0, size=n_adultos)   # média ~8 dias
idosos = np.random.normal(loc=12, scale=3.0, size=n_idosos)    # média ~12 dias


df = pd.DataFrame({
    "faixa": ["jovem"]* n_jovens + ["adulto"]* n_adultos + ["idoso"]* n_idosos,
    "tempo_recuperacao": np.concatenate([jovens, adultos, idosos])
})


media_populacao = df["tempo_recuperacao"].mean()


amostra = df.groupby("faixa", group_keys=False).apply(
    lambda x: x.sample(frac=0.1, random_state=42)
)


media_amostra = amostra["tempo_recuperacao"].mean()


print("Distribuição da população:")
print(df["faixa"].value_counts(normalize=True))

print("\nDistribuição da amostra:")
print(amostra["faixa"].value_counts(normalize=True))

print(f"\nMédia da população: {media_populacao:.2f} dias")
print(f"Média da amostra estratificada: {media_amostra:.2f} dias")
print(f"Erro absoluto: {abs(media_populacao - media_amostra):.2f} dias")

In [None]:
#Questão 3:

import pandas as pd
import numpy as np


np.random.seed(42)

N = 1000   
n = 100    
k = 10     


df = pd.DataFrame({
    "id": range(1, N+1),
    "nivel_estresse": np.random.randint(0, 101, size=N)
})

ponto_inicial = np.random.randint(1, k+1) 
indices_amostra = list(range(ponto_inicial, N+1, k))[:n]
amostra = df.iloc[[i-1 for i in indices_amostra]]  # -1 pois DataFrame é zero-based

media_populacao = df["nivel_estresse"].mean()
media_amostra = amostra["nivel_estresse"].mean()


print(f"Ponto inicial sorteado: {ponto_inicial}")
print(f"Índices da amostra (primeiros 15): {indices_amostra[:15]} ...")

print(f"\nMédia da população: {media_populacao:.2f}")
print(f"Média da amostra sistemática: {media_amostra:.2f}")
print(f"Erro absoluto: {abs(media_populacao - media_amostra):.2f}")

In [None]:
#Questão 4:

import numpy as np
import pandas as pd
from math import ceil


N = 50_000
p = 0.5
Z = 1.96
e = 0.05


n0 = (Z**2 * p * (1 - p)) / (e**2)
n_corrigido = n0 / (1 + (n0 - 1) / N)
n = ceil(n_corrigido)

print(f"Tamanho de amostra (sem correção): {ceil(n0)}")
print(f"Tamanho de amostra (com correção finita): {n}")


np.random.seed(42)
p_verdadeira = 0.50
populacao = pd.DataFrame({
    "investidor_id": np.arange(1, N + 1),
    "satisfeito": np.random.binomial(1, p_verdadeira, size=N)  # 1=satisfeito, 0=não
})


amostra = populacao.sample(n=n, random_state=42)

prop_pop = populacao["satisfeito"].mean()
prop_amostra = amostra["satisfeito"].mean()

print(f"\nProporção de satisfeitos - população: {prop_pop:.3f}")
print(f"Proporção de satisfeitos - amostra (n={n}): {prop_amostra:.3f}")
print(f"Erro absoluto: {abs(prop_pop - prop_amostra):.3f}")

In [None]:
#questão 5:

import pandas as pd
import numpy as np


np.random.seed(42)
num_agencias = 50
clientes_por_agencia = 200


dados = {
    "agencia": np.repeat(range(1, num_agencias + 1), clientes_por_agencia),
    "cliente_id": np.arange(1, num_agencias * clientes_por_agencia + 1),
    "saldo": np.random.normal(loc=5000, scale=1500, size=num_agencias * clientes_por_agencia)  # saldos ~N(5000, 1500)
}

df = pd.DataFrame(dados)
media_populacao = df["saldo"].mean()

agencias_sorteadas = np.random.choice(df["agencia"].unique(), size=5, replace=False)
amostra = df[df["agencia"].isin(agencias_sorteadas)]


media_amostra = amostra["saldo"].mean()

print(f"Agências sorteadas: {sorted(agencias_sorteadas)}")
print(f"Tamanho da amostra: {len(amostra)} clientes")
print(f"\nMédia da população: {media_populacao:.2f}")
print(f"Média da amostra (5 agências): {media_amostra:.2f}")
print(f"Erro absoluto: {abs(media_populacao - media_amostra):.2f}")