# Amostragem Tendenciosa (Biased Sampling)


Este notebook tem como propósito demonstrar, de forma prática, o conceito de tendência em amostragem — um erro comum e crítico na coleta de dados que pode comprometer toda a validade de uma análise estatística. O objetivo é permitir que o estudante compreenda, por meio de simulações, como uma amostra mal planejada pode distorcer a representação da população e levar a conclusões equivocadas, mesmo quando os cálculos matemáticos são executados corretamente.


Na estatística, a amostragem tendenciosa (ou viesada) ocorre quando determinados grupos da população têm maior ou menor probabilidade de serem incluídos na amostra do que outros. Isso faz com que a amostra não seja representativa e, consequentemente, as estimativas obtidas — como médias, proporções ou desvios — não reflitam a realidade populacional.
O notebook busca justamente evidenciar essa diferença: comparar resultados obtidos a partir de uma amostra aleatória representativa com aqueles provenientes de uma amostra enviesada, revelando o impacto direto do viés sobre as conclusões estatísticas.


O código explora esse conceito de maneira visual e interativa. Ao gerar uma população com características conhecidas (por exemplo, idade, renda, altura ou horas de sono) e em seguida selecionar subconjuntos com critérios de amostragem diferentes, o aluno pode observar como o erro sistemático surge e se manifesta nos gráficos e estatísticas descritivas. Em geral, o notebook apresenta cenários como:


Seleção de amostras concentradas em uma faixa específica da variável (por exemplo, apenas indivíduos de alta renda ou apenas jovens);


Comparação entre média populacional e média amostral enviesada;


Visualização do deslocamento da distribuição quando a amostragem não é aleatória.


Além de reforçar a importância da aleatoriedade e representatividade na coleta de dados, o material também introduz uma reflexão essencial sobre a ética e responsabilidade na análise estatística: mesmo com modelos sofisticados e cálculos precisos, uma base enviesada produz resultados incorretos.


Em suma, o notebook “amostragem_tendenciosa_pt” serve como um exercício de consciência estatística. Ele mostra que a qualidade de uma análise depende tanto da metodologia de coleta quanto do tratamento matemático dos dados — e que reconhecer e evitar vieses é um dos primeiros passos para produzir inferências confiáveis em qualquer estudo científico ou aplicado.

In [0]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Gerando a população de estudantes

In [0]:
mean_nogym = 155 # média de peso dos estudantes que não frequentam academia
sd_nogym = 5 # desvio padrão do peso dos estudantes que não frequentam academia
mean_gym = 185  # média de peso dos estudantes que frequentam academia
sd_gym = 5  # desvio padrão do peso dos estudantes que frequentam academia
gymperc = 0.3 # porcentagem de estudantes que frequentam academia
popSize = 40000 # tamanho da população

nogym = np.random.normal(mean_nogym, sd_nogym, int(popSize * (1 - gymperc))) # estudantes que não frequentam academia
gym = np.random.normal(mean_gym, sd_gym, int(popSize * gymperc)) # estudantes que frequentam academia

all_students = np.concatenate((nogym, gym)) # todos os estudantes
gym_01 = np.concatenate((np.zeros(len(nogym)), np.ones(len(gym)))) # indicador de frequência à academia (0 = não, 1 = sim)
da = pd.DataFrame({"weight": all_students, "gym": gym_01}) # criando o DataFrame

### Apenas estudantes que não vão à academia

In [0]:
sns.displot(da[da["gym"] == 0], x="weight", kde=True) # plotando a distribuição de peso dos estudantes que não frequentam academia
plt.title("Apenas estudantes que não vão à academia") # título do gráfico
plt.grid(True) # adicionando grade
plt.xlim([140, 200]) # limitando o eixo x
plt.show()

### Apenas estudantes que frequentam a academia

In [0]:
sns.displot(da[da["gym"] == 1], x="weight", kde=True) # plotando a distribuição de peso dos estudantes que frequentam academia
plt.title("Apenas estudantes que frequentam a academia") # título do gráfico
plt.grid(True) # adicionando grade
plt.xlim([140, 200]) # limitando o eixo x
plt.show()

### População completa

In [0]:
sns.displot(da, x="weight", kde=True) # plotando a distribuição de peso de todos os estudantes
plt.title("População completa dos estudantes da UM") # título do gráfico
plt.axvline(x=np.mean(da["weight"]), color="red") # linha vertical na média
plt.grid(True) # adicionando grade
plt.xlim([140, 200]) # limitando o eixo x
plt.show()

## Amostragem aleatória da população

In [0]:
numberSamps = 5000 # número de amostras
sampSize = 50 # tamanho de cada amostra
mean_distribution = np.empty(numberSamps) # array para armazenar as médias das amostras
for i in range(numberSamps): # loop para tirar as amostras
    student_sample = np.random.choice(da["weight"], sampSize) # tirando uma amostra aleatória de estudantes
    mean_distribution[i] = np.mean(student_sample) # calculando a média da amostra

In [0]:
sns.histplot(mean_distribution) # plotando a distribuição das médias amostrais
plt.axvline(x=np.mean(da["weight"]), color="red") # linha vertical na média populacional
plt.grid(True) # adicionando grade
plt.xlabel("Peso") # rótulo do eixo x
plt.title("Distribuição das médias amostrais (SRS)") # título do gráfico
plt.xlim([140, 200]) # limitando o eixo x
plt.show()

## Amostragem tendenciosa (somente academia)

In [0]:
biased_mean_distribution = np.empty(numberSamps) # array para armazenar as médias das amostras tendenciosas
db = da[da["gym"] == 1] # base de dados tendenciosa (apenas estudantes que frequentam academia)
for i in range(numberSamps): # loop para tirar as amostras tendenciosas
    student_sample = np.random.choice(db["weight"], sampSize) # tirando uma amostra aleatória de estudantes que frequentam academia
    biased_mean_distribution[i] = np.mean(student_sample) # calculando a média da amostra tendenciosa

In [0]:
sns.histplot(biased_mean_distribution) #plotando a distribuição das médias amostrais tendenciosas
plt.title("Distribuição das médias amostrais recrutando apenas na academia") # título do gráfico
plt.axvline(x=np.mean(da["weight"]), color="red") # linha vertical na média populacional
plt.axvline(x=np.mean(biased_mean_distribution), color="blue") # linha vertical na média amostral tendenciosa
plt.grid(True) # adicionando grade
plt.xlabel("Peso") # rótulo do eixo x
plt.xlim([140, 200]) # limitando o eixo x
plt.show()

In [0]:
### FIM