# Distribuições de Probabilidade, Aleatoriedade e Amostragem


Este notebook apresenta, de forma prática e visual, como distribuições de probabilidade se conectam a procedimentos de amostragem e como essa conexão fundamenta a inferência estatística. A ideia central é mostrar que todo estimador calculado em dados observados nasce de um mecanismo gerador de dados que pode ser modelado por distribuições como Bernoulli, Binomial, Poisson, Exponencial e Normal. A partir desse alicerce probabilístico, investigamos como diferentes estratégias de amostragem influenciam a variabilidade das estimativas e a qualidade das conclusões.


O percurso didático do notebook é guiado por três perguntas. Primeiro, qual é a distribuição apropriada para modelar o fenômeno de interesse, por exemplo contagens de eventos ou medidas contínuas. Segundo, como a escolha do tamanho de amostra e do plano amostral afeta o comportamento de estatísticas como média e proporção. Terceiro, como a combinação entre distribuição teórica e amostragem real se reflete em erros, viés e incerteza mensurável.


Com simulações controladas, o código permite que o estudante observe, na prática:


Como amostras de uma mesma população flutuam e por que essa flutuação é esperada.


Como a Lei dos Grandes Números estabiliza a média amostral quando o tamanho de amostra cresce.


Como o Teorema Central do Limite aproxima a distribuição da média a uma Normal, mesmo quando os dados originais não são Normais.


Como diferentes planos de amostragem afetam variância e potencial viés, por exemplo amostragem aleatória simples, estratificada e sistemática.


Como intervalos de confiança e testes de hipóteses emergem naturalmente da distribuição amostral dos estimadores.


Do ponto de vista computacional, o notebook reforça boas práticas como reprodutibilidade com semente aleatória, organização de dados com pandas, geração de amostras com numpy.random e comunicação de resultados por gráficos que incluem histogramas, funções de massa ou densidade e comparações por QQ-plots. Em alguns trechos, podem ser usados métodos de bootstrap para estimar incerteza sem depender fortemente de suposições paramétricas, o que ajuda a contrastar abordagens paramétricas e não paramétricas.


Em resumo, este material integra probabilidade, amostragem e inferência em um ciclo completo. Definimos um modelo probabilístico para o fenômeno, desenhamos um plano de amostragem coerente, produzimos estimativas e medimos sua incerteza. A visualização e a simulação tornam explícitas as condições em que os resultados teóricos se sustentam e quando cautela adicional é necessária. Isso prepara o estudante para aplicar os mesmos princípios em dados reais, com senso crítico e domínio conceitual.

In [None]:
import numpy as np
import string

## Gerando valores aleatórios de distribuições contínuas

In [2]:
# Distribuição uniforme no intervalo [25, 50]
np.random.uniform(25, 50)

27.930318281429756

In [3]:
# 10 observações IID de uma distribuição uniforme
np.random.uniform(25, 50, 10)

array([32.72622099, 29.3669078 , 34.48127833, 43.51095843, 49.53682458,
       27.32882759, 26.85485967, 47.11625727, 32.0291475 , 29.5127528 ])

## Distribuição Normal (Gaussiana)

In [4]:
# Normal padrão: média 0, desvio padrão 1
np.random.normal(0, 1)

-0.9226166474612019

In [5]:
# Normal com média 5 e desvio padrão 2
np.random.normal(5, 2)

3.566498824471207

In [6]:
# 10 valores IID da normal padrão
np.random.normal(0, 1, 10)

array([-0.2791534 ,  1.17984655,  0.20642061,  2.53699386,  0.19408967,
       -0.30673948, -0.18511593,  1.11259025, -0.34920825, -1.12687938])

## Amostragem aleatória simples de uma população finita

In [7]:
# Lista com as 26 letras do alfabeto
x = list(string.ascii_lowercase)
x

['a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z']

In [8]:
# Amostras aleatórias simples de tamanho 5
rng = np.random.default_rng(12345)

for _ in range(5):
    print(rng.choice(x, 5, replace=False))

['p' 'f' 'z' 's' 'h']
['h' 'p' 'o' 'i' 't']
['v' 'n' 'g' 'q' 'x']
['g' 'b' 'c' 'x' 'k']
['s' 'f' 'z' 'q' 'c']
