### 1. Amostra aleat√≥ria simples <- Recomendada em caso de apenas placas

In [None]:
import pandas as pd
import numpy as np

# Exemplo: base de 1.4M linhas com estados
np.random.seed(42)
dados = pd.DataFrame({
    "estado": np.random.choice(
        ["SP", "RJ", "MG", "BA", "RS"], 1_400_000, p=[0.5, 0.2, 0.15, 0.1, 0.05]
    )
})

# Amostra simples de 10 mil registros
amostra = dados.sample(n=10_000, random_state=42)

print(amostra["estado"].value_counts(normalize=True))


Como funciona:
Cada elemento da popula√ß√£o tem a mesma probabilidade de ser selecionado.
O algoritmo geralmente usa um gerador de n√∫meros pseudoaleat√≥rios para escolher √≠ndices da base.  

No pandas, o m√©todo ***DataFrame.sample()*** implementa isso ‚Äî ele embaralha as linhas internamente e retorna um subconjunto.  


Vantagens:
- Simples de implementar.
- Produz uma amostra n√£o tendenciosa se a base for homog√™nea.

Limita√ß√µes:
- Pode n√£o representar bem subgrupos menores (ex: estados com menos dados podem ficar sub-representados).
- Requer a base completa e acesso a todas as observa√ß√µes.

Usos t√≠picos:
- Pesquisas gerais, testes de desempenho, valida√ß√£o r√°pida de dados.

---
### 2. Amostra balanceada (estratificada) <- Recomendada em caso de colunas extras

In [None]:
from sklearn.model_selection import train_test_split

# Estratificando pela coluna "estado"
amostra_balanceada, _ = train_test_split(
    dados, 
    train_size=10_000, 
    stratify=dados["estado"], 
    random_state=42
)

print(amostra_balanceada["estado"].value_counts())


Como funciona:
A popula√ß√£o √© dividida em estratos (grupos homog√™neos) ‚Äî por exemplo, ‚ÄúEstado‚Äù, ‚ÄúG√™nero‚Äù, ‚ÄúFaixa Et√°ria‚Äù.
Depois, amostras s√£o retiradas de cada estrato proporcionalmente ao seu tamanho na popula√ß√£o.
O resultado mant√©m as mesmas propor√ß√µes de cada grupo da base original.

Em Python, ***train_test_split(..., stratify=coluna)*** faz exatamente isso:
internamente, ele segmenta a base por classe e sorteia amostras proporcionais dentro de cada estrato antes de combin√°-las novamente.

Vantagens:
- Garante representatividade de todos os grupos.
- Reduz a vari√¢ncia da estimativa global.

Limita√ß√µes:
- Exige conhecer a vari√°vel de estratifica√ß√£o.
- Pode ser mais complexo se houver muitos grupos pequenos.

Usos t√≠picos:
- Pesquisas populacionais, modelagem estat√≠stica, machine learning supervisionado (para preservar propor√ß√µes de classes no treino e teste).

---
### 3. ‚ÄúBalanceada de verdade‚Äù (propor√ß√µes iguais entre classes)

In [None]:
# N√∫mero igual de amostras por estado
n = 2000
amostra_igual = (
    dados.groupby("estado")
    .apply(lambda x: x.sample(n=n, random_state=42))
    .reset_index(drop=True)
)

print(amostra_igual["estado"].value_counts())


Como funciona:
Diferente da estratificada, aqui for√ßamos cada classe ou grupo a ter o mesmo n√∫mero de amostras, independentemente da propor√ß√£o original.
√â comum em problemas de classifica√ß√£o desbalanceados, como quando temos 90% de um tipo e 10% de outro.

O processo t√©cnico:
- Divide-se a base em grupos (groupby).
- Dentro de cada grupo, seleciona-se o mesmo n√∫mero de amostras ùëõ
- Une-se os subconjuntos, formando uma amostra balanceada.

Em Python, pode ser feito com:

In [None]:
dados.groupby('classe').apply(lambda x: x.sample(n=minimo_comum))

Vantagens:
- Impede que classes majorit√°rias dominem o modelo.
- Ideal para treinar algoritmos de machine learning.

Limita√ß√µes:
- Pode reduzir o tamanho total da amostra.
- Perde-se a proporcionalidade real dos dados.

Pode introduzir bias artificial se usado fora de contexto (ex: em infer√™ncia populacional).

Usos t√≠picos:
- Modelos preditivos, classifica√ß√£o com classes desbalanceadas, detec√ß√£o de fraudes