
### Introdução à Amostragem

A amostragem é uma técnica usada para selecionar, analisar e obter conclusões de um subconjunto de dados (amostra) retirado de um conjunto maior (população). Em ciência de dados e estatística, a amostragem é crucial para análises eficientes e econômicas, especialmente quando lidamos com grandes volumes de dados.

### Amostragem Aleatória Simples

**Definição**: A amostragem aleatória simples (AAS) é um método pelo qual cada membro da população tem a mesma chance de ser selecionado na amostra.

**Aplicações**: Usada quando a população é homogênea e não há necessidade de segmentação.

In [1]:
import pandas as pd
import numpy as np

# Criando um DataFrame simulado
data = {'Id': range(1, 101), 'Valor': np.random.rand(100)}
df = pd.DataFrame(data)

# Realizando uma amostragem aleatória simples de 20 itens
amostra_aas = df.sample(n=20)


### Amostragem Estratificada

**Definição**: A amostragem estratificada divide a população em subgrupos (estratos) que são mutuamente exclusivos, mas que juntos compõem a população total. Amostras são então retiradas de cada estrato.

**Aplicações**: Útil quando a população é heterogênea e queremos garantir que subgrupos específicos sejam adequadamente representados na amostra.

**Implementação em Python**:

Para a amostragem estratificada, usaremos a função `train_test_split` da biblioteca scikit-learn, que, apesar de comumente utilizada para dividir dados em conjuntos de treino e teste, também pode ser adaptada para realizar amostragem estratificada.

In [2]:
from sklearn.model_selection import train_test_split

# Adicionando uma coluna para representar os estratos
# Neste exemplo, criaremos uma coluna categórica aleatória
df['Estrato'] = np.random.choice(['A', 'B', 'C'], size=len(df))

# Realizando amostragem estratificada
_, amostra_estratificada = train_test_split(df, test_size=0.2, stratify=df['Estrato'])

In [3]:
df

Unnamed: 0,Id,Valor,Estrato
0,1,0.706109,C
1,2,0.163951,A
2,3,0.389898,C
3,4,0.626241,A
4,5,0.805289,C
...,...,...,...
95,96,0.008798,A
96,97,0.828119,B
97,98,0.389779,C
98,99,0.495336,C


In [4]:
amostra_estratificada

Unnamed: 0,Id,Valor,Estrato
63,64,0.351188,B
51,52,0.224425,A
72,73,0.011986,B
29,30,0.658242,C
31,32,0.920742,C
3,4,0.626241,A
8,9,0.502235,A
65,66,0.878201,A
22,23,0.023525,C
14,15,0.783411,B


### Amostragem por Conglomerados

**Definição**: A amostragem por conglomerados envolve dividir a população em grupos, ou conglomerados, que são representativos da população. Ao invés de selecionar indivíduos de toda a população, seleciona-se um número de conglomerados aleatoriamente e coleta-se dados de todos os membros desses conglomerados escolhidos.

**Aplicações**: Útil quando a população é geograficamente dispersa e não é prático realizar uma amostragem aleatória simples ou estratificada.

**Implementação em Python**:

Vamos simular um cenário de amostragem por conglomerados onde a população é dividida em vários grupos.

In [5]:
# Criando um DataFrame simulado com conglomerados
data = {'Id': range(1, 101), 'Valor': np.random.rand(100), 'Conglomerado': np.random.choice(['Norte', 'Sul', 'Leste', 'Oeste'], 100)}
df = pd.DataFrame(data)

# Selecionando aleatoriamente alguns conglomerados para a amostra
conglomerados_selecionados = np.random.choice(df['Conglomerado'].unique(), 2, replace=False)

# Coletando todos os dados dos conglomerados selecionados
amostra_conglomerados = df[df['Conglomerado'].isin(conglomerados_selecionados)]

### Amostragem Sistemática

**Definição**: Na amostragem sistemática, seleciona-se um elemento em intervalos regulares após um início aleatório. Por exemplo, em uma lista de 1000 elementos, para coletar uma amostra de 100, pode-se começar em um ponto aleatório e escolher cada décimo elemento.

**Aplicações**: Este método é utilizado quando se tem uma lista completa da população e a população é considerada homogênea em relação à característica de interesse.

**Implementação em Python**:

In [6]:
# Determinando o intervalo de seleção
tamanho_populacao = len(df)
tamanho_amostra = 20
intervalo = tamanho_populacao // tamanho_amostra

# Escolhendo um ponto de partida aleatório
inicio = np.random.randint(0, intervalo)

# Selecionando a amostra
indices = range(inicio, tamanho_populacao, intervalo)
amostra_sistematica = df.iloc[indices]
