Carregamento da base de dados

In [379]:
import pandas as pd
import random
import numpy as np

In [380]:
dataset = pd.read_csv('census.csv')

Amostragem aleatória simples

In [381]:
def amostragem_aleatoria_simples(dataset, amostras):
    return dataset.sample(n = amostras, random_state = 1)

In [382]:
df_amostra_aleatoria_simples = amostragem_aleatoria_simples(dataset, 100)

Amostragem sistemática

In [383]:
def amostragem_sistematica(dataset, amostras):
    intervalo = len(dataset) // amostras

    random.seed(1)
    inicio = random.randint(0, intervalo)

    indices = np.arange(inicio, len(dataset), step = intervalo)

    return dataset.iloc[indices]

In [384]:
df_amostra_sistematica = amostragem_sistematica(dataset, 100)

Amostragem por grupos

In [385]:
def amostragem_agrupamento(dataset, numero_grupos):
    intervalo = len(dataset) / numero_grupos

    grupos = []
    id_grupo = 0
    contagem = 0
    for _ in dataset.iterrows():
        grupos.append(id_grupo)
        contagem += 1
        if contagem > intervalo:
            contagem = 0
            id_grupo += 1

    dataset['grupo'] = grupos
    random.seed(1)
    grupo_selecionado = random.randint(0, numero_grupos)

    return dataset[dataset['grupo'] == grupo_selecionado]

In [386]:
df_amostra_agrupamento = amostragem_agrupamento(dataset, 325)

Amostra estratificada

In [387]:
from sklearn.model_selection import StratifiedShuffleSplit

In [388]:
def amostragem_estratificada(dataset, percentual):
    split = StratifiedShuffleSplit(test_size = percentual, random_state = 1)
    
    for _, y in split.split(dataset, dataset['income']):
        df_y = dataset.iloc[y]
    
    return df_y

In [389]:
df_amostra_estratificada = amostragem_estratificada(dataset, 0.0030711587481956942)

Comparativo dos resultados

In [390]:
dataset['age'].mean()

38.58164675532078

In [391]:
df_amostra_aleatoria_simples['age'].mean()

39.41

In [392]:
df_amostra_sistematica['age'].mean()

37.57

In [393]:
df_amostra_agrupamento['age'].mean()

40.06930693069307

In [394]:
df_amostra_estratificada['age'].mean()

36.9

In [395]:
df_media = dataset['age'].mean()

modulo_aleatoria_simples = abs(df_media - df_amostra_aleatoria_simples['age'].mean())
modulo_sistematica = abs(df_media - df_amostra_sistematica['age'].mean())
modulo_agrupamento = abs(df_media - df_amostra_agrupamento['age'].mean())
modulo_estratificada = abs(df_media - df_amostra_estratificada['age'].mean())

print(f'Aleatória simples: {modulo_aleatoria_simples}')
print(f'Sistemática: {modulo_sistematica}')
print(f'Agrupamento: {modulo_agrupamento}')
print(f'Estratificado: {modulo_estratificada}')
print('')
print('Melhor método: Amostragem aleatória simples')

Aleatória simples: 0.8283532446792137
Sistemática: 1.0116467553207826
Agrupamento: 1.4876601753722838
Estratificado: 1.6816467553207843

Melhor método: Amostragem aleatória simples
