In [4]:
import pandas as pd
import random
import numpy as np
from sklearn.model_selection import StratifiedShuffleSplit

file_census = "../data_base/census.csv"

dataset = pd.read_csv(file_census)

# Indica o número de Linhas e colunas
dataset.shape

(32561, 15)

In [5]:
# .mean(): Média das idades
media_idade = dataset["age"].mean()
media_idade

38.58164675532078

In [6]:
# Amostra Aleatória Simples:
def simple_random_sample(dataset, sample_quantity):
    return dataset.sample(n=sample_quantity, random_state=1)

In [7]:
df_amostra_aleatoria_simples = simple_random_sample(dataset, 100)

In [8]:
# Amostras Sistemática:
def sample_systematic(dataset, sample_quantity):
    population_quantity = len(dataset)
    interval = round(population_quantity / sample_quantity)
    # random.seed(1)
    begin = random.randint(0, interval)
    indices = np.arange(begin, population_quantity, step= interval)
    # print(indices)
    df_samples = dataset.iloc[indices]
    return df_samples

In [9]:
df_amostra_sistematica = sample_systematic(dataset, 100)

In [10]:
# Amostra por Grupo:
def sample_group(dataset, group_quantity):
    groups_id_list = []
    population_length = len(dataset)
    # Intervalo de elementos em cada grupo
    interval = population_length / group_quantity
    id_group = 0
    count = 0
    
    # for percorre o dataframe e add na lista um número referente ao grupo
    for _ in dataset.iterrows():
        groups_id_list.append(id_group)
        count += 1
        if count > interval:
            count = 0
            id_group += 1
    
    print(np.unique(groups_id_list, return_counts = True))
    print(groups_id_list)

    
    # cria coluna grupo se não existir e atribui os valores
    dataset["group"] = groups_id_list
    # random.seed(1)
    # seleciona um número randômico dentro da quantidade de grupos
    selected_group_code = random.randint(0, group_quantity)

    # seleciona as amostras onde o grupo é igual ao sorteado
    df_sample_group = dataset[dataset["group"] == selected_group_code]
    return df_sample_group

In [11]:
df_amostra_por_grupo = sample_group(dataset, 10)
df_amostra_por_grupo.shape

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), array([3257, 3257, 3257, 3257, 3257, 3257, 3257, 3257, 3257, 3248],
      dtype=int64))
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0

(3257, 16)

In [12]:
# Amostra Estratificada:
def sample_stratified(dataset, field, percentage):
    percentage_split = percentage / 100
    split = StratifiedShuffleSplit(test_size=percentage_split, random_state=1)
    for _, y in split.split(dataset, dataset[field]):
        df_y = dataset.iloc[y]
    return df_y

In [13]:
df_amostra_estratificada = sample_stratified( dataset, "income", 10)

In [15]:
# Comparativo amostragens:
media_geral = dataset["age"].mean()
mediana_geral = dataset["age"].median()
print("media_geral:", media_geral)
print("mediana_geral:", mediana_geral)

media_amostra_aleatoria_simples = df_amostra_aleatoria_simples["age"].mean()
mediana_amostra_aleatoria_simples = df_amostra_aleatoria_simples["age"].median()
print("media_amostra_aleatoria_simples:", media_amostra_aleatoria_simples)
print("mediana_amostra_aleatoria_simples:", mediana_amostra_aleatoria_simples)

media_amostra_sistematica = df_amostra_sistematica["age"].mean()
mediana_amostra_sistematica = df_amostra_sistematica["age"].median()
print("media_amostra_sistematica:", media_amostra_sistematica)
print("mediana_amostra_sistematica:", mediana_amostra_sistematica)

media_amostra_por_grupo = df_amostra_por_grupo["age"].mean()
mediana_amostra_por_grupo = df_amostra_por_grupo["age"].median()
print("media_amostra_por_grupo:", media_amostra_por_grupo)
print("mediana_amostra_por_grupo:", mediana_amostra_por_grupo)

media_amostra_estratificada = df_amostra_estratificada["age"].mean()
mediana_amostra_estratificada = df_amostra_estratificada["age"].median()
print("media_amostra_estratificada:", media_amostra_estratificada)
print("mediana_amostra_estratificada:", mediana_amostra_estratificada)


media_geral: 38.58164675532078
mediana_geral: 37.0
media_amostra_aleatoria_simples: 39.41
mediana_amostra_aleatoria_simples: 37.0
media_amostra_sistematica: 40.54
mediana_amostra_sistematica: 38.0
media_amostra_por_grupo: 38.58090267116979
mediana_amostra_por_grupo: 37.0
media_amostra_estratificada: 38.58213079521032
mediana_amostra_estratificada: 37.0
