In [56]:
# Importação das bibliotecas para analise de dados

import pandas as pd       # Analise e tratamento de dados
import numpy as np        # Tratamento de dados numéricos
import random             # Gerador de números aleatórios

In [57]:
# Carregamento da base de dados em uma variável

dados = pd.read_csv('../data/census.csv')
# 'census.csv' é um arquivo com alguns dados do census dos estados unidos

In [58]:
# Visualização da quantidade de registros

dados.shape

(32561, 15)

In [59]:
# Visualização dos primeiros registros do dataframe

dados.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [60]:
# Visualização dos últimos registros do dataframe

dados.tail()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K
32560,52,Self-emp-inc,287927,HS-grad,9,Married-civ-spouse,Exec-managerial,Wife,White,Female,15024,0,40,United-States,>50K


In [61]:
# Amostragem aleatória simples
df_amostra_aleatoria_simples = dados.sample(n = 100, random_state = 1)  # 100 registros, random_state = 1(semente aleatória geradora) vai sortear os mesmos registros

# Visualização da amostra aleatória simples
print(df_amostra_aleatoria_simples.shape)   # tamanho da amostra
df_amostra_aleatoria_simples.head()         # primeiros registros

(100, 15)


Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
9646,62,Self-emp-not-inc,26911,7th-8th,4,Widowed,Other-service,Not-in-family,White,Female,0,0,66,United-States,<=50K
709,18,Private,208103,11th,7,Never-married,Other-service,Other-relative,White,Male,0,0,25,United-States,<=50K
7385,25,Private,102476,Bachelors,13,Never-married,Farming-fishing,Own-child,White,Male,27828,0,50,United-States,>50K
16671,33,Private,511517,HS-grad,9,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,40,United-States,<=50K
21932,36,Private,292570,11th,7,Never-married,Machine-op-inspct,Unmarried,White,Female,0,0,40,United-States,<=50K


In [62]:
# Amostrgem sistemática

In [63]:
# quantidade de registros

dados.shape

(32561, 15)

In [64]:
# Amostragem sistemática com n = 100 registros

len(dados) // 100

325

In [65]:
# Seleção de registros aleatórios com espaço de 325 registros
# 0 -> 325 ; 325 -> 675 ; 675 -> 1050 ; 1050 -> 1375 ; 1375 -> 1700 ; 1700 -> 2025...

random.seed(1)           # Semente aleatória
random.randint(0, 325)   # sorteia um número aleatório entre 0 e 325

68

In [66]:
# geração de amostras aleatórios com espaço de 325 registros

np.arange(68, len(dados), step=325)   # geração de números aleatórios com espaço de 325 registros

array([   68,   393,   718,  1043,  1368,  1693,  2018,  2343,  2668,
        2993,  3318,  3643,  3968,  4293,  4618,  4943,  5268,  5593,
        5918,  6243,  6568,  6893,  7218,  7543,  7868,  8193,  8518,
        8843,  9168,  9493,  9818, 10143, 10468, 10793, 11118, 11443,
       11768, 12093, 12418, 12743, 13068, 13393, 13718, 14043, 14368,
       14693, 15018, 15343, 15668, 15993, 16318, 16643, 16968, 17293,
       17618, 17943, 18268, 18593, 18918, 19243, 19568, 19893, 20218,
       20543, 20868, 21193, 21518, 21843, 22168, 22493, 22818, 23143,
       23468, 23793, 24118, 24443, 24768, 25093, 25418, 25743, 26068,
       26393, 26718, 27043, 27368, 27693, 28018, 28343, 28668, 28993,
       29318, 29643, 29968, 30293, 30618, 30943, 31268, 31593, 31918,
       32243])

In [67]:
# função para gerar amostras sistemáticas com espaço de (quantidade de registros/ quantidade de amostras)

def amostragem_sistematica(dados, amostras):
    intervalo = len(dados) // amostras                              # calcula o tamanho do intervalo
    random.seed(1)                                                  # semente aleatória
    inicio = random.randint(0, intervalo)                           # sorteia um número aleatório entre 0 e o tamanho do intervalo   
    indices = np.arange(inicio, len(dados), step = intervalo)       # geração de números aleatórios que serão os índices dos registros
    amostra_sistematica = dados.iloc[indices]                    # seleção dos registros com base nos índices

    return amostra_sistematica                                   # retorna a amostra

In [68]:
# uso da função para gerar amostras sistemáticas com 100 amostras
df_amostra_sistematica = amostragem_sistematica(dados, 100)

# Visualização da quantidade de registos amostra sistemática
df_amostra_sistematica.shape

(100, 15)

In [69]:
# visualização dos primeiros registros da amostra sistemática

df_amostra_sistematica.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
68,49,Self-emp-inc,191681,Some-college,10,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,50,United-States,>50K
393,34,State-gov,98101,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,7688,0,45,?,>50K
718,22,Private,214399,Some-college,10,Never-married,Sales,Own-child,White,Female,0,0,15,United-States,<=50K
1043,44,Private,167005,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,7688,0,60,United-States,>50K
1368,52,Private,152234,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,Asian-Pac-Islander,Male,99999,0,40,Japan,>50K


In [70]:
# Amostragem por grupos

In [71]:
# quantidade de registros por grupo

len(dados) // 10

3256

In [72]:
# algoritmo para gerar amostras por grupos

grupos = []                                   # lista vazia                      
id_grupo = 0                                  # variavel auxiliar id do grupo
contagem = 0                                  # variavel auxiliar contador de registros
for _ in dados.iterrows():                    # iteração sobre os registros da base de dados   
    grupos.append(id_grupo)                   # adiciona o id do grupo
    contagem += 1                             # incrementa a contagem +1
    if contagem > len(dados) // 10:           # se a contagem for maior que a divisão da quantidade de registros por 10
        contagem = 0                          # zera a contagem para o próximo grupo
        id_grupo += 1                         # incrementa o id do grupo +1

In [73]:
# visualização dos grupos

print(grupos)                               # grupos de 0 a 9

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

In [74]:
# verificação da quantidade de registros por grupo

np.unique(grupos, return_counts=True)                       

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([3257, 3257, 3257, 3257, 3257, 3257, 3257, 3257, 3257, 3248],
       dtype=int64))

In [75]:
4# verificação da quantidade de registros por grupo

np.shape(grupos), dados.shape

((32561,), (32561, 15))

In [76]:
# concatenando os grupos com os dados

dados['grupo'] = grupos

In [77]:
# visualização dos primeiros registros

dados.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K,0
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K,0
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K,0
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K,0
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K,0


In [78]:
# visualização dos últimos registros 

dados.tail()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K,9
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K,9
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K,9
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K,9
32560,52,Self-emp-inc,287927,HS-grad,9,Married-civ-spouse,Exec-managerial,Wife,White,Female,15024,0,40,United-States,>50K,9


In [79]:
# gerando um valor aleatório entre 0 e 9 para busca pelo grupo

random.randint(0, 9)

9

In [80]:
# filtro por grupo e valor aleatório

df_agrupamento = dados[dados['grupo'] == 4]
df_agrupamento

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
13028,56,Private,98418,HS-grad,9,Divorced,Transport-moving,Not-in-family,White,Male,0,0,30,United-States,<=50K,4
13029,30,Private,381153,HS-grad,9,Never-married,Craft-repair,Not-in-family,White,Male,0,0,40,United-States,<=50K,4
13030,54,Private,103700,HS-grad,9,Widowed,Other-service,Unmarried,White,Female,0,0,40,United-States,<=50K,4
13031,35,Private,298635,Bachelors,13,Never-married,Sales,Not-in-family,Asian-Pac-Islander,Male,0,0,50,United-States,<=50K,4
13032,32,Private,127895,Some-college,10,Never-married,Adm-clerical,Own-child,Black,Female,0,0,40,United-States,<=50K,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16280,27,Private,187981,HS-grad,9,Never-married,Handlers-cleaners,Own-child,White,Male,0,0,40,United-States,<=50K,4
16281,55,Private,393768,Assoc-voc,11,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,40,United-States,<=50K,4
16282,38,Private,108726,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,40,United-States,>50K,4
16283,31,Private,180551,HS-grad,9,Married-civ-spouse,Adm-clerical,Wife,White,Female,0,0,40,United-States,>50K,4


In [81]:
# quantidade de registros agrupados

df_agrupamento['grupo'].value_counts()

4    3257
Name: grupo, dtype: int64

In [82]:
# função para gerar amostras por grupos

def amostragem_agrupamentos(dados, n_grupos):
    intervalo = len(dados) // n_grupos                  # calcula o tamanho do intervalo

    grupos = []                                         # lista vazia                      
    id_grupo = 0                                        # variavel auxiliar id do grupo
    contagem = 0                                        # variavel auxiliar contador de registros
    for _ in dados.iterrows():                          # iteração sobre os registros da base de dados   
        grupos.append(id_grupo)                         # adiciona o id do grupo
        contagem += 1                                   # incrementa a contagem +1
        if contagem > intervalo:                        # se a contagem for maior que a divisão da quantidade de registros por 10
            contagem = 0                                # zera a contagem para o próximo grupo
            id_grupo += 1                               # incrementa o id do grupo +1

    dados['grupo'] = grupos                             # adiciona o grupo ao dataframe
    random.seed(1)                                      # semente aleatória
    grupo_selecionado = random.randint(0, n_grupos)     # sorteia um número aleatório entre 0 e o número de grupos
    return dados[dados['grupo'] == grupo_selecionado]   # retorna os registros do grupo selecionado

In [83]:
# uso da função para gerar amostras por grupos com 100 grupos
df_amostra_agrupamento = amostragem_agrupamentos(dados, 100)

# visualização da quantidade de registros agrupados((quantidade de registros), grupo, quantidade de registros no grupo)
df_amostra_agrupamento.shape, df_amostra_agrupamento['grupo'].value_counts()

((326, 16),
 17    326
 Name: grupo, dtype: int64)

In [84]:
# visualização dos primeiros registros da amostra agrupamento

df_amostra_agrupamento.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
5542,40,Self-emp-inc,169878,Assoc-acdm,12,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,>50K,17
5543,44,Private,296728,Masters,14,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,40,United-States,>50K,17
5544,33,Local-gov,342458,Assoc-acdm,12,Divorced,Protective-serv,Not-in-family,White,Male,0,0,56,United-States,<=50K,17
5545,21,Local-gov,38771,Some-college,10,Never-married,Adm-clerical,Own-child,White,Male,0,0,40,United-States,<=50K,17
5546,35,Self-emp-not-inc,269300,Bachelors,13,Never-married,Other-service,Not-in-family,Black,Female,0,0,60,United-States,<=50K,17


In [85]:
# visualização dos ultimos registros da amostra agrupamento

df_amostra_agrupamento.tail()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
5863,64,Private,256019,Masters,14,Never-married,Prof-specialty,Not-in-family,White,Female,0,0,35,United-States,<=50K,17
5864,48,Private,348144,Some-college,10,Divorced,Transport-moving,Not-in-family,White,Male,3325,0,53,United-States,<=50K,17
5865,24,Private,190293,Bachelors,13,Never-married,Prof-specialty,Not-in-family,White,Female,0,0,40,United-States,<=50K,17
5866,51,Self-emp-not-inc,25932,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,60,United-States,<=50K,17
5867,25,Private,176729,Bachelors,13,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,60,United-States,>50K,17
