### Amostra por grupos

In [1]:
#A amostragem por grupos é relativamento simples, basta dividir nossa população pela quantidade de grupos que queremos formar
#para ser nossa amostra. Cada grupo vai ter um identificador, e por fim, selecionaremos aleatóriamente um grupo através do seu
#identificador.

In [4]:
#Vou importar novamente as bibliotecas para utilizar suas funções.
import pandas as pd
import numpy as np
import random

In [5]:
#Vamos carregar o census.csv novamente também, pois continuaremos utilizando esse conjunto de dados.

dataset = pd.read_csv("census.csv")

In [6]:
#Digamos que queremos dividir nossa população em 10 grupos e escolher aleatóriamente uma delas.

len(dataset) / 10

3256.1

In [13]:
#Para cada grupo em nossa população, vamos atribuir um identificador aos registros. O primeiro grupo terá o registro 0 e os
#próximos de 1 a 9. Essa estrutura de repetição vai passar linha por linha do dataset e inserir numa lista 'grupos' o ID.
#A lista inicia vazia e o ID sendo como 0. Criamos uma variavel de contagem para controlar o for. Dentro do for temos que para
#cada linha do dataset o id (que no momento é 0) sera incluído na lista 'grupos'. Ele faz isso linha por linha e vai somando 1
#na contagem, até que ela chega em 3256. Esse é o final do nosso primeiro grupo: o grupo de ID 0. Assim, a contagem volta a 0 
#e o ID passa a ser 1. Dessa forma, por mais 3256 linhas, o for vai incluir o ID 1 na lista, e depois o ID 2 e assim 
#sucessivamente até o dataset estar dividido em 10 grupos.

grupos = []
id_grupo = 0 
contagem = 0
for _ in dataset.iterrows():
    grupos.append(id_grupo)
    contagem += 1
    if contagem > 3256:
        contagem = 0
        id_grupo += 1

In [16]:
#Podemos inserir essa lista de IDs no nosso dataframe, como última coluna, pra ficar como identificador do grupo para cada
#registro.
#Só para confirmar, vamos olhar quantos IDs temos:

np.unique(grupos, return_counts = True)

#A função unique do numpy traz cada valor único da lista, que são nossos IDs, e o return_counts nos mostra a quantidada de vezes
#que o ID retorna na lista. O valor condiz com o intervalo por grupos que foi definido.

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([3257, 3257, 3257, 3257, 3257, 3257, 3257, 3257, 3257, 3248],
       dtype=int64))

In [21]:
#Para garantir que a lista é do tamanho do nosso dataframe usamos a função shape.
#É importante notar a diferença nas sintaxes. Para verificar o tamanho da lista, usamos a função shape do numpy, que funciona 
#para outros tipos de dados, como a lista. Enquanto a função shape do pandas acaba sendo a ideal para o nosso dataframe e já 
#nos retorna linhas e colunas.

np.shape(grupos), dataset.shape

((32561,), (32561, 15))

In [23]:
#Criar uma nova coluna 'grupo' no dataframe e inserir a lista de IDs

dataset['grupo'] = grupos

In [24]:
dataset.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K,0
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K,0
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K,0
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K,0
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K,0


In [25]:
dataset.tail()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K,9
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K,9
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K,9
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K,9
32560,52,Self-emp-inc,287927,HS-grad,9,Married-civ-spouse,Exec-managerial,Wife,White,Female,15024,0,40,United-States,>50K,9


In [26]:
#Escolher um grupo aleatório

random.seed(1)
random.randint(0, 9)

2

In [27]:
#Nessa nova variável criamos um dataframe que insere somente os registros onde o grupo tem ID igual a 2. Foi feito um filtro.

df_agrupamento = dataset[dataset['grupo'] == 2]
df_agrupamento.shape

(3257, 16)

In [31]:
#Através da função value_counts é possível acessar a coluna (ou atributo do dataframe) 'grupo' e contar os valores.
df_agrupamento['grupo'].value_counts()

grupo
2    3257
Name: count, dtype: int64

In [34]:
#Finalmente, podemos construir uma função contendo todo o passo a passo, para depois inserir o grupo em uma nova variável.

def amostragem_agrupamento(dataframe, numero_grupos):
    intervalo = len(dataframe) / numero_grupos
    grupos = []
    id_grupo = 0 
    contagem = 0
    for _ in dataframe.iterrows():
        grupos.append(id_grupo)
        contagem += 1
        if contagem > intervalo:
            contagem = 0
            id_grupo += 1
    
    dataframe['grupo'] = grupos
    random.seed(1)
    grupo_selecionado = random.randint(0, numero_grupos)
    return dataframe[dataframe['grupo'] == grupo_selecionado]
    

In [43]:
df_amostra_agrupamento = amostragem_agrupamento(dataset, 100)

In [44]:
df_amostra_agrupamento.shape, df_amostra_agrupamento['grupo'].value_counts()

((326, 16),
 grupo
 17    326
 Name: count, dtype: int64)

In [45]:
df_amostra_agrupamento.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
5542,40,Self-emp-inc,169878,Assoc-acdm,12,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,>50K,17
5543,44,Private,296728,Masters,14,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,40,United-States,>50K,17
5544,33,Local-gov,342458,Assoc-acdm,12,Divorced,Protective-serv,Not-in-family,White,Male,0,0,56,United-States,<=50K,17
5545,21,Local-gov,38771,Some-college,10,Never-married,Adm-clerical,Own-child,White,Male,0,0,40,United-States,<=50K,17
5546,35,Self-emp-not-inc,269300,Bachelors,13,Never-married,Other-service,Not-in-family,Black,Female,0,0,60,United-States,<=50K,17
