### Amostra sistemática

In [1]:
#Para calcular a amostragem sistemática pegamos o número total da população e dividimos pela quantidade de amostra que queremos.
#O resultado dessa divisão podemos arredondar pra cima caso necessário, depois, dentre os primeiros registros da nossa popualçao
#vamos escolher aleatoriamente um número dentre esse que saiu como resultado da divisão. O número aleatório que sair será nossa
#primeira amostra. Á partir daí, o próximo registro será a primeira amostra + o número que deu como resultado da divisão e assim
#sucessivamente até completar a quantidade de amostras que definimos.
#Para ilustrar#
#População: 100 registros.
#Amostra: 8 amostras.
#100 / 8 = 12.5 = Arredonda pra 13.
#Número aleatório de 0 a 13: 7. 7 é a primeira amostra.
# 7 + 8 = 15 é a segunda amostra.
# 15 + 8 = 23 é a terceira amostra.
#Segue assim até completar as 8 amostras.


In [4]:
#Vou importar novamente as bibliotecas para utilizar suas funções.
import pandas as pd
import numpy as np
import random

In [5]:
#Vamos carregar o census.csv novamente também, pois continuaremos utilizando esse conjunto de dados.

dataset = pd.read_csv("census.csv")

In [6]:
dataset.shape

(32561, 15)

In [8]:
#Utilizando o shape, conseguimos identificar que nosso dataset tem 32561 registros. Essa é a nossa população. Vou definir que 
#nossa amostra será de 100 registros.
#Primeiro vamos dividir a população pela quantidade de amostras.
#Aqui também podemos usar a função 'len' do Python para pegar o valor da nossa população.

len(dataset)

32561

In [9]:
#Assim é possível dividir pelo número de amostras. Utilizando o operador de divisão inteira, truncamos o resultado dessa forma.

len(dataset) // 100

325

In [13]:
#Agora basta tirar um número aleatório dentre 0 e 325, e esse número precisa ser inteiro.
#Para isso, também temos uma função da biblioteca random: randint(intervalo)

random.randint(0, 325)

#Essa função traz números aleatórios sempre que rodamos ela.

155

In [15]:
#Podemos usar o random.seed() como uma espécie de random_state da função sample(). O random.seed() vai assimilar o resultado 
#aleatório ao número que inserirmos como parâmetro no seed.

random.seed(1)
random.randint(0, 325)

68

In [16]:
random.seed(2)
random.randint(0, 325)

28

In [17]:
random.seed(1)
random.randint(0, 325)

68

In [18]:
#Agora é importante reparar! A primeira amostra é 68. A segunda amostra seria:

68 + 325

393

In [19]:
#A terceira amostra seria:

393 + 325

718

In [21]:
#Até conseguirmos obter as 100 amostras que precisamos, ia levar um bom tempo somando uma a uma.
#Poderíamos fazer uma estrutura de repetição (for, while, loops...) MAS a biblioteca numpy tem uma função que faz isso numa
#linha de comando: 'arange'. A função recebe como parâmetros o valor inicial (68), o valor final (a população, len do dataset)
# e o step, que seria de quantas em cantas casas é realizado a soma.

np.arange(68, len(dataset), step = 325)

array([   68,   393,   718,  1043,  1368,  1693,  2018,  2343,  2668,
        2993,  3318,  3643,  3968,  4293,  4618,  4943,  5268,  5593,
        5918,  6243,  6568,  6893,  7218,  7543,  7868,  8193,  8518,
        8843,  9168,  9493,  9818, 10143, 10468, 10793, 11118, 11443,
       11768, 12093, 12418, 12743, 13068, 13393, 13718, 14043, 14368,
       14693, 15018, 15343, 15668, 15993, 16318, 16643, 16968, 17293,
       17618, 17943, 18268, 18593, 18918, 19243, 19568, 19893, 20218,
       20543, 20868, 21193, 21518, 21843, 22168, 22493, 22818, 23143,
       23468, 23793, 24118, 24443, 24768, 25093, 25418, 25743, 26068,
       26393, 26718, 27043, 27368, 27693, 28018, 28343, 28668, 28993,
       29318, 29643, 29968, 30293, 30618, 30943, 31268, 31593, 31918,
       32243])

In [22]:
len(np.arange(68, len(dataset), step = 325))

100

In [23]:
#A amostragem sistemática foi criada, com 100 amostras, e inseridos dentro de uma lista. Com o len é possível confirmar a 
#quantidade de elementos dentro da lista: 100 amostras.

In [31]:
#Pra finalizar, vamos criar uma função que nos retorne uma amostragem sistemática dentro de uma variável.
def amostragem_sistematica(dataframe, amostras):
    intervalo = len(dataframe) // amostras
    random.seed(1)
    inicio = random.randint(0, intervalo)
    indices = np.arange(inicio, len(dataframe), step = intervalo)
    amostra_sistematica = dataframe.iloc[indices]
    return amostra_sistematica
    

In [32]:
df_amostra_sistematica = amostragem_sistematica(dataset, 100)
df_amostra_sistematica.shape

(100, 15)

In [33]:
df_amostra_sistematica.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
68,49,Self-emp-inc,191681,Some-college,10,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,50,United-States,>50K
393,34,State-gov,98101,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,7688,0,45,?,>50K
718,22,Private,214399,Some-college,10,Never-married,Sales,Own-child,White,Female,0,0,15,United-States,<=50K
1043,44,Private,167005,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,7688,0,60,United-States,>50K
1368,52,Private,152234,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,Asian-Pac-Islander,Male,99999,0,40,Japan,>50K
