In [None]:
# Importação das bibliotecas para analise de dados

import pandas as pd       # Analise e tratamento de dados
import numpy as np        # Tratamento de dados numéricos
import random             # Gerador de números aleatórios

In [None]:
# Carregamento da base de dados em uma variável

dados = pd.read_csv('./data/census.csv')
# 'census.csv' é um arquivo com alguns dados do census dos estados unidos

In [None]:
# Visualização da quantidade de registros

dados.shape

In [None]:
# Visualização dos primeiros registros do dataframe

dados.head()

In [None]:
# Visualização dos últimos registros do dataframe

dados.tail()

In [None]:
# Amostragem aleatória simples
df_amostra_aleatoria_simples = dados.sample(n = 100, random_state = 1)  # 100 registros, random_state = 1(semente aleatória geradora) vai sortear os mesmos registros

# Visualização da amostra aleatória simples
print(df_amostra_aleatoria_simples.shape)   # tamanho da amostra
df_amostra_aleatoria_simples.head()         # primeiros registros

In [None]:
# Amostrgem sistemática

In [None]:
# quantidade de registros

dados.shape

In [None]:
# Amostragem sistemática com n = 100 registros

len(dados) // 100

In [None]:
# Seleção de registros aleatórios com espaço de 325 registros
# 0 -> 325 ; 325 -> 675 ; 675 -> 1050 ; 1050 -> 1375 ; 1375 -> 1700 ; 1700 -> 2025...

random.seed(1)           # Semente aleatória
random.randint(0, 325)   # sorteia um número aleatório entre 0 e 325

In [None]:
# geração de amostras aleatórios com espaço de 325 registros

np.arange(68, len(dados), step=325)   # geração de números aleatórios com espaço de 325 registros

In [None]:
# função para gerar amostras sistemáticas com espaço de (quantidade de registros/ quantidade de amostras)

def amostragem_sistematica(dados, amostras):
    intervalo = len(dados) // amostras                              # calcula o tamanho do intervalo
    random.seed(1)                                                  # semente aleatória
    inicio = random.randint(0, intervalo)                           # sorteia um número aleatório entre 0 e o tamanho do intervalo   
    indices = np.arange(inicio, len(dados), step = intervalo)       # geração de números aleatórios que serão os índices dos registros
    amostra_sistematica = dados.iloc[indices]                    # seleção dos registros com base nos índices

    return amostra_sistematica                                   # retorna a amostra

In [None]:
# uso da função para gerar amostras sistemáticas com 100 amostras
df_amostra_sistematica = amostragem_sistematica(dados, 100)

# Visualização da quantidade de registos amostra sistemática
df_amostra_sistematica.shape

In [None]:
# visualização dos primeiros registros da amostra sistemática

df_amostra_sistematica.head()

In [None]:
# Amostragem por grupos

In [None]:
# quantidade de registros por grupo

len(dados) // 10

In [None]:
# algoritmo para gerar amostras por grupos

grupos = []                                   # lista vazia                      
id_grupo = 0                                  # variavel auxiliar id do grupo
contagem = 0                                  # variavel auxiliar contador de registros
for _ in dados.iterrows():                    # iteração sobre os registros da base de dados   
    grupos.append(id_grupo)                   # adiciona o id do grupo
    contagem += 1                             # incrementa a contagem +1
    if contagem > len(dados) // 10:           # se a contagem for maior que a divisão da quantidade de registros por 10
        contagem = 0                          # zera a contagem para o próximo grupo
        id_grupo += 1                         # incrementa o id do grupo +1

In [None]:
# visualização dos grupos

print(grupos)                               # grupos de 0 a 9

In [None]:
# verificação da quantidade de registros por grupo

np.unique(grupos, return_counts=True)                       

In [None]:
# verificação da quantidade de registros por grupo

np.shape(grupos), dados.shape

In [None]:
# concatenando os grupos com os dados

dados['grupo'] = grupos

In [None]:
# visualização dos primeiros registros

dados.head()

In [None]:
# visualização dos últimos registros 

dados.tail()

In [None]:
# gerando um valor aleatório entre 0 e 9 para busca pelo grupo

random.randint(0, 9)

In [None]:
# filtro por grupo e valor aleatório

df_agrupamento = dados[dados['grupo'] == 4]
df_agrupamento

In [None]:
# quantidade de registros agrupados

df_agrupamento['grupo'].value_counts()

In [None]:
# função para gerar amostras por grupos

def amostragem_agrupamentos(dados, n_grupos):
    intervalo = len(dados) // n_grupos                  # calcula o tamanho do intervalo

    grupos = []                                         # lista vazia                      
    id_grupo = 0                                        # variavel auxiliar id do grupo
    contagem = 0                                        # variavel auxiliar contador de registros
    for _ in dados.iterrows():                          # iteração sobre os registros da base de dados   
        grupos.append(id_grupo)                         # adiciona o id do grupo
        contagem += 1                                   # incrementa a contagem +1
        if contagem > intervalo:                        # se a contagem for maior que a divisão da quantidade de registros por 10
            contagem = 0                                # zera a contagem para o próximo grupo
            id_grupo += 1                               # incrementa o id do grupo +1

    dados['grupo'] = grupos                             # adiciona o grupo ao dataframe
    random.seed(1)                                      # semente aleatória
    grupo_selecionado = random.randint(0, n_grupos)     # sorteia um número aleatório entre 0 e o número de grupos
    return dados[dados['grupo'] == grupo_selecionado]   # retorna os registros do grupo selecionado

In [None]:
# uso da função para gerar amostras por grupos com 100 grupos
df_amostra_agrupamento = amostragem_agrupamentos(dados, 100)

# visualização da quantidade de registros agrupados((quantidade de registros), grupo, quantidade de registros no grupo)
df_amostra_agrupamento.shape, df_amostra_agrupamento['grupo'].value_counts()

In [None]:
# visualização dos primeiros registros da amostra agrupamento

df_amostra_agrupamento.head()

In [None]:
# visualização dos ultimos registros da amostra agrupamento

df_amostra_agrupamento.tail()

In [None]:
# Amostra estratificada

In [None]:
# importação de um modulo para gerar amostras estratificadas

from sklearn.model_selection import StratifiedShuffleSplit

In [None]:
# analise da variável icome(renda) para gerar uma amostra estratificada

dados['income'].value_counts('>50K')

In [None]:
# visualização da variável icome(renda) graficamente

dados['income'].value_counts('>50K').plot(kind='bar');

In [None]:
# criação de um objeto para gerar amostras estratificadas

split = StratifiedShuffleSplit(test_size=0.1)             # amostras estratificadas de 10% dos dados
for x, y in split.split(dados, dados['income']):          # iteração sobre os dados para gerar as amostras
    df_x = dados.iloc[x]                                  # seleção dos registros df_x com o resto dos dados
    df_y = dados.iloc[y]                                  # seleção dos registros df_y com a amostra estratificada de 10%

In [None]:
# tamanho das amostras separadas

df_x.shape, df_y.shape

In [None]:
# geração de apenas 100 amostras estratificadas

In [None]:
# calcula a quantidade de amostras estratificadas

100 / len(dados)

In [None]:
# criação de um objeto para gerar 100 amostras estratificadas

split = StratifiedShuffleSplit(test_size=0.0030711587481956942)             # amostras estratificadas de 100 registros
for x, y in split.split(dados, dados['income']):                            # iteração sobre os dados para gerar as amostras
    df_x = dados.iloc[x]                                                    # seleção dos registros df_x com o resto dos dados
    df_y = dados.iloc[y]                                                    # seleção dos registros df_y com a amostra estratificada de 100 amostras

In [None]:
# tamanho das amostras separadas

df_x.shape, df_y.shape

In [None]:
df_y.head()

In [None]:
# verificação da divisão dos dados da variavel income(renda)

df_y['income'].value_counts('>50K')

In [None]:
# criação de uma função para gerar amostras estratificadas

def amostragem_estratificada(dados, percentual):
  split = StratifiedShuffleSplit(test_size=percentual, random_state=1)
  for _, y in split.split(dados, dados['income']):
    df_y = dados.iloc[y]
  return df_y

In [None]:
# geração de amostras estratificadas
df_amostra_estratificada = amostragem_estratificada(dados, 0.0030711587481956942)

# visualização da quantidade de registros por amostra estratificada
df_amostra_estratificada.shape

In [None]:
# Amostragem de reservatório
# util para selecionar amostras de dados constantes e continuos no tempo

In [None]:
# geração de indice para cada registro

stream = []                             # inicialização da lista onde ficarão os valores
for i in range(len(dados)):             # iteração sobre os registros da base de dados
    stream.append(i)                    # adiciona o indice a lista

In [None]:
# visualização dos indices

print(stream)

In [None]:
# função para gerar amostras de reservatório

def amostragem_reservatorio(dados, amostras):
    stream = []
    for i in range(len(dados)):                              # iteração sobre os registros da base de dados
        stream.append(i)                                     # adiciona um indice para cada registro
    
    i = 0                                                    # variavel auxiliar para o indice
    tamanho = len(stream)                                    # variavel tamanho para ter a quantidade de registros

    reservatorio = [0] * amostras                            # onde serão armazenados os inidices dos registros sorteados
    for i in range(amostras):                                # iteração para gerar os registros sorteados
        reservatorio[i] = stream[i]                          # adiciona os inidices dos registros sorteados
                                            
    while i < tamanho:                                       # iteração para selecionar os registros 
        j = random.randrange(i + 1)                          # sorteia um número aleatório entre i + 1
        if j < amostras:
            reservatorio[j] = stream[i]                      # onde ficarão armazenados oa valores sorteados
        i += 1                                               # incrementa o contador
    
    return dados.iloc[reservatorio]                          # retorna os registros sorteados pelo algoritmo de amostragem de reservatório                                    

In [None]:
# uso da função para gerar amostras de reservatório com 100 amostras
df_amostragem_reservatorio = amostragem_reservatorio(dados, 100)

# visualização da quantidade de registros sorteados
df_amostragem_reservatorio.shape

In [None]:
# visualização dos primeiros registros da amostra reservatorio
df_amostragem_reservatorio.head()

In [None]:
# comparativo dos resultados 

In [None]:
amostras = {'media geral': dados.mean(),
            'amostra simples': df_amostra_aleatoria_simples.mean(),
            'amostra sistematica': df_amostra_sistematica.mean(),
            'amostra agrupamento': df_amostra_agrupamento.mean(),
            'amostra estratificada': df_amostra_estratificada.mean(),
            'amostra reservatório': df_amostragem_reservatorio.mean()}

In [None]:
# média da variavel age(idade) em todos os registros

dados['age'].mean()

In [None]:
# média da variavel age(idade) usando a amostra simples

df_amostra_aleatoria_simples['age'].mean()

In [None]:
# média da variavel age(idade) usando a amostra sistematica

df_amostra_sistematica['age'].mean()

In [None]:
# média da variavel age(idade) usando a amostra por agrupamento

df_amostra_agrupamento['age'].mean()

In [None]:
# média da variavel age(idade) usando a amostra estratificada

df_amostra_estratificada['age'].mean()

In [None]:
# média da variavel age(idade) usando a amostra por reservatório

df_amostragem_reservatorio['age'].mean()

In [None]:
# criação de um dataframe para armazenar os resultados

resultados = pd.DataFrame(amostras)
resultados = resultados.T                    # transposição do dataframe

In [None]:
# visualização dos resultados graficamente

resultados['age'].plot(kind='barh');