# Carregamento de Dados

In [None]:
import pandas as pd       
import random
import numpy as np

In [None]:
dataset=pd.read_csv('sample_data/census.csv')

In [None]:
dataset.head()

In [None]:
dataset.shape

(32561, 15)

In [None]:
dataset.tail()

# Amostragem Aleatória Simples

**Amostra do tipo randômica, números aleatórios, todos com a mesma chance de serem escolhidos dentro da margem da amostra**

Retorna dados aleatórios (100) de exemplo e mantém seu estado antes de atribuir à uma variável

In [None]:
df_amostra_aleatoria_simples = dataset.sample(n=100,random_state=1)

Retorna a quantidade de dados dentro dataset

In [None]:
df_amostra_aleatoria_simples.shape

(100, 15)

Mostra os 5 primeiros dados da variável

In [None]:
df_amostra_aleatoria_simples.head()

Criada função para automatizar o exemplo

In [None]:
def  amostragem_aleatoria_simples(dataset,amostras):
    return dataset.sample(n=amostras,random_state=1)

Atribuído resultado da função à uma variàvel e visualização dos 5 primeiros dados

In [None]:
df_amostra_aleatoria_simples=amostragem_aleatoria_simples(dataset,100)
df_amostra_aleatoria_simples.head()

# Amostragem Sistemática

**Baseada num sistema estabelecido para qualificar a amostragem (por exemplo, sequencialmente com base num valor)**

Quantidade de itens no dataset

In [None]:
dataset.shape

(32561, 15)

Tamanho do Dataset -  divisão inteira (//) divisão decimal (/)

In [None]:
len(dataset) // 100

325

Gerar um número aleatório entre o intervalo (randint) e manter ele quando para próximas interações (seed(1))

In [None]:
random.seed(1)
random.randint(0,325)

68

Com base no valor inicial(68) gerado acima, iterar com o sistema (325)

In [None]:
325+68
393+325

718

Cria um array com base em valores passados, inicial(68), total(len(dataset) e iteração de quanto em quanto (325))

In [None]:
np.arange(68,len(dataset),step=325)

array([   68,   393,   718,  1043,  1368,  1693,  2018,  2343,  2668,
        2993,  3318,  3643,  3968,  4293,  4618,  4943,  5268,  5593,
        5918,  6243,  6568,  6893,  7218,  7543,  7868,  8193,  8518,
        8843,  9168,  9493,  9818, 10143, 10468, 10793, 11118, 11443,
       11768, 12093, 12418, 12743, 13068, 13393, 13718, 14043, 14368,
       14693, 15018, 15343, 15668, 15993, 16318, 16643, 16968, 17293,
       17618, 17943, 18268, 18593, 18918, 19243, 19568, 19893, 20218,
       20543, 20868, 21193, 21518, 21843, 22168, 22493, 22818, 23143,
       23468, 23793, 24118, 24443, 24768, 25093, 25418, 25743, 26068,
       26393, 26718, 27043, 27368, 27693, 28018, 28343, 28668, 28993,
       29318, 29643, 29968, 30293, 30618, 30943, 31268, 31593, 31918,
       32243])

Cria uma função para automatizar a amostragem sistemática

In [None]:
def amostragem_sistematica(dataset,amostras):
  intervalo=len(dataset) // amostras
  random.seed(1)
  inicio=random.randint(0,intervalo)
  indices=np.arange(inicio,len(dataset),step=intervalo)
  amostra_sistematica=dataset.iloc[indices]
  return amostra_sistematica

Atribui o valor gerado pela função para uma variavel 

In [None]:
df_amostra_sistetica = amostragem_sistematica(dataset=dataset,amostras=100)
df_amostra_sistetica.shape

(100, 15)

Visualização dos 5 primeiros itens

In [None]:
df_amostra_sistetica.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
68,49,Self-emp-inc,191681,Some-college,10,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,50,United-States,>50K
393,34,State-gov,98101,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,7688,0,45,?,>50K
718,22,Private,214399,Some-college,10,Never-married,Sales,Own-child,White,Female,0,0,15,United-States,<=50K
1043,44,Private,167005,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,7688,0,60,United-States,>50K
1368,52,Private,152234,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,Asian-Pac-Islander,Male,99999,0,40,Japan,>50K


# Amostragem por Grupos

**Permite segregar a população em grupos com base em valores. Após segregado, utilizar alguma forma de amostragem acima para estabelecer os valores de amostra**

Dividir total de registros para obter quantidade por em 10 grupos

In [None]:
len(dataset) //10

3256

Criado array e preenchido cpom valores de acordo com a condição estabelecida acima (3256) registros por grupo

In [None]:
grupos = []
id_grupo=0
contagem=0

for _ in dataset.iterrows():
 grupos.append(id_grupo)
 contagem +=1
 if contagem >3256:
   contagem=0
   id_grupo+=1


Exibe o conteúdo do array

In [None]:
print(grupos)

Retorna uma matriz com os valores únicos e a quantidade de aparecimentos deles 

In [None]:
np.unique(grupos,return_counts=True)

Exibir quantidade total de linha na lista e no dataset

In [None]:
np.shape(grupos),dataset.shape

((32561,), (32561, 15))

Adicionado nova coluna (GRUPO) no dataset e atribuida lista de mesmo tamanho do dataset nessa coluna

In [None]:
dataset["grupo"]=grupos
dataset.head()

Escolhe um número aleatório entre 0 e 9

In [None]:
random.randint(0,9)

9

Filtra valores no dataset na coluna de GRUPO com base na condição e atribui para uma variável


In [None]:
df_agrupamento=dataset[dataset["grupo"]==7]
df_agrupamento.shape

(3257, 16)

Mostra os valores da coluna do grupo, tipo de dado e quantidade do valor

In [None]:
df_agrupamento["grupo"].value_counts()

7    3257
Name: grupo, dtype: int64

Mostra quais valores, seus tipos e e suas quantidades na coluna especificada

In [None]:
def amostragem_agrupamento(dataset,numero_grupos):
  intervalo = len(dataset) //numero_grupos
  grupos =[]
  id_grupo=0
  contagem=0
  for _ in dataset.iterrows():
    grupos.append(id_grupo)
    contagem+=1
    if contagem>intervalo:
      contagem=0
      id_grupo+=1
  dataset["grupo"]=grupos
  random.seed(1)
  grupo_selecionado=random.randint(0,numero_grupos)
  return dataset[dataset["grupo"]==grupo_selecionado]

Quantidade por grupo = (total de registros / numero de grupos) --- total de registros = (numero de grupos * quantidade por grupo)

In [None]:
len(dataset) //100
325*100

32500

Execução da função e visualização dos resultados

In [None]:
df_amostra_agrupamento = amostragem_agrupamento(dataset,100)
df_amostra_agrupamento.shape,  df_amostra_agrupamento["grupo"].value_counts()
df_amostra_agrupamento.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
5542,40,Self-emp-inc,169878,Assoc-acdm,12,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,>50K,17
5543,44,Private,296728,Masters,14,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,40,United-States,>50K,17
5544,33,Local-gov,342458,Assoc-acdm,12,Divorced,Protective-serv,Not-in-family,White,Male,0,0,56,United-States,<=50K,17
5545,21,Local-gov,38771,Some-college,10,Never-married,Adm-clerical,Own-child,White,Male,0,0,40,United-States,<=50K,17
5546,35,Self-emp-not-inc,269300,Bachelors,13,Never-married,Other-service,Not-in-family,Black,Female,0,0,60,United-States,<=50K,17


# Amostragem Estratificada

**A população possuí membros com diferentes características que formam um grupo em comum. A amostra deve completar um percentual igual desse grups independente dos valores.**

Importar a biblioteca de Machine Learning

In [None]:
from sklearn.model_selection import StratifiedShuffleSplit as sp

Quantidade de valores diferentes na coluna

In [None]:
dataset["income"].value_counts()

 <=50K    24720
 >50K      7841
Name: income, dtype: int64

Recuperar base percentual com base em cada valor diferente / total registros

In [None]:
7841 / len(dataset), 24720 / len(dataset)
0.2408095574460244+ 0.7591904425539756

1.0

Base percentual de 100 registros na base de dados

In [None]:
100 / len(dataset)

0.0030711587481956942

Separa os valores do dataset de forma uniforme em x (Maior parte) e y (menor parte, passada por parâmetro) e os atribui a cada dataset

In [None]:
split = sp(test_size=0.0030711587481956942)
for x,y in split.split(dataset,dataset["income"]):
  df_x =dataset.iloc[x]
  df_y =dataset.iloc[y]

Exibição de quantidades de registros de cada dataset

In [None]:
df_x.shape, df_y.shape

((32461, 16), (100, 16))

Exibe os 5 primeiros registros do dataset

In [None]:
df_y.head()

Demonstração da separação e distribuição dos valores 

In [None]:
df_y["income"].value_counts()

Criação de função para armazenar resultados das amostras e retornar um dataset

In [None]:
def amostragem_estratificada(dataset,percentual):
  split = sp(test_size=percentual,random_state=1)
  for _,y in split.split(dataset,dataset["income"]):
    df_y =dataset.iloc[y]
  return df_y

Dados retornados com base no percentual com base no total do dataset (100 registros)

In [None]:
df_amostra_estratificada = amostragem_estratificada(dataset,0.0030711587481956942)
df_amostra_estratificada.shape

Retorno dos dados

In [None]:
df_amostra_estratificada.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
5611,47,Private,176319,HS-grad,9,Married-civ-spouse,Sales,Own-child,White,Female,0,0,38,United-States,>50K,17
30532,41,Private,242619,Assoc-acdm,12,Divorced,Prof-specialty,Not-in-family,White,Male,0,0,80,United-States,<=50K,93
4586,21,Private,152540,HS-grad,9,Never-married,Adm-clerical,Not-in-family,White,Female,0,0,35,United-States,<=50K,14
15764,33,Private,132705,9th,5,Separated,Adm-clerical,Not-in-family,White,Male,0,0,48,United-States,<=50K,48
4511,24,Private,140001,Bachelors,13,Never-married,Exec-managerial,Not-in-family,White,Male,0,0,40,United-States,<=50K,13


# Amostragem de Reservatório

**A população é um Data Stream (fluxo de dados contínuos de tamanho desconhecido que pode ser acessado uma única vez). A amostra deve ser formada por itens com a mesma probabilidade de serem escolhidos.**

Cria uma lista do tamanho do dataset e a preenche com o indice

In [None]:
stream = []
for i in range(len(dataset)):
  stream.append(i)
  

Exibe a lista criada

In [None]:
print(stream)

Cria uma função para criar um reservatório e preenché-lo com números aleatórios dentro da amostra

In [None]:
def amostragem_reservatorio(dataset,amostras):
 stream=[]
 for i in range(len(dataset)):
   stream.append(i)
  
 i=0
 tamanho=len(dataset)
 reservatorio=[0]*amostras
 for i in range(amostras):
   reservatorio[i]=stream[i]

 while i < tamanho:
   j=random.randrange(i+1)
   if j < amostras:
    reservatorio[j]=stream[i]
   i+=1
 return dataset.iloc[reservatorio]

Chama a função com amostragem de 100 dados

In [None]:
df_amostragem_reservatorio=amostragem_reservatorio(dataset,100)
df_amostragem_reservatorio.shape

(100, 16)

Exibe os 5 primeiros itens da amostra

In [None]:
df_amostragem_reservatorio.head()

# Comparativo dos Resultados

**Comparação dos diferentes tipos de amostra utilizados.**

Média de idade dos participantes

In [None]:
dataset["age"].mean()

38.58164675532078

Média de idade da amostra aleatória simples

In [None]:
df_amostra_aleatoria_simples["age"].mean()

39.41

Média de idade da amostra sistemática

In [None]:
df_amostra_sistetica["age"].mean()

37.57

Média de idade da amostra por agrupamento

In [None]:
df_amostra_agrupamento["age"].mean()

39.23312883435583

Média de idade da amostra estratificada

In [None]:
df_amostra_estratificada["age"].mean()

36.9

Média de idade da amostra por reservatório

In [None]:
df_amostragem_reservatorio["age"].mean()

38.32

Conclusão: Amostragem de reservatório tem a melhor margem