In [1]:
import pandas as pd
import numpy as np
import random

In [None]:
ds = pd.read_csv('./Bases de dados/census.csv')
display(ds.head())

In [None]:
ds.tail()

### Amostragem aleatória

In [None]:
df_aleatoria_simples = ds.sample(n = 100, random_state=1)
#random-state sempre vai retornar o mesmo resultado. Idependente do número de vezes
# sempre teremos a mesma amostra
# excelente para replicar o ds

In [None]:
df_aleatoria_simples.shape

In [None]:
df_aleatoria_simples.head()

In [None]:
def amostra_aleatoria_simples(ds, amostras):
    return ds.sample(n = amostras, random_state=1)

In [None]:
df_aleatoria_simples = amostra_aleatoria_simples(ds, 100)
df_aleatoria_simples.shape

In [None]:
df_aleatoria_simples.head()

### Amostragem Sistemática

população / amostra


In [None]:
len(ds) // 100

In [None]:
# sorteando um numero entre 0 e 325
random.seed(1)
random.randint(0, 325)

In [None]:
# para selecionar sistematicamente uma amostra de 325 em 325 até o final do dataset
np.arange(68, len(ds), step=325)

In [None]:
def amostragem_sistematica(ds, amostras):
  intervalo = len(ds) // amostras
  random.seed(1)
  inicio = random.randint(0, intervalo)
  indices = np.arange(inicio, len(ds), step = intervalo)
  amostra_sistematica = ds.iloc[indices]
  return amostra_sistematica

In [None]:
df_amostra_sistematica = amostragem_sistematica(ds, 100)
df_amostra_sistematica.shape

### Amostragem em Grupo

In [None]:
## definimos os grupos como identificadores

In [None]:
len(ds) / 10 # gerando 10 grupos, teremos 3256 pessoas por grupo

In [None]:
grupos = []
id_grupo = 0
contagem = 0 
for _ in ds.iterrows():
    grupos.append(id_grupo)
    contagem += 1
    if contagem > 3256:
        contagem = 0
        id_grupo += 1

In [None]:
# verificando se fizemos a divisão corretamente
# trás os valores únicos de cada grupo
# e a quantidade existente em cada grupo
np.unique(grupos, return_counts=True)

In [None]:
np.shape(grupos), ds.shape

In [None]:
# adicionando a coluna grupo ao dataset

ds['grupo'] = grupos

In [None]:
ds.head()

In [None]:
ds.tail()

In [None]:
#random.seed(1)
random.randint(0, 9)

In [None]:
# filtramos o grupo que queremos do dataset
df_agrupamento = ds[ds['grupo'] == 7]
df_agrupamento.shape

In [None]:
# contamos a quantidade de registros existentes no grupo 7
df_agrupamento['grupo'].value_counts()

In [None]:
def amostragemAgrupamento(ds, numero_grupos):
    intervalo = len(ds) / numero_grupos
    
    grupos = []
    id_grupo = 0
    contagem = 0 
    for _ in ds.iterrows():
        grupos.append(id_grupo)
        contagem += 1
        if contagem > intervalo:
            contagem = 0
            id_grupo += 1
            
    ds['grupo'] = grupos
    grupo_selecionado = random.randint(0, numero_grupos)
    return ds[ds['grupo'] == grupo_selecionado]
    

In [None]:
df_amostragem_agrupamento = amostragemAgrupamento(ds, 100)

In [None]:
df_amostragem_agrupamento.shape, df_amostragem_agrupamento['grupo'].value_counts()

In [None]:
df_amostragem_agrupamento.head()

### Amostra Estratificada
#### amostra divida por algum tipo de variável
retorna proporcialmente a mesma quantidade de pessoas (homens ou mulheres)

In [None]:
from sklearn.model_selection import StratifiedShuffleSplit

In [None]:
ds['income'].value_counts()

In [None]:
7841 / len(ds), 24720 / len(ds)

In [None]:
100 / len(ds)

In [None]:
0.2408095574460244 + 0.7591904425539756

In [None]:
# estraindo uma amostra estratificada
split = StratifiedShuffleSplit(test_size=0.0030711587481956942)

In [None]:
for x, y in split.split(ds, ds['income']):
    df_x = ds.iloc[x]
    df_y = ds.iloc[y]

In [None]:
def amostra_estratificada(ds, percentual):
    split = StratifiedShuffleSplit(test_size=percentual, random_state=1)
    for _, y in split.split(ds, ds['income']):
        df_y = ds.iloc[y]
    return df_y

In [None]:
df_amostra_estratificada = amostra_estratificada(ds, 0.0030711587481956942)
df_amostra_estratificada.shape

In [None]:
df_x.shape, df_y.shape

In [None]:
df_x.head()

In [None]:
df_y.head()

### Amostragem de Reservatório
Ideal para amostragens, Data Stream.

In [None]:
stream = []
for i in range(len(ds)):
    stream.append(i)

In [None]:
print(stream)

In [None]:
def amostragem_reservatorio(ds, amostras):
  stream = []
  for i in range(len(ds)):
    stream.append(i)

  i = 0
  tamanho = len(ds)

  reservatorio = [0] * amostras
  for i in range(amostras):
    reservatorio[i] = stream[i]

  while i < tamanho:
    j = random.randrange(i + 1)
    if j < amostras:
      reservatorio[j] = stream[i]
    i += 1

  return ds.iloc[reservatorio]

In [None]:
df_amostragem_reservatorio = amostragem_reservatorio(ds, 100)
df_amostragem_reservatorio.shape

In [None]:
df_amostragem_reservatorio.head()

### Comparativo entre as amostragens

In [None]:
ds['age'].mean()

In [None]:
df_aleatoria_simples['age'].mean()

In [None]:
39.41 - 38.58164675532078

In [None]:
df_amostra_sistematica['age'].mean()

In [None]:
37.57 - 38.58164675532078

In [None]:
df_amostragem_agrupamento['age'].mean()

In [None]:
39.47546012269939 - 38.58164675532078

In [None]:
df_amostragem_reservatorio['age'].mean()

In [None]:
38.32 - 38.58164675532078 # menor diferença

### Exercício

In [2]:
dataset = pd.read_csv('./Bases de dados/credit_data.csv')

In [3]:
dataset.shape

(2000, 5)

In [4]:
dataset.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


In [5]:
dataset.tail()

Unnamed: 0,i#clientid,income,age,loan,c#default
1995,1996,59221.044874,48.518179,1926.729397,0
1996,1997,69516.127573,23.162104,3503.176156,0
1997,1998,44311.449262,28.017167,5522.786693,1
1998,1999,43756.056605,63.971796,1622.722598,0
1999,2000,69436.579552,56.152617,7378.833599,0


In [8]:
def amostra_aleatoria_simples(dataset, amostras):
    return dataset.sample(n = amostras, random_state=1)

In [9]:
df_aleatoria_simples = amostra_aleatoria_simples(dataset, 1000)
df_aleatoria_simples.shape

(1000, 5)

In [10]:
def amostragem_sistematica(dataset, amostras):
  intervalo = len(dataset) // amostras
  random.seed(1)
  inicio = random.randint(0, intervalo)
  indices = np.arange(inicio, len(dataset), step = intervalo)
  amostra_sistematica = dataset.iloc[indices]
  return amostra_sistematica

In [11]:
df_amostra_sistematica = amostragem_sistematica(dataset, 1000)
df_amostra_sistematica.shape

(1000, 5)

In [14]:
def amostragemAgrupamento(dataset, numero_grupos):
    intervalo = len(dataset) / numero_grupos
    
    grupos = []
    id_grupo = 0
    contagem = 0 
    for _ in dataset.iterrows():
        grupos.append(id_grupo)
        contagem += 1
        if contagem > intervalo:
            contagem = 0
            id_grupo += 1
            
    dataset['grupo'] = grupos
    grupo_selecionado = random.randint(0, numero_grupos)
    return dataset[dataset['grupo'] == grupo_selecionado]

In [16]:
df_amostragem_agrupamento = amostragemAgrupamento(dataset, 2)
df_amostragem_agrupamento.shape, df_amostragem_agrupamento['grupo'].value_counts()

((1001, 6),
 0    1001
 Name: grupo, dtype: int64)

In [17]:
from sklearn.model_selection import StratifiedShuffleSplit

In [20]:
dataset['c#default'].value_counts()

0    1717
1     283
Name: c#default, dtype: int64

In [23]:
def amostra_estratificada(dataset, percentual, campo):
    split = StratifiedShuffleSplit(test_size=percentual, random_state=1)
    for _, y in split.split(dataset, dataset[campo]):
        df_y = dataset.iloc[y]
    return df_y

In [24]:
df_amostra_estratificada = amostra_estratificada(dataset, 0.5, 'c#default')
df_amostra_estratificada.shape

(1000, 6)

In [26]:
def amostragem_reservatorio(dataset, amostras):
  stream = []
  for i in range(len(dataset)):
    stream.append(i)

  i = 0
  tamanho = len(dataset)

  reservatorio = [0] * amostras
  for i in range(amostras):
    reservatorio[i] = stream[i]

  while i < tamanho:
    j = random.randrange(i + 1)
    if j < amostras:
      reservatorio[j] = stream[i]
    i += 1

  return dataset.iloc[reservatorio]

In [27]:
df_amostragem_reservatorio = amostragem_reservatorio(dataset, 1000)
df_amostragem_reservatorio.shape

(1000, 6)

#### Comparando os resultados

In [28]:
dataset['age'].mean(), dataset['income'].mean(), dataset['loan'].mean() 

(40.80755937840458, 45331.60001779333, 4444.369694688262)

In [29]:
df_aleatoria_simples['age'].mean(), df_aleatoria_simples['income'].mean(), df_aleatoria_simples['loan'].mean()

(40.49552561124429, 45563.26865376901, 4449.4469004423645)

In [30]:
df_amostra_sistematica['age'].mean(), df_amostra_sistematica['income'].mean(), df_amostra_sistematica['loan'].mean()

(40.91117381141754, 45691.49875066951, 4506.787976426329)

In [31]:
df_amostragem_agrupamento['age'].mean(), df_amostragem_agrupamento['income'].mean(), df_amostragem_agrupamento['loan'].mean()

(41.0432231120503, 44846.74925986142, 4390.1614937442055)

In [33]:
df_amostra_estratificada['age'].mean(), df_amostra_estratificada['income'].mean(), df_amostra_estratificada['loan'].mean()

(40.53363707173919, 45101.36675026739, 4423.744651094196)

In [32]:
df_amostragem_reservatorio['age'].mean(), df_amostragem_reservatorio['income'].mean(), df_amostragem_reservatorio['loan'].mean()

(40.51156346388824, 45028.64849583714, 4376.097084377819)