Importação das bibliotecas

In [2]:
import pandas as pd
import numpy as np
import random
from sklearn.model_selection import StratifiedShuffleSplit

Amostragem Simples

In [4]:
def amostragemSimples(dataset, numero_amostras):
    df_amostra_simples = dataset.sample(n=numero_amostras,random_state=1)
    return df_amostra_simples

Amostragem Sistemática

In [8]:
def amostragemSistematica(dataset, numero_amostras):
    intervalo = len(dataset)//numero_amostras
    random.seed(1)
    inicio = random.randint(0,intervalo)
    indices = np.arange(inicio,len(dataset),intervalo)
    df_amostra_sistematica = dataset.iloc[indices]
    return df_amostra_sistematica

Amostragem por grupos

In [25]:
def amostragemAgrupamento(dataset, numero_amostras):
    grupos = []
    id_grupo = 0
    contagem = 0
    for _ in dataset.iterrows():
        grupos.append(id_grupo)
        contagem += 1
        if contagem > numero_amostras:
            contagem = 0
            id_grupo += 1
    random.seed(1)
    grupo_selecionado = random.randint(0,id_grupo)
    dataset['grupo'] = grupos
    df_amostra_agrupamento = dataset[dataset['grupo']==grupo_selecionado]
    return df_amostra_agrupamento

Amostragem Estratificada

In [28]:
def amostragemEstratificada(dataset, numero_amostras):
    porcentagem = numero_amostras/len(dataset)
    split = StratifiedShuffleSplit(test_size=porcentagem, random_state=1)
    for _,amostra_separada in split.split(dataset,dataset['c#default']):
        df_amostra_estratificada = dataset.iloc[amostra_separada]
    return df_amostra_estratificada

Amostragem de Reservatório

In [34]:
def amostragemReservatorio(dataset, numero_amostras):
    stream = []
    tamanho = len(dataset)
    for i in range(tamanho):
        stream.append(i)
    i = 0
    reservatorio = [0] * numero_amostras
    for i in range(numero_amostras):
        reservatorio[i] = stream[i]
    
    while i < tamanho:
        j = random.randrange(i+1)
        if j < numero_amostras:
            reservatorio[j]=stream[i]
        i += 1
    return dataset.iloc[reservatorio]

Entrada de dados

In [18]:
dataset = pd.read_csv('credit_data.csv')
dataset.shape

(2000, 5)

In [19]:
dataset.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


Chamada das funções

In [36]:
numero_amostras = 1000
df_amostra_simples = amostragemSimples(dataset,numero_amostras)
df_amostra_sistematica = amostragemSistematica(dataset,numero_amostras)
df_amostra_agrupamento = amostragemAgrupamento(dataset,numero_amostras)
df_amostra_estratificada = amostragemEstratificada(dataset,numero_amostras)
df_amostra_reservatorio = amostragemReservatorio(dataset,numero_amostras)

Verificação se as amostras foram coletadas igualmente.

In [43]:
df_amostra_simples.shape, df_amostra_sistematica.shape, df_amostra_agrupamento.shape, df_amostra_estratificada.shape,df_amostra_reservatorio.shape

((1000, 6), (1000, 6), (1001, 6), (1000, 6), (1000, 6))

Cálculo da média dos atributos AGE, INCOME e LOAN da base de dados.

In [47]:
dataset['age'].mean(), dataset['income'].mean(), dataset['loan'].mean()

(40.80755937840458, 45331.600017793244, 4444.369694688258)

Agora para as amostras obtidas pelos métodos de amostragem.

In [63]:
df_amostra_simples['age'].mean(),df_amostra_simples['income'].mean(),df_amostra_simples['loan'].mean()

(40.57203708208336, 45111.194297345355, 4429.634971370369)

In [64]:
df_amostra_sistematica['age'].mean(),df_amostra_sistematica['income'].mean(),df_amostra_sistematica['loan'].mean()

(40.91117381141754, 45691.49875066942, 4506.78797642633)

In [65]:
df_amostra_agrupamento['age'].mean(),df_amostra_agrupamento['income'].mean(),df_amostra_agrupamento['loan'].mean()

(41.0432231120503, 44846.74925986141, 4390.161493744205)

In [67]:
df_amostra_estratificada['age'].mean(),df_amostra_estratificada['income'].mean(),df_amostra_estratificada['loan'].mean()


(40.53363707173919, 45101.366750267334, 4423.7446510941945)

In [68]:
df_amostra_reservatorio['age'].mean(),df_amostra_reservatorio['income'].mean(),df_amostra_reservatorio['loan'].mean()

(40.57203708208336, 45111.194297345355, 4429.634971370369)