# Amostragem

## Carregamento da base de dados

In [58]:
# Carregamento da base de dados
import pandas as pd
import random
import numpy as np

In [59]:
# Carregamento dos dados do arquivo csv
dataset = pd.read_csv('..\\base-de-dados\\credit_data.csv')

## Amostragem aleatória simples

In [60]:
def amostragem_aleatoria_simples(dataframe, amostras):
    return dataset.sample(n = amostras)

## Amostragem Sistemática

In [61]:
# Função
def amostragem_sistematica(dataset, amostras):
    # intervalo de amostragem
    intervalo = len(dataset) // amostras
    # Fixa um número aleatório
    random.seed(1)
    inicio = random.randint(0, intervalo)
    # Retorna os indices escolhidos do dataset
    indices = np.arange(inicio, len(dataset), step=intervalo)
    # Retorna as linhas do dataset em função dos indices selecionados
    amostra_sistematica = dataset.iloc[indices]
    return amostra_sistematica

## Amostragem por grupos

In [62]:
# Função para resolução do problema
def amostragem_agrupamento(dataset, numero_grupos):
    intervalo = len(dataset) / numero_grupos
    grupos = []
    id_grupo = 0
    contagem = 0
    for _ in dataset.iterrows():
        grupos.append(id_grupo)
        contagem += 1
        if contagem > intervalo:
            contagem = 0
            id_grupo += 1
    dataset['grupo'] = grupos
    # Fixar o random
    random.seed(1)
    grupo_selecionado = random.randint(0, numero_grupos)
    return dataset[dataset['grupo'] == grupo_selecionado]

## Amostra Estratificada

In [63]:
# Aprendizagem de máquina para abstração
from sklearn.model_selection import StratifiedShuffleSplit

In [64]:
def amostragem_estratificada(dataset, percentual):
    split = StratifiedShuffleSplit(test_size=percentual, random_state=1)
    for _, y in split.split(dataset, dataset['c#default']):
        # amostra 10% para teste
        df_y = dataset.iloc[y]
    return df_y

## Amostragem de Reservatório

In [65]:
# Função
def amostragem_reservatorio(dataset, amostras):
    stream = []
    for i in range(len(dataset)):
        stream.append(i)
    
    i = 0
    tamanho = len(dataset)
    
    reservatorio = [0] * amostras
    for i in range(amostras):
        reservatorio[i] = stream[i]
        
    while i < tamanho:
        j = random.randrange(i+1)
        if j < amostras:
            reservatorio[j] = stream[i]
        i += 1
        
    return dataset.iloc[reservatorio]

## Comparativo dos resultados

In [79]:
media_age = []
media_age.append(dataset['age'].mean())
media_age.append(df_amostra_aleatoria_simples['age'].mean())
media_age.append(df_amostra_sistematica['age'].mean())
media_age.append(df_amostra_agrupamento['age'].mean())
media_age.append(df_amostra_estratificada['age'].mean())
media_age.append(df_amostra_reservatorio['age'].mean())
print(f'Média age{media_age}')
m = media_age[0]
for a in media_age:
    print(f'{a - m:.2f}', end=", ")
print("")


Média age[40.80755937840458, 39.51322620429564, 40.47804832633119, 46.51492485756586, 35.84743996017744, 42.19587305642664]
0.00, -1.29, -0.33, 5.71, -4.96, 1.39, 


In [81]:
media_income = []
media_income.append(dataset['income'].mean())
media_income.append(df_amostra_aleatoria_simples['income'].mean())
media_income.append(df_amostra_sistematica['income'].mean())
media_income.append(df_amostra_agrupamento['income'].mean())
media_income.append(df_amostra_estratificada['income'].mean())
media_income.append(df_amostra_reservatorio['income'].mean())
print(f'Média income{media_income}')
m = media_income[0]
for a in media_income:
    print(f'{a - m:.2f}', end=", ")
print("")

Média income[45331.600017793244, 45518.06857786141, 42839.840865461156, 47605.51129301478, 39516.1268431028, 44835.662659141235]
0.00, 186.47, -2491.76, 2273.91, -5815.47, -495.94, 


In [82]:
media_loan = []
media_loan.append(dataset['loan'].mean())
media_loan.append(df_amostra_aleatoria_simples['loan'].mean())
media_loan.append(df_amostra_sistematica['loan'].mean())
media_loan.append(df_amostra_agrupamento['loan'].mean())
media_loan.append(df_amostra_estratificada['loan'].mean())
media_loan.append(df_amostra_reservatorio['loan'].mean())
print(f'Média loan{media_loan}')
m = media_loan[0]
for a in media_loan:
    print(f'{a - m:.2f}', end=", ")
print("")

Média loan[4444.369694688258, 4560.687626884299, 4742.209210616534, 6087.659724430348, 3913.890880279618, 4560.853171789891]
0.00, 116.32, 297.84, 1643.29, -530.48, 116.48, 
