# Exercício 1 - Amostragem

## Dados

In [1]:
import pandas as pd
import numpy as np
import random

In [5]:
dataset = pd.read_csv('Bases de dados/credit_data.csv')

In [7]:
dataset.shape

(2000, 5)

In [8]:
dataset.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


## Amostragem Aleatória Simples

In [9]:
def amostragem_aleatoria_simples(dataset, amostras):
    return dataset.sample(n = amostras)

df_amostra_aleatoria_simples = amostragem_aleatoria_simples(dataset, 1000)
df_amostra_aleatoria_simples.shape

(1000, 5)

## Amostragem sistemática

In [11]:
def amostragem_sistematica(dataset, amostras):
    intervalo = len(dataset)//amostras
    random.seed(1)
    inicio = random.randint(0, intervalo)
    indices = np.arange(inicio, len(dataset), step = intervalo)
    amostra_sistematica = dataset.iloc[indices]
    return amostra_sistematica

df_amostra_sistematica = amostragem_sistematica(dataset, 1000)
df_amostra_sistematica.shape

(1000, 5)

## Amostragem por grupos

In [16]:
def amostragem_agrupamento(dataset, numero_grupos):
    intervalo = len(dataset) / numero_grupos
    grupos = []
    id_grupo = 0
    contagem = 0
    for _ in dataset.iterrows():
        grupos.append(id_grupo)
        contagem += 1
        if contagem > intervalo:
            contagem = 0
            id_grupo += 1

    dataset['grupo'] = grupos
    random.seed(1)
    grupo_selecionado = random.randint(0, numero_grupos)
    return dataset[dataset['grupo']== grupo_selecionado]

df_amostra_agrupamento = amostragem_agrupamento(dataset, 2)
df_amostra_agrupamento.shape, df_amostra_agrupamento['grupo'].value_counts()

((1001, 6),
 grupo
 0    1001
 Name: count, dtype: int64)

## Amostra estratificada

In [18]:
from sklearn.model_selection import StratifiedShuffleSplit

def amostragem_estratificada(dataset, percentual, campo):
    split = StratifiedShuffleSplit(test_size= percentual, random_state=1)
    for _, y in split.split(dataset, dataset[campo]):
        df_y = dataset.iloc[y]
    return df_y

df_amostra_estratificada = amostragem_estratificada(dataset, 0.5, 'c#default')
df_amostra_estratificada.shape

(1000, 6)

## Amostra de reservatório

In [20]:
def amostragem_reservatorio(dataset, amostras):
    stream = []
    for i in range(len(dataset)):
        stream.append(i)

    i = 0
    tamanho = len(dataset)

    reservatorio = [0] * amostras
    for i in range(amostras):
        reservatorio[i] = stream[i]

    while i < tamanho:
        j = random.randrange(i + 1)
        if j < amostras:
            reservatorio[j] = stream[i]
        i += 1

    return dataset.iloc[reservatorio]

df_amostragem_reservatorio = amostragem_reservatorio(dataset, 1000)
df_amostragem_reservatorio.shape

(1000, 6)

## Comparativo de resultados

In [21]:
# Originais
dataset['age'].mean(), dataset['income'].mean(), dataset['loan'].mean()

(np.float64(40.80755937840458),
 np.float64(45331.600017793244),
 np.float64(4444.369694688258))

In [30]:
df_amostra_aleatoria_simples['age'].mean(), df_amostra_aleatoria_simples['income'].mean(), df_amostra_aleatoria_simples['loan'].mean()

(np.float64(41.18707807411673),
 np.float64(45831.30490893964),
 np.float64(4611.929962491109))

In [31]:
df_amostra_sistematica['age'].mean(), df_amostra_sistematica['income'].mean(), df_amostra_sistematica['loan'].mean()

(np.float64(40.91117381141754),
 np.float64(45691.49875066942),
 np.float64(4506.78797642633))

In [32]:
df_amostra_agrupamento['age'].mean(), df_amostra_agrupamento['income'].mean(), df_amostra_agrupamento['loan'].mean()

(np.float64(41.0432231120503),
 np.float64(44846.74925986141),
 np.float64(4390.161493744205))

In [33]:
df_amostra_estratificada['age'].mean(), df_amostra_estratificada['income'].mean(), df_amostra_estratificada['loan'].mean()

(np.float64(40.53363707173919),
 np.float64(45101.366750267334),
 np.float64(4423.7446510941945))

In [34]:
df_amostragem_reservatorio['age'].mean(), df_amostragem_reservatorio['income'].mean(), df_amostragem_reservatorio['loan'].mean()

(np.float64(41.05617173205278),
 np.float64(44974.18548403076),
 np.float64(4335.577667069037))