In [None]:
import pandas as pd
import random
import numpy as np

In [None]:
caminho = '/content/credit_data.csv'
dados = pd.read_csv(caminho)
dados

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
...,...,...,...,...,...
1995,1996,59221.044874,48.518179,1926.729397,0
1996,1997,69516.127573,23.162104,3503.176156,0
1997,1998,44311.449262,28.017167,5522.786693,1
1998,1999,43756.056605,63.971796,1622.722598,0


In [None]:
#Amosntragem aleatória simples 

dados_amostragem_aleatoria = dados.sample(n = 1000, random_state = 2)

In [None]:
dados_amostragem_aleatoria.shape

(1000, 5)

In [None]:
#Amostragem sistematica 

def amostragem_sistematica (dados, amostra):
  intervalo = len(dados) // amostra
  random.seed(1)
  inicio = random.randint(0, intervalo)
  indices = np.arange(inicio, len(dados), step = intervalo)
  amostra_sistematica = dados.iloc[indices]
  return amostra_sistematica

In [None]:
dados_amostragem_sistematica = amostragem_sistematica(dados,1000)
dados_amostragem_sistematica.shape

(1000, 5)

In [None]:
# amostra estratificada 

from sklearn.model_selection import StratifiedShuffleSplit

In [None]:
dados['c#default'].value_counts()

0    1717
1     283
Name: c#default, dtype: int64

In [None]:
1717 / len(dados), 283 / len(dados)

(0.8585, 0.1415)

In [None]:
0.8585 + 0.1415

1.0

In [None]:
1000 / len(dados)

0.5

In [None]:
split = StratifiedShuffleSplit(test_size=0.5)
for x, y in split.split(dados, dados['c#default']):
  df_x = dados.iloc[x]
  df_y = dados.iloc[y]

df_x.shape, df_y.shape

((1000, 5), (1000, 5))

In [None]:
def amostragem_estratificada(dados, percentual):
  split = StratifiedShuffleSplit(test_size=percentual, random_state=1)
  for _, y in split.split(dados, dados['c#default']):
    df_y = dados.iloc[y]
  return df_y

In [None]:
dados_amostra_estratificada = amostragem_estratificada(dados, 0.5)
dados_amostra_estratificada.shape

(1000, 5)

In [None]:
# amostragem de reservatório 

stream = []
for i in range(len(dados)):
  stream.append(i)

In [None]:
def amostragem_reservatorio(dados, amostras):
  stream = []
  for i in range(len(dados)):
    stream.append(i)

  i = 0
  tamanho = len(dados)

  reservatorio = [0] * amostras
  for i in range(amostras):
    reservatorio[i] = stream[i]

  while i < tamanho:
    j = random.randrange(i + 1)
    if j < amostras:
      reservatorio[j] = stream[i]
    i += 1

  return dados.iloc[reservatorio]
  

In [None]:
dados_amostragem_reservatorio = amostragem_reservatorio(dados, 1000)
dados_amostragem_reservatorio.shape

(1000, 5)

In [None]:
dados.head(5)

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


In [None]:
# comparativo dos resultados

media_idade  = dados['age'].mean()
media_income = dados['income'].mean()
media_loan   = dados['loan'].mean()

print('Médias dados original: ', media_idade,'|',media_income,'|',media_loan)

#-------------------------------------------------------------------------------------------------------------------------

media_idade_simples  = dados_amostragem_aleatoria['age'].mean()
media_income_simples = dados_amostragem_aleatoria['income'].mean()
media_loan_simples   = dados_amostragem_aleatoria['loan'].mean()

print('Médias amostragem aleatória simples: ', media_idade_simples,'|',media_income_simples,'|',media_loan_simples)

#-------------------------------------------------------------------------------------------------------------------------

media_idade_estratificada  = dados_amostra_estratificada['age'].mean()
media_income_estratificada = dados_amostra_estratificada['income'].mean()
media_loan_estratificada   = dados_amostra_estratificada['loan'].mean()

print('Médias amostragem estratificada: ', media_idade_estratificada,'|',media_income_estratificada,'|',media_loan_estratificada)

#-------------------------------------------------------------------------------------------------------------------------

media_idade_sistematica  = dados_amostragem_sistematica['age'].mean()
media_income_sistematica = dados_amostragem_sistematica['income'].mean()
media_loan_sistematica   = dados_amostragem_sistematica['loan'].mean()

print('Médias amostragem sistematica: ', media_idade_sistematica,'|',media_income_sistematica,'|',media_loan_sistematica)

#-------------------------------------------------------------------------------------------------------------------------

media_idade_reservatorio  = dados_amostragem_reservatorio['age'].mean()
media_income_reservatorio = dados_amostragem_reservatorio['income'].mean()
media_loan_reservatorio   = dados_amostragem_reservatorio['loan'].mean()

print('Médias amostragem  reservatório: ', media_idade_reservatorio,'|',media_income_reservatorio,'|',media_loan_reservatorio)


Médias dados original:  40.80755937840458 | 45331.60001779333 | 4444.369694688262
Médias amostragem aleatória simples:  41.07592376650034 | 44871.04289095147 | 4413.72192637836
Médias amostragem estratificada:  40.53363707173919 | 45101.36675026739 | 4423.744651094196
Médias amostragem sistematica:  40.91117381141754 | 45691.49875066951 | 4506.787976426329
Médias amostragem  reservatório:  41.05617173205278 | 44974.18548403079 | 4335.577667069038
