<a href="https://colab.research.google.com/github/eliasssantana/samplings_types/blob/main/Amostragens_credit_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np
import random

---
>## **Tipos de amostragem**



>### Carregamento de dados

In [2]:
dados = pd.read_csv('credit_data.csv')

In [3]:
dados.shape

(2000, 5)

In [4]:
dados.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


>### Amostragem aleatória

In [5]:
def amostragem_aleatoria_simples(dataset, amostras):
  return dataset.sample(n=amostras, random_state=1)

In [6]:
df_amostra_aleatoria_simples = amostragem_aleatoria_simples(dados, 1000)

In [7]:
df_amostra_aleatoria_simples.shape

(1000, 5)

In [8]:
df_amostra_aleatoria_simples.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
674,675,34158.633968,29.421142,2911.408067,0
1699,1700,25789.742025,45.316211,4442.33178,0
1282,1283,59589.064289,20.609764,4191.715856,0
1315,1316,49908.291867,29.55094,2903.036128,0
1210,1211,69132.462579,33.471182,7621.410219,0


>### Amostragem sistemática

In [9]:
len(dados) // 1000

2

In [10]:
def amostragem_sistematica(dataset, amostras):
  intervalo = len(dataset) // amostras
  random.seed(1)
  inicio = random.randint(0, intervalo)
  fim = len(dataset)
  indices = np.arange(inicio, fim, step=intervalo)
  amostra_sitematica = dataset.iloc[indices]
  return amostra_sitematica



In [11]:
df_amostra_sistematica = amostragem_sistematica(dados, 1000)

In [12]:
df_amostra_sistematica.shape

(1000, 5)

In [13]:
df_amostra_sistematica.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
2,3,57317.170063,63.108049,8020.953296,0
4,5,66952.688845,18.584336,8770.099235,1
6,7,48430.359613,26.809132,5722.581981,0
8,9,40654.892537,55.496853,4755.82528,0


>### Amostragem por grupo

In [14]:
def amostragem_agrupamento(dataset, num_grupos):
  intervalo = len(dataset) // num_grupos
  grupo = []
  id_grupo = 0
  contador = 0
  for i in dataset.iterrows():
    grupo.append(id_grupo)
    contador += 1

    if contador > intervalo:
      contador = 0
      id_grupo += 1

  dataset['grupo'] = grupo
  random.seed(1)

  grupo_escolhido = random.randint(0, num_grupos)

  return dataset[dataset['grupo'] == grupo_escolhido]

In [15]:
df_amostra_agrupamento = amostragem_agrupamento(dados, 2)
df_amostra_agrupamento.shape, df_amostra_agrupamento['grupo'].value_counts()

((1001, 6), 0    1001
 Name: grupo, dtype: int64)

In [16]:
df_amostra_agrupamento.head()

Unnamed: 0,i#clientid,income,age,loan,c#default,grupo
0,1,66155.925095,59.017015,8106.532131,0,0
1,2,34415.153966,48.117153,6564.745018,0,0
2,3,57317.170063,63.108049,8020.953296,0,0
3,4,42709.534201,45.751972,6103.64226,0,0
4,5,66952.688845,18.584336,8770.099235,1,0


>### Amostra estratificada

In [17]:
from sklearn.model_selection import StratifiedShuffleSplit

In [18]:
def amostragem_estratificada(dataset, amostras, campo):
  percentual = amostras / len(dataset)
  split = StratifiedShuffleSplit(test_size=percentual, random_state=1)

  for _, y in split.split(dataset, dataset[campo]):
    df_y = dataset.iloc[y]

  return df_y

In [19]:
df_amostra_estratificada = amostragem_estratificada(dados, 1000, 'c#default')
df_amostra_estratificada.shape, df_amostra_estratificada['c#default'].value_counts(), dados['c#default'].value_counts()

((1000, 6), 0    858
 1    142
 Name: c#default, dtype: int64, 0    1717
 1     283
 Name: c#default, dtype: int64)

>### Amostra reservatório

In [20]:
def amostragem_reservatorio(dataset, amostras):
  stream = []
  

  for i in range(len(dataset)):
    stream.append(i)

  i = 0
  tamanho_dataset = len(dataset)
  
  reservatorio = [0] * amostras

  for i in range(amostras):
    reservatorio[i] = stream[i]

  

  while (i < tamanho_dataset):
    j = random.randrange(i + 1)
    if(j < amostras):
      reservatorio[j] = stream[i]
    i += 1
  
  return dataset.iloc[reservatorio]

In [21]:
df_amostra_reservatorio = amostragem_reservatorio(dados, 1000)
df_amostra_reservatorio.shape

(1000, 6)

In [22]:
df_amostra_reservatorio.head()

Unnamed: 0,i#clientid,income,age,loan,c#default,grupo
0,1,66155.925095,59.017015,8106.532131,0,0
1649,1650,62219.037539,19.523983,5831.521429,0,1
2,3,57317.170063,63.108049,8020.953296,0,0
1114,1115,37887.549393,24.415726,5061.777831,1,1
1023,1024,68414.120777,51.046781,6154.052457,0,1


In [23]:
df_amostra_reservatorio.tail()

Unnamed: 0,i#clientid,income,age,loan,c#default,grupo
1476,1477,46024.144562,24.174516,4318.377722,0,1
996,997,49104.76824,35.538517,9452.217947,0,0
997,998,65776.232413,39.798191,2805.863745,0,0
998,999,36192.149452,21.402403,7236.17393,1,0
1573,1574,68503.20589,19.280535,3580.463677,0,1


>### Comparativo dos resultados

In [24]:
dados['age'].mean(), dados['income'].mean(), dados['loan'].mean()

(40.80755937840458, 45331.600017793244, 4444.369694688258)

In [25]:
df_amostra_aleatoria_simples['age'].mean(), df_amostra_aleatoria_simples['income'].mean(), df_amostra_aleatoria_simples['loan'].mean()

(40.49552561124429, 45563.268653769046, 4449.446900442365)

In [26]:
df_amostra_sistematica['age'].mean(), df_amostra_sistematica['income'].mean(), df_amostra_sistematica['loan'].mean()

(40.91117381141754, 45691.49875066942, 4506.78797642633)

In [27]:
df_amostra_agrupamento['age'].mean(), df_amostra_agrupamento['income'].mean(), df_amostra_agrupamento['loan'].mean()

(41.0432231120503, 44846.74925986141, 4390.161493744205)

In [28]:
df_amostra_estratificada['age'].mean(), df_amostra_estratificada['income'].mean(), df_amostra_estratificada['loan'].mean()

(40.53363707173919, 45101.366750267334, 4423.7446510941945)

In [29]:
df_amostra_reservatorio['age'].mean(), df_amostra_reservatorio['income'].mean(), df_amostra_reservatorio['loan'].mean()

(40.57203708208336, 45111.194297345355, 4429.634971370369)

In [45]:
def acuracia_amostras(dados, df_amostra_aleatoria_simples, df_amostra_sistematica, df_amostra_agrupamento, df_amostra_estratificada, df_amostra_reservatorio):
  media_idade_real = dados['age'].mean()
  media_renda_real = dados['income'].mean()
  media_emprestimo_real = dados['loan'].mean()

  precisao_amostra_aleatoria_simples = [ media_idade_real - df_amostra_aleatoria_simples['age'].mean(), media_renda_real - df_amostra_aleatoria_simples['income'].mean(), media_emprestimo_real - df_amostra_aleatoria_simples['loan'].mean()]
  precisao_amostra_sistematica = [ media_idade_real - df_amostra_sistematica['age'].mean(), media_renda_real - df_amostra_sistematica['income'].mean(), media_emprestimo_real - df_amostra_sistematica['loan'].mean()]
  precisao_amostra_agrupamento = [ media_idade_real - df_amostra_agrupamento['age'].mean(), media_renda_real - df_amostra_agrupamento['income'].mean(), media_emprestimo_real - df_amostra_agrupamento['loan'].mean()]
  precisao_amostra_estratificada = [ media_idade_real - df_amostra_estratificada['age'].mean(), media_renda_real - df_amostra_estratificada['income'].mean(), media_emprestimo_real - df_amostra_estratificada['loan'].mean()]
  precisao_amostra_reservatorio = [ media_idade_real - df_amostra_reservatorio['age'].mean(), media_renda_real - df_amostra_reservatorio['income'].mean(), media_emprestimo_real - df_amostra_reservatorio['loan'].mean()]

  total_amostra_aleatoria_simples = sum([abs(i) for i in precisao_amostra_aleatoria_simples])
  total_amostra_sistematica = sum([ abs(i) for i in precisao_amostra_sistematica])
  total_amostra_agrupamento = sum([ abs(i) for i in precisao_amostra_agrupamento])
  total_amostra_estratificada = sum([ abs(i) for i in precisao_amostra_estratificada])
  total_amostra_reseservatorio = sum([ abs(i) for i in precisao_amostra_reservatorio])

  amostra_mais_acurada = min([total_amostra_aleatoria_simples, total_amostra_sistematica, total_amostra_agrupamento, total_amostra_estratificada, total_amostra_reseservatorio])
  
  min_age = min(abs(precisao_amostra_aleatoria_simples[0]), abs(precisao_amostra_sistematica[0]), abs(precisao_amostra_agrupamento[0]), abs(precisao_amostra_estratificada[0]), abs(precisao_amostra_reservatorio[0]))
  min_income = min(abs(precisao_amostra_aleatoria_simples[1]), abs(precisao_amostra_sistematica[1]), abs(precisao_amostra_agrupamento[1]), abs(precisao_amostra_estratificada[1]), abs(precisao_amostra_reservatorio[1]))
  min_loan = min(abs(precisao_amostra_aleatoria_simples[2]), abs(precisao_amostra_sistematica[2]), abs(precisao_amostra_agrupamento[2]), abs(precisao_amostra_estratificada[2]), abs(precisao_amostra_reservatorio[2]))
  precisao_geral = {'amostra_aleatoria_simples': precisao_amostra_aleatoria_simples, 'amostra_sistematica': precisao_amostra_sistematica, 'amostra_agrupamento': precisao_amostra_agrupamento, 'amostra_estratificada': precisao_amostra_estratificada, 'amostra_reservatorio': precisao_amostra_reservatorio}
  return total_amostra_aleatoria_simples, total_amostra_sistematica, total_amostra_agrupamento, total_amostra_estratificada, total_amostra_reseservatorio, amostra_mais_acurada

In [43]:
amostragem_aleatoria_simples_precisao = acuracia_amostras(dados, df_amostra_aleatoria_simples, df_amostra_sistematica, df_amostra_agrupamento, df_amostra_estratificada, df_amostra_reservatorio)

In [44]:
amostragem_aleatoria_simples_precisao

(237.05787549706974,
 422.4206290472641,
 539.2946226095314,
 251.1322334266386,
 235.3759660620987,
 235.3759660620987)