# Amostragem

**Amostragem é uma contagem ou medição de parte da população e é usada em estudos estatísticos**

Observação: Para coletar dados não tendenciosos, você
deve ter certeza de que a amostra represente a população

## Carregamento da base de dados

In [None]:
import pandas as pd
import random
import numpy as np

In [None]:
dataset = pd.read_csv('credit_data.csv')

In [None]:
dataset.shape

In [None]:
dataset.head()

In [None]:
dataset.tail()

## Amostragem aleatória simples

In [None]:
def amostragem_aleatoria_simples(dataset, amostras):
  return dataset.sample(n = amostras, random_state=1)

In [None]:
df_amostra_aleatoria_simples = amostragem_aleatoria_simples(dataset, 1000)
df_amostra_aleatoria_simples.shape

## Amostragem sistemática

In [None]:
def amostragem_sistematica(dataset, amostras):
	intervalo = len(dataset) // amostras
	random.seed(1)
	inicio = random.randint(0, intervalo)
	indices = np.arange(inicio, len(dataset), step = intervalo)
	amostra_sistematica = dataset.iloc[indices]
	return amostra_sistematica

In [None]:
df_amostra_sistematica = amostragem_sistematica(dataset, 1000)
df_amostra_sistematica.shape

## Amostragem por grupos

In [None]:
def amostragem_agrupamento(dataset, numero_grupos):
	intervalo = len(dataset) / numero_grupos

	grupos = []
	id_grupo = 0
	contagem = 0
	for _ in dataset.iterrows():
		grupos.append(id_grupo)
		contagem += 1
		if contagem > intervalo:
			contagem = 0
			id_grupo += 1

	dataset['grupo'] = grupos
	random.seed(1)
	grupo_selecionado = random.randint(0, numero_grupos)
	return dataset[dataset['grupo'] == grupo_selecionado]

In [None]:
len(dataset) / 2

In [None]:
df_amostra_agrupamento = amostragem_agrupamento(dataset, 2)
df_amostra_agrupamento.shape, df_amostra_agrupamento['grupo'].value_counts()

## Amostra estratificada

In [None]:
from sklearn.model_selection import StratifiedShuffleSplit

In [None]:
dataset['c#default'].value_counts()

In [None]:
def amostragem_estratificada(dataset, percentual, campo):
  split = StratifiedShuffleSplit(test_size=percentual, random_state=1)
  for _, y in split.split(dataset, dataset[campo]):
    df_y = dataset.iloc[y]
  return df_y

In [None]:
df_amostra_estratificada = amostragem_estratificada(dataset, 0.5, 'c#default')
df_amostra_estratificada.shape

## Comparativo dos resultados

In [None]:
dataset['age'].mean(), dataset['income'].mean(), dataset['loan'].mean()

In [None]:
df_amostra_aleatoria_simples['age'].mean(), df_amostra_aleatoria_simples['income'].mean(), df_amostra_aleatoria_simples['loan'].mean()

In [None]:
df_amostra_sistematica['age'].mean(), df_amostra_sistematica['income'].mean(), df_amostra_sistematica['loan'].mean()

In [None]:
df_amostra_agrupamento['age'].mean(), df_amostra_agrupamento['income'].mean(), df_amostra_agrupamento['loan'].mean()

In [None]:
df_amostra_estratificada['age'].mean(), df_amostra_estratificada['income'].mean(), df_amostra_estratificada['loan'].mean()

In [None]:
df_media = dataset['age'].mean()

modulo_aleatoria_simples = abs(df_media - df_amostra_aleatoria_simples['age'].mean())
modulo_sistematica = abs(df_media - df_amostra_sistematica['age'].mean())
modulo_agrupamento = abs(df_media - df_amostra_agrupamento['age'].mean())
modulo_estratificada = abs(df_media - df_amostra_estratificada['age'].mean())

print('--Age--')
print('')
print(f'Aleatória simples: {modulo_aleatoria_simples}')
print(f'Sistemática: {modulo_sistematica}')
print(f'Agrupamento: {modulo_agrupamento}')
print(f'Estratificado: {modulo_estratificada}')
print('')
print('Melhor método: Amostragem sistemática')

In [None]:
df_media = dataset['income'].mean()

modulo_aleatoria_simples = abs(df_media - df_amostra_aleatoria_simples['income'].mean())
modulo_sistematica = abs(df_media - df_amostra_sistematica['income'].mean())
modulo_agrupamento = abs(df_media - df_amostra_agrupamento['income'].mean())
modulo_estratificada = abs(df_media - df_amostra_estratificada['income'].mean())

print('--Income--')
print('')
print(f'Aleatória simples: {modulo_aleatoria_simples}')
print(f'Sistemática: {modulo_sistematica}')
print(f'Agrupamento: {modulo_agrupamento}')
print(f'Estratificado: {modulo_estratificada}')
print('')
print('Melhor método: Amostragem estratificada')

In [None]:
df_media = dataset['loan'].mean()

modulo_aleatoria_simples = abs(df_media - df_amostra_aleatoria_simples['loan'].mean())
modulo_sistematica = abs(df_media - df_amostra_sistematica['loan'].mean())
modulo_agrupamento = abs(df_media - df_amostra_agrupamento['loan'].mean())
modulo_estratificada = abs(df_media - df_amostra_estratificada['loan'].mean())

print('--Loan--')
print('')
print(f'Aleatória simples: {modulo_aleatoria_simples}')
print(f'Sistemática: {modulo_sistematica}')
print(f'Agrupamento: {modulo_agrupamento}')
print(f'Estratificado: {modulo_estratificada}')
print('')
print('Melhor método: Amostragem aleatória simples')