# Exercício 1

Olá,

O objetivo deste exercício é utilizar outra base de dados para testar as amostragens e comparar os resultados

Faça o download e carregue a base de dados credit_data.csv, que possui informações sobre empréstimos (se o cliente pagará ou não pagará o empréstimo)

Teste cada uma das técnicas de amostragem, selecionando 1000 registros

Para a amostragem estratificada, utilize o atributo c#default para separar as categorias

No final, faça o comparativo da média utilizando os atributos age, income e loan

In [102]:
import pandas as pd
import numpy as np
import random
from sklearn.model_selection import StratifiedShuffleSplit

In [103]:
dataset = pd.read_csv(r'C:\Python\Estatistica Machine Learning\resources\credit_data.csv', sep=',')

In [104]:
dataset.head()

Unnamed: 0,clientid,income,age,loan,default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


In [105]:
1000 / len(dataset)

0.5

### Amostra Aletória

In [106]:
# Amostra aleatória simples
def amostragem_simples(dataset, amostra):
    return dataset.sample(n = amostra, random_state= 1)

In [107]:
df_amostragem_simples = amostragem_simples(dataset, 1000)
df_amostragem_simples.shape

(1000, 5)

### Amostra Sistemática

In [108]:
#Amostra sistematica
def amostragem_sistematica(dataset, amostra):
    intervalo = len(dataset) // amostra
    random.seed(1)
    inicio = random.randint(0, intervalo)
    indices = np.arange(inicio, len(dataset), step = intervalo)
    amostra_sistematica = dataset.iloc[indices]
    return amostra_sistematica

In [109]:
df_amostragem_sistematica = amostragem_sistematica(dataset, 1000)
df_amostragem_sistematica.shape

(1000, 5)

### Amostra Agrupamento

In [110]:
#Amostra agrupamento
def amostragem_agrupamento(dataset, numero_grupos):
    intervalo = len(dataset) / numero_grupos
    grupos = []
    id_grupo = 0
    contagem = 0

    for _ in dataset.iterrows():
        grupos.append(id_grupo)
    
        if contagem > intervalo:
            id_grupo+= 1
            contagem = 0
        
        contagem+= 1

    dataset['grupo'] = grupos
    random.seed(1)
    grupo_selecionado = random.randint(0, numero_grupos)
    return dataset[dataset['grupo'] == grupo_selecionado]
    

In [111]:
df_amostragem_agrupamento =  amostragem_agrupamento(dataset, 2)
df_amostragem_agrupamento.shape

(1002, 6)

### Amostra Estratificada

In [112]:
#Amostra estratificada
def amostragem_estratificada(dataset, percentual, campo):
    split =  StratifiedShuffleSplit(test_size=percentual, random_state=1)

    for _, y in split.split(dataset, dataset[campo]):
        df_y = dataset.iloc[y]

    return df_y

In [113]:
df_amostragem_estratificada = amostragem_estratificada(dataset, 0.5, 'default')
df_amostragem_estratificada.shape

(1000, 6)

### Amostra reservatório

In [114]:
#Amostragem reservatório
def amostragem_reservatorio(dataset, amostras):
    stream = []
    for i in range(len(dataset)):
        stream.append(i)

    i = 0
    tamanho = len(dataset)

    resevatorio = [0] * amostras
    for i in range(amostras):
        resevatorio[i] = stream[i]

    
    while i < tamanho:
        j = random.randrange(i + 1)

        if j < amostras:
            resevatorio[j] = stream[i]

        i+= 1

    return dataset.iloc[resevatorio]

In [115]:
df_amostragem_reservatorio = amostragem_reservatorio(dataset, 1000)
df_amostragem_reservatorio.shape

(1000, 6)

### Comparativo dos resultados

In [None]:
dataset['age'].mean(), dataset['income'].mean(), dataset['loan'].mean()

(np.float64(40.80755937840458),
 np.float64(45331.600017793244),
 np.float64(4444.369694688258))

In [125]:
df_amostragem_simples['age'].mean(), df_amostragem_simples['income'].mean(), df_amostragem_simples['loan'].mean()

(np.float64(40.49552561124429),
 np.float64(45563.268653769046),
 np.float64(4449.446900442365))

In [126]:
df_amostragem_sistematica['age'].mean(), df_amostragem_sistematica['income'].mean(), df_amostragem_sistematica['loan'].mean()

(np.float64(40.91117381141754),
 np.float64(45691.49875066942),
 np.float64(4506.78797642633))

In [127]:
df_amostragem_agrupamento['age'].mean(), df_amostragem_agrupamento['income'].mean(), df_amostragem_agrupamento['loan'].mean()

(np.float64(41.03431620343623),
 np.float64(44864.28963364346),
 np.float64(4388.616056547619))

In [128]:
df_amostragem_estratificada['age'].mean(), df_amostragem_estratificada['income'].mean(), df_amostragem_estratificada['loan'].mean()

(np.float64(40.53363707173919),
 np.float64(45101.366750267334),
 np.float64(4423.7446510941945))

In [129]:
df_amostragem_reservatorio['age'].mean(), df_amostragem_reservatorio['income'].mean(), df_amostragem_reservatorio['loan'].mean()

(np.float64(40.57203708208336),
 np.float64(45111.194297345355),
 np.float64(4429.634971370369))