# Exercício da Parte I do curso de estatística para Ciência de Dados (Udemy)

*Olá, o objetivo deste exercício é utilizar outra base de dados para testar as amostragens e comparar os resultados:*

- *Faça o download e carregue a base de dados credit_data.csv, que possui informações sobre empréstimos (se o cliente pagará ou não pagará o empréstimo)*
- *Teste cada uma das técnicas de amostragem, selecionando 1000 registros*
- *Para a amostragem estratificada, utilize o atributo c#default para separar as categorias*
- *No final, faça o comparativo da média utilizando os atributos age, income e loan*

In [37]:
import pandas as pd
import numpy as np

In [38]:
dataset = pd.read_csv('credit_data.csv')
dataset.shape

(2000, 5)

In [39]:
dataset.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


In [43]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   i#clientid  2000 non-null   int64  
 1   income      2000 non-null   float64
 2   age         1997 non-null   float64
 3   loan        2000 non-null   float64
 4   c#default   2000 non-null   int64  
dtypes: float64(3), int64(2)
memory usage: 78.2 KB


In [44]:
dataset['age'].isnull().value_counts()

False    1997
True        3
Name: age, dtype: int64

In [45]:
media_idade = dataset['age'].mean()
media_idade

40.80755937840458

In [46]:
dataset['age'].fillna(media_idade, inplace=True)
dataset['age'].isnull().value_counts()

False    2000
Name: age, dtype: int64

In [47]:
media_idade

40.80755937840458

In [48]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   i#clientid  2000 non-null   int64  
 1   income      2000 non-null   float64
 2   age         2000 non-null   float64
 3   loan        2000 non-null   float64
 4   c#default   2000 non-null   int64  
dtypes: float64(3), int64(2)
memory usage: 78.2 KB


### Usando amostragem aleatória simples

In [127]:
import random

In [128]:
def amostragem_aleatorica_simples(dataset, amostras):
    return dataset.sample(n = amostras, random_state=42)

In [129]:
df_amostra_aleatoria_simples = amostragem_aleatorica_simples(dataset, 1000)
df_amostra_aleatoria_simples.shape

(1000, 6)

In [130]:
df_amostra_aleatoria_simples['age'].mean()

40.55126822154169

In [131]:
df_amostra_aleatoria_simples['income'].mean()

45703.01892576971

In [132]:
df_amostra_aleatoria_simples['loan'].mean()

4498.38878999269

### Usando amostragem aleatória sistemática

In [133]:
def amostragem_sistematica(dataset, amostras):
    intervalo = len(dataset) // amostras
    random.seed(42)
    inicio= random.randint(0,intervalo)
    indices = np.arange(inicio, len(dataset), step=intervalo)
    amostra_sistematica = dataset.iloc[indices]
    return amostra_sistematica

In [134]:
df_amostra_sistematica = amostragem_sistematica(dataset, 1000)
df_amostra_sistematica.shape

(999, 6)

In [156]:
df_amostra_sistematica['age'].mean()

40.892842409894484

In [157]:
df_amostra_sistematica['income'].mean()

45671.013839413754

In [158]:
df_amostra_sistematica['loan'].mean()

4503.184628923969

### Usando amostragem aleatória por grupo

In [174]:
def amostragem_agrupamento(dataset, numero_grupos):
    intervalo = len(dataset)/numero_grupos
    
    grupos = []
    id_grupo = 0
    contagem = 0
    for _ in dataset.iterrows():
        grupos.append(id_grupo)
        contagem +=1
        if contagem > intervalo:
            contagem = 0
            id_grupo += 1
            
    dataset['grupo'] = grupos
    random.seed(1)
    grupo_selecionado = random.randint(0, numero_grupos)
    return dataset[dataset['grupo'] == grupo_selecionado]

In [181]:
df_amostra_agrupamento = amostragem_agrupamento(dataset, 2)
df_amostra_agrupamento.shape, df_amostra_agrupamento['grupo'].value_counts()

((1001, 6),
 0    1001
 Name: grupo, dtype: int64)

In [176]:
df_amostra_agrupamento['age'].mean()

41.04251682713428

In [177]:
df_amostra_agrupamento['income'].mean()

44846.74925986141

In [178]:
df_amostra_agrupamento['loan'].mean()

4390.161493744205

### Usando amostragem estratificada

In [105]:
from sklearn.model_selection import StratifiedShuffleSplit

In [143]:
def amostragem_estratificada(dataset, amostra, variavel):
    percentual = amostra / len(dataset)
    split = StratifiedShuffleSplit(test_size=percentual, random_state=42)
    for _, y in split.split(dataset, dataset[variavel]):        
        df_y = dataset.iloc[y]            
    return df_y

In [144]:
df_amostra_estratificada = amostragem_estratificada(dataset, 1000, 'c#default')
df_amostra_estratificada['c#default'].value_counts(normalize=True).round(4)

0    0.858
1    0.142
Name: c#default, dtype: float64

In [145]:
df_amostra_estratificada['age'].mean()

40.249628931841265

In [146]:
df_amostra_estratificada['income'].mean()

45058.05344115943

In [147]:
df_amostra_estratificada['loan'].mean()

4426.26764870883

### Usando amostragem de reservatório

In [148]:
def amostragem_reservatorio(dataset, amostras):
    stream = [] #cria uma lista vazia
    for i in range(len(dataset)): #na sequência cria um range de valores para preenchimento da lista
        stream.append(i) #o conjunto final fica [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
        
    i=0
    tamanho = len(dataset) #cria uma variável tamanho, com o tamanho total de itens do dataset
    
    reservatorio = [0] * amostras #cria um conjunto inicial de amostras, por exemplo, 3 amostras, o conjunto seria [0,0,0]
    for i in range(amostras): #cria um range com o tamanho da amostra para preenchimento dos valores dessa lista
        reservatorio[i] = stream[i] #há um cruzamento das informações, com base nas listas RESERVATORIO e STREAM
        #Por exemplo, no item 0 a posição 0 da lista reservatório receberá o valor que consta na posição 0 da lista stream
    
    while i < tamanho: #loop para verificar se o i é menor que o tamanho do dataset
        j = random.randrange(i + 1) #no mesmo sentido de cruzamento das informações, o J será um valor randômico entre o valor de i + 1
        if j < amostras: #a partir do valor randômico gerado, há um if para verificar se esse valor é menor que a amostra
            reservatorio[j] = stream[i] #há novamente um cruzamento das informações, com base nas listas RESERVATORIO e STREAM, no entanto, agora os parâmetros são J e I        
        i += 1 #há um incremento no valor de i
    
    return dataset.iloc[reservatorio] #quando o looping encerrar com o tamanho das amostras, a função retorna o dataset, filtrando o índice/index.
                                      #o filtro é feito com o método iloc e como parâmetro a lista 'reservatorio', para pegar somente as linhas da amostra realizada

In [149]:
df_amostragem_reservatorio = amostragem_reservatorio(dataset, 1000)
df_amostragem_reservatorio.shape

(1000, 6)

In [150]:
df_amostragem_reservatorio['age'].mean()

40.84483078816575

In [151]:
df_amostragem_reservatorio['income'].mean()

44994.745658151805

In [152]:
df_amostragem_reservatorio['loan'].mean()

4397.65747838094

### Avaliação dos Resultados - Comparando com o dataset de origem

In [153]:
dataset['age'].mean()

40.80755937840458

In [154]:
dataset['income'].mean()

45331.600017793244

In [155]:
dataset['loan'].mean()

4444.369694688258

#### Anotações e Observações

- Para a variável 'age' o método de amostragem que mais se aproximou da origem foi o RESERVATÓRIO (40.84 para 40.80 do original)
- Para a variável 'income' o método de amostragem que mais se aproximou da origem foi o SISTEMÁTICO (45671 para 45331 do original)
- Para a variável 'loan' o método de amostragem que mais se aproximou da origem foi o ESTRATIFICADO (4426 para 4444 do original)

| Variáveis | ***DATASET ORIGEM*** | SIMPLES | SISTEMÁTICO | GRUPOS | ESTRATIFICADO | RESERVATÓRIO |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| AGE |	***40,80*** | 40,55 | 40,89 | 41,04 | 40,25 | 40,84 |
| INCOME | ***45331*** | 45703 | 45671 | 44846 | 45058 | 44994 |
| LOAN | ***4444*** | 4498 | 4503 | 4390 | 4426 | 4397 |
| MÉDIA | ***16605,27*** | 16747,18 | 16738,30 | 16425,70 | 16508,08 | 16477,28 |
| DESVIO/DIFERENÇA | *** | -141,91 | -133,03 | 179,58 | 97,18 | 127,98 |


Para analisar o conjunto com  o método que melhor performou, utilizei o esquema acima, em que calculei a média geral (considerando a média de todas as variáveis individualmente) e em seguida comparando o resultado do dataset de origem em relação aos desvios obtidos entre os tipos de amostragem, de tal forma que foi possível concluir que o método de **amostragem aleatória estratificada** obteve os melhores resultados:
| | **Dataset Origem** | **Dataset Estratificado**  |
| :---: | :----: | :----: |
| Age | 40.80 | 40.25 |
| Income | 45331 | 45058 |
| Loan | 4444 | 4397 |

***Novamente ressalta-se a importância de executar maiores testagens, visto que o resultado obtido concluiu apenas com uma testagem única de random state (42)*** *

*Exceto o modelo de grupos, que usei o random state 1