* O objetivo deste exercício é utilizar outra base de dados para testar as amostragens e comparar os resultados

* Faça o download e carregue a base de dados credit_data.csv, que possui informações sobre empréstimos (se o cliente pagará ou não pagará o empréstimo)

* Teste cada uma das técnicas de amostragem, selecionando 1000 registros

* Para a amostragem estratificada, utilize o atributo c#default para separar as categorias

* No final, faça o comparativo da média utilizando os atributos age, income e loan

In [5]:
import pandas as pd
import amostragens

In [4]:
# Leitura da base de dados
df_credit_data = pd.read_csv('credit_data.csv')

# Visualização do cabeçalho
df_credit_data.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


**Amostragem aleatória simples**

In [7]:
# Selecionando 1000 registros para compor a amostra
df_amostra_aleatoria_simples = amostragens.amostragem_aleatoria_simples(df_credit_data, 1000, 'valor_numerico')

# Visualização da amostra coletada
df_amostra_aleatoria_simples.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
674,675,34158.633968,29.421142,2911.408067,0
1699,1700,25789.742025,45.316211,4442.33178,0
1282,1283,59589.064289,20.609764,4191.715856,0
1315,1316,49908.291867,29.55094,2903.036128,0
1210,1211,69132.462579,33.471182,7621.410219,0


**Amostragem sistemática**

In [8]:
# Selecionando 1000 registros para compor a amostra
df_amostra_sistematica = amostragens.amostragem_sistematica(df_credit_data, 1000)

# Visualização da amostra coletada
df_amostra_sistematica.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
2,3,57317.170063,63.108049,8020.953296,0
4,5,66952.688845,18.584336,8770.099235,1
6,7,48430.359613,26.809132,5722.581981,0
8,9,40654.892537,55.496853,4755.82528,0


**Amostragem conglomerada**

In [13]:
# Como temos 2000 registros no df_credit_data, vou utilizar dois grupos de amostra (cada um com 1000 registros)

# Selecionando 1000 registros para compor a amostra
df_amostra_conglomerada = amostragens.amostragem_conglomerada(df_credit_data, 2)

# Visualização da amostra coletada
df_amostra_conglomerada.head()

Unnamed: 0,i#clientid,income,age,loan,c#default,grupo
0,1,66155.925095,59.017015,8106.532131,0,0
1,2,34415.153966,48.117153,6564.745018,0,0
2,3,57317.170063,63.108049,8020.953296,0,0
3,4,42709.534201,45.751972,6103.64226,0,0
4,5,66952.688845,18.584336,8770.099235,1,0


**Amostragem estratificada**

In [15]:
# Selecionando 1000 registros para compor a amostra
df_amostra_estratificada = amostragens.amostragem_estratificada(df_credit_data, 0.5, 'c#default')

# Visualização da amostra coletada
df_amostra_estratificada.head()

Unnamed: 0,i#clientid,income,age,loan,c#default,grupo
1374,1375,35916.704154,53.540443,6401.189486,0,1
253,254,25259.401631,39.739766,4341.008082,0,0
1149,1150,56317.08282,24.653482,8045.440953,1,1
1453,1454,28630.009508,27.29153,4406.995056,1,1
1929,1930,27514.088473,36.278684,192.144611,0,1


**Comparação da média utilizando os atributos age, income e loan**

In [37]:
# O ideal é ter uma amostra onde a média dos atributos é bem próxima da média da população.

# Atributos que precisam ser analisados
list_atributos = ['age', 'income', 'loan']

dict_amostragens = {
    'amostragem aleatória simples': df_amostra_aleatoria_simples,
    'amostragem sistemática': df_amostra_sistematica,
    'amostragem conglomerada': df_amostra_conglomerada,
    'amostragem estratificada': df_amostra_estratificada
}

for atributo in list_atributos:

    print("-" * 18 + "  Analisando o atributo: " + atributo + "  " + "-" * 18)
    print(f"Média do atributo {atributo} da população: {round(df_credit_data[atributo].mean(),2)}")

    for tipo_amostragem, df_amostra in dict_amostragens.items():

        print("Utilizando " + tipo_amostragem)
        print(f"Média do atributo {atributo} da amostra: {round(df_amostra[atributo].mean(),2)}")
        print(f"Diferença absoluta da média da amostra pra média da população: {round(abs(df_amostra[atributo].mean() - df_credit_data[atributo].mean()),2)}")


------------------  Analisando o atributo: age  ------------------
Média do atributo age da população: 40.81
Utilizando amostragem aleatória simples
Média do atributo age da amostra: 40.5
Diferença absoluta da média da amostra pra média da população: 0.31
Utilizando amostragem sistemática
Média do atributo age da amostra: 40.91
Diferença absoluta da média da amostra pra média da população: 0.1
Utilizando amostragem conglomerada
Média do atributo age da amostra: 41.04
Diferença absoluta da média da amostra pra média da população: 0.24
Utilizando amostragem estratificada
Média do atributo age da amostra: 40.53
Diferença absoluta da média da amostra pra média da população: 0.27
------------------  Analisando o atributo: income  ------------------
Média do atributo income da população: 45331.6
Utilizando amostragem aleatória simples
Média do atributo income da amostra: 45563.27
Diferença absoluta da média da amostra pra média da população: 231.67
Utilizando amostragem sistemática
Média do 