## Amostragem

Existem diferentes tipos de amostragem, sendo elas:
- Amostragem aleatória simples
- Amostragem sistemática
- Amostragem por grupos
- Amostragem estratificada
- Amostragem de reservatório

A fim de estudo para observar como cada uma funciona, foi importado um aquivo no formato CSV chamado 'census.csv'. Após as demonstrações, é apresentado um exercício com outra base de dados também no formato CSV chamada 'credit_data.csv'

### Importando as bibliotecas e carregando a base de dados

In [2]:
import pandas as pd
import random
import numpy as np

In [3]:
dataset = pd.read_csv('census.csv')
dataset.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


### Amostragem aleatória simples

De todos os tipos de amostragem, esta é a mais simples. Neste método, todos os elementos de uma população tem a mesma probabilidade de estarem na amostra.

In [4]:
# Um método para resolução:

df_amostra_aleatoria_simples = dataset.sample(n = 100)

# Onde 'n' é o número de amostras desejadas

In [49]:
# Um outro método, é construindo uma função e passando como argumentos a base de dados
# que se deseja trabalhar e a quantidade de amostras desejadas:

def amostragem_aleatoria_simples(dataset, amostras):
    return dataset.sample(n = amostras, random_state=1)

df_amostra_aleatoria_simples = amostragem_aleatoria_simples(dataset, 100)

### Amostragem sistemática

É uma variação da amostragem aleatória simples. Neste tipo de amostragem, se faz uma seleção aleatória do primeiro elemento para a amostra e logo se selecionam os itens subsequentes utilizando intervalos fixos (ou sistemáticos) até chegar ao tamanho da amostra desejada

In [51]:
# É dividido o tamanho da base de dados pelo número de amostras para ver o intervalo de seleção das amostras

len(dataset)//100

325

In [50]:
# Feita a divisão, é realizada uma seleção aleatória de por onde será iniciada a contagem

random.seed(1)
random.randint(0, 325)

68

In [8]:
# Com o auxílio da biblioteca Numpy, coloca-se o elemento obtido no passo anterior, o elemento final,
# que é o tamanho da base de dados e o passo, obtido no primeiro passo e tem-se como resultado um array

np.arange(68, len(dataset), step = 325)

array([   68,   393,   718,  1043,  1368,  1693,  2018,  2343,  2668,
        2993,  3318,  3643,  3968,  4293,  4618,  4943,  5268,  5593,
        5918,  6243,  6568,  6893,  7218,  7543,  7868,  8193,  8518,
        8843,  9168,  9493,  9818, 10143, 10468, 10793, 11118, 11443,
       11768, 12093, 12418, 12743, 13068, 13393, 13718, 14043, 14368,
       14693, 15018, 15343, 15668, 15993, 16318, 16643, 16968, 17293,
       17618, 17943, 18268, 18593, 18918, 19243, 19568, 19893, 20218,
       20543, 20868, 21193, 21518, 21843, 22168, 22493, 22818, 23143,
       23468, 23793, 24118, 24443, 24768, 25093, 25418, 25743, 26068,
       26393, 26718, 27043, 27368, 27693, 28018, 28343, 28668, 28993,
       29318, 29643, 29968, 30293, 30618, 30943, 31268, 31593, 31918,
       32243])

In [52]:
# Outra maneira de realizar esta amostragem, é por meio de uma função, sendo passado como parâmetros a
# base de dados e o número de amostras desejadas

def amostragem_sistematica(dataset, amostras):
    intervalo = len(dataset) // amostras
    random.seed(1)
    inicio = random.randint(0, intervalo)
    indices = np.arange(inicio, len(dataset), step = intervalo)
    amostra_sistematica = dataset.iloc[indices]
    return amostra_sistematica

df_amostra_sistematica = amostragem_sistematica(dataset, 100)

### Amostragem por grupos

Amostragem por grupos (ou por conglomerados) é um procedimento em que os elementos da população são selecionados aleatoriamente de forma natural por grupos (clusters)

In [11]:
# É dividido o tamanho da base de dados pelo número de grupos desejado para ver
# a quantidade de elementos em ada um dos grupos

len(dataset) / 10

3256.1

In [12]:
# É criada uma lista vazia para serem inseridos os grupos e duas variáveis com o valor 0 atribuídas à elas.
# Na variável 'id_grupo', será atribuido o número de cada um dos grupos e a variável 'conragem' é responsável
# por contar quantos elementos existem em um grupo. Quanto a contagem chegar ao limite calculado
# anteriormente, irá iniciar a contagem para outro grupo

grupos = []
id_grupo = 0
contagem = 0
for _ in dataset.iterrows():
    grupos.append(id_grupo)
    contagem += 1
    if contagem > 3256:
        contagem = 0
        id_grupo += 1

In [13]:
# Neste caso, 'grupos' retorna o número atribuído a cada grupo e 'return_counts=True' retorna quantos
# elementos há em cada grupo e neste caso não é o mesmo valor obtido da primeira divisão pois o valor 
# obtido não era inteiro

np.unique(grupos, return_counts=True)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([3257, 3257, 3257, 3257, 3257, 3257, 3257, 3257, 3257, 3248],
       dtype=int64))

In [14]:
# Os grupos formados devem ter o mesmo shape do banco de dados original, como é possível ver abaixo

np.shape(grupos), dataset.shape

((32561,), (32561, 15))

In [53]:
# Adicionando ao banco de dados original a coluna 'grupos'

dataset['grupo'] = grupos

In [54]:
# Construindo uma fórmula para a amostragem por agrupamento, tendo os atributos banco de dados
# e número de grupos desejados

def amostragem_agrupamento(dataset, numero_grupos):
    intervalo = len(dataset) / numero_grupos
    
    grupos = []
    id_grupo = 0
    contagem = 0
    for _ in dataset.iterrows():
        grupos.append(id_grupo)
        contagem += 1
        if contagem > intervalo:
            contagem = 0
            id_grupo += 1
    dataset['grupo'] = grupos
    random.seed(1)
    grupo_selecionado = random.randint(0, numero_grupos)
    return dataset[dataset['grupo'] == grupo_selecionado]

df_amostra_agrupamento = amostragem_agrupamento(dataset, 100)

### Amostragem estratificada

Consiste em dividir a população em subgrupos (“estratos”) que denotem uma homogeneidade maior que a homogeneidade da população toda, sob a análise de variáveis de estudo. Uma vez selecionados os “estratos”, sobre cada um deles são realizadas seleções aleatórias de forma independente, obtendo-se amostras parciais, que agregadas representam a amostra completa. Uma amostra estratificada proporcional garante que cada elemento da população tenha a mesma probabilidade de pertencer à amostra.

A amostragem estratificada é usada para destacar as diferenças entre os grupos em uma população, em oposição à amostragem aleatória simples, que trata todos os membros de uma população como iguais, com uma probabilidade igual de serem amostrados.

In [19]:
# Importando a biblioteca StratifiedShuffleSplit do sklearn a fim de realizar a amostragem estratificada

from sklearn.model_selection import StratifiedShuffleSplit

In [55]:
# Da coluna 'income' da base da dados, é visto a proporção dos valores menores ou iguais a 50Ke maiores
# do que 50K

dataset['income'].value_counts()

 <=50K    24720
 >50K      7841
Name: income, dtype: int64

In [21]:
#Dividindo estes valores pelo tamanho da base de dados, é obtida a proporção destes valores no todo

7841 / len(dataset), 24720 / len(dataset)

(0.2408095574460244, 0.7591904425539756)

In [59]:
# É desejado 100 amostras para a base de dados toda, portanto divide-se 100 pelo tamanho da base de dados
# e obtém-se o tamanho do teste para dividir de maneira uniforme entre as amostras

100 / len(dataset)

0.0030711587481956942

In [22]:
split = StratifiedShuffleSplit(test_size=0.0030711587481956942)
for x, y in split.split(dataset, dataset['income']): # x coloca 90% e y 10%
    df_x = dataset.iloc[x]
    df_y = dataset.iloc[y]
    
df_x.shape, df_y.shape

((32461, 16), (100, 16))

In [24]:
df_y['income'].value_counts()

 <=50K    76
 >50K     24
Name: income, dtype: int64

In [60]:
# Definindo uma função para este tipo de amostragem

def amostragem_estratificada(dataset, percentual):
    split = StratifiedShuffleSplit(test_size=percentual, random_state=1)
    for _, y in split.split(dataset, dataset['income']): #x coloca 90% e y 10%
        df_y = dataset.iloc[y]
    return df_y

df_amostra_estratificada = amostragem_estratificada(dataset, 0.0030711587481956942)

### Amostragem de reservatório

Neste modelo de amostragem, o algoritmo irá sortear um item do stream, porém, cada item deve possuir a mesma probabilidade de seleção

In [65]:
stream = []
for i in range(len(dataset)):
    stream.append(i)

In [61]:
# Definindo a função para a amostragem de reservatório

def amostragem_reservatorio(dataset, amostras):
    stream = []
    for i in range(len(dataset)):
        stream.append(i)
    
    i = 0
    tamanho = len(dataset)
    
    reservatorio = [0] * amostras
    for i in range(amostras):
        reservatorio[i] = stream[i]
    
    while i < tamanho:
        j = random.randrange(i + 1)
        if j < amostras:
            reservatorio[j] = stream[i]
        i += 1
    
    return dataset.iloc[reservatorio]

df_amostragem_reservatorio = amostragem_reservatorio(dataset, 100)

## Exercício

In [67]:
# Neste exercício, foi importada a base de dados 'credit_data.csv' e deve ser feita uma amostragem com
# 1000 amostras e com cada uma das amostragens apresentadas, sendo ao final mostrado as médias 
# das colunas 'age', 'income' e 'loan'

credit = pd.read_csv('credit_data.csv')

In [37]:
# Amostragem aleatória simples

def amostragem_aleatoria_simples1(credit, amostras):
    return credit.sample(n = amostras, random_state=1)

amostragem_aleatoria_simples1(credit, 1000)

Unnamed: 0,i#clientid,income,age,loan,c#default
674,675,34158.633968,29.421142,2911.408067,0
1699,1700,25789.742025,45.316211,4442.331780,0
1282,1283,59589.064289,20.609764,4191.715856,0
1315,1316,49908.291867,29.550940,2903.036128,0
1210,1211,69132.462579,33.471182,7621.410219,0
...,...,...,...,...,...
103,104,57296.160823,25.708482,10601.082783,1
9,10,25075.872771,39.776378,1409.230371,0
1929,1930,27514.088473,36.278684,192.144611,0
543,544,55476.656980,52.089203,4733.505830,0


In [38]:
# Amostragem sistemática

def amostragem_sistematica1(credit, amostras):
    intervalo = len(credit) // amostras
    random.seed(1)
    inicio = random.randint(0, intervalo)
    indices = np.arange(inicio, len(credit), step = intervalo)
    amostra_sistematica = credit.iloc[indices]
    return amostra_sistematica

amostragem_sistematica1(credit, 1000)

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
2,3,57317.170063,63.108049,8020.953296,0
4,5,66952.688845,18.584336,8770.099235,1
6,7,48430.359613,26.809132,5722.581981,0
8,9,40654.892537,55.496853,4755.825280,0
...,...,...,...,...,...
1990,1991,34237.575419,34.101654,2658.090632,0
1992,1993,30803.806165,23.250084,623.024153,0
1994,1995,24254.700791,37.751622,2225.284643,0
1996,1997,69516.127573,23.162104,3503.176156,0


In [39]:
# Amostragem por grupos

def amostragem_agrupamento1(credit, numero_grupos):
    intervalo = len(credit) / numero_grupos
    
    grupos = []
    id_grupo = 0
    contagem = 0
    for _ in credit.iterrows():
        grupos.append(id_grupo)
        contagem += 1
        if contagem > intervalo:
            contagem = 0
            id_grupo += 1
    credit['grupo'] = grupos
    random.seed(1)
    grupo_selecionado = random.randint(0, numero_grupos)
    return credit[credit['grupo'] == grupo_selecionado]

amostragem_agrupamento1(credit, 2)

Unnamed: 0,i#clientid,income,age,loan,c#default,grupo
0,1,66155.925095,59.017015,8106.532131,0,0
1,2,34415.153966,48.117153,6564.745018,0,0
2,3,57317.170063,63.108049,8020.953296,0,0
3,4,42709.534201,45.751972,6103.642260,0,0
4,5,66952.688845,18.584336,8770.099235,1,0
...,...,...,...,...,...,...
996,997,49104.768240,35.538517,9452.217947,0,0
997,998,65776.232413,39.798191,2805.863745,0,0
998,999,36192.149452,21.402403,7236.173930,1,0
999,1000,62165.861186,19.602543,4739.948954,0,0


In [40]:
# Amostragem estratificada, sendo coletado da coluna 'c#default'

def amostragem_estratificada1(credit, percentual, campo):
    split = StratifiedShuffleSplit(test_size=percentual, random_state=1)
    for _, y in split.split(credit, credit[campo]): #x coloca 90% e y 10%
        df_y = credit.iloc[y]
    return df_y

amostragem_estratificada1(credit, 0.5, 'c#default')

Unnamed: 0,i#clientid,income,age,loan,c#default,grupo
1374,1375,35916.704154,53.540443,6401.189486,0,1
253,254,25259.401631,39.739766,4341.008082,0,0
1149,1150,56317.082820,24.653482,8045.440953,1,1
1453,1454,28630.009508,27.291530,4406.995056,1,1
1929,1930,27514.088473,36.278684,192.144611,0,1
...,...,...,...,...,...,...
359,360,47904.341242,40.039270,6183.514146,0,0
496,497,59998.253272,54.308927,4659.535976,0,0
864,865,21856.233529,47.722768,1500.653745,0,0
1118,1119,20897.426694,28.029320,2940.423970,1,1


In [41]:
# Amostragem de reservatório

def amostragem_reservatorio1(credit, amostras):
    stream = []
    for i in range(len(credit)):
        stream.append(i)
    
    i = 0
    tamanho = len(credit)
    
    reservatorio = [0] * amostras
    for i in range(amostras):
        reservatorio[i] = stream[i]
    
    while i < tamanho:
        j = random.randrange(i + 1)
        if j < amostras:
            reservatorio[j] = stream[i]
        i += 1
    
    return credit.iloc[reservatorio]

amostragem_reservatorio1(credit, 1000)

Unnamed: 0,i#clientid,income,age,loan,c#default,grupo
0,1,66155.925095,59.017015,8106.532131,0,0
1649,1650,62219.037539,19.523983,5831.521429,0,1
2,3,57317.170063,63.108049,8020.953296,0,0
1114,1115,37887.549393,24.415726,5061.777831,1,1
1023,1024,68414.120777,51.046781,6154.052457,0,1
...,...,...,...,...,...,...
1476,1477,46024.144562,24.174516,4318.377722,0,1
996,997,49104.768240,35.538517,9452.217947,0,0
997,998,65776.232413,39.798191,2805.863745,0,0
998,999,36192.149452,21.402403,7236.173930,1,0


### Preparando para os comparativos utlizando 'age', 'income' e 'loan'

In [71]:
# Calculando as médias para as colunas da base de dados original

credit_age_mean = credit['age'].mean()
credit_income_mean = credit['income'].mean()
credit_loan_mean = credit['loan'].mean()

print(f'A média na coluna age original é de {credit_age_mean}')
print(f'A média na coluna income original é de {credit_income_mean}')
print(f'A média na coluna loan original é de {credit_loan_mean}')

A média na coluna age original é de 40.80755937840458
A média na coluna income original é de 45331.60001779333
A média na coluna loan original é de 4444.369694688262


In [72]:
# Amostragem aleatória simples

df_simples_credit = amostragem_aleatoria_simples1(credit, 1000)

df_simples_age_credit = df_amostra_aleatoria_simples_credit['age'].mean()
df_simples_income_credit = df_amostra_aleatoria_simples_credit['income'].mean()
df_simples_loan_credit = df_amostra_aleatoria_simples_credit['loan'].mean()

print(f'A média na coluna age na amostragem aleatória simples é de {df_simples_age_credit}')
print(f'A média na coluna income na amostragem aleatória simples é de {df_simples_income_credit}')
print(f'A média na coluna loan na amostragem aleatória simples é de {df_simples_loan_credit}')

A média na coluna age na amostragem aleatória simples é de 40.49552561124429
A média na coluna income na amostragem aleatória simples é de 45563.26865376901
A média na coluna loan na amostragem aleatória simples é de 4449.4469004423645


In [73]:
# Amostragem sistemática

df_amostra_sistematica_credit = amostragem_sistematica1(credit, 1000)

df_sistematica_age_credit = df_amostra_sistematica_credit['age'].mean()
df_sistematica_income_credit = df_amostra_sistematica_credit['income'].mean()
df_sistematica_loan_credit = df_amostra_sistematica_credit['loan'].mean()

print(f'A média na coluna age na amostragem sistemática é de {df_sistematica_age_credit}')
print(f'A média na coluna income na amostragem sistemática é de {df_sistematica_income_credit}')
print(f'A média na coluna loan na amostragem sistemática é de {df_sistematica_loan_credit}')

A média na coluna age na amostragem sistemática é de 40.91117381141754
A média na coluna income na amostragem sistemática é de 45691.49875066951
A média na coluna loan na amostragem sistemática é de 4506.787976426329


In [74]:
# Amostragem por grupos

df_amostra_grupos_credit = amostragem_agrupamento1(credit, 2)

df_grupos_age_credit = df_amostra_grupos_credit['age'].mean()
df_grupos_income_credit = df_amostra_grupos_credit['income'].mean()
df_grupos_loan_credit = df_amostra_grupos_credit['loan'].mean()

print(f'A média na coluna age na amostragem por grupos é de {df_grupos_age_credit}')
print(f'A média na coluna income na amostragem por grupos é de {df_grupos_income_credit}')
print(f'A média na coluna loan na amostragem por grupos é de {df_grupos_loan_credit}')

A média na coluna age na amostragem por grupos é de 41.0432231120503
A média na coluna income na amostragem por grupos é de 44846.74925986142
A média na coluna loan na amostragem por grupos é de 4390.1614937442055


In [75]:
# Amostragem estratificada

df_amostra_estratificada_credit = amostragem_estratificada1(credit, 0.5, 'c#default')

df_estratificada_age_credit = df_amostra_estratificada_credit['age'].mean()
df_estratificada_income_credit = df_amostra_estratificada_credit['income'].mean()
df_estratificada_loan_credit = df_amostra_estratificada_credit['loan'].mean()

print(f'A média na coluna age na amostragem estratificada é de {df_estratificada_age_credit}')
print(f'A média na coluna income na amostragem estratificada é de {df_estratificada_income_credit}')
print(f'A média na coluna loan na amostragem estratificada é de {df_estratificada_loan_credit}')

A média na coluna age na amostragem estratificada é de 40.53363707173919
A média na coluna income na amostragem estratificada é de 45101.36675026739
A média na coluna loan na amostragem estratificada é de 4423.744651094196


In [77]:
# Amostragem de reservatório

df_amostra_reservatorio_credit = amostragem_reservatorio1(credit, 1000)

df_reservatorio_age_credit = df_amostra_reservatorio_credit['age'].mean()
df_reservatorio_income_credit = df_amostra_reservatorio_credit['income'].mean()
df_reservatorio_loan_credit = df_amostra_reservatorio_credit['loan'].mean()

print(f'A média na coluna age na amostragem de reservatório é de {df_reservatorio_age_credit}')
print(f'A média na coluna income na amostragem de reservatório é de {df_reservatorio_income_credit}')
print(f'A média na coluna loan na amostragem de reservatório é de {df_reservatorio_loan_credit}')

A média na coluna age na amostragem de reservatório é de 41.05617173205278
A média na coluna income na amostragem de reservatório é de 44974.18548403079
A média na coluna loan na amostragem de reservatório é de 4335.577667069038
