# **Amostragem**

### Carregamento da base de dados

In [1]:
import pandas as pd
import random
import numpy as np

In [2]:
dataset = pd.read_csv('base de dados/census.csv')

In [3]:
dataset.shape

(32561, 15)

In [4]:
# Visualização dos dados
dataset.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


### Amostragem aleatória simples

* Tipo mais simples de amostra, onde precisamos indicar o tamanho da amostra e os registros serão selecionados aleatoriamente.

In [9]:
# Construção da amostragem aleatória simples
# n: quantidade de elementos queremos na amostra 
# replace: por padrão é False, ou seja, não ocorre seleção do mesmo registro mais de uma vez
# random_state: será um número inteiro, e serve para obtermos sempre a mesma amostra. Caso esse parâmetro não seja definido, toda vez que rodarmos o código a amostra sofrerá alterações
df_amostra_aleatoria_simples = dataset.sample(n = 100, random_state = 1)  # selecionando 100 elementos

In [10]:
df_amostra_aleatoria_simples.shape

(100, 15)

In [11]:
df_amostra_aleatoria_simples.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
9646,62,Self-emp-not-inc,26911,7th-8th,4,Widowed,Other-service,Not-in-family,White,Female,0,0,66,United-States,<=50K
709,18,Private,208103,11th,7,Never-married,Other-service,Other-relative,White,Male,0,0,25,United-States,<=50K
7385,25,Private,102476,Bachelors,13,Never-married,Farming-fishing,Own-child,White,Male,27828,0,50,United-States,>50K
16671,33,Private,511517,HS-grad,9,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,40,United-States,<=50K
21932,36,Private,292570,11th,7,Never-married,Machine-op-inspct,Unmarried,White,Female,0,0,40,United-States,<=50K


In [15]:
# Função para amostragem aleatória simples
def amostragem_aleatoria_simples(dataset, amostras, tipo:str):
    """
    Função que retorna o dataframe com os elementos selecionados após a amostragem aleatoria simples
    dataset: dataframe que representa a população
    amostras: nro de elementos da amostra
    tipo: "valor_numerico" ou "percentual"
    """

    if tipo == 'valor_numerico':
        return dataset.sample(n=amostras, random_state=1)
    elif tipo == 'percentual':
        return dataset.sample(frac = amostras, random_state=1) 
    else:
        return "Verifique o valor de tipo (valor_numerico ou percentual)" 

In [55]:
df_amostragem_aleatoria_simples = amostragem_aleatoria_simples(dataset, 100, 'valor_numerico')
df_amostragem_aleatoria_simples.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
9646,62,Self-emp-not-inc,26911,7th-8th,4,Widowed,Other-service,Not-in-family,White,Female,0,0,66,United-States,<=50K,29
709,18,Private,208103,11th,7,Never-married,Other-service,Other-relative,White,Male,0,0,25,United-States,<=50K,2
7385,25,Private,102476,Bachelors,13,Never-married,Farming-fishing,Own-child,White,Male,27828,0,50,United-States,>50K,22
16671,33,Private,511517,HS-grad,9,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,40,United-States,<=50K,51
21932,36,Private,292570,11th,7,Never-married,Machine-op-inspct,Unmarried,White,Female,0,0,40,United-States,<=50K,67


In [20]:
# Usando 10% da população como amostra
amostragem_aleatoria_simples(dataset, 0.1, 'percentual').head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
9646,62,Self-emp-not-inc,26911,7th-8th,4,Widowed,Other-service,Not-in-family,White,Female,0,0,66,United-States,<=50K
709,18,Private,208103,11th,7,Never-married,Other-service,Other-relative,White,Male,0,0,25,United-States,<=50K
7385,25,Private,102476,Bachelors,13,Never-married,Farming-fishing,Own-child,White,Male,27828,0,50,United-States,>50K
16671,33,Private,511517,HS-grad,9,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,40,United-States,<=50K
21932,36,Private,292570,11th,7,Never-married,Machine-op-inspct,Unmarried,White,Female,0,0,40,United-States,<=50K


### Amostragem sistemática

* Primeiramente faz-se uma seleção aleatória do primeiro elemento para a amostra e então se selecionam os itens subsequentes utilizando intervalos fixos ou sistemáticos até chegar ao tamanho da amostra desejada.

<div>
    <img src='imagens/amostragem_sistematica.png'>
</div>

* Neste exemplo, tem-se uma população de 28 casas e queremos uma amostra com 5 casas.
    * Fazemos a divisão da população pelo número de elementos da amostras para obter o `intervalo fixo`
    * 28 / 5 = 5.6 (arredondamos para 6)
    * Neste caso, o intervalo fixo para seleção dos itens é 6

In [5]:
dataset.shape

(32561, 15)

In [10]:
# Supondo que queremos uma amostra de 100 pessoas
# Para isso, fazemos uma divisão da população pelo número de elementos da amostra para obter o intervalo fixo
intervalo_fixo = len(dataset) // 100
intervalo_fixo

325

In [9]:
# Para obtermos sempre o mesmo valor, usamos o método seed
random.seed(1)
indice_primeiro_elemento = random.randint(0, 325)
indice_primeiro_elemento

68

In [11]:
# Criando um vetor que conterá o índíce dos elementos escolhidos
# O vetor inicia com o índice do primeiro elemento selecionado, e vai adicionando o intervalo_fixo até chegar no tamanho do dataframe.
np.arange(indice_primeiro_elemento, len(dataset), step = intervalo_fixo)

array([   68,   393,   718,  1043,  1368,  1693,  2018,  2343,  2668,
        2993,  3318,  3643,  3968,  4293,  4618,  4943,  5268,  5593,
        5918,  6243,  6568,  6893,  7218,  7543,  7868,  8193,  8518,
        8843,  9168,  9493,  9818, 10143, 10468, 10793, 11118, 11443,
       11768, 12093, 12418, 12743, 13068, 13393, 13718, 14043, 14368,
       14693, 15018, 15343, 15668, 15993, 16318, 16643, 16968, 17293,
       17618, 17943, 18268, 18593, 18918, 19243, 19568, 19893, 20218,
       20543, 20868, 21193, 21518, 21843, 22168, 22493, 22818, 23143,
       23468, 23793, 24118, 24443, 24768, 25093, 25418, 25743, 26068,
       26393, 26718, 27043, 27368, 27693, 28018, 28343, 28668, 28993,
       29318, 29643, 29968, 30293, 30618, 30943, 31268, 31593, 31918,
       32243])

In [12]:
def amostragem_sistematica(dataset, amostras):
    """
    Função que retorna o dataframe com os elementos selecionados após a amostragem sistemática
    dataset: dataframe que representa a população
    amostras: nro de elementos da amostra
    """
    
    # Obtendo o valor do intervalo fixo
    intervalo = len(dataset) // amostras
    # Setando random seed = 1 para retornar sempre a mesma amostra
    random.seed(1)
    # Obtendo o índice do primeiro elemento da amostra
    indice_primeiro = random.randint(0, intervalo)
    # Construção do vetor que contém todos os índices que serão selecionados para fazer parte da amostra
    indices = np.arange(indice_primeiro, len(dataset), step = intervalo)
    # Seleção da amostra com base nos índices obtidos
    amostra_sistematica = dataset.iloc[indices, :]

    return amostra_sistematica

In [14]:
df_amostra_sistematica = amostragem_sistematica(dataset, 100)
df_amostra_sistematica.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
68,49,Self-emp-inc,191681,Some-college,10,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,50,United-States,>50K
393,34,State-gov,98101,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,7688,0,45,?,>50K
718,22,Private,214399,Some-college,10,Never-married,Sales,Own-child,White,Female,0,0,15,United-States,<=50K
1043,44,Private,167005,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,7688,0,60,United-States,>50K
1368,52,Private,152234,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,Asian-Pac-Islander,Male,99999,0,40,Japan,>50K


### Amostragem por grupos (conglomerada)

* Divisão da população em grupos, e seleção aleatória de alguns grupos para analisar TODOS os elementos destes grupos.

In [27]:
def amostragem_conglomerada(dataset, numero_de_grupos):
    """
    Função que retorna o dataframe com os elementos selecionados após a amostragem por grupos (conglomerada)
    dataset: dataframe que representa a população
    numero_de_grupos: nro de grupos a serem formados
    """
    
    # Obtendo o valor do intervalo (qtde de elementos por grupo)
    intervalo = len(dataset) // numero_de_grupos

    # Contrução do vetor que irá armazenar o grupo de cada elemento
    # Este vetor possuirá valores entre 0 e (numero_de_grupo - 1)
    grupos = []
    id_grupo = 0
    contagem = 0
    
    for _ in dataset.iterrows():
        grupos.append(id_grupo)
        contagem += 1
        if contagem > intervalo:
            contagem = 0
            id_grupo += 1
    
    # Contrução da coluna 'grupo' no dataframe
    dataset['grupo'] = grupos
    random.seed(1)  # setando random seed para retornar a mesma amostra
    grupo_selecionado = random.randint(0, numero_de_grupos)

    # Filtrando somente o grupo selecionado aleatoriamente
    amostra_conglomerada = dataset[dataset['grupo'] == grupo_selecionado]

    return amostra_conglomerada

In [30]:
dataset.shape

(32561, 16)

In [28]:
# Supondo que iremos dividir a população em 100 grupos
df_amostragem_conglomerada = amostragem_conglomerada(dataset, 100)

# Podemos visualizar a quantidade de elementos da amostra (326) e o grupo que foi selecionado (17)
df_amostragem_conglomerada.shape, df_amostragem_conglomerada.grupo.value_counts()

((326, 16),
 17    326
 Name: grupo, dtype: int64)

### Amostragem estratificada

* Divisão da população em grupos e então seleção aleatória de uma amostra de cada grupo.
* A divisão geralmente com base em algum atributo, por exemplo: região, classe social, raça, etc...
* É interessante manter uma mesma proporção por grupo, ou seja, a mesma porcentagem por grupo

In [31]:
from sklearn.model_selection import StratifiedShuffleSplit

In [49]:
def amostragem_estratificada(dataset, percentual: float, atributo: str):
    """
    Função que retorna o dataframe com os elementos selecionados após a amostragem estratificada
    dataset: dataframe que representa a população
    percentual: Valor entre 0 e 1 que representa o % de elementos da população (tamanho da amostra)
    atributo: nome da coluna que será utilizada como base para divisão dos grupos
    """
    
    # O parâmetro test_size vai indicar o tamanho da amostra.
    split = StratifiedShuffleSplit(test_size=percentual, random_state=1)

    # Construção do dataframe contendo a amostra estratificada
    for _, y in split.split(dataset, dataset['income']):
        amostra_estratificada = dataset.iloc[y]

    return amostra_estratificada

In [51]:
df_amostragem_estratificada = amostragem_estratificada(dataset, 0.1, 'income')

In [52]:
df_amostragem_estratificada.shape, df_amostragem_estratificada.income.value_counts()

((3257, 16),
  <=50K    2473
  >50K      784
 Name: income, dtype: int64)

In [53]:
df_amostragem_estratificada.income.value_counts(normalize=True)

 <=50K    0.759288
 >50K     0.240712
Name: income, dtype: float64

### Comparação das amostragens

* A ideia é comparar a média de alguns atributos da população com a média dos mesmos atributos da amostra e verificar o quão próximos são esses valores

In [62]:
dataset['age'].mean(), df_amostragem_aleatoria_simples['age'].mean(), df_amostra_sistematica['age'].mean(), df_amostragem_conglomerada['age'].mean(), df_amostragem_estratificada['age'].mean()

(38.58164675532078, 39.41, 37.57, 39.23312883435583, 38.58213079521032)