# Amostragem

É  o processo de seleção dos componentes da população que irão compor uma amostra.

# População

É o conjunto total e completo dos dados, contendo todos os membros de um grupo específico. Quando calculamos as medidas da população, estamos calculando os parâmetros. Análise feitas com os dados de uma população refletem a realidade.

# Amostra

É um subconjunto da população, ou seja, uma parte do todo, essa parte representará a população, ou seja, o conjunto completo dos dados. Quando calculamos as medidas da amostra, estamos calculando as estatísticas. Análises feitas a partir de uma amostra contém uma margem de erro porque apesar de simbolicamente representar a população, pode ocorrer do resultado da análise não representar a realidade dos dados, isso irá depender da qualidade da amostra, ou seja, uma amostra boa é aquela que representa bem a população.

# Técnicas de amostragem - teoria

## Amostragem aleatória simples

Não possui viés de seleção porque a escolha dos componentes para compor a amostra é feita de forma aleatória. Contudo é uma técnica que pode não representar bem os subgrupos populacionais principalmente se a amostra for pequena ou os subgrupos forem pequenos fazendo com que o número de observações seja menor ou inexistente sobre aquele subgrupo populacional.

## Amostragem aleatória simples e sistemática

Em relação a amostragem aleatória simples tem como vantagem ser mais rápida de implementar, mas como desvantagem ocorre o mesmo, ou seja, também pode não representar tão bem os grupos menores da população, outra desvantagem é que dependendo do sistema usado para separar a amostra pode acontecer um viés de seleção.

## Amostragem estratificada

Evita a sub-representação de grupos poucos frequentes porque nessa técnica é extraída uma parte de cada grupo da amostra, ou seja, tem maior chance de todos os grupos serem representados na amostra, para isso é preciso conhecer bem grupos.

## Amostragem por conglomerados

A principal característica dessa técnica é  a divisão natural da população em grupos, contudo é necessário que os grupos sejam homogêneo entre eles, ou seja, os elementos dos grupos tem que ser semelhante aos demais do seu grupo e serem diferentes dos demais grupos. A amostra por conglomerado não retira um parte de cada grupo como é feita na amostra estratificada, nesse tipo de amostra é analisado o grupo escolhido fazendo com que haja um viés de seleção e seja a principal desvantagem dessa técnica de amostragem.

# Técnicas de amostragem - prática

## Amostragem aleatória simples

In [41]:
#  biblioteca nativa do python com método de seleção de amostra: sample
from random import sample

In [42]:
populacao = [1,2,3,4,5,6,7,8,9,10,11,12]

In [43]:
# Amostra aleatória simples de tamanho quatro, ou seja, selecionamos quatro observações da população
sample(populacao, 4)

[3, 5, 2, 7]

In [44]:
# bibliotecas pandas usada para seleção de amostra em um dataframe (mais recomendada)
import pandas as pd

In [45]:
df = pd.DataFrame(populacao, columns=["values"])

In [46]:
df

Unnamed: 0,values
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


In [47]:
# usando o mesmo metodo sample para a seleção da amostra, mas agora por meio do pandas
df.sample(n=4)

# o método sample do pandas seleciona aleatoriamente os índices da população

Unnamed: 0,values
8,9
2,3
3,4
6,7


In [48]:
# para definir a seleção da amostra podemos usar tanto o tamanho desejado quanto a proporção (porcentagem)esejada
df.sample(frac=0.33)

Unnamed: 0,values
8,9
0,1
7,8
5,6


## Amostragem aleatória simples e sistemática

In [49]:
# usando o python puro para realizar a amostragem sistemática
tamanho_populacao = len(populacao)
print(tamanho_populacao)

12


In [50]:
# o range está contando de 1 até 12 (exclusivo) e fazendo essa contagem de 3 em 3
# a especificação de contagem no range, ou seja, de 3 em 3 é o que seria um sistema de seleção
for indice in range(1, tamanho_populacao, 3):
  print(indice)

1
4
7
10


In [51]:
# criando uma lista com os elementos que estão no índices selecionados anteriormente
elementos_indices = []
for indice in range(1, tamanho_populacao, 3):
  elementos_indices.append(populacao[indice])

elementos_indices

[2, 5, 8, 11]

In [52]:
import numpy as np

In [53]:
np.arange(1,12,step=3)

array([ 1,  4,  7, 10])

In [54]:
df.shape[0]

12

In [55]:
def amostra_sistematica(df, inicio=0, step=3):
    indexes = np.arange(inicio, df.shape[0], step=step)
    amostra = df.iloc[indexes]
    return amostra

In [56]:
amostra_sistematica(df, 1, 3)

Unnamed: 0,values
1,2
4,5
7,8
10,11


## Amostragem estratificada

In [57]:
import pandas as pd
import warnings

warnings.filterwarnings("ignore")

In [58]:
numbers = [1,2,3,4,5,6,7,8,9,10,11,12]
letters = ['A', 'A', 'A', 'A', 'B', 'B', 'C','C', 'C', 'D', 'D', 'D']

In [59]:
df = pd.DataFrame({'groups': letters, 'values': numbers})

In [60]:
df

Unnamed: 0,groups,values
0,A,1
1,A,2
2,A,3
3,A,4
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9
9,D,10


Nessa amostra estratificada cada estrato vai ter o mesmo tamanho na amostra final. Para fazer essa amostra iremos criar uma função e utilzar o método groupby para agrupar por estrato e o método sample para gerar a amostra aleatória, ambos do Pandas.

Nessa função foi usado o método reset_index para evitar problemas de agrupamento que irá redefinir o índice e usar o índice padrão. Ele foi utilizado como forma de evitar dependência ao "include_groups" no futuro. O include_groups ainda não está presente nessa versão do Pandas, mas basicamente ele irá excluir as colunas de agrupamento do DataFrame, exceto se for especificado que deseja mantê-las.

In [61]:
# cada estrato tem um tamanho o qual deve corresponder ao número de observações que será selecionada de cada estrato
def amostra_estratificada(df, numero_observacoes, estrato):
  amostra = df.reset_index(drop=True).groupby(estrato, group_keys=False).apply(lambda tamanho_estrato: tamanho_estrato.sample(min(len(tamanho_estrato), numero_observacoes)))
  return amostra

Na função lambda usada no método apply estamos passando o tamanho do estrato que temos e para cada tamanho aplicamos o método sample para fazer a seleção das observações que estejam de acordo com o critério de ser menor ou igual ao tamanho do estrato isso explica o uso do método min.

In [62]:
amostra_estratificada(df, 2, 'groups')

Unnamed: 0,groups,values
3,A,4
1,A,2
4,B,5
5,B,6
8,C,9
6,C,7
10,D,11
9,D,10


Apesar de neste exemplo passarmos o númro de observação desejada de cada estrato, essa não é a maneira mais correta de fazer uma amostragem estratificada porque o estrato 'B' que está em menor número na população estará igualmente representado na amostra, sendo assim a sua amostra não vai estar como o espelho da sua população. Para mudar esse cenário iremos fazer uma nova função só que passando a porcentagem da amostra, tornando a amostra mais proporcional à representação do estrato da população.

In [63]:
def amostra_estratificada_prop(df, numero_proporcao, estrato):
  tamanho_populacao = df.shape[0]
  amostra = df.groupby(estrato, group_keys=False)\
  .apply(lambda tamanho_estrato: tamanho_estrato.sample(int(numero_proporcao*len(tamanho_estrato)/tamanho_populacao)))\
  .reset_index(drop=True)\
  .sort_values(by=estrato)
  return amostra

In [64]:
amostra_estratificada_prop(df, 9,'groups')

Unnamed: 0,groups,values
0,A,3
1,A,4
2,A,2
3,B,5
4,C,8
5,C,7
6,D,12
7,D,10


## Amostragem por conglomerado

Nessa função é criada uma lista com todos os grupos da população de forma única, ou seja, sem repetí-los. Depois é extraído o tamanho dessa lista e o número final de grupos desejado pelo amostra aleatória. Fazemo a seleção usando a função sample. A amostra retornada contém todos os grupos do dataframe que foram sorteados.

In [65]:
def amostra_conglomerados(df, numero_grupos, grupo):
  todos_grupos = list(df[grupo].unique())
  tamanho_grupos = len(todos_grupos)
  numero_final_grupos = min(numero_grupos, tamanho_grupos)
  grupos_sorteados = sample(todos_grupos, numero_final_grupos)
  amostra = df[df[grupo].isin(grupos_sorteados)]
  return amostra

In [66]:
amostra_conglomerados(df, 2, 'groups')

Unnamed: 0,groups,values
0,A,1
1,A,2
2,A,3
3,A,4
4,B,5
5,B,6
