# Seleção de Amostras Aleatórias

Uma operação comum em trabalhos de auditoria é a seleção de amostras aleatórias, as quais podem ser selecionadas das seguintes maneirias:

* Amostra aleatória simples com e sem reposição   
* Amostra sistemática   
* Amostra estratificada  
* Amostra com probabilidade de seleção proporcional ao tamanho (PPT)   

No R, a seleção de amostras aleatórias simples com e sem reposição pode ser realizada com a função **`sample()`**.

## Amostra aleatória simples sem reposição

No exemplo a seguir, será selecionada uma amostra aleatória simples sem reposição de 30 elementos do conjunto de dados `rh`.

In [10]:
setwd('C:\\Users\\Marcos\\Documents\\GitHub\\Usando-R-em-Auditoria\\dados')
load('rh.RData')
str(rh)
head(rh)

'data.frame':	5000 obs. of  10 variables:
 $ Sexo            : chr  "Masculino" "Masculino" "Feminino" "Feminino" ...
 $ Estado.Civil    : chr  "Casado" "Viúvo" "Casado" "Casado" ...
 $ Anos.de.estudo  : int  14 19 18 16 15 18 18 12 14 12 ...
 $ Formação        : chr  "SEC" "SEC" "SEC" "SEC" ...
 $ Tempo.de.empresa: int  19 31 28 20 15 23 27 20 11 16 ...
 $ Unidade         : chr  "Curitiba" "São Paulo" "Rio de Janeiro" "Rio de Janeiro" ...
 $ Departamento    : chr  "Produção" "Vendas" "Financeiro" "Vendas" ...
 $ Cargo           : chr  "Assistente" "Assistente" "Assistente" "Assistente" ...
 $ Salário         : num  16.7 29.1 21.8 22.6 16.7 ...
 $ Bônus           : num  28.02 41.24 16.88 13.5 8.44 ...


Sexo,Estado.Civil,Anos.de.estudo,Formação,Tempo.de.empresa,Unidade,Departamento,Cargo,Salário,Bônus
Masculino,Casado,14,SEC,19,Curitiba,Produção,Assistente,16.67,28.02
Masculino,Viúvo,19,SEC,31,São Paulo,Vendas,Assistente,29.13,41.24
Feminino,Casado,18,SEC,28,Rio de Janeiro,Financeiro,Assistente,21.8,16.88
Feminino,Casado,16,SEC,20,Rio de Janeiro,Vendas,Assistente,22.61,13.5
Masculino,Solteiro,15,SEC,15,Curitiba,Vendas,Auxiliar,16.67,8.44
Masculino,Casado,18,SEC,23,São Paulo,Pessoal,Assistente,8.34,86.88


In [5]:
set.seed(1)
linhas_sorteadas <- sample(row.names(rh), 30)
amostra <- rh[linhas_sorteadas,]
amostra

Unnamed: 0,Sexo,Estado.Civil,Anos.de.estudo,Formação,Tempo.de.empresa,Unidade,Departamento,Cargo,Salário,Bônus
1328,Masculino,Casado,13,EXA,12,São Paulo,Vendas,Assistente,9.73,33.68
1861,Masculino,Casado,12,BIO,6,Curitiba,Produção,Auxiliar,8.04,6.58
2864,Masculino,Casado,15,HUM,18,Florianópolis,Produção,Assistente,14.01,49.48
4539,Masculino,Casado,12,HUM,18,São Paulo,Produção,Auxiliar,3.65,10.52
1008,Masculino,Casado,13,BIO,13,São Paulo,Vendas,Assistente,11.79,4.24
4488,Masculino,Casado,20,SEC,19,Rio de Janeiro,Vendas,Gerente,30.12,48.6
4718,Masculino,Solteiro,16,EXA,15,Curitiba,Vendas,Assistente,9.17,3.66
3300,Feminino,Solteiro,10,SEC,5,Rio de Janeiro,Produção,Auxiliar,1.6,5.14
3141,Masculino,Solteiro,15,EXA,17,São Paulo,Vendas,Assistente,4.34,9.44
309,Feminino,Casado,12,,11,Rio de Janeiro,Pessoal,Assistente,6.93,10.24


A função `set.seed()` serve para se definir uma semente para geração dos números aleatórios. Isto garante que se outra pessoa utilizar a mesma semente e sortear uma amostra aleatória semples sem reposição, obterá a mesma amostra mostrada acima. No caso do exemplo foi utilizado o valor 1 como semente mas poderia ser qualquer outro valor.

A seleção de amostras com reposição, de pouco interesse em auditoria, é feita utilizando-se o argumento `replace = TRUE` na função `sample()`.

## Seleção de amostras estratificadas

Além da seleção de amostras aleatórias simples, pode-se sortear amostras estratificadas e amostras com probabilidade de seleção proporcional ao tamanho.

A seleção de amostras estratificadas consiste em dividir o conjunto de dados em estratos e, dentro de cada estrato, sortear amostras aleatórias simples.

A quantidade de itens a serem sorteados cada estrato pode dar-se com igual quantidade de itens sendo sorteada em cada estrato ou quantidades de itens sorteados em cada estrato proporcionais ao tamanho do estrado na população total de itens. Veremos como implementar estas duas possibilidades. 


### Iguais quantidades de itens em cada estrato

Supondo que desejamos sortear amostras de pessoas do sexo masculino e feminino, ambas com 15 elementos, pode-se proceder da seguinte forma:

In [6]:
set.seed(2)
rh_lista <- split(rh, f=rh$Sexo)
amostra <- lapply(rh_lista,
                  function(x)x[sample(row.names(x), size=15),])
amostra <- do.call(rbind, amostra)
row.names(amostra) <- 1:nrow(amostra)
amostra

Sexo,Estado.Civil,Anos.de.estudo,Formação,Tempo.de.empresa,Unidade,Departamento,Cargo,Salário,Bônus
Feminino,Viúvo,14,EXA,0,Florianópolis,Produção,Auxiliar,2.985,3.76
Feminino,Divorciado,11,SEC,11,São Paulo,Produção,Auxiliar,2.88,2.2
Feminino,Casado,10,SEC,3,Florianópolis,Produção,Auxiliar,1.2,5.48
Feminino,Casado,15,BIO,28,Rio de Janeiro,Vendas,Assistente,5.86,7.96
Feminino,Casado,14,SEC,15,Curitiba,Produção,Assistente,10.3,22.82
Feminino,Viúvo,8,HUM,0,Florianópolis,Produção,Auxiliar,1.08,2.52
Feminino,Solteiro,16,SEC,9,Rio de Janeiro,Vendas,Auxiliar,4.22,11.1
Feminino,Casado,13,HUM,3,Curitiba,Produção,Auxiliar,3.05,7.62
Feminino,Casado,10,HUM,3,Florianópolis,Produção,Auxiliar,1.77,2.92
Feminino,Casado,12,HUM,3,Rio de Janeiro,Pessoal,Auxiliar,9.39,16.28


###  Alocação proporcional

No exemplo a seguir os estratos são definidos pelos valores da variável `Departamento` do conjunto de dados. O objetivo é sortear uma quantidade de itens em cada estrato dada por uma fração do tamanho da amostra igual à fração que cada `Departamento` representa no total de itens do conjunto de dados. Assim, por exemplo, se a quantidade de funcionários que trabalham no departamento financeiro representam 14% da quantidade de registros no conjunto de dados, serão sorteados neste estrato 14% do tamanho da amostra.

O código a seguir ilustra como realizar este sorteio:

In [18]:
# tamanho da população
N <- nrow(rh) 
# proporção de registros de cada Departamento na população
proporcao <- prop.table(table(rh$Departamento)) 
# tamanho da amostra
n <- 50  
# tamanho em cada estrato - proporcional
sample_sizes <- as.vector(round(proporcao * n, 0)) 

rh_lista <- split(rh, f=rh$Departamento)
sorteia_amostra <- function(x, n) x[runif(n, 1, nrow(x)),]

set.seed(2)
amostra <- Map(sorteia_amostra, rh_lista, sample_sizes)
amostra <- do.call(rbind, amostra)
row.names(amostra) <- 1:nrow(amostra)
amostra

Sexo,Estado.Civil,Anos.de.estudo,Formação,Tempo.de.empresa,Unidade,Departamento,Cargo,Salário,Bônus
Masculino,Casado,15,BIO,1,Rio de Janeiro,Financeiro,Assistente,7.28,32.02
Masculino,Casado,13,SEC,17,Florianópolis,Financeiro,Assistente,10.91,60.74
Masculino,Divorciado,14,SEC,10,Rio de Janeiro,Financeiro,Assistente,2.74,3.98
Masculino,Casado,19,HUM,27,Rio de Janeiro,Financeiro,Assistente,22.41,52.14
Feminino,Casado,18,SEC,29,Curitiba,Financeiro,Gerente,18.57,119.19
Feminino,Casado,18,SEC,29,Curitiba,Financeiro,Gerente,18.57,119.19
Masculino,Casado,11,SEC,9,Curitiba,Financeiro,Auxiliar,2.53,13.0
Masculino,Casado,11,SEC,22,Curitiba,Pessoal,Auxiliar,15.69,45.22
Masculino,Viúvo,12,SEC,12,São Paulo,Pessoal,Auxiliar,1.96,3.22
Feminino,Solteiro,13,EXA,9,Florianópolis,Pessoal,Auxiliar,1.71,2.24


In [20]:
round(proporcao, 2)
prop.table(table(amostra$Departamento))


Financeiro    Pessoal   Produção     Vendas 
      0.14       0.12       0.27       0.48 


Financeiro    Pessoal   Produção     Vendas 
      0.14       0.12       0.26       0.48 

Os comandos acima mostram que as proporções de registros na população e na amostra são as mesmas.

## Probabilidade de seleção proporcional ao tamanho

A seleção de amostras com probabilidade de seleção proporcional ao tamanho pode ser obtida passando-se ao argumento `prob=` da função `sample()` um vetor com as probalidades de seleção de cada elemento. Usualmente este vetor é obtido calculando, para alguma variável de interesse, qual a participação de cada registro na soma dos valores desta variável.

Exemplo. Se a variável de interesse é o `Salário` então o vetor de probabilidades é obtido da seguinte forma:

In [14]:
rh$Salário <- ifelse(is.na(rh$Salário), 0, rh$Salário)
peso <- rh$Salário / sum(rh$Salário, na.rm=TRUE)

A seleção de uma amostra de tamanho 10 com probabilidade de seleção proporcional ao tamanho pode ser feita da seguinte forma:

In [15]:
set.seed(130)
linhas_sorteadas <- sample(row.names(rh), size=10, prob=peso)
amostra_ppt <- rh[linhas_sorteadas,]
amostra_ppt

Unnamed: 0,Sexo,Estado.Civil,Anos.de.estudo,Formação,Tempo.de.empresa,Unidade,Departamento,Cargo,Salário,Bônus
4099,Feminino,Casado,15,SEC,25,São Paulo,Financeiro,Auxiliar,4.1,21.08
880,Feminino,Casado,19,SEC,34,Rio de Janeiro,Vendas,Assistente,36.52,22.06
3104,Masculino,Casado,18,SEC,24,Rio de Janeiro,Pessoal,Gerente,32.69,53.06
3441,Masculino,Casado,17,SEC,26,Rio de Janeiro,Vendas,Assistente,34.85,85.62
868,Masculino,Casado,17,EXA,22,São Paulo,Financeiro,Assistente,18.75,125.7
4141,Masculino,Casado,15,BIO,2,Rio de Janeiro,Financeiro,Auxiliar,6.33,16.08
47,Masculino,Viúvo,21,SEC,25,Rio de Janeiro,Vendas,Gerente,48.38,71.36
2031,Masculino,Casado,18,SEC,30,Rio de Janeiro,Vendas,Assistente,34.03,39.34
2055,Masculino,Casado,19,HUM,30,Rio de Janeiro,Vendas,Assistente,45.05,19.22
3830,Feminino,Casado,16,SEC,22,Rio de Janeiro,Vendas,Assistente,13.71,10.38


Com este procedimento de amostragem, os registros com maior valor de salário terão maior probabilidade de seleção.


**Marcos F Silva**