# Amostragem no R

## Tipos de Amostragem

Existem 3 técnicas de amostragem principais:
- Aleatória Simples
  - **sample ( )**
- Aleatória Estratificada
  - **strata ( )**
- Aleatória Sistemática
  - **S.SY ( )**

## Amostragem Aleatória Simples
                                       sample (population,sample,replace=bool,prob=c(float1 , float2 , ... , floatn))

- population --> pode receber um vetor, uma matriz, um dataframe, etc
- sample --> número de amostras aleatoriamente selecionadas
- replace:
  - TRUE --> com reposição
  - FALSE --> sem reposição
- prob --> recebe um vetor com as probabilidades , que corresponde à probabilidade de sortear cada elemento da população

### Aplicação do Método "Sample"

- Geração de 150 amostras de um conjunto de dados composto por 0 e 1
- É necessário, obviamente, que a amostra tenha reposição
- Há probabilidade iguais (50%-50%) de se sortear 0 e 1



In [4]:
amostra <- sample (c(0,1),150,replace=TRUE,prob=c(0.5,0.5))
amostra

### Verificação do Comprimento das Amostras

- Não necessariamente haverá 75 valores "0" e 75 valores "1" (no caso, temos 150 amostras, no total)
    - Número de "0" na amostra --> 68
    - Número de "1" na amostra --> 82

In [5]:
# Verificação da quantidade de valores "0" na amostra gerada
length(amostra[amostra == 0])

In [6]:
# Verificação da quantidade de valores "1" na amostra gerada
length(amostra[amostra == 1])

### Geração de Semente Aleatória

                                                                    set.seed(n)

- Gera uma semente aleatória, para fazer com que a amostra retirada sempre seja a mesma
- "n" pode ser qualquer número inteiro
- Se eu executar as células abaixo novamente, o resultado sempre será o mesmo

In [16]:
# Geração de semente aleatória para fixar os valores amostrados
set.seed(1234)
# Geração de 40 unidades amostrais, a partir da população "Iris". A amostragem 
# é com reposição
amostra_fixa <- sample(iris$Species,40,replace=TRUE)
amostra_fixa

In [17]:
# Contagem de valores únicos presentes na amostra gerada
print(length(amostra_fixa[amostra_fixa == 'virginica']))
print(length(amostra_fixa[amostra_fixa == 'setosa']))
print(length(amostra_fixa[amostra_fixa == 'versicolor']))

[1] 19
[1] 10
[1] 11


## Amostragem Aleatória Estratificada

                                             strata(dataset,c('attribute'),size=c(int,int,int,...),method='srswor')

- dataset --> dataframe
- c ('attribute') --> vetor que contém o atributo que servirá de referência para a construção dos estratos
- size --> vetor que representa a quantidade (absoluta) de amostras que serão retiradas de cada valor único do estrato de referência
- method --> método da amostragem estratificada
    - 'srswor' --> em cada estrato, a amostragem é sem reposição

### Sumário Estatístico

                                                                  summary(dataframe)

In [18]:
# Sumário estatístico do dataset Iris
summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50  
                
                
                

### Instalação e Importação da Biblioteca "Sampling"

In [19]:
# Instalação
install.packages ("sampling")

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependency ‘lpSolve’




In [0]:
# Importação
library(sampling)

### Aplicação do Método "Strata" no Banco de Dados "Iris"

In [0]:
estrat <- strata(iris,c('Species'),size=c(10,20,25),method='srswor')

### Sumário Estatístico da Amostra

In [23]:
summary(estrat)

       Species      ID_unit            Prob           Stratum     
 setosa    :10   Min.   :  6.00   Min.   :0.2000   Min.   :1.000  
 versicolor:20   1st Qu.: 64.50   1st Qu.:0.4000   1st Qu.:2.000  
 virginica :25   Median : 96.00   Median :0.4000   Median :2.000  
                 Mean   : 90.33   Mean   :0.4091   Mean   :2.273  
                 3rd Qu.:123.50   3rd Qu.:0.5000   3rd Qu.:3.000  
                 Max.   :150.00   Max.   :0.5000   Max.   :3.000  

### Sumário Estatístico do Banco de Dados "Infert"

- Note a distribuição do atributo "education":
    - 0-5 anos --> 12
    - 6-11 anos --> 120
    - maior que 12 anos --> 116

In [24]:
summary(infert)

   education        age            parity         induced      
 0-5yrs : 12   Min.   :21.00   Min.   :1.000   Min.   :0.0000  
 6-11yrs:120   1st Qu.:28.00   1st Qu.:1.000   1st Qu.:0.0000  
 12+ yrs:116   Median :31.00   Median :2.000   Median :0.0000  
               Mean   :31.50   Mean   :2.093   Mean   :0.5726  
               3rd Qu.:35.25   3rd Qu.:3.000   3rd Qu.:1.0000  
               Max.   :44.00   Max.   :6.000   Max.   :2.0000  
      case         spontaneous        stratum      pooled.stratum 
 Min.   :0.0000   Min.   :0.0000   Min.   : 1.00   Min.   : 1.00  
 1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:21.00   1st Qu.:19.00  
 Median :0.0000   Median :0.0000   Median :42.00   Median :36.00  
 Mean   :0.3347   Mean   :0.5766   Mean   :41.87   Mean   :33.58  
 3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:62.25   3rd Qu.:48.25  
 Max.   :1.0000   Max.   :2.0000   Max.   :83.00   Max.   :63.00  

### Definindo Proporção de cada Estrato

- Suponha que queremos gerar, no total, 100 unidades amostrais e devemos encontrar a proporção de unidades amostrais para cada estrato:
                                            n_estrato = (n_categoria/n_população) * 100

In [30]:
# Proporção 0-5 anos
print(round((12/248)*100))
# Proporção 6-11 anos
print(round((120/248)*100))
# Proporção >12 anos
print(round((116/248)*100))

[1] 5
[1] 48
[1] 47


### Aplicação do Método "Strata" no Banco de Dados "Infert"

In [0]:
estratif <- strata(infert,c('education'),size=c(5,48,47),method='srswor')

In [34]:
summary(estratif)

   education     ID_unit            Prob           Stratum    
 0-5yrs : 5   Min.   :  1.00   Min.   :0.4000   Min.   :1.00  
 6-11yrs:48   1st Qu.: 70.25   1st Qu.:0.4000   1st Qu.:2.00  
 12+ yrs:47   Median :134.50   Median :0.4052   Median :2.00  
              Mean   :130.16   Mean   :0.4033   Mean   :2.42  
              3rd Qu.:188.00   3rd Qu.:0.4052   3rd Qu.:3.00  
              Max.   :248.00   Max.   :0.4167   Max.   :3.00  

## Amostragem Aleatória Sistemática

                                                            S.SY(population,lag)

- population --> corresponde ao número (int) de elementos da população
- lag --> é o número (int) que corresponde ao passo da amostragem sistemática

- Esse método gera os índices para, depois, selecionarmos as linhas de um dataset a partir dos índices gerados

### Instalação e Importação de Biblioteca

In [35]:
# Instalação
install.packages("TeachingSampling")

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [0]:
# Importaçao
library(TeachingSampling)
library(dplyr)
library(magrittr)
# Tive que importar essas duas outras bibliotecas para funcionar

### Aplicação do Método "S.SY" no Banco de Dados "Iris"

1. Geração dos índices via método "S.SY"
2. Query do dataset pelos índices gerados anteriormente

In [0]:
# Gerando índices das amostras aleatórias
# Somente o primeiro elemento gerado é aleatório. O resto é de 10 em 10
sis <- S.SY(150,10)

In [46]:
# Buscando linhas cujos índices são dados pela amostragem sistemática
amostrairis <- iris[sis,]
amostrairis

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
5,5.0,3.6,1.4,0.2,setosa
15,5.8,4.0,1.2,0.2,setosa
25,4.8,3.4,1.9,0.2,setosa
35,4.9,3.1,1.5,0.2,setosa
45,5.1,3.8,1.9,0.4,setosa
55,6.5,2.8,4.6,1.5,versicolor
65,5.6,2.9,3.6,1.3,versicolor
75,6.4,2.9,4.3,1.3,versicolor
85,5.4,3.0,4.5,1.5,versicolor
95,5.6,2.7,4.2,1.3,versicolor
