## Pacotes
### TeachingSampling, sampling
- install.packages('TeachingSampling')
- install.packages('sampling')

In [105]:
library(TeachingSampling)
library(sampling)

## Amostragem simples
- sample() -> Retorna amostragens
- x= -> Dados/Elementos
- size= -> Qtd amostras
- replace= -> Ativa/desativa a reposição de elementos
- prob= -> Indica a probabilidade dos elementos
- as.factor() -> Fatora valores para melhor compreensão

### Gera 150 amostras do grupo de elemenros (0, 1)

In [106]:
amostra = sample(x=c(0, 1), size=150, replace=T, prob=c(0.5, 0.5))
summary(as.factor(amostra))
amostra = sample(x=c(0, 1), size=150, replace=T, prob=c(0.7, 0.3))
summary(as.factor(amostra))

### Gera 150 amostras, de 1 a 1000, sem reposição, probalidades iguais

In [107]:
amostra = sample(x=c(1:1000), size=150, replace=F)
amostra

## Amostra da base de dados iris
- Geramos um vetor (0, 1). para buscar uma amostra de 30% do total dos dados.
- size=150 pois iris possui 150 linhas (elementos)
- prop=c(0.7, 0.3) pois usaremos o valor 1 como 30%
- Por fim, fazemos uma comparação lógica do vetorcriado com a base de dados.

In [108]:
dim(iris)
amostra = sample(x=c(0, 1), size=150, replace=T, prob=c(0.7, 0.3))
summary(as.factor(amostra))
amostra_iris = iris[amostra==1, ]
summary(amostra_iris)
dim(amostra_iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.400   Min.   :2.300   Min.   :1.300   Min.   :0.200  
 1st Qu.:5.350   1st Qu.:2.700   1st Qu.:3.100   1st Qu.:0.875  
 Median :5.750   Median :2.950   Median :4.450   Median :1.450  
 Mean   :5.917   Mean   :2.953   Mean   :4.064   Mean   :1.319  
 3rd Qu.:6.425   3rd Qu.:3.225   3rd Qu.:5.125   3rd Qu.:1.900  
 Max.   :7.700   Max.   :3.900   Max.   :6.900   Max.   :2.300  
       Species  
 setosa    : 9  
 versicolor:14  
 virginica :13  
                
                
                

### Podemos garantir o mesmo resultado ao repetir experimentos aleatórios
- set.seed() -> Indica uma key (semente) para obter os mesmos resultados
- seed deve ser indicado logo acima do experimento. Não deixe nada entre eles

In [109]:
set.seed(2345)
sample(c(1000), 1)

In [110]:
set.seed(2345)
sample(c(1000), 1)

## Amostragem Sistemática
- A cada n elementos, um é escolhido

## Pacote TeachingSampling
- S.SY() -> Gera amostras sistematicas.
- N= -> Range de elementos
- a= -> Passo para a seleção de amostras
- Utilizamos a amostra sistematica na base de dados iris

In [111]:
amostra = S.SY(N=150, a=11)
amostra
dim(amostra)
amostra_iris = iris[amostra, ]
amostra_iris
dim(amostra_iris)

0
7
18
29
40
51
62
73
84
95
106


Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
7,4.6,3.4,1.4,0.3,setosa
18,5.1,3.5,1.4,0.3,setosa
29,5.2,3.4,1.4,0.2,setosa
40,5.1,3.4,1.5,0.2,setosa
51,7.0,3.2,4.7,1.4,versicolor
62,5.9,3.0,4.2,1.5,versicolor
73,6.3,2.5,4.9,1.5,versicolor
84,6.0,2.7,5.1,1.6,versicolor
95,5.6,2.7,4.2,1.3,versicolor
106,7.6,3.0,6.6,2.1,virginica


## Amostragem Estratificada

## Pacote sampling
- Defina uma proporção | Elementos de cada espécie (estrato)
- strata() -> Retorna uma amostra estratificada
- data= -> banco de dados
- stratanames= -> Coluna que indica as espécies
- size= -> Indica a proporção e o número de espécies
- rep() -> Repete o vetor c() para cada espécie

### method= -> Tipo da amostra estratificada
- 'srswor' -> amostra simples sem reposição
- 'srswr' -> amostra simples com reposição

In [113]:
proporcao = 25
amostra_iris_estratificada = strata(
    data=iris, stratanames=c('Species'), size=c(rep(proporcao, 3)),
    method='srswor'
)
summary(amostra_iris_estratificada)
dim(amostra_iris_estratificada)

       Species      ID_unit            Prob        Stratum 
 setosa    :25   Min.   :  6.00   Min.   :0.5   Min.   :1  
 versicolor:25   1st Qu.: 39.00   1st Qu.:0.5   1st Qu.:1  
 virginica :25   Median : 79.00   Median :0.5   Median :2  
                 Mean   : 76.76   Mean   :0.5   Mean   :2  
                 3rd Qu.:111.00   3rd Qu.:0.5   3rd Qu.:3  
                 Max.   :150.00   Max.   :0.5   Max.   :3  

## DB -> infert

In [114]:
summary(infert)
head(infert)
dim(infert)

   education        age            parity         induced      
 0-5yrs : 12   Min.   :21.00   Min.   :1.000   Min.   :0.0000  
 6-11yrs:120   1st Qu.:28.00   1st Qu.:1.000   1st Qu.:0.0000  
 12+ yrs:116   Median :31.00   Median :2.000   Median :0.0000  
               Mean   :31.50   Mean   :2.093   Mean   :0.5726  
               3rd Qu.:35.25   3rd Qu.:3.000   3rd Qu.:1.0000  
               Max.   :44.00   Max.   :6.000   Max.   :2.0000  
      case         spontaneous        stratum      pooled.stratum 
 Min.   :0.0000   Min.   :0.0000   Min.   : 1.00   Min.   : 1.00  
 1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:21.00   1st Qu.:19.00  
 Median :0.0000   Median :0.0000   Median :42.00   Median :36.00  
 Mean   :0.3347   Mean   :0.5766   Mean   :41.87   Mean   :33.58  
 3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:62.25   3rd Qu.:48.25  
 Max.   :1.0000   Max.   :2.0000   Max.   :83.00   Max.   :63.00  

Unnamed: 0_level_0,education,age,parity,induced,case,spontaneous,stratum,pooled.stratum
Unnamed: 0_level_1,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<int>,<dbl>
1,0-5yrs,26,6,1,1,2,1,3
2,0-5yrs,42,1,1,1,0,2,1
3,0-5yrs,39,6,2,1,0,3,4
4,0-5yrs,34,4,2,1,0,4,2
5,6-11yrs,35,3,1,1,1,5,32
6,6-11yrs,36,4,2,1,1,6,36


### Mantendo proporções para estratos com diferentes valores
- Diferentes valores na coluna education
- c(5, 48, 47) -> Utilize a mesma ordem em que os elementos aparecem no banco
de dados

In [115]:
amostra_infert = strata(
    data=infert, stratanames=c('education'), size=c(5, 48, 47),
    method='srswor'
)
summary(amostra_infert)
dim(amostra_infert)

   education     ID_unit            Prob           Stratum    
 0-5yrs : 5   Min.   :  3.00   Min.   :0.4000   Min.   :1.00  
 6-11yrs:48   1st Qu.: 59.75   1st Qu.:0.4000   1st Qu.:2.00  
 12+ yrs:47   Median :123.50   Median :0.4052   Median :2.00  
              Mean   :121.02   Mean   :0.4033   Mean   :2.42  
              3rd Qu.:170.75   3rd Qu.:0.4052   3rd Qu.:3.00  
              Max.   :244.00   Max.   :0.4167   Max.   :3.00  