# `Amostragem Estratificada`


#### Vamos ver como podemos calcular amostras com o método de amostragem estratificada.


![alt_text](https://thumbs.dreamstime.com/z/stratified-sampling-example-vector-illustration-diagram-research-method-explanation-scheme-person-symbols-stages-175044570.jpg)

<br>

#### Nessa amostragem, vamos olhar para cada estrato para retirar amostras para então formar nossa amostra final

<br>

#### Importando a biblioteca pandas (https://pandas.pydata.org)

In [1]:
import pandas

In [2]:
a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
b = ["A", "A", "A", "A", "B", "B", "C", "C", "C", "D", "D", "D"]

df = pandas.DataFrame({"grupo": b, "values": a})

df

Unnamed: 0,grupo,values
0,A,1
1,A,2
2,A,3
3,A,4
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9
9,D,10


#### Primeiramente, vamos fazer uma amostragem estratificada onde cada estrato vai ter o mesmo tamanho na amostra final, a menos que a quantidade dentro do estrato seja menor do que a que queremos.

In [4]:
def amostra_estratificada_1(df, n, estrato):
    amostra = df.groupby(estrato, group_keys=False).apply(lambda x: x.sample(min(len(x), n)))

    return amostra

Amostra estratificada com estratos de tamanho 2

In [8]:
amostra_estratificada_1(df, 2, 'grupo')

Unnamed: 0,grupo,values
0,A,1
2,A,3
4,B,5
5,B,6
8,C,9
7,C,8
11,D,12
9,D,10


In [9]:
amostra_estratificada_1(df, 2, 'grupo')

Unnamed: 0,grupo,values
1,A,2
3,A,4
5,B,6
4,B,5
6,C,7
8,C,9
11,D,12
10,D,11


In [10]:
amostra_estratificada_1(df, 2, 'grupo')

Unnamed: 0,grupo,values
2,A,3
3,A,4
4,B,5
5,B,6
6,C,7
7,C,8
11,D,12
10,D,11


Amostra estratificada com estratos de tamanho 3

In [11]:
amostra_estratificada_1(df, 3, 'grupo')

Unnamed: 0,grupo,values
1,A,2
3,A,4
2,A,3
5,B,6
4,B,5
8,C,9
6,C,7
7,C,8
10,D,11
11,D,12


#### Agora, ao invés de definir o tamanho dos estratos, vamos definir o tamanho da amostra final. Cada estrato vai ter uma amostra proporcional à representação do estrato na população.

In [12]:
def amostra_estratificada_2(df, N, estrato):
    tamanho_pop = df.shape[0]
    amostra = df.groupby(estrato, group_keys=False)\
        .apply(lambda x: x.sample(int(N*len(x)/tamanho_pop)))\
        .reset_index(drop=True)\
        .sort_values(by=estrato)

    return amostra

Amostra estratificada de tamanho 9

In [14]:
amostra_estratificada_2(df, 9, 'grupo')

Unnamed: 0,grupo,values
0,A,1
1,A,2
2,A,3
3,B,6
4,C,9
5,C,7
6,D,11
7,D,12


# `Amostragem por Conglomerado`


#### Vamos ver como podemos calcular amostras com o método de amostragem por conglomerado.


![alt_text](https://www.datasciencecentral.com/wp-content/uploads/2021/10/4-29.png)

<br>

<br>

#### Aqui, precisaremos primeiro amostrar aleatóriamente os conglomerados para então pegar todas as observações desses conglomerados escolhidos e formar nossa amostra.

In [15]:
from random import sample

def amostra_conglomerado(df, n_conglomerados, conglomerado):
    todos_conglomerados = list(df[conglomerado].unique())
    tamanho_conglomerados = len(todos_conglomerados)
    n = min(n_conglomerados, tamanho_conglomerados)
    conglomerados_sorteados = sample(todos_conglomerados, n)
    
    amostra = df[df[conglomerado].isin(conglomerados_sorteados)]
    return amostra
    

Amostra por conglomerado com tamanho 2 conglomerados

In [101]:
amostra_conglomerado(df, 2, 'grupo')

Unnamed: 0,grupo,values
0,A,1
1,A,2
2,A,3
3,A,4
4,B,5
5,B,6


In [102]:
amostra_conglomerado(df, 2, 'grupo')

Unnamed: 0,grupo,values
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9


In [103]:
amostra_conglomerado(df, 2, 'grupo')

Unnamed: 0,grupo,values
6,C,7
7,C,8
8,C,9
9,D,10
10,D,11
11,D,12


Amostra por conglomerado com tamanho 3 conglomerados

In [104]:
amostra_conglomerado(df, 3, 'grupo')

Unnamed: 0,grupo,values
0,A,1
1,A,2
2,A,3
3,A,4
4,B,5
5,B,6
9,D,10
10,D,11
11,D,12


In [105]:
amostra_conglomerado(df, 3, 'grupo')

Unnamed: 0,grupo,values
0,A,1
1,A,2
2,A,3
3,A,4
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9


In [107]:
amostra_conglomerado(df, 3, 'grupo')

Unnamed: 0,grupo,values
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9
9,D,10
10,D,11
11,D,12
