In [1]:
# Amostragem estratificada

In [2]:
import pandas

In [3]:
a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
b = ["A", "A", "A", "A", "B", "B", "C", "C", "C", "D", "D", "D"]

df = pandas.DataFrame({"grupo": b, "values": a})

df

Unnamed: 0,grupo,values
0,A,1
1,A,2
2,A,3
3,A,4
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9
9,D,10


#### Primeiramente, vamos fazer uma amostragem estratificada onde cada estrato vai ter o mesmo tamanho na amostra final, a menos que a quantidade dentro do estrato seja menor do que a que queremos.

In [None]:
def amostra_estratificada_1(df, n, estrato):
    amostra = df.groupby(estrato, group_keys=False).apply(lambda x: x.sample(min(len(x), n)))

    return amostra

Amostra estratificada com estratos de tamanho 2

In [None]:
amostra_estratificada_1(df, 2, 'grupo')

Unnamed: 0,grupo,values
1,A,2
3,A,4
4,B,5
5,B,6
8,C,9
7,C,8
11,D,12
9,D,10


In [None]:
amostra_estratificada_1(df, 2, 'grupo')

Unnamed: 0,grupo,values
2,A,3
1,A,2
4,B,5
5,B,6
6,C,7
7,C,8
9,D,10
11,D,12


In [None]:
amostra_estratificada_1(df, 2, 'grupo')

Unnamed: 0,grupo,values
1,A,2
3,A,4
5,B,6
4,B,5
6,C,7
7,C,8
9,D,10
10,D,11


Amostra estratificada com estratos de tamanho 3

In [None]:
amostra_estratificada_1(df, 3, 'grupo')

Unnamed: 0,grupo,values
2,A,3
0,A,1
1,A,2
5,B,6
4,B,5
8,C,9
7,C,8
6,C,7
11,D,12
10,D,11


#### Agora, ao invés de definir o tamanho dos estratos, vamos definir o tamanho da amostra final. Cada estrato vai ter uma amostra proporcional à representação do estrato na população.

In [None]:
def amostra_estratificada_2(df, N, estrato):
    tamanho_pop = df.shape[0]
    amostra = df.groupby(estrato, group_keys=False)\
        .apply(lambda x: x.sample(int(N*len(x)/tamanho_pop)))\
        .reset_index(drop=True)\
        .sort_values(by=estrato)

    return amostra

Amostra estratificada de tamanho 9

In [None]:
amostra_estratificada_2(df, 9, 'grupo')

Unnamed: 0,grupo,values
0,A,1
1,A,3
2,A,2
3,B,5
4,C,8
5,C,9
6,D,12
7,D,11


In [None]:
# Amostragem por conglomerado

<br>

<br>

#### Aqui, precisaremos primeiro amostrar aleatóriamente os conglomerados para então pegar todas as observações desses conglomerados escolhidos e formar nossa amostra.

In [None]:
from random import sample

def amostra_conglomerado(df, n_conglomerados, conglomerado):
    todos_conglomerados = list(df[conglomerado].unique())
    tamanho_conglomerados = len(todos_conglomerados)
    n = min(n_conglomerados, tamanho_conglomerados)
    conglomerados_sorteados = sample(todos_conglomerados, n)

    amostra = df[df[conglomerado].isin(conglomerados_sorteados)]
    return amostra


Amostra por conglomerado com tamanho 2 conglomerados

In [None]:
amostra_conglomerado(df, 2, 'grupo')

Unnamed: 0,grupo,values
0,A,1
1,A,2
2,A,3
3,A,4
4,B,5
5,B,6


In [None]:
amostra_conglomerado(df, 2, 'grupo')

Unnamed: 0,grupo,values
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9


In [None]:
amostra_conglomerado(df, 2, 'grupo')

Unnamed: 0,grupo,values
6,C,7
7,C,8
8,C,9
9,D,10
10,D,11
11,D,12


Amostra por conglomerado com tamanho 3 conglomerados

In [None]:
amostra_conglomerado(df, 3, 'grupo')

Unnamed: 0,grupo,values
0,A,1
1,A,2
2,A,3
3,A,4
4,B,5
5,B,6
9,D,10
10,D,11
11,D,12


In [None]:
amostra_conglomerado(df, 3, 'grupo')

Unnamed: 0,grupo,values
0,A,1
1,A,2
2,A,3
3,A,4
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9


In [None]:
amostra_conglomerado(df, 3, 'grupo')

Unnamed: 0,grupo,values
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9
9,D,10
10,D,11
11,D,12
