<a href="https://colab.research.google.com/github/ogabrielcustodio/amostraEstratificada/blob/main/Amostragem_Estratificada.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Amostragem Estratificada

A amostragem estratificada consiste em separar a população em subgrupos homogêneos, mas heterogêneos entre si. Em seguida é utilizada uma amostragem aleatória para extrair de cada subgrupo um número de observações que ao final irão compor a amostra.

In [None]:
import pandas as pd

In [None]:
numeros = [1,2,3,4,5,6,7,8,9,10,11,12]
letras = ["A","A","A","A","B","B","C","C","C","D","D","D"]

**Criando o dataframe**


In [None]:
df = pd.DataFrame({"grupos": letras, "valores": numeros })

In [None]:
df

Unnamed: 0,grupos,valores
0,A,1
1,A,2
2,A,3
3,A,4
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9
9,D,10


### Criando amostra estratificada pelo número de estratos (observações)

In [None]:
def amostraEstratificada1(df,n,estrato):
  amostra = df.groupby(estrato).apply(lambda x: x.sample(min(len(x),n)))
  return amostra

**Detalhando a função "amostraEstratificada1"**

O retorno dessa função será um amostra com duas observações de cada subgrupo, esse critério é aplicado usando uma função lambda que recebe os estratos e faz para cada tamanho de  estrato a extração de duas observações.


In [None]:
amostraEstratificada1(df,2,"grupos")

Unnamed: 0_level_0,Unnamed: 1_level_0,grupos,valores
grupos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,2,A,3
A,0,A,1
B,5,B,6
B,4,B,5
C,7,C,8
C,6,C,7
D,10,D,11
D,9,D,10


**Observação:** realizar amostra estratificada pelo número de estratos pode fazer com que o resultado não seja o espelho da população, se um dos subgrupos conter o número exato de observações tanto na amostra quanto na população fazendo com que seus valores sejam sempre o mesmo, isso ocorre no subgrupo B que só tem dois valores, logo sempre serão esses dois valores a irem para as observações.

### Criando uma amostra estratificada pelo tamanho final da amostra

In [None]:
def amostraEstratificada2(df,n,estrato):
  tamanhoDataFrame = df.shape[0]
  amostra = df.groupby(estrato)\
  .apply(lambda x: x.sample(int(n*len(x)/tamanhoDataFrame)))\
  .reset_index(drop=True)\
  .sort_values(estrato)
  return amostra

**Detalhando a função "amostraEstratificada2"**

O retorno dessa função será uma amostra com um número de observações definido pelo percentual do tamanho de cada estrato sobre o tamanho da população vezes o tamanho final da amostra. Isso faz com que o número de observações seja distinto, a depender da disponibilidade de observação presente em cada estrato.

In [None]:
amostraEstratificada2(df,8,"grupos")

Unnamed: 0,grupos,valores
0,A,1
1,A,3
2,B,6
3,C,8
4,C,7
5,D,10
6,D,12
