# `Amostragem Estratificada`

### Vamos ver como podemos calcular amostras com o método de amostragem estratificada.

![alt_text](https://thumbs.dreamstime.com/z/stratified-sampling-example-vector-illustration-diagram-research-method-explanation-scheme-person-symbols-stages-175044570.jpg)


### Nessa amostragem, vamos olhar para cada estrato para retirar amostras para então formar nossa amostra final

### Importando a biblioteca pandas (https://pandas.pydata.org)

In [None]:
import pandas as pd

In [None]:
a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
b = ["A", "A", "A", "A", "B", "B", "C", "C", "C", "D", "D", "D"]

df = pd.DataFrame({"grupo": b, "values": a})

df

Unnamed: 0,grupo,values
0,A,1
1,A,2
2,A,3
3,A,4
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9
9,D,10


###Primeiramente, vamos fazer uma amostragem estratificada onde cada estrato vai ter o mesmo tamanho na amostra final, a menos que a quantidade dentro do estrato seja menor do que a que queremos

In [None]:
def amostra_estratificada_1(df, n, estrato):
    amostra = df.groupby(estrato, group_keys=False).apply(lambda x: x.sample(min(len(x), n)))

    return amostra

## Explicação Detalhada do Código:

**Importando Bibliotecas:**

O código inicia importando a biblioteca `pandas`, que é utilizada para manipulação e análise de dados em Python. Essa biblioteca é essencial para o restante do código funcionar.

**Criando Dados:**

Duas listas são criadas:

* `a`: Contém números de 1 a 12.
* `b`: Contém letras de "A" a "D", repetidas três vezes cada.

**Criando um DataFrame:**

Um objeto `pandas.DataFrame` é criado utilizando a função `pandas.DataFrame()`. Esse DataFrame recebe um dicionário como argumento, onde:

* As chaves são:
    * `"grupo"`: Referencia a lista `b` (contendo as letras).
    * `"values"`: Referencia a lista `a` (contendo os números).
* Os valores são as próprias listas `b` e `a`.

**Função `amostra_estratificada_1`:**

Essa função recebe três argumentos:

* `df`: O DataFrame criado anteriormente.
* `n`: O tamanho da amostra desejada.
* `estrato`: A coluna por qual se deseja estratificar a amostra (no caso, `"grupo"`).

**Passo a Passo da Função:**

1. **Agrupamento por Estrato:** O DataFrame é agrupado pela coluna `estrato` usando `df.groupby(estrato)`. Isso cria um objeto `pandas.GroupBy`, que permite realizar operações em cada grupo separadamente.
2. **Aplicação de Função em Cada Grupo:** A função `lambda` é aplicada a cada grupo usando `group.apply()`. Essa função recebe um DataFrame como argumento, que representa os dados de um único estrato.
3. **Amostragem Aleatória:** Dentro da função `lambda`, a função `sample()` é utilizada para selecionar uma amostra aleatória do DataFrame do grupo atual. O tamanho da amostra é limitado por `min(len(x), n)`, o que garante que a amostra não seja maior que o grupo original e que cada grupo tenha pelo menos `n` elementos na amostra.
4. **Retorno da Amostra:** A função `sample()` retorna um subconjunto do DataFrame do grupo. A função `apply()` concatena as amostras de todos os grupos, resultando na amostra estratificada final.

**Retorno da Função:**

A função `amostra_estratificada_1` retorna o DataFrame que contém a amostra estratificada final. Essa amostra garante que cada grupo do estrato original esteja representado na amostra com um número proporcional de elementos.

**Exemplo de Uso:**

```python
# Criando o DataFrame
df = pandas.DataFrame({"grupo": b, "values": a})

# Definindo o tamanho da amostra e o estrato
n = 5
estrato = "grupo"

# Obtem a amostra estratificada
amostra_estratificada = amostra_estratificada_1(df, n, estrato)

# Imprimindo a amostra estratificada
print(amostra_estratificada)
```

Este exemplo irá gerar uma amostra estratificada de tamanho 5, garantindo que cada grupo ("A", "B", "C" e "D") esteja presente na amostra com pelo menos 1 elemento.

**Observações:**

* A função `amostra_estratificada_1` é apenas um exemplo. Você pode adaptar a função às suas necessidades específicas, alterando o tamanho da amostra, o estrato ou a função de amostragem utilizada.
* A amostragem estratificada é útil quando a população original é heterogênea e você deseja garantir que todos os grupos estejam representados na amostra de forma proporcional.
* Existem outras técnicas de amostragem além da amostragem estratificada, como amostragem aleatória simples e amostragem por conglomerados. A escolha da técnica adequada depende das características da sua população e dos seus objetivos de análise.


### Primeiramente, vamos fazer uma amostragem estratificada onde cada estrato vai ter o mesmo tamanho na amostra final, a menos que a quantidade dentro do estrato seja menor do que a que queremos.

### Amostra estratificada com estratos de tamanho 2




In [None]:
amostra_estratificada_1(df, 2, "grupo")

Unnamed: 0,grupo,values
1,A,2
3,A,4
5,B,6
4,B,5
8,C,9
6,C,7
11,D,12
10,D,11


In [None]:
amostra_estratificada_1(df, 2, "grupo")

Unnamed: 0,grupo,values
1,A,2
2,A,3
5,B,6
4,B,5
7,C,8
6,C,7
10,D,11
9,D,10


### Amostra estratificada com estratos de tamanho 3


In [None]:
amostra_estratificada_1(df, 3, "grupo")

Unnamed: 0,grupo,values
0,A,1
1,A,2
2,A,3
5,B,6
4,B,5
7,C,8
6,C,7
8,C,9
9,D,10
10,D,11


### Agora, ao invés de definir o tamanho dos estratos, vamos definir o tamanho da amostra final. Cada estrato vai ter uma amostra proporcional à representação do estrato na população.

In [None]:
def amostra_estratificada_2(df, N, estrato):
    tamanho_pop = df.shape[0]
    amostra = df.groupby(estrato, group_keys=False)\
        .apply(lambda x: x.sample(int(N*len(x)/tamanho_pop)))\
        .reset_index(drop=True)\
        .sort_values(by=estrato)

    return amostra


## Explicação detalhada do código:

**Função `amostra_estratificada_2`:**

Esta função recebe um DataFrame (`df`), um tamanho total de amostra (`N`) e uma coluna de estratificação (`estrato`) como parâmetros e retorna uma amostra estratificada aleatória.

**Passo a passo da função:**

1. **Obter tamanho total da população:**
    * A linha `tamanho_pop = df.shape[0]` obtém o número total de linhas no DataFrame (`df`). Isso representa o tamanho da população original.

2. **Agrupar por estrato:**
    * A função `groupby` agrupa o DataFrame por `estrato`, sem considerar as chaves de grupo.

3. **Aplicar função a cada grupo:**
    * A função `apply` aplica uma função anônima a cada grupo do `DataFrame` agrupado.

4. **Calcular tamanho de amostra por grupo:**
    * A função anônima dentro de `apply` calcula o tamanho de amostra para cada grupo:
        * `int(N*len(x)/tamanho_pop)`:
            * `N`: Tamanho total de amostra.
            * `len(x)`: Tamanho do grupo atual.
            * `tamanho_pop`: Tamanho total da população.
        * A função `int` converte o resultado em um número inteiro.
        * Isso garante que a proporção de amostras em cada grupo seja a mesma que na população original.

5. **Amostragem aleatória por grupo:**
    * A função `sample` seleciona aleatoriamente `int(N*len(x)/tamanho_pop)` elementos de cada grupo.
    * Se o grupo tiver menos elementos do que o tamanho de amostra calculado, todos serão selecionados.

6. **Redefinir o índice:**
    * A função `reset_index` redefine o índice do DataFrame para uma sequência numérica padrão.
    * O parâmetro `drop=True` remove a coluna de índice original.

7. **Ordenar por estrato:**
    * A função `sort_values` ordena a amostra pelo valor da coluna `estrato`.

8. **Retornar a amostra estratificada:**
    * A função `amostra` retorna o DataFrame final com as amostras estratificadas.

**Exemplo de uso:**

```python
amostra = amostra_estratificada_2(df, 40, "grupo")
print(amostra)
```

**Observações:**

* Esta função é similar à `amostra_estratificada_1`, mas utiliza uma abordagem alternativa para calcular o tamanho da amostra por grupo.
* Ambas as funções garantem que a proporção de amostras em cada grupo seja a mesma que na população original.
* A escolha entre as funções pode depender de preferências pessoais ou da legibilidade do código.

**Recursos adicionais:**

* Documentação do Pandas:
    * `groupby`: [https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)
    * `sample`: [https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html)
    * `reset_index`: [https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reset_index.html](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reset_index.html)
    * `sort_values`: [https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html)
* Amostragem estratificada: [https://en.wikipedia.org/wiki/Stratified_sampling](https://en.wikipedia.org/wiki/Stratified_sampling)

Espero que esta explicação detalhada tenha ajudado a entender o código!


In [None]:
amostra_estratificada_2(df, 9, 'grupo')

Unnamed: 0,grupo,values
0,A,1
1,A,3
2,A,2
3,B,5
4,C,7
5,C,8
6,D,12
7,D,11


# `Amostragem por Conglomerado`
   
### Vamos ver como podemos calcular amostras com o método de amostragem por conglomerado.

![alt_text](https://www.datasciencecentral.com/wp-content/uploads/2021/10/4-29.png)

### Aqui, precisaremos primeiro amostrar aleatóriamente os conglomerados para então pegar todas as observações desses conglomerados escolhidos e formar nossa amostra.


In [28]:
from random import sample

def amostra_conglomerado(df, n_conglomerados, conglomerado):
    todos_conglomerados = list(df[conglomerado].unique())
    tamanho_conglomerados = len(todos_conglomerados)
    n = min(n_conglomerados, tamanho_conglomerados)
    conglomerados_sorteados = sample(todos_conglomerados, n)

    amostra = df[df[conglomerado].isin(conglomerados_sorteados)]
    return amostra

## Explicação detalhada do código:

**Função `amostra_conglomerado`:**

Esta função recebe um DataFrame (`df`), um número de conglomerados (`n_conglomerados`) e uma coluna que identifica os conglomerados (`conglomerado`) como parâmetros e retorna uma amostra aleatória por conglomerados.

**Passo a passo da função:**

1. **Obter lista de todos os conglomerados:**
    * A linha `todos_conglomerados = list(df[conglomerado].unique())` cria uma lista contendo todos os valores únicos na coluna `conglomerado`. Isso representa os diferentes conglomerados presentes no DataFrame.

2. **Obter o número total de conglomerados:**
    * A linha `tamanho_conglomerados = len(todos_conglomerados)` obtém o número total de elementos na lista `todos_conglomerados`, ou seja, o número total de conglomerados distintos.

3. **Limitar o número de conglomerados amostrados:**
    * A linha `n = min(n_conglomerados, tamanho_conglomerados)` define o número final de conglomerados a serem amostrados.
        * `n_conglomerados`: Número de conglomerados especificado pelo usuário.
        * `tamanho_conglomerados`: Número total de conglomerados presentes no DataFrame.
        * A função `min` garante que o número final de conglomerados não exceda o número total disponível.

4. **Sortear conglomerados:**
    * A linha `conglomerados_sorteados = sample(todos_conglomerados, n)` utiliza a função `sample` do módulo `random` para selecionar aleatoriamente `n` elementos da lista `todos_conglomerados`.
        * `todos_conglomerados`: Lista de todos os conglomerados disponíveis.
        * `n`: Número de conglomerados a serem amostrados.
        * A função `sample` retorna uma lista contendo os `n` conglomerados sorteados aleatoriamente.

5. **Filtrar a amostra por conglomerados sorteados:**
    * A linha `amostra = df[df[conglomerado].isin(conglomerados_sorteados)]` utiliza a indexação booleana para selecionar as linhas do DataFrame `df` onde o valor na coluna `conglomerado` está presente na lista `conglomerados_sorteados`.
        * `df[conglomerado]`: Seleciona a coluna `conglomerado` do DataFrame.
        * `.isin(conglomerados_sorteados)`: Verifica se o valor na coluna `conglomerado` está presente na lista `conglomerados_sorteados`.
        * A indexação booleana resulta em um novo DataFrame contendo apenas as linhas que pertencem aos conglomerados sorteados.

6. **Retornar a amostra:**
    * A linha `return amostra` retorna o DataFrame final contendo a amostra aleatória por conglomerados.

**Exemplo de uso:**

```python
amostra_conglomerado = amostra_conglomerado(df, 3, "cidade")
print(amostra_conglomerado)
```

**Observações:**

* Esta função é útil para selecionar amostras representativas de populações onde os indivíduos são agrupados em conglomerados, como cidades, escolas ou turmas.
* A amostragem por conglomerados pode ser mais eficiente do que a amostragem aleatória simples, especialmente quando os conglomerados são grandes e heterogêneos.
* É importante considerar o tamanho e a heterogeneidade dos conglomerados ao utilizar essa técnica de amostragem.

**Recursos adicionais:**

* Documentação do módulo `random`: [https://docs.python.org/3/library/random.html](https://docs.python.org/3/library/random.html)
* Amostragem por conglomerados: [URL inválido removido]

Espero que esta explicação detalhada tenha ajudado a entender o código!



### Amostra por conglomerado com tamanho 2 conglomerados



In [29]:
amostra_conglomerado(df, 2, 'grupo')

Unnamed: 0,grupo,values
0,A,1
1,A,2
2,A,3
3,A,4
4,B,5
5,B,6


In [30]:
amostra_conglomerado(df, 2, 'grupo')

Unnamed: 0,grupo,values
4,B,5
5,B,6
9,D,10
10,D,11
11,D,12


### Amostra por conglomerado com tamanho 3 conglomerados

In [31]:
amostra_conglomerado(df, 3, 'grupo')

Unnamed: 0,grupo,values
0,A,1
1,A,2
2,A,3
3,A,4
4,B,5
5,B,6
9,D,10
10,D,11
11,D,12


In [33]:
amostra_conglomerado(df, 3, 'grupo')

Unnamed: 0,grupo,values
0,A,1
1,A,2
2,A,3
3,A,4
6,C,7
7,C,8
8,C,9
9,D,10
10,D,11
11,D,12
