# Amostragem Aleatória Simples

###Vamos ver como podemos calcular amostras com o método de amostragem aleatória simples.


![alt_text](https://www.netquest.com/hubfs/Imported_Blog_Media/imagempost.png)

###Essa é a forma mais simples de se amostrar em termos de código. O Python tem seu método bult-in para cálculo de amostras aleatórias, assim como a biblioteca pandas, bastante utilizada para análise exploratória de dados.

#### Vamos utilizar a função sample do Python para amostras aleatórias de uma lista, que consideramos como nossa população

In [None]:
from random import sample

In [None]:
populacao = [1, 2, 3, 4, 5, 6, 7, 8, 9,10, 11, 12]

#### Amostra aleatória simples de tamanho 4

In [None]:
sample(populacao, 4)

[5, 4, 1, 7]

In [None]:
sample(populacao, 4)

[11, 10, 8, 2]

In [None]:
sample(populacao, 4)

[2, 9, 12, 11]

In [None]:
sample(populacao, 4)

[12, 10, 7, 11]

#### Importando o Pandas

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame(populacao, columns = ["values"])
df

Unnamed: 0,values
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


In [None]:
df.sample(n = 4)

Unnamed: 0,values
2,3
1,2
7,8
3,4


#### Ao invés de passar o tamanho da amostra que queremos para o Pandas podemos passar a proporção do todo que queremos na nossa amostra.

In [None]:
df.sample(frac = 0.33) ## um terço

Unnamed: 0,values
5,6
8,9
4,5
2,3


# Amostragem Sistemática

#### Vamos ver como podemos calcular amostras com o método de amostragem sistemática.

![alt_text](https://www.netquest.com/hubfs/Imported_Blog_Media/Post-blog.png)

In [None]:
import numpy as np

### Usando Python puro:

In [None]:
tamanho_populacao = len(populacao)

In [None]:
tamanho_populacao

12

In [None]:
for i in range (1, tamanho_populacao, 3):
    print(i)

0
3
6
9


In [None]:
amostra_sistematica_exemplo = []

for i in range (1, tamanho_populacao, 3):
    print(populacao[i])
    amostra_sistematica_exemplo.append(populacao[i])

2
5
8
11


In [None]:
amostra_sistematica_exemplo

[2, 5, 8, 11]

## Analisando o código passo a passo:

**1. Definição da lista:**

```python
amostra_sistematica_exemplo = []
```

A lista `amostra_sistematica_exemplo` é criada para armazenar os elementos da amostra.

**2. Loop para percorrer a população:**

```python
for i in range (1, tamanho_populacao, 3):
```

O loop `for` é utilizado para percorrer a população com um passo de 3. Isso significa que ele irá iterar sobre os elementos 1, 4, 7, ..., `tamanho_populacao - 1`.

**3. Impressão e adição à lista:**

```python
print(populacao[i])
amostra_sistematica_exemplo.append(populacao[i])
```

Dentro do loop, o elemento `i` da população é impresso e adicionado à lista `amostra_sistematica_exemplo`.

**Exemplo de uso:**

```python
populacao = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
tamanho_populacao = len(populacao)

amostra_sistematica_exemplo = []

for i in range (1, tamanho_populacao, 3):
  print(populacao[i])
  amostra_sistematica_exemplo.append(populacao[i])

print(amostra_sistematica_exemplo)
```

**Saída:**

```
2
5
8
[2, 5, 8]
```

Neste exemplo, a população é uma lista de números de 1 a 10. A função irá gerar uma amostra da população com um passo de 3, o que significa que ela irá selecionar os elementos 2, 5 e 8.

**Observações:**

* Este código é um exemplo simples de como realizar uma amostragem sistemática.
* É importante verificar se a amostra é realmente representativa da população original antes de utilizá-la para análises.
* Existem outras técnicas de amostragem mais complexas que podem ser utilizadas em diferentes situações.


#### Para calcular uma amostra sistemica no pandas, a lógica é a mesma. Vamos utilizar os índices do poandas para filtarr somente as posições que queremos.

In [None]:
np.arange(1,12, step = 3)

array([ 1,  4,  7, 10])

In [None]:
df.shape[0]

12

In [None]:
df.shape ## número de linhas e colunas nessa ordem.

(12, 1)

In [None]:
def amostragem_sistematica(df, inicio = 0, step = 3):

    indexes = np.arange(inicio, df.shape[0], step = step)

    amostra = df.iloc[indexes]

    return amostra

In [None]:
amostragem_sistematica(df, 1, 3)

Unnamed: 0,values
1,2
4,5
7,8
10,11


## Vamos analisar o código passo a passo:

**Função:** `amostragem_sistematica`

**Parâmetros:**

* `df`: O dataframe que você deseja amostrar.
* `inicio`: O índice da primeira linha a ser incluída na amostra (opcional, padrão = 0).
* `step`: O número de linhas a serem puladas entre cada linha incluída na amostra (opcional, padrão = 3).

**O que a função faz:**

1. **Gera uma lista de índices:** A função utiliza a biblioteca `numpy` para gerar uma lista de índices que serão utilizados para selecionar as linhas da amostra. A lista é criada com a função `np.arange(inicio, df.shape[0], step = step)`. Essa função cria uma sequência de números começando em `inicio` e indo até `df.shape[0]` (o número total de linhas no dataframe) com um passo de `step`.

2. **Seleciona as linhas da amostra:** A função usa a função `iloc` do Pandas para selecionar as linhas do dataframe com base nos índices gerados na etapa anterior. A função `iloc` recebe como parâmetro uma lista de índices e retorna um novo dataframe com as linhas selecionadas.

3. **Retorna a amostra:** A função retorna o dataframe com as linhas selecionadas como a amostra.

**Exemplo de uso:**

```python
import pandas as pd

# Cria um dataframe
df = pd.DataFrame({'col1': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]})

# Define os parâmetros da amostragem
inicio = 2
step = 2

# Gera a amostra
amostra = amostragem_sistematica(df, inicio, step)

# Imprime a amostra
print(amostra)
```

**Saída:**

```
   col1
2     3
4     5
6     7
8     9
```

Neste exemplo, a função `amostragem_sistematica` é utilizada para gerar uma amostra do dataframe `df` com os seguintes parâmetros:

* `inicio`: 2 (a primeira linha a ser incluída na amostra é a linha 2)
* `step`: 2 (a função pula 2 linhas entre cada linha incluída na amostra)

A função retorna um novo dataframe com as linhas 3, 5, 7 e 9 (as linhas 2, 4, 6 e 8 foram puladas).

**Observações:**

* A função `amostragem_sistematica` é útil para garantir que a amostra seja representativa do dataframe original, especialmente quando o dataframe é muito grande.
* O valor do parâmetro `step` deve ser um divisor do número total de linhas no dataframe para garantir que todas as linhas tenham a mesma chance de serem selecionadas.
* É importante verificar se a amostra é realmente representativa do dataframe original antes de utilizá-la para análises.