## Técnicas de Amostragem de Dados

### 1ª. Simple Random sample  *(amostragem aleatória simples)*

Um determinado grupo de observações é selecionado de forma aleatória, onde todas as observações têm a mesma probabilidade se serem selecionadas para a amostra. Essa amostragem pode ser **aleatória simples com reposição** ou **aleatória simples sem reposição**.

Exemplo: *Se eu tenho um sorteio com um pote cheio de papeis com um número distintos escritos...*

- **Aleatória simples com reposição**: *Se um papel é sorteado e em seguida é colocado novamente no pote*
- **Aleatória simples sem reposição**: *Se um papel é sortead e em seguida é dispensado fora do pode, não fazendo parte do próximo sorteio*

In [18]:
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split

In [2]:
# Carregando Dataset
df_iris = sns.load_dataset('iris')

In [3]:
# Visualizando primeiras 5 linhas
df_iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [4]:
# Verificando o número de registros
len(df_iris)

150

### Criando uma amostra com 25% das observações

O método `sample` irá gerar uma amostra **sem reposição**, para que haja reposição, basta informar **True** para o parâmetro `replace`

In [7]:
df_sample = df_iris.sample(frac=0.25, replace=False)
len(df_sample)

38

### 2ª. Stratified Sample *(amostragem aleatória estratificada)*

Consiste em dividir o conjunto de dados em diferentes grupos, de forma que uma observação só possa fazer parte de um único grupo e que nenhuma observação fique fora de um grupo ou estrato. E esta escolha deve ser de forma aleatória.

Em um conjunto de 250 filmes eu seleciono 50 filmes de ação, 50 de romance, 50 de terror, 50 de ficção, 50 de humor, sendo que a seleção é feita de forma aleatória.

**Explicando o código:**

- `train_test_split` divide os dados em treino e teste de forma aleatória e estratificada
- `stratify` gera os estratos ou grupos a partir do atributo selecionado
- `test_size` indicamos que queremos 30% do volume total de dados

Então teremos 3 grupos, sendo que cada grupo terá amostras aleatórias que corresponderam a 30% do todal de dados dos dados


In [12]:
df_iris['species'].value_counts()

virginica     50
versicolor    50
setosa        50
Name: species, dtype: int64

In [15]:
X_train, X_test, y_train, y_test = train_test_split(df_iris.drop('species', axis=1), df_iris['species'], stratify=df_iris['species'], test_size=0.30)

In [16]:
y_test.shape

(45,)

In [17]:
y_test.value_counts()

versicolor    15
virginica     15
setosa        15
Name: species, dtype: int64

### 3ª. Sistematic Sample *(amostragem sistemática)*

Colocamos as observações em uma listae cada elemento da lista é escolhido (sistematicamente) por inclusão na amostra.

Exemplo: *Em um sorteio em uma empresa deseja presentear 10 colaboradores. Todos os nomes dos colaboradores são colocados em uma lista, o primeiro colaborador é selecionado aleatóriamente e os demais colaboradores serão selecionado a cada 8 colaborador na lista.*

In [27]:
# Selecionando um registro aleatório
seed = np.random.choice(10, 1)
seed

array([7])

In [28]:
numbers = np.arange(0, 150, seed)
numbers

array([  0,   7,  14,  21,  28,  35,  42,  49,  56,  63,  70,  77,  84,
        91,  98, 105, 112, 119, 126, 133, 140, 147])

In [29]:
# Gerando amostra utilizando indices
amostra = df_iris.loc[numbers,:]
amostra

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
7,5.0,3.4,1.5,0.2,setosa
14,5.8,4.0,1.2,0.2,setosa
21,5.1,3.7,1.5,0.4,setosa
28,5.2,3.4,1.4,0.2,setosa
35,5.0,3.2,1.2,0.2,setosa
42,4.4,3.2,1.3,0.2,setosa
49,5.0,3.3,1.4,0.2,setosa
56,6.3,3.3,4.7,1.6,versicolor
63,6.1,2.9,4.7,1.4,versicolor
