## Amostra 
- É a parte de uma população. Tem chances iguais para todos os elementos da população serem selecionados

## Conceitos
- ***População:*** Alvo de estudo. Ex.: População Brasileira
- ***Amostra:*** Subconjunto da população
- ***Censo:*** Pesquisa com toda a população

Amostra <> População

### Podemos inferir sobre uma amostra
Uma amostra, feita corretamente, deve representar as mesmas características da população.<br>
Se não representa a população dizemos que ela é `enviesada`

### Enviesamento
- Sub-estima ou Superestima o parâmetro da população
- Uma causa para isso é não utilizar os meios corretos de selecionar as pessoas de forma aleatória.

### "Custo" da `Amostra`
- Margem de Erro e Nível de Confiança
- Variação: Amostras diferentes podem apresentar resultados diferentes.

- Realizamos a separação da população para teste/treino/validação

## Principais tipos de amostras
1. Aleatória Simples
1. Estratificada
1. Sistemática

#### 1. Amostras Aleatórias Simples
- Um determinado número de elementos é retirado da população de forma aleatória.
- Todos os elementos devem ter as mesmas chances de serem selecionados

***Temos dois tipos:***
- *Com reposição*, ou seja, o elemento selecionado volta a fazer parte do todo e pode ser selecionado novamente. Ex.: Análise de doping em atletas em olimpíadas.
- *Sem reposição*, ou seja, o elemento selecionado não poderá ser selecionado novamente.

#### 2. Amostra Estratificada
- Divisão da população é dividida nos chamados estratos, que tenham características iguais.
- Ex.: Fazer o estrato de quem tenha Pós-Graduação e quem tenha Ensino Superior.

#### 3. Amostra Sistemática
- É escolhido um elemento aleatório, a partir daí, a cada N elementos um novo membro é escolhido

# Utilizando o Python
## Amostragem Simples - Parte I

In [1]:
import pandas as pd
import numpy as np

In [2]:
base = pd.read_csv('iris.csv')

In [3]:
base.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [5]:
base.shape

(150, 5)

In [27]:
# a = números que quero gerar
# size = quantidade de números
# replace = informa que pode ter número repetido
# p = probabilidade que saia a quantidade de número em "a"

np.random.seed(2345)
amostra = np.random.choice(a = [0, 1], size = 150, replace = True, p = [0.5, 0.5])

In [28]:
amostra

array([1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1,
       0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0,
       0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0,
       1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0,
       0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1,
       1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1])

In [29]:
len(amostra)

150

In [30]:
len(amostra[amostra==1])

80

In [31]:
len(amostra[amostra==0])

70

## Amostragem Estratificada - Parte II

In [32]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [33]:
iris = pd.read_csv('iris.csv')

In [34]:
iris.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [35]:
iris['class'].value_counts()

Iris-virginica     50
Iris-versicolor    50
Iris-setosa        50
Name: class, dtype: int64

Vamos pegar 50% dos dados para a amostra, nesse caso será 25 itens de cada classe

In [36]:
X, _, y, _ = train_test_split(iris.iloc[:, 0:4], iris.iloc[:, 4], test_size = 0.5, stratify = iris.iloc[:, 4])

In [40]:
y.value_counts()

Iris-versicolor    25
Iris-setosa        25
Iris-virginica     25
Name: class, dtype: int64

In [41]:
infert = pd.read_csv('infert.csv')

In [44]:
infert.shape

(248, 9)

In [43]:
infert['education'].value_counts()

6-11yrs    120
12+ yrs    116
0-5yrs      12
Name: education, dtype: int64

Pegando a amostra de 100 registros do valor total que terá a `mesma porcentagem` para cada classe <br>
Utilizamos: (Valor de registro da classe / Valor total de elementos) * Quantidade de amostra 
- (120 / 248) * 100
- (116 / 248) * 100
- (12 / 248) * 100

In [47]:
X1, _, y1, _ = train_test_split(infert.iloc[:, 2:9], infert.iloc[:, 1], test_size = 0.6, stratify = infert.iloc[:, 1])

In [48]:
y1.value_counts()

6-11yrs    48
12+ yrs    46
0-5yrs      5
Name: education, dtype: int64