# Amostragem

Amostragem é um tópico muito importante em estatística prática, pois quase nunca temos acesso a população (conjunto de dados) inteira.

* Exemplo 1: Empresas não conseguem entrevistar TODOS os seus clientes. Fazem as pesquisar a partir de amostras
* Exemplo 2: Quando trabalhamos com data lakes gigantes (na ordem de petabytes pra cima), as vezes precisamos testar modelos em uma amostra reduzida, e não no dataset inteiro.

## Vantagens de se utilizar amostas
* Custo: Medir toda a população pode ser caro.
* Tempo: Dependendo do tempo gasto a pesquisa se torna inviável
* Impossibilidade física: Medir todas as pessoas, produtos, devices, etc, as vezes se torna impossível
* Processamento: Bancos com milhões de registros exigem amostras para prototipagem

## População vs Amostra
* População: Conjunto total dos dados (Todos os clientes, todos os logs, etc)
* Amostra: Subconjunto de uma população. Toda inferência estatística depente de como essa amostra é coletada.

Se a amostra é ruim, toda a análise será ruim.


## Tipos de amostras

### Amostragem Aleatória Simples (AAS)
* O que é? Cada elemento tem a mesma probabilidade de ser escolhido.
* Quando utilizar: Quando a população é relativamente homogênea ou quando não existem subgrupos importantes.
* Quando não utilizar? Quando existem grupos muito diferentes (faixas etárias, regiões, etc). A amostra pode ficar desbalanceada.
* Exemplo: Você quer avalidar o tempo médio de carregamento das páginas de um site. Pegar 5000 logs de acesso aleatórios já representa muito bem o comportamento do site inteiro. 

In [None]:
import pandas as pd

df = pd.read_csv("students_performance.csv")

# Amostragem aleatória simples
# Útil quando a população é homogênea e quando não há grupos

# seed
amostra_aas = df.sample(n=100)

print(f"Amostra AAS: {amostra_aas.shape}.")

print("\nMédia de matemática - População: ", df['math score'].mean())
print("Média de matemática - Amostra: ", amostra_aas['math score'].mean())

### Amostragem sistemática

* O que é? Quando a seleção dos elementos é feita em intervalos.

* Quanto usar? Quanto a população está naturalmente ordenada. Por exemplo: Lista de clientes, logs, planilhas, etc. Utilizando quando queremos simplicidade e rapidez. Porém temos que tomar cuidado com a população de onde vamos extrair essa amostra. Por exemplo: Se formos processar as informações de vendas que estão agregadas a cada 7 dias, corremos o risco de pegar sempre o mesmo dia de vendas.

* Exemplo: Esse tipo de amostragem é muito utilizada na indústria, onde a cada x peças produzidas, 1 é inspecionada.

In [None]:
#  Nesse exemplo vamos utilizar o dataset california housing

import pandas as pd
import numpy as np

from random import randint

df = pd.read_csv("california_housing.csv")

print(f"Dataset original: {df.shape}")

N = len(df)
n = 500
k = N // n

# O parâmetro frac=1 indica que vamos pegar a população inteira.
df_shuffled = df.sample(frac=1).reset_index(drop=True)
sample_s = df_shuffled.iloc[::k]
print("Amostra sistemática: ", sample_s.shape)

# Comparando médias
print("Média de median_house_value - População", df['median_house_value'].mean())
print("Média de median_house_value - Amostra sistemática: ", sample_s['median_house_value'].mean())

Dataset original: (20640, 10)
Amostra sistemática:  (504, 10)
Média de median_house_value - População 206855.81690891474
Média de median_house_value - Amostra sistemática:  212246.8650793651
