# Teoria da Amostragem (conceitos breves...)

A teoria da amostragem é um estudos das relações existentes entre uma população e as amostras dela extraídas. É de grande valia para a avaliação de grandezas desconhecidas da população (como sua média, variância e desvio padrão), frequentemente denominadas **_parâmetros populacionais_** ou abreviadamente **_parâmetros_**, através do conhecimento das grandezas correspondentes das amostras (também como média, desvio padrão, etc...) muitas vezes denominadas **_estatísticas amostrais_** ou, abreviadamente **_estatísticas_**.

A teoria da amostragem também é útil para determinar se as difereças observadas entre duas amostras são realmente devidas a uma variação casual ou se são verdadeiramente significativas. Exemplos dessas diferenças são utilizados por exemplo em amostragem de testes clínicos, de produção ou em processos de aferição de qualidade. 

A **_inferência estatística_** nada mais é do que o estudo de uma população a partir de suas amostras, com a indicação da precisão destas inferências baseadas pelo conhecimento da teoria da probabilidade.

**Amostras Aleatórias** são amostras selecionadas (um subconjunto de indivíduos ou objetos) a partir de uma população maior (um grupo completo de indivíduos ou objetos), de forma que cada membro da população tenha uma chance igual de ser escolhido. Tais amostras são desejáveis porque tendem a ser representativas da população e minimizam os vieses na análise.

Pense na amostragem aleatória como um sorteio. Por exemplo, se você quiser estudar as opiniões dos habitantes de uma cidade sobre um tema específico, seria muito difícil e cansativo entrevistar todos os moradores. Então, em vez disso, você pode realizar uma amostragem aleatória, selecionando um número menor de habitantes de forma aleatória e imparcial. Assim, todos os moradores têm a mesma chance de serem escolhidos, e a amostra resultante pode ser usada para inferir informações sobre a população como um todo.

Essa abordagem permite que os pesquisadores façam generalizações e estimativas sobre a população maior com base nos dados coletados da amostra. Quando a amostragem aleatória é realizada corretamente, a amostra tende a refletir as características da população maior, tornando as análises mais precisas e confiáveis.

Há várias técnicas para escolher uma amostra que represente bem a população maior. Aqui, vamos falar sobre quatro dessas técnicas:

- Amostragem Aleatória Simples
- Amostragem Sistemática
- Amostragem Aleatória Estratificada
- Amostragem por Conglomerado

Para muitos casos, tipo a distribuição de médias, o teorema central do limite vai nos ajudar teoricamente, pois sabemos que os dados da ditribuição de amostragem converge para uma normal. Assim, para amostras maiores que 25 ($ N>25$) as amostras tendem a se comportar como uma distribuição normal, e o conhecimento da distribuição normal torna-se útil para facilitar a análise e possíveis inferências sobre a população. Embora se fala muito de big data, na prática, são boas amostras que são utilizadas para responder boas (e a maioria das) perguntas.

## Amostragem aleatória simples

Na amostragem aleatória simples, cada elemento da população tem a mesma chance de ser selecionado. Por exemplo, ao realizar uma pesquisa de opinião, podemos selecionar aleatoriamente um grupo de pessoas para entrevistar. Nesse método, escolhemos um grupo de pessoas ou coisas de forma completamente aleatória, dando a todos na população a mesma chance de serem selecionados.

Para trabalhar a ideia de amostragem, vamos utilizar o arquivo **diamonds.csv**.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import random

In [None]:
df = pd.read_csv('diamonds.csv')
df.head()

In [None]:
sns.distplot(df['carat'])

In [None]:
## Explique o que este código está fazendo está fazendo
## np.random.seed(1)

amostra_simples = df.sample(frac=0.20)

amostra_simples.shape

In [None]:
## Explique o que este código está fazendo está fazendo
## np.random.seed(2)

amostra_simples1 = df.sample(15000)

amostra_simples1.shape

## Amostragem Sistemática

Aqui, seleciona-se a amostra seguindo um padrão específico pré-estabelecido. Esse método é útil quando temos uma lista organizada da população e queremos garantir uma distribuição mais uniforme dos elementos selecionados.

In [None]:
## Explique o que este código está fazendo está fazendo
## np.random.seed(3)

aleatorio = np.random.choice(10)

amostra_sistematica = np.arange(aleatorio,15000,150)
amostra_sistematica

In [None]:
## Explique o que este código está fazendo está fazendo
## np.random.seed(4)

aleatorio = np.random.choice(10,1)
passo = np.random.randint(120,300,1)
print(passo)
amostra_sistematica2 = np.arange(aleatorio,15000,passo)
amostra_sistematica2

## Amostragem Estratificada

Nessa abordagem, divide-se a população em grupos menores homogêneos, chamados estratos, com base em alguma característica comum. Depois, seleciona-se uma amostra de cada estrato, proporcionalmente ao tamanho do estrato, usando amostragem simples ou sistemática. Isso garante que a amostra seja representativa de cada subgrupo da população.

In [None]:
## Explique o que este código está fazendo está fazendo
df['cut'].value_counts()

### Exercício 1

Divida a população, selecionando os casos pela variável 'cut', em amostras aleatórias de 20%

In [None]:
# Agrupar o DataFrame por 'cut' e aplicar a amostragem aleatória em cada grupo
amostras_por_cut = df.groupby('cut').apply(lambda x: x.sample(frac=0.20))

# Remover o índice multi-nível criado pelo groupby e aplicar a amostragem
amostras_por_cut = amostras_por_cut.reset_index(drop=True)

amostras_por_cut

### Exercício 2

Faça uma amostra com 20000 entradas, mantendo a proporção da variável 'cut' tal qual o arquivo original

In [None]:
# Calcula a proporção de cada valor em 'cut' no DataFrame original
proporcoes_cut = df['cut'].value_counts(normalize=True)

# Cria um DataFrame vazio para armazenar a amostra estratificada
amostra_estratificada = pd.DataFrame()

# Para cada valor em 'cut', amostra um número de linhas proporcional à sua frequência
for valor_cut, proporcao in proporcoes_cut.items():
  n_amostras = int(round(20000 * proporcao))  # Calcula o número de amostras para cada valor de 'cut'
  amostra_valor_cut = df[df['cut'] == valor_cut].sample(n=n_amostras, replace=True)  # Amostra com reposição, se necessário
  amostra_estratificada = pd.concat([amostra_estratificada, amostra_valor_cut])

# Verifica se a amostra tem o tamanho desejado
print(amostra_estratificada.shape)

# Verifica a proporção de 'cut' na amostra estratificada
print(amostra_estratificada['cut'].value_counts(normalize=True))

# Comparar com a proporção original de 'cut'
print(df['cut'].value_counts(normalize=True))

### Exercício 3

Plote histogramas para a variável quilate do arquivo original e de todas as amostras que vocês criaram em aula. Os resultados foram análogos?

In [None]:
# Histograma do arquivo original
plt.figure(figsize=(10, 6))
plt.hist(df['carat'], bins=30, alpha=0.5, label='Original')
plt.title('Histograma da Variável Quilate (Carat) - Original')
plt.xlabel('Quilate')
plt.ylabel('Frequência')
plt.legend()
plt.show()

# Histograma da amostra simples (frac=0.20)
plt.figure(figsize=(10, 6))
plt.hist(amostra_simples['carat'], bins=30, alpha=0.5, label='Amostra Simples (frac=0.20)')
plt.title('Histograma da Variável Quilate (Carat) - Amostra Simples (frac=0.20)')
plt.xlabel('Quilate')
plt.ylabel('Frequência')
plt.legend()
plt.show()

# Histograma da amostra simples (n=15000)
plt.figure(figsize=(10, 6))
plt.hist(amostra_simples1['carat'], bins=30, alpha=0.5, label='Amostra Simples (n=15000)')
plt.title('Histograma da Variável Quilate (Carat) - Amostra Simples (n=15000)')
plt.xlabel('Quilate')
plt.ylabel('Frequência')
plt.legend()
plt.show()

# Histograma da amostra sistemática (arange(aleatorio, 15000, 150))
# Note que amostra_sistematica é um array de índices, precisamos usar esses índices para selecionar os dados do DataFrame
amostra_sistematica_df = df.iloc[amostra_sistematica]
plt.figure(figsize=(10, 6))
plt.hist(amostra_sistematica_df['carat'], bins=30, alpha=0.5, label='Amostra Sistemática (passo 150)')
plt.title('Histograma da Variável Quilate (Carat) - Amostra Sistemática (passo 150)')
plt.xlabel('Quilate')
plt.ylabel('Frequência')
plt.legend()
plt.show()

# Histograma da amostra sistemática (arange(aleatorio, 15000, passo))
# Note que amostra_sistematica2 é um array de índices, precisamos usar esses índices para selecionar os dados do DataFrame
amostra_sistematica2_df = df.iloc[amostra_sistematica2]
plt.figure(figsize=(10, 6))
plt.hist(amostra_sistematica2_df['carat'], bins=30, alpha=0.5, label='Amostra Sistemática (passo variável)')
plt.title('Histograma da Variável Quilate (Carat) - Amostra Sistemática (passo variável)')
plt.xlabel('Quilate')
plt.ylabel('Frequência')
plt.legend()
plt.show()

# Histograma da amostra por cut
plt.figure(figsize=(10, 6))
plt.hist(amostras_por_cut['carat'], bins=30, alpha=0.5, label='Amostra por Cut')
plt.title('Histograma da Variável Quilate (Carat) - Amostra por Cut')
plt.xlabeel('Frequência')
plt.legend()
plt.show()


# Histograma da amostra estratificada
plt.figure(figsize=(10, 6))
plt.hist(amostra_estratificada['carat'], bins=30, alpha=0.5, label='Amostra Estratificada')
plt.title('Histograma da Variável Quilate (Carat) - Amostra Estratificada')
plt.xlabel('Quilate')
plt.ylabel('Frequência')
plt.legend()
plt.show()l('Quilate')
plt.ylab

### Referência

Estatística para Análise de Dados com Python (Prof. Luciano Galdino)

https://medium.com/@pablovictords/estat%C3%ADstica-na-pr%C3%A1tica-com-python-amostragem-aleat%C3%B3ria-7f252495e042

https://icd-ufmg.github.io/08-amostragem/