# Teoria da Amostragem (conceitos breves...)

A teoria da amostragem é um estudos das relações existentes entre uma população e as amostras dela extraídas. É de grande valia para a avaliação de grandezas desconhecidas da população (como sua média, variância e desvio padrão), frequentemente denominadas **_parâmetros populacionais_** ou abreviadamente **_parâmetros_**, através do conhecimento das grandezas correspondentes das amostras (também como média, desvio padrão, etc...) muitas vezes denominadas **_estatísticas amostrais_** ou, abreviadamente **_estatísticas_**.

A teoria da amostragem também é útil para determinar se as difereças observadas entre duas amostras são realmente devidas a uma variação casual ou se são verdadeiramente significativas. Exemplos dessas diferenças são utilizados por exemplo em amostragem de testes clínicos, de produção ou em processos de aferição de qualidade. 

A **_inferência estatística_** nada mais é do que o estudo de uma população a partir de suas amostras, com a indicação da precisão destas inferências baseadas pelo conhecimento da teoria da probabilidade.

**Amostras Aleatórias** são amostras selecionadas (um subconjunto de indivíduos ou objetos) a partir de uma população maior (um grupo completo de indivíduos ou objetos), de forma que cada membro da população tenha uma chance igual de ser escolhido. Tais amostras são desejáveis porque tendem a ser representativas da população e minimizam os vieses na análise.

Pense na amostragem aleatória como um sorteio. Por exemplo, se você quiser estudar as opiniões dos habitantes de uma cidade sobre um tema específico, seria muito difícil e cansativo entrevistar todos os moradores. Então, em vez disso, você pode realizar uma amostragem aleatória, selecionando um número menor de habitantes de forma aleatória e imparcial. Assim, todos os moradores têm a mesma chance de serem escolhidos, e a amostra resultante pode ser usada para inferir informações sobre a população como um todo.

Essa abordagem permite que os pesquisadores façam generalizações e estimativas sobre a população maior com base nos dados coletados da amostra. Quando a amostragem aleatória é realizada corretamente, a amostra tende a refletir as características da população maior, tornando as análises mais precisas e confiáveis.

Há várias técnicas para escolher uma amostra que represente bem a população maior. Aqui, vamos falar sobre quatro dessas técnicas:

- Amostragem Aleatória Simples
- Amostragem Sistemática
- Amostragem Aleatória Estratificada
- Amostragem por Conglomerado

Para muitos casos, tipo a distribuição de médias, o teorema central do limite vai nos ajudar teoricamente, pois sabemos que os dados da ditribuição de amostragem converge para uma normal. Assim, para amostras maiores que 25 ($ N>25$) as amostras tendem a se comportar como uma distribuição normal, e o conhecimento da distribuição normal torna-se útil para facilitar a análise e possíveis inferências sobre a população. Embora se fala muito de big data, na prática, são boas amostras que são utilizadas para responder boas (e a maioria das) perguntas.

## Amostragem aleatória simples

Na amostragem aleatória simples, cada elemento da população tem a mesma chance de ser selecionado. Por exemplo, ao realizar uma pesquisa de opinião, podemos selecionar aleatoriamente um grupo de pessoas para entrevistar. Nesse método, escolhemos um grupo de pessoas ou coisas de forma completamente aleatória, dando a todos na população a mesma chance de serem selecionados.

Para trabalhar a ideia de amostragem, vamos utilizar o arquivo **diamonds.csv**.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import random

In [None]:
df = pd.read_csv('diamonds.csv')
df.head()

In [None]:
sns.distplot(df['carat'])

In [None]:
## Explique o que este código está fazendo está fazendo
## np.random.seed(1)

amostra_simples = df.sample(frac=0.20)

amostra_simples.shape

In [None]:
"Esse código está pegando uma amostra aleatória de 20% dos dados que estão no arquivo df. (Que são dados lidos da tabela diamonds.csv).

"df.sample(frac=0.20) significa que vamos selecionar aleatoriamente 20% das linhas da tabela, sem olhar para o conteúdo delas, só escolhendo aleatoriamente."

".shape é uma forma de perguntar para o código quantas linhas e colunas tem na amostra escolhida. Então, ele vai te dizer quantas entradas (linhas) e quantas características (colunas) a amostra tem depois de selecionar os 20%."

In [None]:
## Explique o que este código está fazendo está fazendo
## np.random.seed(2)

amostra_simples1 = df.sample(15000)

amostra_simples1.shape

In [None]:
"o código está pegando 15000 linhas aleatórias do conjunto de dados"

"df.sample(15000) vai selecionar 15.000 linhas aleatórias do df. Note que, nesse caso, não estamos usando a porcentagem (frac), mas sim o número exato de linhas que queremos (15.000).
"
".shape vai mostrar o número de linhas e colunas da amostra criada, então, como temos 15.000 linhas, ele vai te mostrar algo como (15000, X), onde X é o número de colunas do conjunto de dados."

## Amostragem Sistemática

Aqui, seleciona-se a amostra seguindo um padrão específico pré-estabelecido. Esse método é útil quando temos uma lista organizada da população e queremos garantir uma distribuição mais uniforme dos elementos selecionados.

In [None]:
## Explique o que este código está fazendo está fazendo
## np.random.seed(3)

aleatorio = np.random.choice(10)

amostra_sistematica = np.arange(aleatorio,15000,150)
amostra_sistematica

In [None]:
"está criando uma amostra sistemática a partir de uma posição aleatória
"
"np.random.choice(10) escolhe um número aleatório entre 0 e 9. Então, ele pode escolher qualquer número de 0 a 9 como o ponto de partida.
"
"np.arange(aleatorio, 15000, 150) cria uma lista de números que começa no número aleatório que escolhemos, vai até 15.000 e pula de 150 em 150. Isso é chamado de amostragem sistemática porque começamos de um ponto aleatório e depois escolhemos elementos a cada 150 posições (em uma espécie de "passo fixo")."

In [None]:
## Explique o que este código está fazendo está fazendo
## np.random.seed(4)

aleatorio = np.random.choice(10,1)
passo = np.random.randint(120,300,1)
print(passo)
amostra_sistematica2 = np.arange(aleatorio,15000,passo)
amostra_sistematica2

In [None]:
"também está fazendo amostragem sistemática, mas de forma um pouco diferente"

"np.random.choice(10, 1) escolhe um número aleatório entre 0 e 9, como no código anterior, mas agora é garantido que só vai escolher um único número"

"np.random.randint(120, 300, 1) escolhe aleatoriamente um número entre 120 e 300. Esse número será o ´passo´ (a distância entre os números que serão selecionados).
"

"np.arange(aleatorio, 15000, passo) vai criar uma sequência de números começando pelo número aleatório e indo até 15.000, mas agora o passo (a distância entre os números escolhidos) vai ser o valor aleatório gerado pela função np.random.randint(120, 300, 1)"

## Amostragem Estratificada

Nessa abordagem, divide-se a população em grupos menores homogêneos, chamados estratos, com base em alguma característica comum. Depois, seleciona-se uma amostra de cada estrato, proporcionalmente ao tamanho do estrato, usando amostragem simples ou sistemática. Isso garante que a amostra seja representativa de cada subgrupo da população.

In [None]:
## Explique o que este código está fazendo está fazendo
df['cut'].value_counts()

In [None]:
"está contando quantas vezes cada valor da coluna 'cut' aparece no conjunto de dados df.
"
df['cut'] pega a coluna cut, que é uma característica que pode ter diferentes valores, como "Fair", "Good", "Very Good", etc.
value_counts() conta quantas vezes cada valor diferente aparece na coluna cut. Então, ele vai te mostrar, por exemplo:

"Fair": 500
"Good": 1500
"Very Good": 3000
e assim por diante.

Isso é útil quando você quer ver a distribuição dos dados, ou seja, quantos itens existem em cada categoria.

### Exercício 1

Divida a população, selecionando os casos pela variável 'cut', em amostras aleatórias de 20%

In [None]:
import pandas as pd

df = pd.read_csv('diamonds.csv')

# Dividir a população em amostras aleatórias de 20% para cada grupo de 'cut'
amostra_20 = df.groupby('cut', group_keys=False).apply(lambda x: x.sample(frac=0.2, random_state=42))

print(amostra_20.head())


### Exercício 2

Faça uma amostra com 20000 entradas, mantendo a proporção da variável 'cut' tal qual o arquivo original


In [None]:
from sklearn.model_selection import train_test_split

df = pd.read_csv('diamonds.csv')

# Realizar uma amostragem estratificada para manter a proporção da variável 'cut'
amostra_20000, _ = train_test_split(df, stratify=df['cut'], train_size=20000, random_state=42)

print(amostra_20000.head())


### Exercício 3

Plote histogramas para a variável quilate do arquivo original e de todas as amostras que vocês criaram em aula. Os resultados foram análogos?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('diamonds.csv')

# Plotando histograma para o dataset original
plt.figure(figsize=(10, 6))
sns.histplot(df['carat'], kde=True, color='blue', label='Original', stat='density')

# Plotando histograma para a amostra de 20% (Exercício 1)
sns.histplot(amostra_20['carat'], kde=True, color='red', label='Amostra 20% (cut)', stat='density')

# Plotando histograma para a amostra de 20.000 entradas (Exercício 2)
sns.histplot(amostra_20000['carat'], kde=True, color='green', label='Amostra 20000 (cut)', stat='density')

plt.title('Histograma da variável Carat')
plt.xlabel('Carat')
plt.ylabel('Densidade')
plt.legend()
plt.show()


### Referência

Estatística para Análise de Dados com Python (Prof. Luciano Galdino)

https://medium.com/@pablovictords/estat%C3%ADstica-na-pr%C3%A1tica-com-python-amostragem-aleat%C3%B3ria-7f252495e042

https://icd-ufmg.github.io/08-amostragem/