# Amostragem

Maneira de coletar informações sobre um grande grupo de pessoas ou coisas, chamado de população, escolhendo uma parte menor desse grupo, que chamamos de amostra

## Amostragem Aleatória

Um processo no qual cada membro disponível da
população sendo amostrada tem chances iguais de ser escolhido para a amostra em cada extração

In [1]:
import numpy as np
import pandas as pd

In [2]:
np.random.seed(42)

dados = pd.DataFrame({'ID': range(1,101), 'Valor': np.random.randint(1, 100, 100)})

amostragem_aleatoria = dados.sample(n=10, random_state=42)

print(amostragem_aleatoria)

    ID  Valor
83  84     62
53  54     14
70  71      4
45  46      7
44  45     51
39  40     62
22  23     21
80  81     44
10  11     88
0    1     52


## Amostragem Sistemática

Seleciona elementos em intervalos fixos após um primeiro ponto escolhido aleatoriamente

![image-2.png](attachment:image-2.png)

In [3]:
total_elementos = len(dados)
n = 10 # tamanho amostra
k = total_elementos / n # intervalo sistemático

np.random.seed(42)

comeco = np.random.randint(0, k)

indices_escolhidos = np.arange(comeco, total_elementos, k)

amostragem_sistematica = dados.iloc[indices_escolhidos]

print(amostragem_sistematica)

    ID  Valor
6    7     83
16  17     88
26  27     22
36  37     62
46  47     21
56  57     53
66  67     78
76  77     93
86  87     48
96  97     53


## Amostragem Aleatória Estratificada

Divide a população em grupos (estratos) homogêneos e sorteia elementos proporcionalmente dentro de cada estrato

In [4]:
from sklearn.model_selection import train_test_split

dados['Grupo'] = np.random.choice(['A', 'B', 'C'], size=total_elementos)

amostragem_estratificada, _ = train_test_split(dados, test_size=0.9, stratify=dados['Grupo'], random_state=42)

print(amostragem_estratificada)

    ID  Valor Grupo
65  66     35     B
50  51      4     A
84  85     14     B
75  76     54     B
54  55      9     C
63  64      8     B
5    6     21     C
96  97     53     C
97  98     24     A
90  91     87     A


In [7]:
amostragem_estratificada['Grupo'].value_counts()

Grupo
B    4
A    3
C    3
Name: count, dtype: int64