# Amostragem Sistemática: 

Imagine uma fila de pessoas. Em vez de escolher aleatoriamente quem participará de uma pesquisa, você decide pegar cada 5ª pessoa da fila. Essa é a ideia básica da amostragem sistemática: selecionamos elementos de uma população seguindo um intervalo regular.

Na amostragem sistemática, uma unidade inicial é selecionada aleatoriamente (para não gerar viés) e, em seguida, as unidades subsequentes são selecionadas a partir de uma lista ordenada da população com base em um intervalo fixo. Por exemplo, se o intervalo for de 10, então a décima, vinteésima, trintaésima unidade e assim por diante serão incluídas na amostra. 

Este método é mais fácil e rápido do que a amostragem simples, mas pode resultar em viés se o padrão subjacente da população não for uniforme.

### **Por que usar amostragem sistemática?**

* **Simplicidade:** É fácil de implementar e entender.
* **Cobertura:** Assegura que todos os segmentos da população tenham chance de ser incluídos.
* **Eficiência:** Pode ser mais eficiente do que a amostragem aleatória simples, especialmente em grandes populações.

In [158]:
import pandas as pd
import numpy as np
from math import ceil #pegar o maior valor do resultado da divisão de um número real

#### ❇️ Exemplo: 

In [159]:
# Criando uma lista de clientes (simulando dados reais)
clientes = np.arange(1, 101)

# Tamanho da população
N = len(clientes)

# Tamanho da amostra
n = 20

# Calculando o intervalo de amostragem
intervalo = N // n

# Gerando índices da amostra
indices = np.arange(0, N, intervalo)

# Obtendo a amostra
amostra = clientes[indices]

print(amostra)

[ 1  6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96]


#### ❇️ Exemplo:

In [160]:
populacao = 150 #Total de registros no total

amostra = 15 #Uma pequena parte do total da população

teto = ceil(populacao/amostra) #ceil significa teto, que é a taxa da amostra → "para ter 15 elementos extraídos aleatóriamente de 150 registros, a gente tem que extrair 1 elemento a cada 10" 

print(teto) # → os intervalos com qual ele irá estratificar (de 10 em 10)

10


In [161]:
# Gerar um valor aleatório para inicializar a amostra indo de 1 até k+1:
aleatorio = np.random.randint(low=1, high=teto+1, size=1)
print(aleatorio)

[5]


In [162]:
#Criar vetor com os dados a serem extratificados considerando o intervalo de 10 em 10 do valor de k
acumulador = aleatorio[0]
sorteados = [] 
for i in range(amostra):
    #print(acumulador)
    sorteados.append(acumulador)
    acumulador += teto
print(sorteados)

[np.int32(5), np.int32(15), np.int32(25), np.int32(35), np.int32(45), np.int32(55), np.int32(65), np.int32(75), np.int32(85), np.int32(95), np.int32(105), np.int32(115), np.int32(125), np.int32(135), np.int32(145)]


In [163]:
len(sorteados)

15

In [164]:
base = pd.read_csv('iris.csv')
base_final = base.loc[sorteados] #Sorteados é a lista gerada acima; é como se fosse um filtro.
base_final

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
5,5.4,3.9,1.7,0.4,Iris-setosa
15,5.7,4.4,1.5,0.4,Iris-setosa
25,5.0,3.0,1.6,0.2,Iris-setosa
35,5.0,3.2,1.2,0.2,Iris-setosa
45,4.8,3.0,1.4,0.3,Iris-setosa
55,5.7,2.8,4.5,1.3,Iris-versicolor
65,6.7,3.1,4.4,1.4,Iris-versicolor
75,6.6,3.0,4.4,1.4,Iris-versicolor
85,6.0,3.4,4.5,1.6,Iris-versicolor
95,5.7,3.0,4.2,1.2,Iris-versicolor
