In [2]:
# Importando as bibliotecas
import pandas as pd
import numpy as np
from math import ceil
from sklearn.model_selection import train_test_split

# Visualização do dados

In [3]:
dados = pd.read_csv('../Data/population.csv')
dados.head()

Unnamed: 0,Name,Age,Weight,State
0,Angelica Stout,79,53.84,New York
1,John Guzman,36,59.56,California
2,Jacob Fisher,69,105.62,New York
3,Emily Nguyen,65,72.62,New York
4,Mary Fitzpatrick MD,67,65.98,Texas


In [4]:
dados['State'].value_counts()

State
New York      50
California    50
Texas         50
Name: count, dtype: int64

# Amostragem Simples

In [5]:
# Criando uma amostra aleatória simples com reposição
np.random.seed(42)
amostra = np.random.choice(a = [0, 1], size = 150, replace = True,
                           p = [0.5, 0.5])
amostra

array([0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0,
       0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1,
       0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1,
       0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1,
       1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0,
       0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0])

In [6]:
# Seleção da base de dados dos valores correspondentes a amostra igual a 1
dados_selecionados = dados.loc[amostra == 1]
dados_selecionados.shape

(70, 4)

# Amostragem estratificada

In [7]:
# Separando a base de dados em estratos a partir da variável 'State'
amostraX, _, amostraY, _ = train_test_split(dados.iloc[:, 0:3], dados.iloc[:, 3],
                              test_size = 0.5, stratify = dados.iloc[:,3])
amostraY.value_counts()


State
Texas         25
New York      25
California    25
Name: count, dtype: int64

In [8]:
# Reunindo as colunas de amostraX e amostraY em um dataframe
amostra_completa = pd.concat([amostraX, amostraY], axis=1)
amostra_completa.head()

Unnamed: 0,Name,Age,Weight,State
6,Maria Rodriguez,21,85.53,Texas
89,Tabitha Leblanc,21,75.01,New York
71,Bradley Carey,69,74.02,Texas
24,James Horn,43,74.89,Texas
62,Steven Torres,72,74.16,New York


# Amostragem Sistemática

In [9]:
# Criação do valor k, k é o valor usado para incrementar o valor de i.
# n é o tamanho da amostra que queremos coletar.
n = 50
k = ceil( len(dados) / n)
k

3

In [10]:
# Criação do valor do intervalo de seleção.
# O valor i é o tamanho do passo, ou seja, a cada i elementos, um é selecionado.
i = np.random.randint(low = 1, high = k + 1, size = 1)
i

array([2])

In [11]:
# Criação da lista com o index dos selecionados
passo = i[0]
selecionados = []
for j in range(n):
    selecionados.append(passo)
    passo += k
print(selecionados)

[2, 5, 8, 11, 14, 17, 20, 23, 26, 29, 32, 35, 38, 41, 44, 47, 50, 53, 56, 59, 62, 65, 68, 71, 74, 77, 80, 83, 86, 89, 92, 95, 98, 101, 104, 107, 110, 113, 116, 119, 122, 125, 128, 131, 134, 137, 140, 143, 146, 149]


In [12]:
# Número da amostra
len(selecionados)

50

In [13]:
# Amostra
dados_selecionados = dados.loc[selecionados]
dados_selecionados

Unnamed: 0,Name,Age,Weight,State
2,Jacob Fisher,69,105.62,New York
5,Ashley Cooper,80,56.85,New York
8,Ruben Alvarez,66,116.09,New York
11,Christy Kline,72,66.56,New York
14,Joseph Hickman,80,74.47,California


# Amostragem por conglomerado

In [14]:
# Dividir os dados em 3 partes
conglomerado1 = dados.iloc[0:49,:]
conglomerado2 = dados.iloc[50:99,:]
conglomerado3 = dados.iloc[100:149,:]

In [15]:
# Sorteando um conglomerado
sorteado = np.random.choice(['conglomerado1', 'conglomerado2', 'conglomerado3'], 1, replace=False)
sorteado

array(['conglomerado1'], dtype='<U13')

# Amostragem por cotas

In [16]:
# Separar os dados por estratos(Estados)
estado1 = dados[dados['State'] == 'New York']
estado2 = dados[dados['State'] == 'California']
estado3 = dados[dados['State'] == 'Texas']

In [46]:
# A cota usada será a cota de idade.
estado1_cota = estado1[estado1['Age'] <= 60]
# Sortear 15 valores da cota para o estado 1.
estado1_cota = estado1_cota.sample(n=15, random_state=1)
# Separar os valores do estado 1 que não estão na cota
# ~ inverte o resultado da função isin(), retornando a lista de valores que não estão na cota
estado1_sem_cota = estado1[~estado1['Age'].isin(estado1_cota['Age'])]
# Sortear 10 valores do estado 1 que não estão na cota
estado1_sem_cota = estado1_sem_cota.sample(n=10, random_state=1)
# Concatenar os dois dataframes
estado1_amostra = pd.concat([estado1_cota, estado1_sem_cota])
# Amostra
estado1_amostra.shape

(25, 4)