# Capítulo 6 - Inferência Estatística: Noções de Amostragem e Reamostragem

In [1]:
# Habilita a execução de R no Google Colab
%load_ext rpy2.ipython

## Amostragem Aleatória Simples (AAS)

In [11]:
%%R
# Fixando a semente aleatória para garantir a reprodutibilidade dos resultados
set.seed(7)

# População a ser amostrada
populacao = c(1,2,3,4,5,6,7,8,9,10)

# AAS com reposição de tamanho 5
print(sample(populacao, size=5, replace=T))

# AAS sem reposição de tamanho 7
print(sample(populacao, size=7, replace=F))

[1] 10  3  7  2 10
[1]  6  8  9  3 10  7  2


In [10]:
# Imports de bibliotecas
from sklearn.utils import resample

# População a ser amostrada
populacao = [1,2,3,4,5,6,7,8,9,10]

# AAS com reposição de tamanho 5
print(resample(populacao, replace=True, n_samples=5, random_state=7))

# AAS sem reposição de tamanho 7
print(resample(populacao, replace=False, n_samples=7, random_state=7))

[5, 10, 7, 4, 4]
[9, 6, 1, 3, 2, 10, 8]


## Amostragem Sistemática (AS)

In [33]:
%%R
# Fixando a semente aleatória para garantir a reprodutibilidade dos resultados
set.seed(7)

# Queremos escolher uma amostra (n) de 1000 fichas, dentre uma população (N) de 5000 fichas:               -
n = 1000 
N = 5000 

# Calculando o valor de k
k = N / n # 5

# Sortearemos um valor r entre 1 e k (partida aleatória)
r = sample(k, size=1)     

# Amostra
print(seq(r, N ,n))

[1]    2 1002 2002 3002 4002


In [36]:
# Imports de bibliotecas
import random

# Fixando a semente aleatória para garantir a reprodutibilidade dos resultados
random.seed(7)

# Queremos escolher uma amostra (n) de 1000 fichas, dentre uma população (N) de 5000 fichas:               -
n = 1000 
N = 5000 

# Calculando o valor de k
k = N / n # 5

# Sortearemos um valor r entre 1 e k (partida aleatória)
r = random.randint(1, k)

# Amostra
seq = range(r, N ,n)
for n in seq:
   print(n)

3
1003
2003
3003
4003


## Amostragem Estratificada (AE)

In [43]:
%%R
# Tamanho da amostra (n) e dos estratos de população (N1 a N4)
n = 80 
N1 = 500 
N2 = 1200 
N3 = 200 
N4 = 100

# Tamanho total da população
N = N1 + N2 + N3 + N4

# Fração amostral
f = n / N

# Calculando os n´s para cada extrato com alocação proporcional ao tamanho do estrato
n1 = f*N1
n2 = f*N2 
n3 = f*N3 
n4 = f*N4

# Exibindo os tamanhos das amostras dos estratos
cbind(n1, n2, n3, n4)

     n1 n2 n3 n4
[1,] 20 48  8  4


In [47]:
# Tamanho da amostra (n) e dos estratos de população (N1 a N4)
n = 80 
N1 = 500 
N2 = 1200 
N3 = 200 
N4 = 100

# Tamanho total da população
N = N1 + N2 + N3 + N4

# Fração amostral
f = n / N

# Calculando os n´s para cada extrato com alocação proporcional ao tamanho do estrato
n1 = f*N1
n2 = f*N2 
n3 = f*N3 
n4 = f*N4

# Exibindo os tamanhos das amostras dos estratos
print("n1=%d n2=%d n3=%d n4=%d" % (n1, n2, n3, n4))

n1=20 n2=48 n3=8 n4=4


In [60]:
# Imports de bibliotecas
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

# Carregando o dataset Breast Cancer, convertendo para DataFrame e separando em X (atributos) e y (classe)
dataset = load_breast_cancer()
X = pd.DataFrame(dataset.data)
y = pd.DataFrame(dataset.target)

# Dividindo o dataset em conjuntos de treino (80%) e teste (20%), estratificando por y (classe do problema)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state = 7)

# Exibindo o tamanho de cada conjunto
print("X: {}".format(X.shape) + " - Y: {}".format(y.shape))
print("X_train: {}".format(X_train.shape) + " - y_train: {}".format(y_train.shape))
print("X_test: {}".format(X_test.shape) + " - y_test: {}".format(y_test.shape))

X: (569, 30) - Y: (569, 1)
X_train: (455, 30) - y_train: (455, 1)
X_test: (114, 30) - y_test: (114, 1)


## Amostragem por Conglomerado ou Cluster (AC)

In [27]:
# Imports de bibliotecas
import pandas as pd
from sklearn.datasets import load_breast_cancer

# Carregando o dataset Breast Cancer, convertendo para DataFrame e adicionando a varável target
dataset = load_breast_cancer()
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
df['target'] = dataset.target

# Dimensões do dataset original
print(df.shape)

# Amostragem por conglomerado - a amostra terá tamanho 50
amostra = df.sample(50, random_state=7)

# Dimensões da amostra
print(amostra.shape)

(569, 31)
(50, 31)


## Reamostragem

In [30]:
# Bootstrap

# Imports de bibliotecas
from sklearn.utils import resample

# Amostra
amostra = [1, 2, 3, 4, 5, 6, 7]

# Vamos gerar 5 subamostras de tamanho 4
for i in range (1,6):
    # Reamostragem com boostrap
    subamostra = resample(amostra, replace=True, n_samples=4, random_state=7)
    print('Subamostra %d com Bootstrap: %s' % (i, subamostra))

    # Observações out of bag
    oob = [x for x in amostra if x not in subamostra]
    print('Observações OOB para %d: %s' % (i, oob))

Subamostra 1 com Bootstrap: [5, 2, 7, 4]
Observações OOB para 1: [1, 3, 6]
Subamostra 2 com Bootstrap: [5, 2, 7, 4]
Observações OOB para 2: [1, 3, 6]
Subamostra 3 com Bootstrap: [5, 2, 7, 4]
Observações OOB para 3: [1, 3, 6]
Subamostra 4 com Bootstrap: [5, 2, 7, 4]
Observações OOB para 4: [1, 3, 6]
Subamostra 5 com Bootstrap: [5, 2, 7, 4]
Observações OOB para 5: [1, 3, 6]


In [31]:
# Validação cruzada 3-fold

# Imports de bibliotecas
from numpy import array
from sklearn.model_selection import KFold

# Amostra
amostra = array([1, 2, 3, 4, 5, 6, 7])

# Preparação da validação cruzada
kfold = KFold(n_splits=3, shuffle=True, random_state=7)

# Folds geradas
for train, test in kfold.split(amostra):
    print('Treino: %s, Teste: %s' % (amostra[train], amostra[test]))

Treino: [2 4 5 7], Teste: [1 3 6]
Treino: [1 2 3 5 6], Teste: [4 7]
Treino: [1 3 4 6 7], Teste: [2 5]
