# Amostragem de dados

In [1]:
# Biblioteca
from math import ceil

import pandas as pd
import numpy as np

# Para a divisão da base de dados (separar a amostra)
from sklearn.model_selection import train_test_split

In [2]:
# Carregamento de dados
base = pd.read_csv('iris.csv')

# Verificar os dados do dataset
display(base)

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


## Amostragem simples


In [3]:
# Semente aleatória com o nunpy. 
# Esta semente é responsável por criar uma aleatóriedade replicável. 
# Podendo assim auditar os dados

np.random.seed(2345)

# Vamos criar uma lista com 150 itens contendo 0 e 1
# Esta lista será usada para obter as asmostras

# "a = [0,1]" sãos os elementos a serem distribuidos
# "size=150" o tamanho da lista
# "replace=True" para repetir os elementos 0 e 1
# "p=[0.7,0.3]" proporção de sorteio. No caso 70% de 0 e 30% de 1

amostra = np.random.choice(a=[0,1], size=150, replace=True, p=[0.7,0.3])




In [5]:
# retirando a amostra
base_final = base.loc[amostra==0]
display(base_final)


Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
...,...,...,...,...,...
140,6.7,3.1,5.6,2.4,Iris-virginica
143,6.8,3.2,5.9,2.3,Iris-virginica
144,6.7,3.3,5.7,2.5,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica


## Amostragem Sistemática

In [6]:
# Criação das variáveis para representar a população, a amostra e o valor de b
# populacao = 150
populacao = base.shape[0]
amostra_sist = 15

k = ceil(populacao/amostra_sist)
print(k)


10


In [11]:
# Definir um valor randômico para inicializar a amostra, iniciando em 1 até k+1
r = np.random.randint(low=1, high=k+1, size=1)
print(r)

[2]


In [12]:
# Criamos um for para somar os próximos valores, baseado no primeiro valor r que foi definido acima
acumulador = r[0]
sorteados = []
for i in range(amostra_sist):
    sorteados.append(acumulador)
    acumulador += k
print(sorteados)
print(len(sorteados))

[2, 12, 22, 32, 42, 52, 62, 72, 82, 92, 102, 112, 122, 132, 142]
15


In [13]:
base_final_sist = base.loc[sorteados]
display(base_final_sist)


Unnamed: 0,sepal length,sepal width,petal length,petal width,class
2,4.7,3.2,1.3,0.2,Iris-setosa
12,4.8,3.0,1.4,0.1,Iris-setosa
22,4.6,3.6,1.0,0.2,Iris-setosa
32,5.2,4.1,1.5,0.1,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa
52,6.9,3.1,4.9,1.5,Iris-versicolor
62,6.0,2.2,4.0,1.0,Iris-versicolor
72,6.3,2.5,4.9,1.5,Iris-versicolor
82,5.8,2.7,3.9,1.2,Iris-versicolor
92,5.8,2.6,4.0,1.2,Iris-versicolor


## Amostragem Estratificada

In [16]:
base['class'].value_counts()

class
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: count, dtype: int64

In [23]:
x, _, y, _ = train_test_split(base.iloc[:,0:4], base.iloc[:,4],
                              test_size=0.4, stratify=base.iloc[:,4])
y.value_counts()


class
Iris-setosa        30
Iris-virginica     30
Iris-versicolor    30
Name: count, dtype: int64

In [19]:
base.iloc[:,0:4]

Unnamed: 0,sepal length,sepal width,petal length,petal width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
