In [20]:
##############################################################################
# Amostragem de dados (tabela completa)
##############################################################################

In [21]:
# Importação das bibliotecas: pandas para carregar arquivos .csv e numpy para gerar números aleatórios
import pandas as pd
import numpy as np

In [22]:
# Carregamento da base de dados (o arquivo .csv precisa estar na mesma pasta do código fonte) e visualização dos dados
base = pd.read_csv('C:\\Users\\Ed\\Dropbox\\Ciencia_de_dados\\Resumo\\iris.csv')
base

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [23]:
# Verificar quantas linhas e colunas existem na base de dados, 150 linhas e 5 colunas
base.shape

(150, 5)

In [24]:
# Mudança da semente aleatória randômica para manter os resultados em várias execuções
np.random.seed(2345)
# 150 amostras, de 0 a 1, com reposição, probabilidades equivalentes
#amostra - representa os dados que serão selecionados
amostra = np.random.choice(a = [0, 1], size = 150, replace = True,
                           p = [0.7, 0.3])

In [25]:
# Verificar tamanho da amostra
len(amostra)
# Verificar tamanho da amostra para valores igual a 1 e 0
len(amostra[amostra == 1])
len(amostra[amostra == 0])
amostra

array([0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0,
       0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,
       0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1])

In [26]:
#constroi os dados de forma separada
#por exemplo: treino e teste
base_final = base.loc[amostra == 0]
base_final.shape

base_final2 = base.loc[amostra == 1]
base_final2.shape

(49, 5)

In [27]:
##############################################################################
# Amostragem estratificada 
##############################################################################

In [28]:
# Importação das bibliotecas: pandas para carregar arquivos .csv e train_test_split para divisão da base de dados (separar amostras)
import pandas as pd
from sklearn.model_selection import train_test_split

In [29]:
# Carregamento da base de dados e contagem de quantos registros existem por classe
iris = pd.read_csv('C:\\Users\\Ed\\Dropbox\\Ciencia_de_dados\\Resumo\\iris.csv')
iris['class'].value_counts()

Iris-versicolor    50
Iris-virginica     50
Iris-setosa        50
Name: class, dtype: int64

In [36]:
iris.iloc[:, 0:4] #buscamos somente os atributos previsores
iris.iloc[:, 4] #buscamos somente a classe

0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Name: class, Length: 150, dtype: object

In [40]:
test_size = 0.5 #selecionamos metade da base de dados, que serao copiados para as variaveis X e Y. Essa funçao retorna 
#4 valores, porem, vamos usar somente os 50% da base de dados e por isso colocamos "_" para os outros valores
# stratify: para retornar a amostra baseada na classe
X, _, y, _ = train_test_split(iris.iloc[:, 0:4], iris.iloc[:, 4],
                              test_size = 0.5, stratify = iris.iloc[:,4])
y.value_counts()

Iris-setosa        25
Iris-versicolor    25
Iris-virginica     25
Name: class, dtype: int64

In [41]:
##############################################################################
# Amostragem sistemática
##############################################################################

In [43]:
# Importação das bibliotecas
import numpy as np
import pandas as pd
from math import ceil

In [44]:
# Criação das variáveis para representar a população, a amostra e o valor de k
populacao = 150
amostra = 15
k = ceil(populacao / amostra)
print(k)

10


In [45]:
# Definição do valor randômico para inicializar a amostra, 
# iniciando em 1 até k + 1
r = np.random.randint(low = 1, high = k + 1, size = 1)
print(r)

[1]


In [46]:
# Criamos um for para somar os próximos valores, baseado no primeiro 
# valor r que foi definido acima
acumulador = r[0]
sorteados = []
for i in range(amostra):
    #print(acumulador)
    sorteados.append(acumulador)
    acumulador += k
print(sorteados)

[1, 11, 21, 31, 41, 51, 61, 71, 81, 91, 101, 111, 121, 131, 141]


In [47]:
len(sorteados)

15

In [48]:
# Carregamos a base de dados e criamos a base_final somente com os valores sorteados
base = pd.read_csv('C:\\Users\\Ed\\Dropbox\\Ciencia_de_dados\\Resumo\\iris.csv')
base_final = base.loc[sorteados]
base_final

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
1,4.9,3.0,1.4,0.2,Iris-setosa
11,4.8,3.4,1.6,0.2,Iris-setosa
21,5.1,3.7,1.5,0.4,Iris-setosa
31,5.4,3.4,1.5,0.4,Iris-setosa
41,4.5,2.3,1.3,0.3,Iris-setosa
51,6.4,3.2,4.5,1.5,Iris-versicolor
61,5.9,3.0,4.2,1.5,Iris-versicolor
71,6.1,2.8,4.0,1.3,Iris-versicolor
81,5.5,2.4,3.7,1.0,Iris-versicolor
91,6.1,3.0,4.6,1.4,Iris-versicolor
