### Importando bibliotecas
* Pandas é utilizado para manipulação dos dados, fornecendo estruturas de dados prontas e funções para leitura de arquivos implementadas de forma eficiente e fácil de se utilizar;
* O numpy fornece funções matemáticas utilizadas para performar operações matemáticas de forma eficiente;

In [0]:
import pandas as pd
import numpy as np

### Lendo as informações do data set com o pandas
* A função `read_csv` do pandas recebe como parâmetro o link para o dataset e armazena em uma variável para ser manipulado posteriormente;
* A função `head` do dataframe (estrutura de dados que armazena o retorno da função `read_csv`) retorna as 5 primeiras linhas do nosso data frame bem como os nomes de suas colunas e seus respectivos indices;

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/jose-gilberto/data-science/master/datasets/iris.csv?token=AHYUBH4ZMOZJIWMAOU42V4C5U6TG4')
df.head() # Exibe as primeiras 5 linhas do dataframe

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [4]:
df.shape # Exibe a quantidade de linhas e colunas do dataframe

(150, 5)

### Criando uma amostra a partir do dataframe
Para a criação da amostra foi utilizado o método de amostragem simples, utilizando a função `random.choice` do numpy, onde:
* O parâmetro **a** significa quais opções podem ser geradas a partir da função (0 para não selecionado e 1 para selecionado para a amostra).
* O parâmetro **size** determina o tamanho do array que será gerado.
* O parâmetro **replace** determina se a amostragem será com reposição ou sem reposição para os 0s e 1s. (Neste caso a amostragem não é com reposição porém a geração dos 0s e 1s é feita com reposição ou teríamos uma linha com 0 outra com 1 e depois seria impossível gerar novos valores).
* O parâmetro **p** determina a probabilidade de serem escolhidos os 0s e 1s, nesse caso 50% para cada, ou seja, chances iguais (a soma das chances precisa ser necessariamente igual a 1).

In [7]:
# Gerando 150 linhas de 0s ou 1s com reposição para definir as linhas do dataframe que farão parte da amostra
amostra = np.random.choice(a = [0,1], size = 150, replace = True, p = [.5,.5])
amostra

array([0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1,
       1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1,
       1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1,
       1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1,
       1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0,
       0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1])

In [9]:
print('Tamanho da amostra: {}'.format(len(amostra)))
print('Quantidade de 1s na amostra: {}'.format(len(amostra[amostra == 1])))
print('Quantidade de 0s na amostra: {}'.format(len(amostra[amostra == 0])))

Tamanho da amostra: 150
Quantidade de 1s na amostra: 77
Quantidade de 0s na amostra: 73


In [0]:
# np.random.seed(2345) Comando utilizado para escolher uma semente random

### Extraindo as linhas escolhidas do dataframe

In [0]:
# Salvando os indices que não fazem parte da amostra em uma variável
indices = []
for i in range(len(amostra)):
    if amostra[i] == 0:
        indices.append(i)

In [25]:
df_amostra = df.copy() # Copiando o dataframe para o da amostra
df_amostra.drop(indices).head() # Removendo os indices que não fazem parte do dataframe da amostra

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
1,4.9,3.0,1.4,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
10,5.4,3.7,1.5,0.2,setosa
