In [3]:
# sklearn: Biblioteca de Machine Learning e recursos estatísticos
# StratifiedShuffleSplit: Amostra estratificada
import pandas as pd
import random
import numpy as np
from sklearn.model_selection import StratifiedShuffleSplit

file_census = "../data_base/census.csv"

dataset = pd.read_csv(file_census)

# Indica o número de Linhas e colunas
dataset.shape

(32561, 15)

In [4]:
dataset.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [5]:
# Amostra Estratificada
# contar elementos dentro de cada faixa de renda
rendas = dataset["income"].value_counts()
populacao = len(dataset)
print("populacao:", populacao, "\n Rendas: \n", rendas)

populacao: 32561 
 Rendas: 
  <=50K    24720
 >50K      7841
Name: income, dtype: int64


In [6]:
renda_maior_50k = 24720
renda_menor_50k = 7841

percentual_renda_maior_50k = round((renda_maior_50k / populacao) * 100)
percentual_renda_menor_50k = round((renda_menor_50k / populacao) * 100)

print("percentual_renda_maior_50k:", percentual_renda_maior_50k, "\n percentual_renda_menor_50k:", percentual_renda_menor_50k)

percentual_renda_maior_50k: 76 
 percentual_renda_menor_50k: 24


In [7]:
#  split: var armazena o percentual do tamanho da amostra 0.1 = 10%
# test_size: utilizado para dividir a base de dados em treinamento (90%) e teste (10%) em aprendizado máquina 
split = StratifiedShuffleSplit(test_size=0.1)
# for para gerar dois dataframes um com 10% da base e outro com 90%
# Campo: o campo setado terá seus elementos coletados de forma proporcional aos percentuais de cada valor na base original.
# Desta forma não coleta mais de um do q do outro por estar em maior quantidade e ter mais probabilidade de ser amostrado.
for x, y in split.split(dataset, dataset["income"]):
    df_x = dataset.iloc[x]
    df_y = dataset.iloc[y]

df_x.shape, df_y.shape

((29304, 15), (3257, 15))

In [8]:
# calcular o percentual referente para uma amostra de 100 pessoas
percentual_amostra_100_pessoas = 100 / populacao
percentual_amostra_100_pessoas, populacao

(0.0030711587481956942, 32561)

In [9]:
#  split: var armazena o percentual do tamanho da amostra 0.1 = 10% | 0.003 = 100 pessoas
split = StratifiedShuffleSplit(test_size=percentual_amostra_100_pessoas)
for x, y in split.split(dataset, dataset["income"]):
    df_x = dataset.iloc[x]
    df_y = dataset.iloc[y]

df_x.shape, df_y.shape

((32461, 15), (100, 15))

In [10]:
# Coleta realizada de forma proporcional ao percentual original do array:
# percentual_renda_maior_50k: 76 
#  percentual_renda_menor_50k: 24
df_y.value_counts("income")

income
 <=50K    76
 >50K     24
dtype: int64

In [11]:
# FN Amostra Estratificada
def sample_stratified(dataset, field, percentage):
    percentage_split = percentage / 100
    split = StratifiedShuffleSplit(test_size=percentage_split)
    for x, y in split.split(dataset, dataset[field]):
        df_x = dataset.iloc[x]
        df_y = dataset.iloc[y]
    return df_y

In [12]:
# FN Amostra Estratificada
# opção sem armazenar a base de dados de treinamento x, apenas a de teste y q corresponde a amostra
# random_state=1 para gerar o mesmo resultado
def sample_stratified(dataset, field, percentage):
    percentage_split = percentage / 100
    split = StratifiedShuffleSplit(test_size=percentage_split, random_state=1)
    for _, y in split.split(dataset, dataset[field]):
        df_y = dataset.iloc[y]
    return df_y

In [13]:
samples_income = sample_stratified( dataset, "income", 2)
samples_income.shape

(652, 15)