## 1 - Amostragem

In [27]:
# importando as bibliotecas
import numpy as np
import statsmodels.api as sm
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import norm
from scipy import stats
import statistics
import random

In [28]:
# import da base de dados de censo americano
df = pd.read_csv('bases/census.csv')

In [29]:
df.shape

(32561, 15)

In [30]:
df.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


### 1.1 - Amostragem Aleatória Simples

In [31]:
# selecionando aleatoriamente 100 registros diferentes
df_amostra_aleatoria_simples = df.sample(n = 100)
df_amostra_aleatoria_simples.shape

(100, 15)

In [32]:
df_amostra_aleatoria_simples.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
3029,28,State-gov,52636,Masters,14,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,40,United-States,<=50K
30103,57,Federal-gov,310320,Bachelors,13,Married-civ-spouse,Tech-support,Husband,White,Male,0,0,48,United-States,>50K
25442,52,Local-gov,378045,HS-grad,9,Divorced,Adm-clerical,Not-in-family,White,Female,0,0,45,United-States,<=50K
5096,65,Local-gov,323006,HS-grad,9,Widowed,Other-service,Unmarried,Black,Female,0,0,25,United-States,<=50K
10659,65,Local-gov,146454,Masters,14,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,1648,4,Greece,<=50K


### 1.2 - Amostragem Sistemática

In [33]:
# queremos amostra de 100 pessoas
# então, selecionaremos as pessoas de 325 e 325 pessoas
df.shape[0] // 100

325

In [34]:
# função de geração da amostragem sistemática
def amostragem_sistematica(dataset, amostras):
    intervalo = dataset.shape[0] // amostras
    random.seed(1)
    # seleção do número aleatório inicial entre 0 e 325
    inicio = random.randint(0, intervalo)
    indices = np.arange(inicio, len(dataset), step = intervalo)
    amostra_sistematica = dataset.iloc[indices]
    return amostra_sistematica

In [35]:
# aplicação da função
df_amostragem_sistematica = amostragem_sistematica(df, 100)
df_amostragem_sistematica.shape

(100, 15)

In [36]:
df_amostragem_sistematica.head(3)

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
68,49,Self-emp-inc,191681,Some-college,10,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,50,United-States,>50K
393,34,State-gov,98101,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,7688,0,45,?,>50K
718,22,Private,214399,Some-college,10,Never-married,Sales,Own-child,White,Female,0,0,15,United-States,<=50K


### 1.3 - Amostragem por Grupos

In [37]:
# função amostragem por grupos
# segmenta a base de dados em grupos com qtd de pessoas iguais e seleciona aleatoriamente um grupo
def amostragem_agrupamento(dataset, numero_grupos):
    intervalo = len(dataset) // numero_grupos

    grupos = []
    id_grupo = 0
    contagem = 0
    for _ in dataset.iterrows():
        grupos.append(id_grupo)
        contagem += 1
        if contagem > intervalo:
            contagem = 0
            id_grupo += 1
    
    dataset['grupo'] = grupos
    random.seed(2)
    grupo_selecionado = random.randint(0, numero_grupos)
    return dataset[dataset['grupo']==grupo_selecionado]

In [38]:
# aplicando a função de amostragem por grupos
df_amostra_agrupamento = amostragem_agrupamento(df, 326)
df_amostra_agrupamento.shape

(100, 16)

In [39]:
df_amostra_agrupamento.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
2800,47,Private,168283,Bachelors,13,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,40,United-States,>50K,28
2801,17,Private,295488,11th,7,Never-married,Other-service,Own-child,Black,Female,0,0,25,United-States,<=50K,28
2802,35,Private,190895,Some-college,10,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,60,United-States,<=50K,28
2803,33,Private,164190,Masters,14,Never-married,Prof-specialty,Own-child,White,Male,0,0,20,United-States,<=50K,28
2804,25,Private,216010,Assoc-acdm,12,Married-civ-spouse,Adm-clerical,Wife,White,Female,0,0,40,United-States,<=50K,28


### 1.4 - Amostragem Estratificada

In [40]:
# importar biblioteca que faz a extração estratificada
from sklearn.model_selection import StratifiedShuffleSplit

In [41]:
# quantidade de pessoas por salário: menor ou maior que 50K ano
# 75% da base recebe menos que 50k ano
df['income'].value_counts()

 <=50K    24720
 >50K      7841
Name: income, dtype: int64

In [43]:
# selecionar a variavel income para ser extratificada
def amostragem_estratificada(dataset, amostras):
    percentual = amostras / dataset.shape[0] 
    split = StratifiedShuffleSplit(test_size= percentual)
    for _, y in split.split(dataset, dataset['income']):
        df_y = df.iloc[y]
    return df_y

In [44]:
# tamanho da amostra
df_y.shape

(100, 16)

In [45]:
# a amostra de 100 com a mesma proporção da base geral
df_y.income.value_counts()

 <=50K    76
 >50K     24
Name: income, dtype: int64

In [46]:
df_y.head(3)

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
20937,33,Private,169496,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,50,United-States,>50K,209
1622,37,Private,70240,HS-grad,9,Never-married,Other-service,Own-child,Asian-Pac-Islander,Female,0,0,40,Philippines,<=50K,16
9630,31,Local-gov,189269,HS-grad,9,Never-married,Protective-serv,Own-child,White,Male,0,0,40,United-States,<=50K,96


### 1.5 - Amostragem de Reservatório

In [47]:
# função de amostragem de reservatório
# essa tipo de amostragem é utilizado em stream de dados, em que nao se sabe o tamanho da base
# nem se sabe a caracteristica dos dados, ou seja é uma esteira de dados em que dados não pinçados
def amostragem_reservatorio(dataset, amostras):
    stream = []
    for i in range(len(dataset)):
        stream.append(i)
    
    i = 0
    tamanho = len(dataset)

    reservatorio = [0] * amostras
    for i in range(amostras):
        reservatorio[i] = stream[i]
    
    while i < tamanho:
        j = random.randrange(i + 1)
        if j < amostras:
            reservatorio[j] = stream[i]
        i += 1

    return df.iloc[reservatorio]

In [48]:
# aplicação da função de amostragem de reservatório
df_amostragem_reservatorio = amostragem_reservatorio(df, 100)
df_amostragem_reservatorio.shape

(100, 16)

In [49]:
df_amostragem_reservatorio.head(3)

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
14096,53,Private,152810,Masters,14,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,1977,55,United-States,>50K,140
30468,38,?,365465,Assoc-voc,11,Never-married,?,Own-child,White,Male,0,0,15,United-States,<=50K,304
3715,21,Private,344891,Some-college,10,Never-married,Adm-clerical,Own-child,Asian-Pac-Islander,Male,0,0,20,United-States,<=50K,37


### 1.6 - Comparativo das Amostragens

In [51]:
print('Média idade da base: ',round(df['age'].mean(),2))
print('Média idade da Amostragem Aleatória Simples: ',round(df_amostra_aleatoria_simples['age'].mean(),2))
print('Média idade da Amostragem Sistemática: ',round(df_amostragem_sistematica['age'].mean(),2))
print('Média idade da Amostragem por Grupos: ',round(df_amostra_agrupamento['age'].mean(),2))
print('Média idade da Amostragem Estratificada: ',round(df_y['age'].mean(),2))
print('Média idade da Amostragem de Reservatório: ',round(df_amostragem_reservatorio['age'].mean(),2))

Média idade da base:  38.58
Média idade da Amostragem Aleatória Simples:  38.12
Média idade da Amostragem Sistemática:  37.57
Média idade da Amostragem por Grupos:  38.1
Média idade da Amostragem Estratificada:  39.38
Média idade da Amostragem de Reservatório:  37.88
