# Amostragens

## 1. Carregando importações e arquivos

In [59]:
import pandas as pd
import random
import numpy as np

In [60]:
dataset = pd.read_csv('census.csv')

In [61]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       32561 non-null  object
 2   final-weight    32561 non-null  int64 
 3   education       32561 non-null  object
 4   education-num   32561 non-null  int64 
 5   marital-status  32561 non-null  object
 6   occupation      32561 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   sex             32561 non-null  object
 10  capital-gain    32561 non-null  int64 
 11  capital-loos    32561 non-null  int64 
 12  hour-per-week   32561 non-null  int64 
 13  native-country  32561 non-null  object
 14  income          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


In [62]:
dataset.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [63]:
dataset.describe()

Unnamed: 0,age,final-weight,education-num,capital-gain,capital-loos,hour-per-week
count,32561.0,32561.0,32561.0,32561.0,32561.0,32561.0
mean,38.581647,189778.4,10.080679,1077.648844,87.30383,40.437456
std,13.640433,105550.0,2.57272,7385.292085,402.960219,12.347429
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,28.0,117827.0,9.0,0.0,0.0,40.0
50%,37.0,178356.0,10.0,0.0,0.0,40.0
75%,48.0,237051.0,12.0,0.0,0.0,45.0
max,90.0,1484705.0,16.0,99999.0,4356.0,99.0


## 2. Amostragem Aleatória Simples (AAS)

### Conceito:

A __AAS__ é um método de amostragem no qual __toda unidade da população tem uma probabilidade igual e conhecida de ser selecionada__ para compor a amostra.
O objetivo principal é garantir que a amostra seja __representativa__ do todo, eliminando o __viés de seleção__ e permitindo que os resultados da amostra sejam generalizados para a população.

AAS deve seguir dois princípios para ser ___simples___ e ___aleatória___:
1. __Igual Probabilidade:__ Uma população com ___N___ indivíduos, para uma amostra de n, deverá contar com a mesma probabilidade de qualquer ___n___ ser escolhido para compor a amostra, representado por __$\frac{n}{N}$__.

2. __Independência:__ A seleção de uma unidade não influencia a seleção de nenhuma outra. A amostra é escolhida através de um processo puramente aleatório (como um sorteio).

### Como é feita (Processo Teórico):

1. __Identificar População:__ Determinar o conjunto completo de unidades (___N___)

2. __Criar Lista de Seleção (Frame):__ Atribuir um rótulo único (por ex: índice númerico) a cada unidade da população.

3. __Sortear:__ Usar um gerador de números aleatórios ou um método de sorteio físico para selecionar o número desejado de rótulos (___n___)

4. __Coletar:__ Coletar os dados apenas das unidades cujos rótulos foram sorteados.

> __AAS com ou sem Reposição__:
> * __Sem Reposição:__ Uma vez sorteado, o item é removido da população, e não pode ser sorteado novamente.
>   
> * __Com Resposição:__ O item sorteado é 'devolvido', podendo ser sorteado novamente.

### Implementação:

In [64]:
df_aas = dataset.sample(n=100) ##AAS que coleta 100 unidades aleatórias

In [65]:
df_aas.shape

(100, 15)

In [66]:
df_aas.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
15019,25,Private,38090,Bachelors,13,Never-married,Sales,Not-in-family,White,Male,0,0,44,United-States,<=50K
1572,24,Private,198148,Some-college,10,Never-married,Other-service,Own-child,White,Male,0,0,30,United-States,<=50K
5709,37,Federal-gov,129573,Doctorate,16,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,72,?,>50K
32437,19,Private,60890,HS-grad,9,Never-married,Craft-repair,Not-in-family,White,Male,0,0,49,United-States,<=50K
24059,19,Private,84610,Some-college,10,Never-married,Other-service,Own-child,White,Female,0,0,30,United-States,<=50K


# 3. Amostragem Sistemática

## Conceito:

A Amostragem Sistemática é um método de seleção de amostras que se baseia na escolha de elementos em __intervalos regulares__ (fixos), a partir de um __ponto de partida aleatório__. É um processo mais simples e rápido que a Amostragem Aleatória Simples, especialmente quando a população já está organizada em uma lista.

## Como é feita (Processo Teórico):

O processo envolve três etapas principais, usando ___N___ como o tamanho da população e ___n___ como o tamanho da amostra desejada:

1. __Cálculo do Intervalo (___k___):__

    * O intervalo de seleção é determinado pela divisão: ___k___ = $\frac{N}{n}$

    * _Exemplo: Se ___N___ = 1000 e ___n___ = 100, o intervalo ___k___ é 1000/100 = 10._
  
      
2. __Sorteio do Ponto de Partida:__

    * Um número aleatório (S) é sorteado dentro do intervalo 1 a k. Este será o primeiro elemento da amostra.

    * _Exemplo: Se ___k___ = 10, um número entre 1 e 10 é sorteado. Suponha que seja ___S___ = 4._

3. Seleção Sistemática:

    * Os elementos seguintes são selecionados sequencialmente, adicionando-se o intervalo ___k___ ao número do elemento anterior.

    * _Exemplo: Se o primeiro elemento é o 4º da lista, o próximo será o 4 + 10 = 14º, depois o 14 + 10  =24º, e assim por diante, até que se atinja o total de 100 elementos._

## Implementação:

In [67]:
# Utilizando Python Puro

amostras = 100
tamanho_dataset = len(dataset)
passo = tamanho_dataset // amostras

random.seed(1) # Travando o num gerado somente para obter o mesmo resultado
inicio = random.randint(0, passo - 1)

indices = list(range(inicio, tamanho_dataset, passo))

print(f"""Número de índices selecionados: {len(indices)}
Índices selecionados: {indices}""")

Número de índices selecionados: 100
Índices selecionados: [68, 393, 718, 1043, 1368, 1693, 2018, 2343, 2668, 2993, 3318, 3643, 3968, 4293, 4618, 4943, 5268, 5593, 5918, 6243, 6568, 6893, 7218, 7543, 7868, 8193, 8518, 8843, 9168, 9493, 9818, 10143, 10468, 10793, 11118, 11443, 11768, 12093, 12418, 12743, 13068, 13393, 13718, 14043, 14368, 14693, 15018, 15343, 15668, 15993, 16318, 16643, 16968, 17293, 17618, 17943, 18268, 18593, 18918, 19243, 19568, 19893, 20218, 20543, 20868, 21193, 21518, 21843, 22168, 22493, 22818, 23143, 23468, 23793, 24118, 24443, 24768, 25093, 25418, 25743, 26068, 26393, 26718, 27043, 27368, 27693, 28018, 28343, 28668, 28993, 29318, 29643, 29968, 30293, 30618, 30943, 31268, 31593, 31918, 32243]


In [68]:
# Utilizando Numpy

amostras = 100
tamanho_dataset = len(dataset)
passo = tamanho_dataset // amostras

random.seed(1) # Travando o num gerado somente para obter o mesmo resultado
inicio = random.randint(0, passo - 1)

indices =np.arange(inicio, len(dataset), step = passo)

print(f"""Número de índices selecionados: {len(indices)}
Índices selecionados: {indices}""")

Número de índices selecionados: 100
Índices selecionados: [   68   393   718  1043  1368  1693  2018  2343  2668  2993  3318  3643
  3968  4293  4618  4943  5268  5593  5918  6243  6568  6893  7218  7543
  7868  8193  8518  8843  9168  9493  9818 10143 10468 10793 11118 11443
 11768 12093 12418 12743 13068 13393 13718 14043 14368 14693 15018 15343
 15668 15993 16318 16643 16968 17293 17618 17943 18268 18593 18918 19243
 19568 19893 20218 20543 20868 21193 21518 21843 22168 22493 22818 23143
 23468 23793 24118 24443 24768 25093 25418 25743 26068 26393 26718 27043
 27368 27693 28018 28343 28668 28993 29318 29643 29968 30293 30618 30943
 31268 31593 31918 32243]
