<a href="https://colab.research.google.com/github/JosenildoJunior/StatPyDataScience/blob/main/Popula%C3%A7%C3%A3o_e_Amostra.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Estatística com Python: Um Guia para Estudos e Solução de Problemas


# *Carregando os dados*

Carregando a Base de Dados para Análise Estatística: Preparação para Estudos

In [1]:
# Acesso ao drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# Manipulação de arquivos
import pandas as pd

# Biblioteca para funções randomicas
import random

# Funções matemáticas
import numpy as np

In [3]:
# Importando o dataset
df = pd.read_csv('/content/drive/MyDrive/Estatística para ciência de dados/census.csv')

In [4]:
# Observando os dados
df.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [5]:
# Observando as dimenções do dataset
df.shape

(32561, 15)

# **População** **e** **Amostra**

*Breve Resumo:* A população em estatística refere-se ao conjunto completo de elementos ou observações que estamos estudando. É importante definir claramente a população, pois isso afetará a validade de nossas conclusões estatísticas.

*Quando Utilizar:*
- Quando você deseja estudar e entender um grupo completo de elementos, como todos os habitantes de uma cidade, todos os clientes de uma loja, etc.
- Ao definir a base para seleção de uma amostra representativa.

*Breve Resumo:* Uma amostra é uma parte representativa de uma população maior. Ela é usada para fazer inferências sobre a população como um todo, evitando a necessidade de coletar dados de toda a população, o que pode ser impraticável.

*Quando Utilizar:*
- Quando é difícil ou impossível coletar dados de toda a população.
- Para economizar tempo e recursos na coleta de dados.
- Para realizar experimentos ou estudos de pesquisa.

## **Amostragem Aleatória Simples**

 *Breve Resumo:* A amostragem aleatória simples é um método de seleção de amostras em que cada elemento da população tem uma chance igual de ser selecionado. Isso garante que a amostra seja representativa da população.

  *Quando Utilizar:*
  - Quando você deseja evitar vieses na seleção da amostra.
  - Quando a população é homogênea e não há subgrupos distintos.

*Utilizando a função 'sample' e passando o parâmetro 'n = 100', é possível retirar aleatoriamente apenas 100 registros do dataframe principal.*

In [None]:
# Criando um novo data frame e adicionando nele 100 amostras retiradas aleatoriamente do df principal
df_amostragem_aleatoria_simples = df.sample(n = 100)

In [None]:
# Verificando quantos registros foram armazenados
df_amostragem_aleatoria_simples.shape

(100, 15)

In [None]:
# Observando os registros
df_amostragem_aleatoria_simples.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
2483,74,Self-emp-not-inc,92298,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,10,United-States,<=50K
6244,18,Private,84253,11th,7,Never-married,Other-service,Own-child,White,Female,0,0,24,United-States,<=50K
17784,35,Private,328466,9th,5,Married-civ-spouse,Other-service,Husband,White,Male,0,0,40,Mexico,<=50K
7758,62,Private,290754,10th,6,Widowed,Handlers-cleaners,Not-in-family,White,Female,0,0,40,United-States,<=50K
3316,47,Local-gov,242552,Some-college,10,Never-married,Protective-serv,Not-in-family,Black,Male,0,0,40,United-States,<=50K


*Caso você queira obter o mesmo resultado, basta adicionar o argumento 'random_state' e fornecer um número. Dessa forma, os resultados da amostragem serão sempre os mesmos, independentemente de quantas vezes o código seja executado.*

In [None]:
# Retirando 100 amostras
df_amostragem_aleatoria_simples = df.sample(n = 100, random_state = 20)

In [None]:
# Observando os dados
df_amostragem_aleatoria_simples.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
13376,34,Private,105493,Masters,14,Divorced,Prof-specialty,Unmarried,White,Female,0,0,40,United-States,<=50K
7676,40,Private,235786,Some-college,10,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,44,United-States,>50K
32188,29,Private,153416,Bachelors,13,Never-married,Exec-managerial,Not-in-family,White,Female,0,0,55,United-States,<=50K
30550,43,Self-emp-not-inc,118261,Masters,14,Divorced,Other-service,Unmarried,White,Female,0,0,30,United-States,<=50K
18873,27,Private,244402,Assoc-acdm,12,Never-married,Exec-managerial,Not-in-family,White,Female,0,0,40,United-States,>50K


Agora vamos criar uma função para realizar amostragem simples sempre que necessário.

In [None]:
# Criando a função
def amostragem_aleatoria_simples(df, amostra):
  return df.sample(n = amostra, random_state = 2)

Vamos criar um novo dataframe chamado 'data_simples' para armazenar o resultado da nossa função.

In [None]:
# Executando a função
data_simples = amostragem_aleatoria_simples(df, 100)

In [None]:
# Verificando quantos registros foram armazenados
data_simples.shape

(100, 15)

In [None]:
# Observando os registros
data_simples.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
16054,42,State-gov,160369,HS-grad,9,Never-married,Protective-serv,Not-in-family,White,Male,0,0,40,United-States,>50K
32382,44,Local-gov,150171,HS-grad,9,Divorced,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
10749,39,Local-gov,256997,Bachelors,13,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,40,United-States,<=50K
15377,39,Private,147548,HS-grad,9,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,40,United-States,<=50K
29660,29,Federal-gov,106179,Some-college,10,Never-married,Prof-specialty,Not-in-family,White,Female,0,1408,40,United-States,<=50K


## **Amostragem sistemática**

*Breve Resumo:* A amostragem sistemática é um método de seleção de amostras em que os elementos são escolhidos em intervalos regulares após a seleção aleatória do primeiro elemento. Isso pode ser útil quando a população tem uma ordem natural.

  *Quando Utilizar:*
  - Quando a população tem uma ordem ou sequência natural (por exemplo, uma lista ordenada por data de nascimento).
  - Quando se deseja uma amostra representativa sem a necessidade de selecionar cada elemento individualmente.

Criando uma função para realizar Amostragem sistemática sempre que necessário.

In [None]:
def amostragem_sistematica(dataset, amostras):
    # Calcula o tamanho do intervalo entre as amostras
    intervalo = len(dataset) // amostras  # Divide o tamanho do dataset pelo número desejado de amostras

    # Gera um número aleatório para determinar o ponto de partida
    inicio = random.randint(0, intervalo)  # Escolhe aleatoriamente um ponto de partida dentro do intervalo

    # Cria uma lista de índices para as amostras sistemáticas
    indices = np.arange(inicio, len(dataset), step=intervalo)  # Cria uma lista de índices com base no ponto de partida e no intervalo

    # Seleciona as amostras do conjunto de dados original
    amostra_sistematica = dataset.iloc[indices]  # Seleciona as amostras com base nos índices gerados

    # Retorna a amostra sistemática selecionada
    return amostra_sistematica

Vamos criar um novo dataframe chamado 'df_amostra_sistematica' para armazenar o resultado da nossa função.

In [None]:
# Chamando a função para criar a amostra sistemática
df_amostra_sistematica = amostragem_sistematica(df, 100)

# Verificando quantos registros foram armazenados
df_amostra_sistematica.shape

(100, 15)

In [None]:
# Observando os registros
df_amostra_sistematica.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
132,38,Self-emp-not-inc,120985,HS-grad,9,Married-civ-spouse,Craft-repair,Husband,White,Male,4386,0,35,United-States,<=50K
457,38,Private,351299,Some-college,10,Married-civ-spouse,Transport-moving,Husband,Black,Male,0,0,50,United-States,<=50K
782,40,Private,130760,Assoc-voc,11,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,50,United-States,>50K
1107,29,Private,131088,HS-grad,9,Never-married,Handlers-cleaners,Own-child,White,Male,0,0,25,United-States,<=50K
1432,32,Private,180871,Assoc-voc,11,Divorced,Sales,Not-in-family,White,Male,0,0,50,United-States,>50K


## **Amostragem por grupo**

*Breve Resumo:*
A amostragem de grupos, também conhecida como amostragem por conglomerados, é uma técnica estatística em que a população é dividida em grupos ou conglomerados, e em seguida, alguns desses grupos são selecionados aleatoriamente para compor a amostra. Cada grupo selecionado é uma representação da população, e a coleta de dados pode ser realizada dentro de cada grupo, se necessário. Essa abordagem é útil quando se lida com uma população extensa e dispersa.

*Quando Utilizar:*
- Quando a população é extensa e a coleta de dados de todos os elementos individualmente é impraticável devido a limitações de recursos.
- Quando se quer economizar recursos, como tempo e dinheiro, na coleta de dados, selecionando grupos em vez de indivíduos.
- Quando a população possui uma estrutura de agrupamento natural, como cidades em um país, departamentos em uma empresa ou famílias em uma vizinhança.
- Quando se deseja realizar análises hierárquicas, observando a variação em múltiplos níveis (por exemplo, alunos em escolas em distritos em um estudo educacional).
- Para reduzir custos logísticos associados à coleta de dados, como deslocamento e supervisão.

Lembre-se de que é fundamental garantir que os grupos selecionados sejam representativos da população para obter resultados válidos e evitar vieses na seleção.


Criando uma função para realizar Amostragem por Grupo sempre que necessário.

In [None]:
# Função para realizar amostragem de grupos em um DataFrame 'df' com 'grupos' especificados.

def amostragem_grupo(df, grupos):

  # Calcula o tamanho do intervalo necessário para dividir a população em 'grupos' iguais.
  intervalo = len(df) / grupos

  # Inicializa uma lista 'ids_grupos' para armazenar as identificações dos grupos.
  ids_grupos = []

  # Inicializa uma variável 'id_grupo' para rastrear o grupo atual e 'contagem' para rastrear elementos no grupo.
  id_grupo = 0
  contagem = 0

  # Itera sobre as linhas do DataFrame 'df'.
  for _ in df.iterrows():

    # Atribui a identificação do grupo atual à lista 'ids_grupos'.
    ids_grupos.append(id_grupo)

    # Atualiza a contagem de elementos no grupo.
    contagem += 1

    # Verifica se a contagem ultrapassou o tamanho do intervalo.
    if contagem > intervalo:

      # Reinicia a contagem e muda para o próximo grupo.
      contagem = 0
      id_grupo += 1

  # Adiciona uma coluna 'grupo' ao DataFrame 'df' para indicar a qual grupo cada elemento pertence.
  df['grupo'] = ids_grupos

  # Define uma semente (seed) para garantir que os resultados sejam replicáveis.
  random.seed(2)

  # Seleciona aleatoriamente um grupo entre os disponíveis.
  grupo_selecionado = random.randint(0, grupos)

  # Retorna um subconjunto do DataFrame 'df' contendo apenas os elementos do grupo selecionado.
  return df[df['grupo'] == grupo_selecionado]


Vamos criar um novo dataframe chamado 'df_amostragem_grupo' para armazenar o resultado da nossa função.

In [None]:
# Armazenando os valores na variável
df_amostragem_grupo = amostragem_grupo(df, 325)

# Observando quantos dados foram selecionados
df_amostragem_grupo.shape

(101, 16)

In [None]:
# Observando o id e quantos dados foram selecionados!
df_amostragem_grupo['grupo'].value_counts()

28    101
Name: grupo, dtype: int64

In [None]:
# Observando os registros
df_amostragem_grupo.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
2828,54,Self-emp-not-inc,175804,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,40,United-States,>50K,28
2829,36,Private,107302,Masters,14,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,60,United-States,>50K,28
2830,63,Local-gov,41161,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,55,United-States,<=50K,28
2831,39,Private,401832,Some-college,10,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,48,United-States,<=50K,28
2832,57,Self-emp-not-inc,353808,Some-college,10,Married-civ-spouse,Sales,Husband,White,Male,0,0,60,United-States,>50K,28


## **Amostragem estratificada**

*Breve Resumo:*
A amostragem estratificada é um método de seleção de amostras que divide a população em estratos ou subgrupos com características semelhantes. Em seguida, amostras são selecionadas aleatoriamente de cada estrato, garantindo que a amostra seja representativa e proporcional à diversidade da população.

*Quando Utilizar:*
- Quando se deseja garantir que todos os subgrupos da população sejam representados na amostra.
- Em situações em que a população apresenta diversidade e diferentes estratos têm características distintas.
- Quando é importante evitar vieses na seleção da amostra, especialmente em pesquisas com múltiplas variáveis.


Importando a biblioteca para realizar a 'estratificação'

In [None]:
# Importando a biblioteca para realizar a 'estratificação'
from sklearn.model_selection import StratifiedShuffleSplit

Observando quantos valores distintos temos na coluna 'income'

In [None]:
# Observando os valores
df['income'].value_counts()

 <=50K    24720
 >50K      7841
Name: income, dtype: int64

Entendendo a porcentagem correspondente a cada valor na coluna

In [None]:
# Entendendo a porcentagem correspondente a cada valor na coluna
percent_maior_50k = 7841 / len(df)
percent_menor_50k = 24720 / len(df)

print("Porcentagem de salários acima de 50 mil dólares por ano:", percent_maior_50k)
print("Porcentagem de salários abaixo de 50 mil dólares por ano:", percent_menor_50k)

(0.2408095574460244, 0.7591904425539756)

Fica evidente que 24% da base recebe um salário maior que 50 mil dólares por ano e 75% recebe menos que 50 mil dólares por ano.

Por isso, é importante fazer uma amostragem utilizando essa técnica.

**Extraindo uma amostra estratificada**

Dividindo a base de dados, utilizando o test_size igual a 0.1 para que a base seja dividida, onde 90% dos dados ficarão na variável df_x e os outros 10% na variável df_y.

In [None]:
# O test_size igual a 0.1 indica o tamanho da amostra, que neste caso é de 10%
split = StratifiedShuffleSplit(test_size = 0.1)

for x, y in split.split(df, df['income']):

  # Nessa parte dois novos DF estão sendo criados, um vai conter 10% dos dados que definimos acima
  df_x = df.iloc[x]
  df_y = df.iloc[y]

Confirmando a divisão dos dados

In [None]:
print("Dimensões de df_x:", df_x.shape)
print("Dimensões de df_y:", df_y.shape)

Dimensões de df_x: (29304, 15)
Dimensões de df_y: (3257, 15)


Podemos observar que a nossa divisão foi concluída

In [None]:
# Observando os valroes
df_y.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
23356,45,Private,213140,10th,6,Married-civ-spouse,Craft-repair,Husband,White,Male,2829,0,40,United-States,<=50K
18444,39,Self-emp-not-inc,83242,Some-college,10,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,60,United-States,<=50K
4342,18,Private,80163,Some-college,10,Never-married,Sales,Own-child,White,Female,0,0,20,United-States,<=50K
25886,62,Self-emp-not-inc,162249,HS-grad,9,Married-civ-spouse,Transport-moving,Husband,White,Male,0,0,30,United-States,<=50K
15562,33,Local-gov,281784,Bachelors,13,Never-married,Tech-support,Not-in-family,Black,Male,0,1564,52,United-States,>50K


No entanto, estamos sempre realizando uma amostra de 100 registros. Portanto, implementaremos os seguintes passos.

Dividindo a quantidade de amostras que queremos (neste caso, são 100 amostras) pelo comprimento do nosso DataFrame. O resultado será usado como parâmetro em nosso test_size.

In [None]:
# Dividindo a quantidade de amostras que queremos pelo comprimento do nosso DataFrame.
num_amostras = 100
test_size_param = num_amostras / len(df)

0.0030711587481956942

ividindo a quantidade de amostras que queremos (neste caso, são 100 amostras) pelo comprimento do nosso DataFrame. O resultado será usado como parâmetro em nosso test_size.

In [None]:
# O test_size igual a 0.1 para indicar o tamanho da amostra que nesse caso é de 10%
split = StratifiedShuffleSplit(test_size = 0.0030711587481956942)

for x, y in split.split(df, df['income']):

# Nesta parte, dois novos DataFrames estão sendo criados: um conterá 90% dos dados e o outro 10%, como definimos acima
  df_x = df.iloc[x]
  df_y = df.iloc[y]

In [None]:
print("Dimensões de df_x:", df_x.shape)
print("Dimensões de df_y:", df_y.shape)

Dimensões de df_x: (32461, 15)
Dimensões de df_y: (100, 15)


Aqui podemos observar que temos 100 dados selecionados, porém falta confirmarmos a proporcionalidade.

In [None]:
# Observando os valores em df_y
df_y['income'].value_counts()

 <=50K    76
 >50K     24
Name: income, dtype: int64

Aqui podemos confirmar que nossa amostragem está dividida de forma proporcional, como observamos nas primeiras linhas, onde 76% das pessoas recebem salários anuais abaixo de 50 mil dólares e 24% recebem salários acima desse valor.

## **Amostragem de reservátorio**

**Breve Resumo:**
*A amostragem de reservatório é um método que permite selecionar aleatoriamente elementos de uma população, sem a necessidade de conhecer o tamanho total da população. Cada elemento tem igual chance de ser escolhido.*

**Quando Utilizar:**
- *Para populações muito grandes ou em constante mudança.*
- *Quando uma seleção aleatória imparcial é necessária, sem conhecimento do tamanho da população.*
- *Em cenários com acesso limitado à população completa.*


In [7]:
def amostragem_reservatorio(dataset, amostras):
    # Inicializar uma lista vazia para armazenar os índices do dataset
    stream = []

    # Preencher a lista "stream" com índices de 0 até o tamanho do dataset
    for i in range(len(dataset)):
        stream.append(i)

    # Inicializar o índice "i" como 0
    i = 0

    # Obter o tamanho total do dataset
    tamanho = len(dataset)

    # Inicializar o reservatório com amostras de tamanho "amostras"
    reservatorio = [0] * amostras
    for i in range(amostras):
        reservatorio[i] = stream[i]

    # Iterar pelo restante do dataset para atualizar o reservatório
    while i < tamanho:
        # Gerar um valor aleatório "j" entre 0 e (i+1)
        j = random.randrange(i + 1)

        # Verificar se "j" está dentro do tamanho do reservatório
        if j < amostras:
            # Substituir um elemento no reservatório pelo elemento atual do dataset
            reservatorio[j] = stream[i]

        # Avançar para o próximo elemento do dataset
        i += 1

    # Retornar as linhas do dataset correspondentes aos índices no reservatório
    return dataset.iloc[reservatorio]


Criando um novo Dataframe para armazenar o resultado da função

In [8]:
# Armazenando os valores na variável
df_amostragem_reservatorio = amostragem_reservatorio(df, 100)

# Observando quantos dados foram selecionados
df_amostragem_reservatorio.shape

(100, 15)

In [9]:
# Observando os registros
df_amostragem_reservatorio.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
26366,54,State-gov,198741,Some-college,10,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
20751,36,Private,177907,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,65,United-States,<=50K
2122,23,Private,199070,HS-grad,9,Never-married,Protective-serv,Own-child,Black,Male,0,0,16,United-States,<=50K
15006,36,Self-emp-inc,77146,Bachelors,13,Married-civ-spouse,Sales,Husband,White,Male,15024,0,45,United-States,>50K
5506,20,Private,205970,Some-college,10,Never-married,Craft-repair,Own-child,White,Female,0,0,25,United-States,<=50K
