<a href="https://colab.research.google.com/github/JosenildoJunior/StatPyDataScience/blob/main/Popula%C3%A7%C3%A3o_e_Amostra.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Estatística com Python: Um Guia para Estudos e Solução de Problemas


# *Carregando os dados*

Carregando a Base de Dados para Análise Estatística: Preparação para Estudos

In [1]:
# Acesso ao drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# Manipulação de arquivos
import pandas as pd

# Biblioteca para funções randomicas
import random

# Funções matemáticas
import numpy as np

In [3]:
# Importando o dataset
df = pd.read_csv('/content/drive/MyDrive/Estatística para ciência de dados/census.csv')

In [4]:
# Observando os dados
df.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [5]:
# Observando as dimenções do dataset
df.shape

(32561, 15)

# **População** **e** **Amostra**

*Breve Resumo:* A população em estatística refere-se ao conjunto completo de elementos ou observações que estamos estudando. É importante definir claramente a população, pois isso afetará a validade de nossas conclusões estatísticas.

*Quando Utilizar:*
- Quando você deseja estudar e entender um grupo completo de elementos, como todos os habitantes de uma cidade, todos os clientes de uma loja, etc.
- Ao definir a base para seleção de uma amostra representativa.

*Breve Resumo:* Uma amostra é uma parte representativa de uma população maior. Ela é usada para fazer inferências sobre a população como um todo, evitando a necessidade de coletar dados de toda a população, o que pode ser impraticável.

*Quando Utilizar:*
- Quando é difícil ou impossível coletar dados de toda a população.
- Para economizar tempo e recursos na coleta de dados.
- Para realizar experimentos ou estudos de pesquisa.

## **Amostragem Aleatória Simples**

 *Breve Resumo:* A amostragem aleatória simples é um método de seleção de amostras em que cada elemento da população tem uma chance igual de ser selecionado. Isso garante que a amostra seja representativa da população.

  *Quando Utilizar:*
  - Quando você deseja evitar vieses na seleção da amostra.
  - Quando a população é homogênea e não há subgrupos distintos.

*Utilizando a função 'sample' e passando o parâmetro 'n = 100', é possível retirar aleatoriamente apenas 100 registros do dataframe principal.*

In [6]:
# Criando um novo data frame e adicionando nele 100 amostras retiradas aleatoriamente do df principal
df_amostragem_aleatoria_simples = df.sample(n = 100)

In [7]:
# Verificando quantos registros foram armazenados
df_amostragem_aleatoria_simples.shape

(100, 15)

In [8]:
# Observando os registros
df_amostragem_aleatoria_simples.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
11064,26,Private,339952,Some-college,10,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,60,United-States,<=50K
27912,25,Private,38488,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Female,0,0,40,United-States,<=50K
30744,60,?,174073,HS-grad,9,Married-civ-spouse,?,Husband,White,Male,0,0,40,United-States,<=50K
8578,41,Private,209547,HS-grad,9,Never-married,Machine-op-inspct,Not-in-family,White,Male,0,0,40,United-States,<=50K
26875,20,Private,209131,Some-college,10,Never-married,Machine-op-inspct,Own-child,White,Male,0,0,40,United-States,<=50K


*Caso você queira obter o mesmo resultado, basta adicionar o argumento 'random_state' e fornecer um número. Dessa forma, os resultados da amostragem serão sempre os mesmos, independentemente de quantas vezes o código seja executado.*

In [9]:
# Retirando 100 amostras
df_amostragem_aleatoria_simples = df.sample(n = 100, random_state = 20)

In [10]:
# Observando os dados
df_amostragem_aleatoria_simples.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
13376,34,Private,105493,Masters,14,Divorced,Prof-specialty,Unmarried,White,Female,0,0,40,United-States,<=50K
7676,40,Private,235786,Some-college,10,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,44,United-States,>50K
32188,29,Private,153416,Bachelors,13,Never-married,Exec-managerial,Not-in-family,White,Female,0,0,55,United-States,<=50K
30550,43,Self-emp-not-inc,118261,Masters,14,Divorced,Other-service,Unmarried,White,Female,0,0,30,United-States,<=50K
18873,27,Private,244402,Assoc-acdm,12,Never-married,Exec-managerial,Not-in-family,White,Female,0,0,40,United-States,>50K


Agora vamos criar uma função para realizar amostragem simples sempre que necessário.

In [11]:
# Criando a função
def amostragem_aleatoria_simples(df, amostra):
  return df.sample(n = amostra, random_state = 2)

Vamos criar um novo dataframe chamado 'data_simples' para armazenar o resultado da nossa função.

In [12]:
# Executando a função
data_simples = amostragem_aleatoria_simples(df, 100)

In [13]:
# Verificando quantos registros foram armazenados
data_simples.shape

(100, 15)

In [14]:
# Observando os registros
data_simples.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
16054,42,State-gov,160369,HS-grad,9,Never-married,Protective-serv,Not-in-family,White,Male,0,0,40,United-States,>50K
32382,44,Local-gov,150171,HS-grad,9,Divorced,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
10749,39,Local-gov,256997,Bachelors,13,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,40,United-States,<=50K
15377,39,Private,147548,HS-grad,9,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,40,United-States,<=50K
29660,29,Federal-gov,106179,Some-college,10,Never-married,Prof-specialty,Not-in-family,White,Female,0,1408,40,United-States,<=50K


## **Amostragem sistemática**

*Breve Resumo:* A amostragem sistemática é um método de seleção de amostras em que os elementos são escolhidos em intervalos regulares após a seleção aleatória do primeiro elemento. Isso pode ser útil quando a população tem uma ordem natural.

  *Quando Utilizar:*
  - Quando a população tem uma ordem ou sequência natural (por exemplo, uma lista ordenada por data de nascimento).
  - Quando se deseja uma amostra representativa sem a necessidade de selecionar cada elemento individualmente.

Criando uma função para realizar Amostragem sistemática sempre que necessário.

In [15]:
def amostragem_sistematica(dataset, amostras):
    # Calcula o tamanho do intervalo entre as amostras
    intervalo = len(dataset) // amostras  # Divide o tamanho do dataset pelo número desejado de amostras

    # Gera um número aleatório para determinar o ponto de partida
    inicio = random.randint(0, intervalo)  # Escolhe aleatoriamente um ponto de partida dentro do intervalo

    # Cria uma lista de índices para as amostras sistemáticas
    indices = np.arange(inicio, len(dataset), step=intervalo)  # Cria uma lista de índices com base no ponto de partida e no intervalo

    # Seleciona as amostras do conjunto de dados original
    amostra_sistematica = dataset.iloc[indices]  # Seleciona as amostras com base nos índices gerados

    # Retorna a amostra sistemática selecionada
    return amostra_sistematica

Vamos criar um novo dataframe chamado 'df_amostra_sistematica' para armazenar o resultado da nossa função.

In [16]:
# Chamando a função para criar a amostra sistemática
df_amostra_sistematica = amostragem_sistematica(df, 100)

# Verificando quantos registros foram armazenados
df_amostra_sistematica.shape

(100, 15)

In [17]:
# Observando os registros
df_amostra_sistematica.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
174,28,State-gov,149624,Bachelors,13,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,40,United-States,>50K
499,72,?,303588,HS-grad,9,Married-civ-spouse,?,Husband,White,Male,0,0,20,United-States,<=50K
824,32,Private,110331,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,1672,60,United-States,<=50K
1149,50,Self-emp-inc,293196,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,7298,0,40,United-States,>50K
1474,22,Private,207940,Some-college,10,Never-married,Handlers-cleaners,Own-child,White,Female,0,0,36,United-States,<=50K


## **Amostragem por grupo**

*Breve Resumo:*
A amostragem de grupos, também conhecida como amostragem por conglomerados, é uma técnica estatística em que a população é dividida em grupos ou conglomerados, e em seguida, alguns desses grupos são selecionados aleatoriamente para compor a amostra. Cada grupo selecionado é uma representação da população, e a coleta de dados pode ser realizada dentro de cada grupo, se necessário. Essa abordagem é útil quando se lida com uma população extensa e dispersa.

*Quando Utilizar:*
- Quando a população é extensa e a coleta de dados de todos os elementos individualmente é impraticável devido a limitações de recursos.
- Quando se quer economizar recursos, como tempo e dinheiro, na coleta de dados, selecionando grupos em vez de indivíduos.
- Quando a população possui uma estrutura de agrupamento natural, como cidades em um país, departamentos em uma empresa ou famílias em uma vizinhança.
- Quando se deseja realizar análises hierárquicas, observando a variação em múltiplos níveis (por exemplo, alunos em escolas em distritos em um estudo educacional).
- Para reduzir custos logísticos associados à coleta de dados, como deslocamento e supervisão.

Lembre-se de que é fundamental garantir que os grupos selecionados sejam representativos da população para obter resultados válidos e evitar vieses na seleção.


Criando uma função para realizar Amostragem por Grupo sempre que necessário.

In [18]:
# Função para realizar amostragem de grupos em um DataFrame 'df' com 'grupos' especificados.

def amostragem_grupo(df, grupos):

  # Calcula o tamanho do intervalo necessário para dividir a população em 'grupos' iguais.
  intervalo = len(df) / grupos

  # Inicializa uma lista 'ids_grupos' para armazenar as identificações dos grupos.
  ids_grupos = []

  # Inicializa uma variável 'id_grupo' para rastrear o grupo atual e 'contagem' para rastrear elementos no grupo.
  id_grupo = 0
  contagem = 0

  # Itera sobre as linhas do DataFrame 'df'.
  for _ in df.iterrows():

    # Atribui a identificação do grupo atual à lista 'ids_grupos'.
    ids_grupos.append(id_grupo)

    # Atualiza a contagem de elementos no grupo.
    contagem += 1

    # Verifica se a contagem ultrapassou o tamanho do intervalo.
    if contagem > intervalo:

      # Reinicia a contagem e muda para o próximo grupo.
      contagem = 0
      id_grupo += 1

  # Adiciona uma coluna 'grupo' ao DataFrame 'df' para indicar a qual grupo cada elemento pertence.
  df['grupo'] = ids_grupos

  # Define uma semente (seed) para garantir que os resultados sejam replicáveis.
  random.seed(2)

  # Seleciona aleatoriamente um grupo entre os disponíveis.
  grupo_selecionado = random.randint(0, grupos)

  # Retorna um subconjunto do DataFrame 'df' contendo apenas os elementos do grupo selecionado.
  return df[df['grupo'] == grupo_selecionado]


Vamos criar um novo dataframe chamado 'df_amostragem_grupo' para armazenar o resultado da nossa função.

In [19]:
# Armazenando os valores na variável
df_amostragem_grupo = amostragem_grupo(df, 325)

# Observando quantos dados foram selecionados
df_amostragem_grupo.shape

(101, 16)

In [20]:
# Observando o id e quantos dados foram selecionados!
df_amostragem_grupo['grupo'].value_counts()

28    101
Name: grupo, dtype: int64

In [21]:
# Observando os registros
df_amostragem_grupo.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
2828,54,Self-emp-not-inc,175804,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,40,United-States,>50K,28
2829,36,Private,107302,Masters,14,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,60,United-States,>50K,28
2830,63,Local-gov,41161,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,55,United-States,<=50K,28
2831,39,Private,401832,Some-college,10,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,48,United-States,<=50K,28
2832,57,Self-emp-not-inc,353808,Some-college,10,Married-civ-spouse,Sales,Husband,White,Male,0,0,60,United-States,>50K,28


## **Amostragem estratificada**

*Breve Resumo:*
A amostragem estratificada é um método de seleção de amostras que divide a população em estratos ou subgrupos com características semelhantes. Em seguida, amostras são selecionadas aleatoriamente de cada estrato, garantindo que a amostra seja representativa e proporcional à diversidade da população.

*Quando Utilizar:*
- Quando se deseja garantir que todos os subgrupos da população sejam representados na amostra.
- Em situações em que a população apresenta diversidade e diferentes estratos têm características distintas.
- Quando é importante evitar vieses na seleção da amostra, especialmente em pesquisas com múltiplas variáveis.


Importando a biblioteca para realizar a 'estratificação'

In [22]:
# Importando a biblioteca para realizar a 'estratificação'
from sklearn.model_selection import StratifiedShuffleSplit

Observando quantos valores distintos temos na coluna 'income'

In [23]:
# Observando os valores
df['income'].value_counts()

 <=50K    24720
 >50K      7841
Name: income, dtype: int64

Entendendo a porcentagem correspondente a cada valor na coluna

In [24]:
# Entendendo a porcentagem correspondente a cada valor na coluna
percent_maior_50k = 7841 / len(df)
percent_menor_50k = 24720 / len(df)

print("Porcentagem de salários acima de 50 mil dólares por ano:", percent_maior_50k)
print("Porcentagem de salários abaixo de 50 mil dólares por ano:", percent_menor_50k)

Porcentagem de salários acima de 50 mil dólares por ano: 0.2408095574460244
Porcentagem de salários abaixo de 50 mil dólares por ano: 0.7591904425539756


Fica evidente que 24% da base recebe um salário maior que 50 mil dólares por ano e 75% recebe menos que 50 mil dólares por ano.

Por isso, é importante fazer uma amostragem utilizando essa técnica.

**Extraindo uma amostra estratificada**

Dividindo a base de dados, utilizando o test_size igual a 0.1 para que a base seja dividida, onde 90% dos dados ficarão na variável df_x e os outros 10% na variável df_y.

In [25]:
# O test_size igual a 0.1 indica o tamanho da amostra, que neste caso é de 10%
split = StratifiedShuffleSplit(test_size = 0.1)

for x, y in split.split(df, df['income']):

  # Nessa parte dois novos DF estão sendo criados, um vai conter 10% dos dados que definimos acima
  df_x = df.iloc[x]
  df_y = df.iloc[y]

Confirmando a divisão dos dados

In [26]:
print("Dimensões de df_x:", df_x.shape)
print("Dimensões de df_y:", df_y.shape)

Dimensões de df_x: (29304, 16)
Dimensões de df_y: (3257, 16)


Podemos observar que a nossa divisão foi concluída

In [27]:
# Observando os valroes
df_y.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
17346,70,Self-emp-not-inc,143833,Some-college,10,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,2246,40,United-States,>50K,171
24628,56,Self-emp-not-inc,176280,HS-grad,9,Divorced,Other-service,Not-in-family,White,Male,0,0,50,United-States,<=50K,243
8101,34,Private,248795,HS-grad,9,Never-married,Machine-op-inspct,Not-in-family,White,Female,0,0,45,United-States,<=50K,80
18473,54,Private,169719,Bachelors,13,Married-civ-spouse,Sales,Husband,White,Male,3103,0,40,United-States,>50K,182
15367,20,Private,193586,Some-college,10,Never-married,Prof-specialty,Not-in-family,White,Female,0,0,18,United-States,<=50K,152


No entanto, estamos sempre realizando uma amostra de 100 registros. Portanto, implementaremos os seguintes passos.

Dividindo a quantidade de amostras que queremos (neste caso, são 100 amostras) pelo comprimento do nosso DataFrame. O resultado será usado como parâmetro em nosso test_size.

In [28]:
# Dividindo a quantidade de amostras que queremos pelo comprimento do nosso DataFrame.
num_amostras = 100
test_size_param = num_amostras / len(df)

In [29]:
# Atribuindo o resultado na váriavel
split = StratifiedShuffleSplit(test_size = 0.0030711587481956942)

for x, y in split.split(df, df['income']):

# Nesta parte, dois novos DataFrames estão sendo criados: um conterá 90% dos dados e o outro 10%, como definimos acima
  df_x = df.iloc[x]
  df_y = df.iloc[y]

In [30]:
print("Dimensões de df_x:", df_x.shape)
print("Dimensões de df_y:", df_y.shape)

Dimensões de df_x: (32461, 16)
Dimensões de df_y: (100, 16)


Aqui podemos observar que temos 100 dados selecionados, porém falta confirmarmos a proporcionalidade.

In [31]:
# Observando os valores em df_y
df_y['income'].value_counts()

 <=50K    76
 >50K     24
Name: income, dtype: int64

Aqui podemos confirmar que nossa amostragem está dividida de forma proporcional, como observamos nas primeiras linhas, onde 76% das pessoas recebem salários anuais abaixo de 50 mil dólares e 24% recebem salários acima desse valor.

*Criando uma função para aplicar essa amostragem*

In [32]:
def amostragem_estratificada(df, percentual):
  split = StratifiedShuffleSplit(test_size = percentual, random_state = 1)
  for _, y in split.split(df, df['income']):
    df_y = df.iloc[y]
  return df_y

In [33]:
# Atribuindo os valores em uma nova variável
df_amostragem_estratificada = amostragem_estratificada(df, 0.0030711587481956942)

# Observando as dimensões
df_amostragem_estratificada.shape

(100, 16)

In [34]:
# Observando os valores
df_amostragem_estratificada.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
5611,47,Private,176319,HS-grad,9,Married-civ-spouse,Sales,Own-child,White,Female,0,0,38,United-States,>50K,55
30532,41,Private,242619,Assoc-acdm,12,Divorced,Prof-specialty,Not-in-family,White,Male,0,0,80,United-States,<=50K,302
4586,21,Private,152540,HS-grad,9,Never-married,Adm-clerical,Not-in-family,White,Female,0,0,35,United-States,<=50K,45
15764,33,Private,132705,9th,5,Separated,Adm-clerical,Not-in-family,White,Male,0,0,48,United-States,<=50K,156
4511,24,Private,140001,Bachelors,13,Never-married,Exec-managerial,Not-in-family,White,Male,0,0,40,United-States,<=50K,44


## **Amostragem de reservátorio**

**Breve Resumo:**
*A amostragem de reservatório é um método que permite selecionar aleatoriamente elementos de uma população, sem a necessidade de conhecer o tamanho total da população. Cada elemento tem igual chance de ser escolhido.*

**Quando Utilizar:**
- *Para populações muito grandes ou em constante mudança.*
- *Quando uma seleção aleatória imparcial é necessária, sem conhecimento do tamanho da população.*
- *Em cenários com acesso limitado à população completa.*


In [35]:
def amostragem_reservatorio(dataset, amostras):
    # Inicializar uma lista vazia para armazenar os índices do dataset
    stream = []

    # Preencher a lista "stream" com índices de 0 até o tamanho do dataset
    for i in range(len(dataset)):
        stream.append(i)

    # Inicializar o índice "i" como 0
    i = 0

    # Obter o tamanho total do dataset
    tamanho = len(dataset)

    # Inicializar o reservatório com amostras de tamanho "amostras"
    reservatorio = [0] * amostras
    for i in range(amostras):
        reservatorio[i] = stream[i]

    # Iterar pelo restante do dataset para atualizar o reservatório
    while i < tamanho:
        # Gerar um valor aleatório "j" entre 0 e (i+1)
        j = random.randrange(i + 1)

        # Verificar se "j" está dentro do tamanho do reservatório
        if j < amostras:
            # Substituir um elemento no reservatório pelo elemento atual do dataset
            reservatorio[j] = stream[i]

        # Avançar para o próximo elemento do dataset
        i += 1

    # Retornar as linhas do dataset correspondentes aos índices no reservatório
    return dataset.iloc[reservatorio]


Criando um novo Dataframe para armazenar o resultado da função

In [36]:
# Armazenando os valores na variável
df_amostragem_reservatorio = amostragem_reservatorio(df, 100)

# Observando quantos dados foram selecionados
df_amostragem_reservatorio.shape

(100, 16)

In [37]:
# Observando os registros
df_amostragem_reservatorio.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
14096,53,Private,152810,Masters,14,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,1977,55,United-States,>50K,139
30468,38,?,365465,Assoc-voc,11,Never-married,?,Own-child,White,Male,0,0,15,United-States,<=50K,301
3715,21,Private,344891,Some-college,10,Never-married,Adm-clerical,Own-child,Asian-Pac-Islander,Male,0,0,20,United-States,<=50K,36
7293,34,Private,118941,11th,7,Never-married,Other-service,Not-in-family,White,Female,0,0,40,Ireland,<=50K,72
12008,26,?,132749,Bachelors,13,Never-married,?,Not-in-family,White,Female,0,0,80,United-States,<=50K,118


## **Comparando resultados**

Agora vamos Comparar as médias de diferentes amostragens, pois essas comparações são fundamentais para validar, estabilizar, avaliar a variabilidade e manter a eficiência na análise estatística de dados. Essa prática garante resultados robustos e representativos.

*Dito isso aqui estão alguns pontos importantes para a execução dessa prática*

- **Validação do Resultado:** Comparar a média da coluna de idade do conjunto de dados completo com as médias de idade obtidas por técnicas de amostragem ajuda a validar o resultado.

- **Verificação da Estabilidade da Média:** Comparar a média do conjunto de dados completo com as médias das amostras permite avaliar a estabilidade do resultado.

- **Avaliação da Variabilidade:** Calcular a média com diferentes amostras ajuda a entender a variabilidade nos resultados, o que é importante em análises estatísticas.

- **Eficiência Computacional:** Técnicas de amostragem oferecem uma maneira eficiente de estimar características da população, como a média, a partir de uma amostra representativa.


In [38]:
# Observando a média de idade
df['age'].mean()

38.58164675532078

Podemos observar que a média de idade é de 38,58 anos, vamos observar o resultado da média de idade utilizando técnicas de amostragem.

In [39]:
print(f"A média de idade utilizando a amostragem simples é: {df_amostragem_aleatoria_simples['age'].mean()}\n",
      f"A média de idade utilizando a amostragem sistemática é: {df_amostra_sistematica['age'].mean()}\n",
      f"A média de idade utilizando a amostragem por grupo é: {df_amostragem_grupo['age'].mean()}\n",
      f"A média de idade utilizando a amostragem estratificada é: {df_amostragem_estratificada['age'].mean()}\n",
      f"A média de idade utilizando a amostragem de reservátorio é: {df_amostragem_reservatorio['age'].mean()}\n")

A média de idade utilizando a amostragem simples é: 39.59
 A média de idade utilizando a amostragem sistemática é: 38.61
 A média de idade utilizando a amostragem por grupo é: 39.78217821782178
 A média de idade utilizando a amostragem estratificada é: 36.9
 A média de idade utilizando a amostragem de reservátorio é: 37.88



**Conclusão sobre Técnicas de Amostragem:**

Ao comparar as médias de idade obtidas através de diferentes técnicas de amostragem, podemos tirar várias conclusões importantes:

- A amostragem simples tende a superestimar a média.
- A amostragem sistemática pode levar a uma estimativa ainda mais elevada da média.
- A amostragem por grupo pode ser precisa, desde que os grupos sejam bem definidos.
- A amostragem estratificada pode resultar em subestimação da média devido a estratos não representativos.
- A amostragem em reservatório mantém a média próxima à da população.

A escolha da técnica de amostragem adequada é crucial para obter estimativas precisas e representativas das características da população de interesse.


## **Desafio**

O objetivo deste exercício é utilizar outra base de dados para testar as amostragens e comparar os resultados

- Faça o download e carregue a base de dados credit_data.csv, que possui informações sobre empréstimos (se o cliente pagará ou não pagará o empréstimo)

- Teste cada uma das técnicas de amostragem, selecionando 1000 registros

- Para a amostragem estratificada, utilize o atributo c#default para separar as categorias

- No final, faça o comparativo da média utilizando os atributos 'age', 'income' e 'loan'

Para solucionar este desafio, primeiro vamos importar as bibliotecas necessárias.

In [40]:
# Manipulação de arquivos
import pandas as pd

# Biblioteca para funções randomicas
import random

# Funções matemáticas
import numpy as np

# Importando a biblioteca para realizar a 'estratificação'
from sklearn.model_selection import StratifiedShuffleSplit

Com as bibliotecas carregadas, podemos importar o conjunto de dados (Dataset) que será utilizado.

In [41]:
# Importando o dataset
df_desafio = pd.read_csv('/content/drive/MyDrive/Estatística para ciência de dados/credit_data.csv')

Vamos para o primeiro contato com os dados.

In [42]:
# Observando as dimensões do Df
df_desafio.shape

(2000, 5)

In [43]:
# Observando os registros
df_desafio.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


Como já foram criadas funções para cada uma das técnicas de amostragem, chegou a hora de colocá-las à prova.

### *Amostragem Simples*

Primeiro, vamos atribuir o resultado da função a uma variável específica e, só então, calcular a média da coluna necessária para finalizar o desafio. Esses passos serão padrão para todas as técnicas utilizadas na realização desse desafio.

In [44]:
# Atribuindo o resultado da função na variável
desafio_simples = amostragem_aleatoria_simples(df_desafio, 1000)

In [45]:
# Observando as dimensões e conferindo se o numero de amostras esta correto
desafio_simples.shape

(1000, 5)

In [46]:
# Observando os registros
desafio_simples.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
278,279,20622.860098,30.414033,3518.452629,1
492,493,54231.702785,21.274211,10156.142312,1
1266,1267,23345.866455,38.290175,4548.110289,0
557,558,45326.403673,59.362512,5142.110837,0
871,872,23081.450739,53.896818,257.661201,0


Agora que a amostra foi obtida, chegou a hora de calcular a média dos valores requisitados no desafio para, no fim, realizar uma comparação.

In [47]:
# Média de idade
age_simples = desafio_simples['age'].mean().round(3)

# Média de renda
income_simples = desafio_simples['income'].mean().round(3)

# Média de empréstimo
loan_simples = desafio_simples['loan'].mean().round(3)

### *Amostragem Sistemática*

In [48]:
# Atribuindo o resultado da função na variável
desafio_sistematica = amostragem_sistematica(df_desafio, 1000)

In [49]:
# Observando as dimensões e conferindo se o numero de amostras esta correto
desafio_sistematica.shape

(1000, 5)

In [50]:
# Observando os registros
desafio_sistematica.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
2,3,57317.170063,63.108049,8020.953296,0
4,5,66952.688845,18.584336,8770.099235,1
6,7,48430.359613,26.809132,5722.581981,0
8,9,40654.892537,55.496853,4755.82528,0


In [51]:
# Média de idade
age_sistematica = desafio_sistematica['age'].mean().round(3)

# Média de renda
income_sistematica = desafio_sistematica['income'].mean().round(3)

# Média de empréstimo
loan_sistematica = desafio_sistematica['loan'].mean().round(3)

### *Amostragem por Grupo*


Como essa amostragem é por grupo e queremos apenas 1000 amostras, seria interessante dividir a base em dois grupos. Sendo assim, passaremos o parâmetro 2 na função.

In [52]:
# Atribuindo o resultado da função na variável
desafio_grupo = amostragem_grupo(df_desafio, 2)

In [53]:
# Observando as dimensões e conferindo se o numero de amostras esta correto
desafio_grupo.shape

(1001, 6)

In [54]:
# Observando os registros
desafio_grupo.head()

Unnamed: 0,i#clientid,income,age,loan,c#default,grupo
0,1,66155.925095,59.017015,8106.532131,0,0
1,2,34415.153966,48.117153,6564.745018,0,0
2,3,57317.170063,63.108049,8020.953296,0,0
3,4,42709.534201,45.751972,6103.64226,0,0
4,5,66952.688845,18.584336,8770.099235,1,0


In [55]:
# Média de idade
age_grupo = desafio_grupo['age'].mean().round(3)

# Média de renda
income_grupo = desafio_grupo['income'].mean().round(3)

# Média de empréstimo
loan_grupo = desafio_grupo['loan'].mean().round(3)

### *Amostragem Estratificada*

In [56]:
# ERRADO!!!
#desafio_estratificada = amostragem_estratificada(df_desafio)

### *Amostragem de Reservátorio*

In [57]:
# Atribuindo o resultado da função na variável
desafio_reservatorio = amostragem_reservatorio(df_desafio, 1000)

In [58]:
# Observando as dimensões e conferindo se o numero de amostras esta correto
desafio_reservatorio.shape

(1000, 6)

In [59]:
# Observando os registros
desafio_reservatorio.head()

Unnamed: 0,i#clientid,income,age,loan,c#default,grupo
0,1,66155.925095,59.017015,8106.532131,0,0
1,2,34415.153966,48.117153,6564.745018,0,0
2,3,57317.170063,63.108049,8020.953296,0,0
1713,1714,53236.992999,57.932612,703.602198,0,1
4,5,66952.688845,18.584336,8770.099235,1,0


In [60]:
# Média de idade
age_reservatorio = desafio_reservatorio['age'].mean().round(3)

# Média de renda
income_reservatorio = desafio_reservatorio['income'].mean().round(3)

# Média de empréstimo
loan_reservatorio = desafio_reservatorio['loan'].mean().round(3)

### *Média sem Amostragem*

Antes de compararmos os resultados obtidos através das amostragens, vamos calcular a média sem utilizar amostras para observar a disparidade entre elas.

In [61]:
# Média de idade
age_desafio = df_desafio['age'].mean().round(3)

# Média de renda
income_desafio = df_desafio['income'].mean().round(3)

# Média de empréstimo
loan_desafio = df_desafio['loan'].mean().round(3)

Agora chegou a hora de compararmos os resultados.

### *Comparativo*

Para realizar esse comparativo, primeiro vamos criar listas e armazenar em cada uma o resultado de uma determinada técnica.

In [62]:
# Armazenando os valores me listas
Amostragem_simples = [age_simples, income_simples, loan_simples]
Amostragem_sistematica = [age_sistematica, income_sistematica, income_sistematica]
Amostragem_por_grupo = [age_grupo, income_grupo, loan_grupo]
Amostragem_estratificada = [1, 2, 3]
Amostragem_de_reservatorio = [age_reservatorio,income_reservatorio, loan_reservatorio]
Sem_amostragem = [age_desafio, income_desafio, loan_desafio]

# Criando um dicionário com os nomes das variáveis como chaves e as listas como valores
data = {
    'Amostragem Simples': Amostragem_simples,
    'Amostragem Sistemática': Amostragem_sistematica,
    'Amostragem por Grupo': Amostragem_por_grupo,
    'Amostragem Estratificada': Amostragem_estratificada,
    'Amostragem de Reservátorio': Amostragem_de_reservatorio,
    'Sem Amostragem': Sem_amostragem
}

# Criando um DataFrame a partir do dicionário
df_comparativo = pd.DataFrame(data)

In [63]:
# Comparando os resultados
df_comparativo

Unnamed: 0,Amostragem Simples,Amostragem Sistemática,Amostragem por Grupo,Amostragem Estratificada,Amostragem de Reservátorio,Sem Amostragem
0,41.076,40.911,41.043,1,40.714,40.808
1,44871.043,45691.499,44846.749,2,45876.195,45331.6
2,4413.722,45691.499,4390.161,3,4520.642,4444.37
