<a href="https://colab.research.google.com/github/sebavassou/Estatistica_Inferencial/blob/main/Exercicio001.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Foi utilizando o dataset payroll_dataset.csv como base para uma população de servidores. Trata-se de um dataset fictício mas bem estruturado, simulando folhas de pagamento de servidores públicos.

Link: https://www.kaggle.com/datasets/datataxi/brazilian-public-sector-payroll

O dataset continha 190.289 registros de folha de pagamento, com a variável quantitativa 'liquido' (salário líquido) e a variável categórica 'cargo'.

A seguir, apresento a análise e os resultados obtidos para a amostragem aleatória simples (AAS) e por conglomerados. A média da população foi utilizada como parâmetro de comparação para avaliar a performance de cada técnica.

In [1]:
import pandas as pd

# Load the dataset with the correct delimiter
df_payroll = pd.read_csv('payroll_dataset.csv', delimiter=';')

# Inspect the dataset
print(df_payroll.head())
print(df_payroll.info())

       date                                 nome  matricula  \
0  01/01/16  ADAILTON JOSE BARROS DAMASO TENORIO       2710   
1  01/01/16            ADEILSON ALEXANDRE FREIRE        846   
2  01/01/16           ADEILSON FERREIRA DA SILVA       3158   
3  01/01/16                        ADEILSON LINS       1386   
4  01/01/16            ADEILTON APRIGIO DA SILVA        847   

                           cargo                nivel valor_base proventos  \
0  PROCURADOR GERAL ADJUNTO CC-1         COMISSIONADO    5500,00   4500,00   
1                 GARI 40H N-I E       GARI 40H N-I E     937,00   1320,00   
2     VIGILANTE 40H - CONTRATADO             CONTRATO     937,00    880,00   
3     VIGILANTE 40H - CONTRATADO             CONTRATO     937,00    880,00   
4            VIGILANTE 40H N-I E  VIGILANTE 40H N-I E     937,00    968,00   

  descontos  liquido  
0    760,00  3740,00  
1    154,00  1166,00  
2     70,40   809,60  
3     70,40   809,60  
4    322,29   645,71  
<class 'pandas

In [6]:
import numpy as np
import pandas as pd

# Carregar e limpar o dataset
df = pd.read_csv('payroll_dataset.csv', delimiter=';')
for col in ['valor_base', 'proventos', 'descontos', 'liquido']:
    df[col] = df[col].str.replace(',', '.', regex=False).astype(float)

# Parâmetros da população
pop_mean = df['liquido'].mean()
pop_size = len(df)
sample_size = 1000

print(f"Tamanho da população: {pop_size}")
print(f"Média da população (liquido): {pop_mean:.2f}\n")

# --- 1. Amostragem Aleatória Simples (AAS) ---
aas_sample = df.sample(n=sample_size, random_state=42)
aas_mean = aas_sample['liquido'].mean()

print("Amostragem Aleatória Simples:")
print(f"Média da amostra AAS: {aas_mean:.2f}")
print(f"Diferença da média populacional: {abs(aas_mean - pop_mean):.2f}\n")

# --- 2. Amostragem Estratificada ---

top_50_cargos = df['cargo'].value_counts().nlargest(50).index.tolist()
estratified_mean = pd.concat([
    df[df['cargo'] == c].sample(n=int(1000/50), random_state=42) for c in top_50_cargos
])['liquido'].mean()

print("Amostragem Estratificada:")
print(f"Média da amostra Estratificada: {estratified_mean:.2f}")
print(f"Diferença da média populacional: {abs(estratified_mean - pop_mean):.2f}\n")

# --- 3. Amostragem por Conglomerados ---
unique_clusters = df['cargo'].unique()
num_clusters_to_sample = 50
sampled_clusters = np.random.choice(unique_clusters, size=num_clusters_to_sample, replace=False)
cluster_sample = df[df['cargo'].isin(sampled_clusters)]
cluster_mean = cluster_sample['liquido'].mean()

print("Amostragem por Conglomerados:")
print(f"Média da amostra por Conglomerados: {cluster_mean:.2f}")
print(f"Diferença da média populacional: {abs(cluster_mean - pop_mean):.2f}")

Tamanho da população: 190289
Média da população (liquido): 1714.19

Amostragem Aleatória Simples:
Média da amostra AAS: 1732.77
Diferença da média populacional: 18.58

Amostragem Estratificada:
Média da amostra Estratificada: 1756.35
Diferença da média populacional: 42.16

Amostragem por Conglomerados:
Média da amostra por Conglomerados: 1527.18
Diferença da média populacional: 187.01


## Análise Comparativa Final
Parâmetros da População:

Tamanho: 190.289 servidores

Média do salário líquido (liquido): R$1714,19

1. Amostragem Aleatória Simples (AAS)
Média da amostra: R$1732,77

Diferença da média populacional: R$18,58

Análise: A AAS gerou uma estimativa da média populacional com uma pequena diferença. Isso reforça a confiabilidade da técnica para produzir amostras representativas, desde que a amostragem seja verdadeiramente aleatória.

2. Amostragem Estratificada
Média da amostra: R$1756,35

Diferença da média populacional: R$42,16

Análise: Neste novo resultado, a amostragem estratificada produziu uma estimativa com uma diferença maior do que a AAS. Isso pode ocorrer dependendo da forma como os estratos são definidos e da natureza da população. Ainda assim, a técnica garante que a amostra mantém a proporção de cada grupo, o que é fundamental para evitar vieses.

3. Amostragem por Conglomerados
Média da amostra: R$1527,18

Diferença da média populacional: R$187,01

Análise: A amostragem por conglomerados apresentou uma média de amostra significativamente menor que a da população, com uma diferença de R$187,01. Esse resultado reforça que a variabilidade da amostra é alta com essa técnica. A cada nova execução, a média da amostra pode flutuar bastante, pois a amostra é composta por grupos inteiros, e a composição desses grupos pode ser muito diferente uns dos outros.

Com base neste conjunto de resultados, a amostragem aleatória simples (AAS) apresentou a estimativa mais precisa da média populacional, com a menor diferença. A amostragem estratificada, apesar de ser uma técnica poderosa, mostrou neste caso um desempenho ligeiramente inferior ao da AAS. A amostragem por conglomerados demonstrou a maior variabilidade, o que é uma característica intrínseca do método.