## Sobre os dados
O estudo será realizado sobre os Microdados de Movimentações do Cadastro Geral de Empregados e Desempregados (CAGED) disponibilizados na plataforma Base dos Dados.
Dados CAGED  no BD: https://basedosdados.org/dataset/562b56a3-0b01-4735-a049-eeac5681f056?table=2245875f-d1ef-490d-be29-4f8fb2191335

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.13.1


In [2]:
#Instalação de pacotes necessários
#pip install pandas

In [3]:
#importando a biblioteca pandas, que fornece estruturas de dados de alto desempenho e fáceis de usar, além de ferramentas de análise de dados.
import pandas as pd
print(pd.__version__)

2.2.3


In [4]:
# Importando arquivo original para trabalho
dataset_orig = pd.read_csv('dados_iniciais.csv')

### Conhecendo o Dataset:
Conhecendo a composição do dataset e entendendo como os dados estão registrados e distribuídos.
Dessa forma, podemos identificar possíveis cenários para reduzir a nossa base de observação, além de identificar pontos de correção e ajustes para os próximos passos.

In [5]:
dataset_orig.head()

Unnamed: 0,cbo_2002,saldo_movimentacao,grau_instrucao,idade,raca_cor,sexo,tipo_movimentacao,salario_mensal,sigla_uf,ano,mes,horas_contratuais
0,212405,1,9,24.0,1,1,10,2800.0,SP,2021,1,40.0
1,212405,1,8,22.0,1,1,10,4955.0,PR,2020,1,44.0
2,212420,1,7,22.0,3,1,10,1100.0,MG,2020,1,44.0
3,212410,1,7,18.0,6,3,10,1057.0,SP,2021,1,36.0
4,212420,1,9,30.0,1,1,10,5690.0,RS,2021,1,40.0


In [15]:
print('O dataset original tem', dataset_orig.shape[0],'linhas.')

O dataset original tem 990705 linhas.


In [16]:
dataset_orig.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 990705 entries, 0 to 990704
Data columns (total 12 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   cbo_2002            990705 non-null  int64  
 1   saldo_movimentacao  990705 non-null  int64  
 2   grau_instrucao      990705 non-null  int64  
 3   idade               990688 non-null  float64
 4   raca_cor            990705 non-null  int64  
 5   sexo                990705 non-null  int64  
 6   tipo_movimentacao   990705 non-null  int64  
 7   salario_mensal      990654 non-null  float64
 8   sigla_uf            990705 non-null  object 
 9   ano                 990705 non-null  int64  
 10  mes                 990705 non-null  int64  
 11  horas_contratuais   990705 non-null  float64
dtypes: float64(3), int64(8), object(1)
memory usage: 90.7+ MB


📝 Observações:

1. O valor do atributo cbo_2002 está registrado como inteiro, mas da forma como é representado, deve ser interpretado como string
2. O atributo cbo_2002 pode ser classificado para otimizar o processamento
3. Os atributos idade e salario_mensal apresentam valores nulos
4. Atributos como idade e salario_mensal e horas_contratuais podem ser classificados por faixas

In [8]:
dataset_orig.describe()

Unnamed: 0,cbo_2002,saldo_movimentacao,grau_instrucao,idade,raca_cor,sexo,tipo_movimentacao,salario_mensal,ano,mes,horas_contratuais
count,990705.0,990705.0,990705.0,990688.0,990705.0,990705.0,990705.0,990654.0,990705.0,990705.0,990705.0
mean,212390.844787,0.114511,14.36697,31.923477,2.446621,1.414382,57.735264,5918.462,2021.567789,6.491594,41.472494
std,942.114691,0.993422,19.766737,8.648844,1.854678,0.810587,32.43512,21265.97,1.043652,3.391225,3.055963
min,21205.0,-1.0,1.0,15.0,1.0,1.0,10.0,0.0,2020.0,1.0,0.0
25%,212405.0,-1.0,8.0,25.0,1.0,1.0,31.0,2500.0,2021.0,4.0,40.0
50%,212405.0,1.0,9.0,30.0,1.0,1.0,40.0,4500.0,2022.0,7.0,40.0
75%,212420.0,1.0,9.0,37.0,3.0,1.0,97.0,8000.0,2022.0,9.0,44.0
max,212430.0,1.0,80.0,86.0,6.0,3.0,98.0,15661100.0,2023.0,12.0,60.0


In [9]:
dataset_orig.nunique()

cbo_2002                  15
saldo_movimentacao         2
grau_instrucao            12
idade                     69
raca_cor                   6
sexo                       2
tipo_movimentacao         13
salario_mensal        198005
sigla_uf                  27
ano                        4
mes                       12
horas_contratuais        847
dtype: int64

In [12]:
ctg = dataset_orig['ano'].value_counts()
ctg

ano
2021    293391
2022    279334
2023    233719
2020    184261
Name: count, dtype: int64

### Exploração e Transformação da Base:
1) unificar as colunas ano e mês em uma única coluna no formato mm-aa

In [None]:
# vendo quais são os valores da coluna mes
valores_unicos = dataset_orig['mes'].unique()
print(valores_unicos)

In [None]:
#quais são os valores da coluna ano
valores_unicos = dataset_orig['ano'].unique()
print(valores_unicos)

In [None]:
# Unindo os valores das duas colunas no formato aa-mm, porém ainda como string
dados['data'] = dados['mes'].astype(str).str.zfill(2) + '-' + dados['ano'].astype(str)

valores_unicos = dados['data'].unique()
print(valores_unicos)

In [None]:
dados.head()

2) Remover colunas que não são relevantes na análise

In [None]:
#deixei a coluna ano apenas com os últimos dois dígitos
dados['ano'] = dados['ano'].astype(str).str[-2:]

valores_unicos = dados['ano'].unique()
print(valores_unicos)

In [None]:
# Remover a coluna ano e mes
dados = dados.drop('ano', axis=1)
dados = dados.drop('mes', axis=1)

In [None]:
dados.head()

In [None]:
# Remover as colunas 'coluna2' e 'coluna4' diretamente no DataFrame original
dados.drop(['id_municipio', 'cnae_2_subclasse', 'origem_informacao', 'indicador_fora_prazo'], axis=1, inplace=True)

In [None]:
dados.head()

3) Analisar coluna cbo_2002:

In [None]:
#Reduzir o grau de detalhamento aos quatro primeiros dígitos
dados['cbo_2002'] = dados['cbo_2002'].astype(str).str[:4]

In [None]:
dados['cbo_2002'] = dados['cbo_2002'].astype('Int64')

In [None]:
print(dados['cbo_2002'].dtype)

In [None]:
valores_unicos = dados['cbo_2002'].unique()
print(valores_unicos)

In [None]:
#os valores 2121 e 2120 não são correspondentes a este atributo, pois não há categorias relacionadas e podem ser registros errados.
dados_cbo2002 = dados[(dados['cbo_2002'] == 2121) | (dados['cbo_2002'] == 2120)]
dados_cbo2002

In [None]:
dados = dados.drop(dados_cbo2002.index)

4) Analisando a coluna categoria:

In [None]:
valores_unicos = dados['categoria'].unique()
print(valores_unicos)

In [None]:
dados_categoria = dados[dados['categoria'] == 102]
dados_categoria

In [None]:
# Escolhi remover o registro retornado pela categoria 102, pois representa uma inconsistência
dados.drop(dados[dados['categoria'] == 102].index, inplace=True)

In [None]:
dados

In [None]:
dados_categoria = dados[dados['categoria'] == 999]
dados_categoria

In [None]:
dados_categoria = dados[dados['categoria'] == 101]
dados_categoria

In [None]:
dados_categoria_102 = dados[dados['categoria'] == 103]
dados_categoria_102