# Preparação

## Bibliotecas

In [1]:

import pandas as pd

import os
from os import remove

# !pip install wget
import wget

# !pip install py7zr
from py7zr import SevenZipFile

import glob

## Diretório

In [2]:
%pwd

'c:\\Users\\João\\Desktop\\Portfólio\\CAGED'

In [3]:
# Ajustando diretório de trabalho
pwd = os.getcwd()

# Download e Extração dos arquivos

## Funções

In [4]:
def extract_caged (ano, mes):
  """ Faz o download dos arquivos do NOVO CAGED para o ano e o mês especificados.
  O período do NOVO CAGED tem início em Janeiro de 2020.
  Nesse script não extraímos os microdados antriores a esse período devido a divergências metodológicas estabelcidas pelo MTE.

  Argumentos:
      ano: Ano do arquivo.
      mes: Mês do arquivo.
  """
  # Download
  if ano < 2020:
        print(f"Os microdados de {mes}/{ano} não serão baixados.")
        return

  tipos_arquivos = ['CAGEDMOV', 'CAGEDEXC', 'CAGEDFOR']

  for tipo in tipos_arquivos:
    url = f'ftp://ftp.mtps.gov.br/pdet/microdados/NOVO CAGED/{ano}/{ano}{mes}/{tipo}{ano}{mes}.7z'
    nome_arquivo = f'{tipo}{ano}{mes}.7z'

    try:
      print(f'\nBaixando {tipo} de {mes}/{ano}...')
      wget.download(url, nome_arquivo)
      print(f'\n{tipo}{ano}{mes}.7z baixado com sucesso.')
    except:
      print(f'\nOs microdados {tipo} de {mes}/{ano} não estão disponíveis.')
      continue

    # Extração do arquivo 7z
    try:
        with SevenZipFile(nome_arquivo, mode='r') as archive:
             archive.extractall()
             print(f'{tipo}{ano}{mes}.txt extraído com sucesso.')
    except:
        print(f'Erro ao extrair {tipo}{ano}{mes}.7z.')
        continue

    # Remoção do arquivo 7z após a extração
    try:
        remove(nome_arquivo)
        print(f'{nome_arquivo} removido.\n')
    except:
        print(f'Erro ao remover {nome_arquivo}.')

## Extração

In [None]:
# Extraindo arquivos para todo o período

# Definir meses de janeiro a dezembro
meses = [f'{i:02}' for i in range(1, 13)]

# Loop
for ano in range(2020, 2025):
    for mes in meses:
        extract_caged(ano, mes)

In [None]:
# Extraindo arquivos de um mês específico
extract_caged(2024, 11)

## Leitura

### Abrindo dicionários

In [5]:
dic_classes = pd.read_excel(pwd + "\\entrada\\dicionários.xlsx",
                           sheet_name=0)

print(dic_classes.info())
dic_classes.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1361 entries, 0 to 1360
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Seção           1361 non-null   object
 1   Classe          1361 non-null   int64 
 2   Subclasse       1361 non-null   int64 
 3   Nome Subclasse  1361 non-null   object
 4   Nome Classe     1361 non-null   object
 5   Nome Seção      1361 non-null   object
dtypes: int64(2), object(4)
memory usage: 63.9+ KB
None


Unnamed: 0,Seção,Classe,Subclasse,Nome Subclasse,Nome Classe,Nome Seção
0,A,1113,111301,Cultivo de arroz,Cultivo de cereais,"AGRICULTURA, PECUÁRIA, PRODUÇÃO FLORESTAL, PES..."
1,A,1113,111302,Cultivo de milho,Cultivo de cereais,"AGRICULTURA, PECUÁRIA, PRODUÇÃO FLORESTAL, PES..."
2,A,1113,111303,Cultivo de trigo,Cultivo de cereais,"AGRICULTURA, PECUÁRIA, PRODUÇÃO FLORESTAL, PES..."
3,A,1113,111399,Cultivo de outros cereais não especificados an...,Cultivo de cereais,"AGRICULTURA, PECUÁRIA, PRODUÇÃO FLORESTAL, PES..."
4,A,1121,112101,Cultivo de algodão herbáceo,Cultivo de algodão herbáceo e de outras fibras...,"AGRICULTURA, PECUÁRIA, PRODUÇÃO FLORESTAL, PES..."


In [6]:
dic_faixaeta = pd.read_excel(pwd + "\\entrada\\dicionários.xlsx",
                           sheet_name=1)

dic_faixaeta.head(n=9)

Unnamed: 0,cod,nom
0,1,10 a 14 anos
1,2,15 a 17 anos
2,3,18 a 24 anos
3,4,25 a 29 anos
4,5,30 a 39 anos
5,6,40 a 49 anos
6,7,50 a 64 anos
7,8,65 anos ou mais
8,99,Não Informado


In [7]:
dic_escolaridade = pd.read_excel(pwd + "\\entrada\\dicionários.xlsx",
                           sheet_name=2)

dic_escolaridade.head(n=13)

Unnamed: 0,cod,nom
0,1,Analfabeto
1,2,Ate 5 Incompleto
2,3,5 Completo Fundamental
3,4,6 a 9 Fundamental
4,5,Fundamental Completo
5,6,Medio Incompleto
6,7,Medio Completo
7,8,Superior Incompleto
8,9,Superior Completo
9,10,Mestrado


In [8]:
dic_sexo = pd.read_excel(pwd + "\\entrada\\dicionários.xlsx",
                           sheet_name=3)

dic_sexo.head()

Unnamed: 0,cod,nom
0,1,Homem
1,3,Mulher
2,9,Nao Identificado


In [9]:
dic_racacor = pd.read_excel(pwd + "\\entrada\\dicionários.xlsx",
                           sheet_name=4)

dic_racacor.head(n = 7)

Unnamed: 0,cod,nom
0,1,Branca
1,2,Preta
2,3,Parda
3,4,Amarela
4,5,Indigena
5,6,Nao Informada
6,9,Nao Identificado


In [10]:
dic_municipios = pd.read_excel(pwd + "\\entrada\\dicionários.xlsx",
                           sheet_name=5)

print(dic_municipios.info())
dic_municipios.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5570 entries, 0 to 5569
Data columns (total 13 columns):
 #   Column                                Non-Null Count  Dtype 
---  ------                                --------------  ----- 
 0   UF                                    5570 non-null   int64 
 1   Nome_UF                               5570 non-null   object
 2   Região Geográfica Intermediária       5570 non-null   int64 
 3   Nome Região Geográfica Intermediária  5570 non-null   object
 4   Região Geográfica Imediata            5570 non-null   int64 
 5   Nome Região Geográfica Imediata       5570 non-null   object
 6   Mesorregião Geográfica                5570 non-null   int64 
 7   Nome_Mesorregião                      5570 non-null   object
 8   Microrregião Geográfica               5570 non-null   int64 
 9   Nome_Microrregião                     5570 non-null   object
 10  Município                             5570 non-null   int64 
 11  Código Município Completo     

Unnamed: 0,UF,Nome_UF,Região Geográfica Intermediária,Nome Região Geográfica Intermediária,Região Geográfica Imediata,Nome Região Geográfica Imediata,Mesorregião Geográfica,Nome_Mesorregião,Microrregião Geográfica,Nome_Microrregião,Município,Código Município Completo,Nome_Município
0,11,Rondônia,1102,Ji-Paraná,110005,Cacoal,2,Leste Rondoniense,6,Cacoal,15,1100015,Alta Floresta D'Oeste
1,11,Rondônia,1102,Ji-Paraná,110005,Cacoal,2,Leste Rondoniense,6,Cacoal,379,1100379,Alto Alegre dos Parecis
2,11,Rondônia,1101,Porto Velho,110002,Ariquemes,2,Leste Rondoniense,3,Ariquemes,403,1100403,Alto Paraíso
3,11,Rondônia,1102,Ji-Paraná,110004,Ji-Paraná,2,Leste Rondoniense,5,Alvorada D'Oeste,346,1100346,Alvorada D'Oeste
4,11,Rondônia,1101,Porto Velho,110002,Ariquemes,2,Leste Rondoniense,3,Ariquemes,23,1100023,Ariquemes


### Leitura, Processamento e Unificação

In [11]:
teste_1 = pd.read_csv(pwd + "\\entrada\\Dados\\CAGEDMOV202411.txt", sep = ';')
teste_2 = pd.read_csv(pwd + "\\entrada\\Dados\\CAGEDEXC202411.txt", sep = ';')
teste_3 = pd.read_csv(pwd + "\\entrada\\Dados\\CAGEDFOR202411.txt", sep = ';')


In [12]:
print(teste_1.columns)
print(teste_2.columns)
print(teste_3.columns)

Index(['competênciamov', 'região', 'uf', 'município', 'seção', 'subclasse',
       'saldomovimentação', 'cbo2002ocupação', 'categoria', 'graudeinstrução',
       'idade', 'horascontratuais', 'raçacor', 'sexo', 'tipoempregador',
       'tipoestabelecimento', 'tipomovimentação', 'tipodedeficiência',
       'indtrabintermitente', 'indtrabparcial', 'salário', 'tamestabjan',
       'indicadoraprendiz', 'origemdainformação', 'competênciadec',
       'indicadordeforadoprazo', 'unidadesaláriocódigo', 'valorsaláriofixo'],
      dtype='object')
Index(['competênciamov', 'região', 'uf', 'município', 'seção', 'subclasse',
       'saldomovimentação', 'cbo2002ocupação', 'categoria', 'graudeinstrução',
       'idade', 'horascontratuais', 'raçacor', 'sexo', 'tipoempregador',
       'tipoestabelecimento', 'tipomovimentação', 'tipodedeficiência',
       'indtrabintermitente', 'indtrabparcial', 'salário', 'tamestabjan',
       'indicadoraprendiz', 'origemdainformação', 'competênciadec',
       'competênci

In [14]:
# Criando dicionário para armazenar os dados
caged_data = {}

# Definindo anos e tipos de arquivos
anos = [2020, 2021, 2022, 2023, 2024]
tipos = ['CAGEDMOV', 'CAGEDEXC', 'CAGEDFOR']
colunas_excluir = ['competênciadec', 'indicadordeforadoprazo', 'unidadesaláriocódigo', 'valorsaláriofixo']

# Loop pelos tipos e anos
for tipo in tipos:
    for ano in anos:
        # Procurar arquivos do tipo-ano
        arquivos = glob.glob(f"entrada\\Dados\\{tipo}{ano}*.txt")

        # Lista para armazenar dados temporários
        temp_data = []

        # Loop pelos arquivos encontrados
        for arquivo in arquivos:
            # Carregar arquivo TXT
            df = pd.read_csv(arquivo, sep=';', encoding='utf-8')

            # Remover espaços extras nos nomes das colunas
            df.columns = df.columns.str.strip()

            # Excluir colunas desnecessárias (criando um novo DataFrame sem as colunas a excluir)
            colunas_presentes = [col for col in colunas_excluir if col in df.columns]
            df = df.drop(columns=colunas_presentes)  # Criando um novo DataFrame sem as colunas

            # Adicionar colunas de admissão e desligamento
            df['admissoes'] = df['saldomovimentação'].apply(lambda x: 1 if x == 1 else 0)
            df['desligamentos'] = df['saldomovimentação'].apply(lambda x: 1 if x == -1 else 0)

            # Agrupar por todas as colunas, somando valores
            df = df.groupby(df.columns.tolist()).sum().reset_index()

            # Armazenar no data temporário
            temp_data.append(df)

        # Concatenar dados de todos os arquivos do ano-tipo
        if temp_data:
            caged_data[f"{tipo}_{ano}"] = pd.concat(temp_data, ignore_index=True)
            print(f"{tipo}{ano} processado com sucesso.")

# Unificar todos os dados em um único dataframe
caged_final = pd.concat(caged_data.values(), ignore_index=True)

# Exibir uma amostra do resultado final
print(caged_final.head())

CAGEDMOV2020 processado com sucesso.
CAGEDMOV2021 processado com sucesso.
CAGEDMOV2022 processado com sucesso.


ParserError: Error tokenizing data. C error: Expected 28 fields in line 2622581, saw 30


In [None]:
caged_final.to_csv(pwd + "saida\\Novo_CAGED.csv", index=False)