## importações

In [None]:
import pandas as pd # Importa a biblioteca pandas para manipulação de dados
from itertools import product # Importa product para gerar combinações
from joblib import Parallel, delayed, parallel_backend # Importa joblib para paralelização
import tqdm # Importa tqdm para exibir barras de progresso

## Função de ler arquivos


In [None]:
# Unidades Federativas (UF) a serem consideradas.
local = ["", "CE", "PE", "BA"]

# Opções de gênero.
sexo = ["", "Feminino", "Masculino", "Não informado"]

# Categorias de raça/cor.
raca_cor = ["", "Branca", "Preta", "Parda", "Amarela", "Indígena","Não informada", "Não identificado"]

# Níveis de instrução (escolaridade).
grau_de_instrucao = ["", "ANALFABETO", "ATE 5.A INC", "5.A CO FUND", "6. A 9. FUND",
"FUND COMPL", "MEDIO INCOMP", "MEDIO COMPL",'SUP. INCOMP', "SUP. COMP", "MESTRADO", "DOUTORADO"]

# Faixas etárias.
idades = ["", "14 a 17", "18 a 24", "25 a 39", "40 a 59", "60 ou mais"]

In [None]:
dic = { # Dicionário que mapeia o ano e mês de início para uma lista de meses subsequentes
    202401.0: ["janeiro", "fevereiro", "março", "abril", "maio", "junho",
               "julho", "agosto", "setembro", "outubro", "novembro", "dezembro"], # Meses de janeiro a dezembro
    202402.0: ["fevereiro", "março", "abril", "maio", "junho",
               "julho", "agosto", "setembro", "outubro", "novembro", "dezembro"], # Meses de fevereiro a dezembro
    202403.0: ["março", "abril", "maio", "junho",
               "julho", "agosto", "setembro", "outubro", "novembro", "dezembro"], # Meses de março a dezembro
    202404.0: ["abril", "maio", "junho",
               "julho", "agosto", "setembro", "outubro", "novembro", "dezembro"], # Meses de abril a dezembro
    202405.0: ["maio", "junho",
               "julho", "agosto", "setembro", "outubro", "novembro", "dezembro"], # Meses de maio a dezembro
    202406.0: ["junho", "julho", "agosto", "setembro", "outubro", "novembro", "dezembro"], # Meses de junho a dezembro
    202407.0: ["julho", "agosto", "setembro", "outubro", "novembro", "dezembro"], # Meses de julho a dezembro
    202408.0: ["agosto", "setembro", "outubro", "novembro", "dezembro"], # Meses de agosto a dezembro
    202409.0: ["setembro", "outubro", "novembro", "dezembro"], # Meses de setembro a dezembro
    202410.0: ["outubro", "novembro", "dezembro"], # Meses de outubro a dezembro
    202411.0: ["novembro", "dezembro"], # Meses de novembro a dezembro
    202412.0: ["dezembro"] # Mês de dezembro
}

In [None]:
mapeamento = { # Dicionário de mapeamento para padronizar os graus de instrução
    '': '', # Mantém string vazia como vazia
    'ANALFABETO': 'ANALFABETO', # Mapeia 'ANALFABETO' para 'ANALFABETO'
    'ATE 5.A INC': 'ATE 5.A INC', # Mapeia 'ATE 5.A INC' para 'ATE 5.A INC'
    '5.A CO FUND': '5.A CO FUND', # Mapeia '5.A CO FUND' para '5.A CO FUND'
    '6.A.9.FUND': '6. A 9. FUND', # Mapeia '6.A.9.FUND' para '6. A 9. FUND'
    'FUND COMPL': 'FUND COMPL', # Mapeia 'FUND COMPL' para 'FUND COMPL'
    'MEDIO INCOMP': 'MEDIO INCOMP', # Mapeia 'MEDIO INCOMP' para 'MEDIO INCOMP'
    'MEDIO COMPL': 'MEDIO COMPL', # Mapeia 'MEDIO COMPL' para 'MEDIO COMPL'
    'SUP.INCOMP': 'SUP. INCOMP', # Mapeia 'SUP.INCOMP' para 'SUP. INCOMP'
    'SUP.COMP': 'SUP. COMP', # Mapeia 'SUP.COMP' para 'SUP. COMP'
    'MESTRADO': 'MESTRADO', # Mapeia 'MESTRADO' para 'MESTRADO'
    'DOUTORADO': 'DOUTORADO' # Mapeia 'DOUTORADO' para 'DOUTORADO'
}

In [None]:
meses = ['janeiro','fevereiro','março','abril','maio','junho','julho','agosto','setembro','outubro','novembro','dezembro']

Este código Python define uma função chamada `carregar_arquivo` que tem como objetivo ler dados de um arquivo CSV (Comma Separated Values) e carregá-los em um DataFrame do pandas. Ele também inclui um mecanismo para lidar com o caso em que o arquivo especificado não é encontrado.

In [None]:
def carregar_arquivo(caminho):
  try:
    # Lê o arquivo CSV com separador de ponto e vírgula
    dados = pd.read_csv(caminho, sep = ';')
    # Retorna os dados carregados
    return dados
  except FileNotFoundError:
    # Informa se o arquivo não for encontrado
    print(f"Arquivo não encontrado em {caminho}")

## Tabela RAIS(estoque)

A função `Busca_linear_rais` percorre uma lista buscando por um item que corresponda aos critérios de local, sexo, raca, idade e gdi, retornando um valor associado ao item encontrado ou 0 caso não encontre ou ocorra um erro.


In [None]:
def busca_linear_rais(lista,local,sexo,raca,idade,gdi):
  try:
    # Itera sobre a lista com barra de progresso
    for i in lista:
      # Compara os 4 primeiros elementos da sublista
      if i[:5] == (local,sexo,raca,idade,gdi):
        # Retorna o sexto elemento da sublista se houver correspondência
        return i[6]
    # Retorna 0 se nenhum item for encontrado
    return 0
  except:
    # Mensagem de erro em caso de exceção
    print("")
    print('Erro na busca pelo estoque')

A função **`RAIS`** lê um arquivo CSV específico e retorna seu conteúdo como um **DataFrame** do Pandas. Se o arquivo não for encontrado, ela informa ao usuário. A **função lambda lista_dados_rais** converte um DataFrame em uma lista de tuplas, onde cada tupla representa uma linha do DataFrame.

In [None]:
def RAIS():
  try:
    # Lê o arquivo CSV
    dados = pd.read_csv('/content/drive/MyDrive/resultado_final_estoque_rais2023.csv', sep = ';')
    dados['sigla_uf'] = dados['sigla_uf'].str.upper() # Converte a coluna 'sigla_uf' para maiúsculas
    dados['sexo'] = dados['sexo'].str.upper() # Converte a coluna 'sexo' para maiúsculas
    dados['raca_cor'] = dados['raca_cor'].str.upper() # Converte a coluna 'raca_cor' para maiúsculas
    dados['faixa_etaria'] = dados['faixa_etaria'].str.upper() # Converte a coluna 'faixa_etaria' para maiúsculas
    dados['grau_instrucao_apos_2005'] = dados['grau_instrucao_apos_2005'].str.upper() # Converte a coluna 'grau_instrucao_apos_2005' para maiúsculas
    return dados.fillna("")
  except FileNotFoundError:
    # Informa se o arquivo não for encontrado
    print(f"Arquivo não encontrado em {caminho}")


# Converte DataFrame em lista de tuplas
lista_dados_rais = lambda dados: [tuple(linha) for linha in dados.itertuples(index=False)]

In [None]:
# def TabelaRais():
#     try:
#         global dados_iter
#         # Usa o backend 'loky' para paralelização
#         with parallel_backend('loky'):
#             # Executa 'executar_admissoes' em paralelo
#             resultados = Parallel(n_jobs=-1, verbose=10)(
#                 delayed(ExecutarRais)(x[0], x[1], x[2], x[3], x[4])
#                 for x in dados_iter
#             )
#             # Retorna um DataFrame pandas com os resultados
#             return pd.DataFrame(resultados)
#     except:
#         # Exibe mensagem de erro se a tabela não for criada
#         print('Erro na criação da Tabela RAIS')

A função TabelaRais processa dados de admissões em paralelo usando o framework joblib para criar e retornar um DataFrame Pandas com os resultados, tratando possíveis erros durante a execução.

In [None]:
def dados_iterador() -> list:
  iteracoes = list(product(local, sexo, raca_cor, idades, grau_de_instrucao))
  return iteracoes

  dados_iter = dados_iterador()

A função `dados_iterador` cria e retorna um iterador (na forma de uma lista) que combina todas as possíveis permutações dos elementos fornecidos pelas variáveis local, sexo, raca_cor, idades e grau_de_instrucao.

In [None]:
lista = lista_dados_rais(RAIS())

A função `Tabela_Rais` processa dados de um iterador para criar um DataFrame do Pandas. Para cada item do iterador, ela busca informações usando a função busca_linear_rais e as organiza em um dicionário que é então adicionado a uma lista, resultando em um DataFrame.

In [None]:
def Tabela_Rais() -> pd.DataFrame:
    dados = []
    global lista # 'lista' é uma variável global

    for x in tqdm.tqdm(dados_iterador()): # Itera sobre os dados e mostra o progresso
        # Adiciona um dicionário à lista 'dados' com informações e o resultado de 'busca_linear_rais'
        dados.append({'sigla_uf': x[0], 'sexo': x[1], 'raca': x[2], 'faixa_etaria': x[3], 'grau_instrucao': x[4],'estoque':busca_linear_rais(lista,x[0],x[1], x[2],x[3],x[4])})

    return pd.DataFrame(dados) # Retorna um DataFrame pandas com os dados coletados

## Tabela CAGED MOV

In [None]:
def cagedmov_admissoes(mes = 'janeiro') -> pd.DataFrame:
  try:
    # Carrega o arquivo CSV
      dados = pd.read_csv('/content/drive/MyDrive/mov_admissoes2024.csv', sep = ';')
      dados['graudeinstrução'] = dados['graudeinstrução'].map(mapeamento) # Aplica o mapeamento aos graus de instrução
      dados['uf'] = dados['uf'].str.upper() # Converte a coluna 'uf' para maiúsculas
      dados['sexo'] = dados['sexo'].str.upper() # Converte a coluna 'sexo' para maiúsculas
      dados['raçacor'] = dados['raçacor'].str.upper() # Converte a coluna 'raçacor' para maiúsculas
      dados['faixa_idade'] = dados['faixa_idade'].str.upper() # Converte a coluna 'faixa_idade' para maiúsculas
      dados['graudeinstrução'] = dados['graudeinstrução'].str.upper() # Converte a coluna 'graudeinstrução' para maiúsculas
      return dados.query(f'mes == "{mes}"')[['uf','sexo','raçacor','faixa_idade','graudeinstrução','admissoes']].fillna("") # Filtra, seleciona colunas e preenche NaN
  except FileNotFoundError:
    # Mensagem de erro se o arquivo não for encontrado
    print(f"Arquivo não encontrado em {caminho}")

# Converte DataFrame em uma lista de tuplas
lista_mov= lambda dados: [tuple(linha) for linha in dados.itertuples(index=False)]

A função cagedmov_admissoes carrega dados de admissões de um arquivo CSV, filtra-os por um mês específico e retorna um DataFrame do Pandas com colunas selecionadas, tratando valores ausentes.

In [None]:
def cagedmov_demissao(mes = 'janeiro') -> pd.DataFrame:
  try:
    # Carrega o arquivo CSV
    dados = pd.read_csv('/content/drive/MyDrive/mov_demissoes2024 (1).csv', sep = ';')
    dados['graudeinstrução'] = dados['graudeinstrução'].map(mapeamento) # Aplica o mapeamento aos graus de instrução
    dados['uf'] = dados['uf'].str.upper() # Converte a coluna 'uf' para maiúsculas
    dados['sexo'] = dados['sexo'].str.upper() # Converte a coluna 'sexo' para maiúsculas
    dados['raçacor'] = dados['raçacor'].str.upper() # Converte a coluna 'raçacor' para maiúsculas
    dados['faixa_idade'] = dados['faixa_idade'].str.upper() # Converte a coluna 'faixa_idade' para maiúsculas
    dados['graudeinstrução'] = dados['graudeinstrução'].str.upper() # Converte a coluna 'graudeinstrução' para maiúsculas
    return dados.query(f'mes == "{mes}"')[['uf','sexo','raçacor','faixa_idade','graudeinstrução','demissoes']].fillna("") # Filtra, seleciona colunas e preenche NaN
  except FileNotFoundError as caminho:
    # Mensagem de erro se o arquivo não for encontrado
    print(f"Arquivo não encontrado em {caminho}")


O lambda lista_mov_admissoes converte um DataFrame do Pandas em uma lista de tuplas, onde cada tupla representa uma linha do DataFrame, excluindo o índice

A função busca_linear_mov percorre uma lista de tuplas e retorna o sexto elemento da primeira tupla que corresponde aos cinco critérios de busca fornecidos (local, sexo, raça, idade, GDI); caso não encontre, retorna 0.

In [None]:
def busca_linear_mov(lista,local,sexo,raca,idade,gdi):
  try:
    # Itera sobre os elementos da lista
    for i in lista:
      # Compara os 5 primeiros elementos da tupla
      if i[:5] == (local,sexo,raca,idade,gdi):
        # Retorna o sexto elemento se houver correspondência
        return i[5]
    # Retorna 0 se nenhum item for encontrado
    return 0
  except:
    # Imprime mensagem de erro
    print("")
    print('Erro na busca')

A função listas_mov constrói uma lista de dicionários, onde cada dicionário representa um mês e associa a ele uma lista de movimentações de admissão obtidas através de outras funções auxiliares.

In [None]:
def listas_mov_admissoes():
  lista = []
  # Itera sobre cada mês na lista 'meses'
  for mes_ in meses:
    # Adiciona um dicionário à lista, onde a chave é o mês e o valor é a lista de admissões para aquele mês
    lista.append({mes_:lista_mov(cagedmov_admissoes(mes_))})
  # Retorna a lista de dicionários
  return lista

In [None]:
def listas_mov_demissoes():
  lista = []
  # Itera sobre cada mês na lista 'meses'
  for mes_ in meses:
    # Adiciona um dicionário à lista, onde a chave é o mês e o valor é a lista de admissões para aquele mês
    lista.append({mes_:lista_mov(cagedmov_demissao(mes_))})
  # Retorna a lista de dicionários
  return lista

A função TabelaMOv_admissoes cria um DataFrame do pandas que sumariza dados de admissões. Ela itera sobre uma combinação de características (como sigla da UF, sexo, raça, faixa etária e grau de instrução) e, para cada combinação, realiza uma busca linear para encontrar os dados de admissão correspondentes em cada mês do ano.

In [None]:
def TabelaMOv_admissoes(admissoes = bool):
  dados = []
  # Carrega a lista de dados de movimentação
  lista_mov = listas_mov_admissoes() if admissoes == True else listas_mov_demissoes()
  # Obtém o iterador de dados
  dados_iter = dados_iterador()

  # Itera sobre os dados com barra de progresso
  for x in tqdm.tqdm(dados_iter):
      # Adiciona um dicionário à lista 'dados' para cada iteração
      dados.append({
          'sigla_uf': x[0],
          'sexo': x[1],
          'raca': x[2],
          'faixa_etaria': x[3],
          'grau_instrucao': x[4],
          # Realiza a busca linear para cada mês
          'janeiro': busca_linear_mov(lista_mov[0]['janeiro'], x[0], x[1], x[2], x[3], x[4]),
          'fevereiro': busca_linear_mov(lista_mov[1]['fevereiro'], x[0], x[1], x[2], x[3], x[4]),
          'março': busca_linear_mov(lista_mov[2]['março'], x[0], x[1], x[2], x[3], x[4]),
          'abril': busca_linear_mov(lista_mov[3]['abril'], x[0], x[1], x[2], x[3], x[4]),
          'maio': busca_linear_mov(lista_mov[4]['maio'], x[0], x[1], x[2], x[3], x[4]),
          'junho': busca_linear_mov(lista_mov[5]['junho'], x[0], x[1], x[2], x[3], x[4]),
          'julho': busca_linear_mov(lista_mov[6]['julho'], x[0], x[1], x[2], x[3], x[4]),
          'agosto': busca_linear_mov(lista_mov[7]['agosto'], x[0], x[1], x[2], x[3], x[4]),
          'setembro': busca_linear_mov(lista_mov[8]['setembro'], x[0], x[1], x[2], x[3], x[4]),
          'outubro': busca_linear_mov(lista_mov[9]['outubro'], x[0], x[1], x[2], x[3], x[4]),
          'novembro': busca_linear_mov(lista_mov[10]['novembro'], x[0], x[1], x[2], x[3], x[4]),
          'dezembro': busca_linear_mov(lista_mov[11]['dezembro'], x[0], x[1], x[2], x[3], x[4])
      })

      # Retorna um DataFrame do pandas com os dados coletados
  return pd.DataFrame(dados)

O processo de construção da tabela de movimentações considerando apenas
demissões será o mesmo que para admissões

## CAGED FOR



**caged_for_admissoes**

A função **caged_for_admissoes** lê um arquivo CSV específico, filtra os dados pelo mês fornecido e seleciona um subconjunto de colunas, preenchendo quaisquer valores ausentes com strings vazias antes de retorná-los. Se o arquivo não for encontrado, ela imprime uma mensagem de erro.

In [None]:
def caged_for_admissoes(mes = 'janeiro'):
  try:
    # Carrega o arquivo CSV
    dados = pd.read_csv('/content/drive/MyDrive/for_admissoes2024 (2).csv', sep = ';') # Lê CSV
    # Filtra por mês e seleciona colunas específicas, preenchendo vazios
    dados['graudeinstrução'] = dados['graudeinstrução'].map(mapeamento) # Aplica o mapeamento aos graus de instrução
    dados['uf'] = dados['uf'].str.upper() # Converte a coluna 'uf' para maiúsculas
    dados['sexo'] = dados['sexo'].str.upper() # Converte a coluna 'sexo' para maiúsculas
    dados['raçacor'] = dados['raçacor'].str.upper() # Converte a coluna 'raçacor' para maiúsculas
    dados['faixa_idade'] = dados['faixa_idade'].str.upper() # Converte a coluna 'faixa_idade' para maiúsculas
    dados['graudeinstrução'] = dados['graudeinstrução'].str.upper() # Converte a coluna 'graudeinstrução' para maiúsculas
    return dados.query(f'mes == "{mes}"')[['competênciamov','uf','sexo','raçacor','faixa_idade','graudeinstrução','admissoes']].fillna("") # Filtra, seleciona colunas e preenche NaN
  except FileNotFoundError as caminho:
    # Mensagem de erro se o arquivo não for encontrado
    print(f"Arquivo não encontrado em {caminho}") # Informa erro de arquivo não encontrado

Estas são duas funções `lambda` que servem para processar dados:

---

 **`lista_for`**

A função **`lista_for`** converte um DataFrame (`dados`) em uma lista de tuplas. Cada tupla representa uma linha do DataFrame, excluindo o índice.

---

 **`lista_comptmov`**

A função **`lista_comptmov`** extrai os valores únicos da coluna `'competênciamov'` de um DataFrame (`dados`), retornando-os como uma lista.

In [None]:
lista_for = lambda dados: [tuple(linha) for linha in dados.itertuples(index=False)] # Converte DataFrame em lista de tuplas
lista_comptmov = lambda dados: [compt for compt in dados['competênciamov'].unique()] # Extrai valores únicos da coluna 'competênciamov'

In [None]:
# def busca_linear_comptmov(lista,comptv,local,sexo,raca,idade,gdi):
#   try:
#     for i in lista: # Itera sobre a lista
#       if i[:6] == (comptv,local,sexo,raca,idade,gdi): # Compara os primeiros 6 elementos da tupla
#         return i[6] # Retorna o sétimo elemento se houver correspondência
#     return 0 # Retorna 0 se nenhuma correspondência for encontrada
#   except: # Captura exceções
#     print("") # Imprime linha vazia
#     print('Erro na busca') # Imprime mensagem de erro

Esta função busca um valor em um dicionário utilizando uma chave composta (formada por comptv, local, sexo, raca, idade, gdi) e retorna 0 se a chave não for encontrada.

In [None]:
def busca_linear_comptmov(dic, comptv, local, sexo, raca, idade, gdi):
    # Retorna o valor associado à chave composta no dicionário.
    # Se a chave não existir, retorna 0.
    return dic.get((comptv, local, sexo, raca, idade, gdi), 0)

A função **executar** constrói um dicionário para uma linha de dados de admissão, preenchendo os campos de UF, sexo, raça, idade e grau de instrução. Em seguida, a função itera sobre os meses de uma competência específica (obtida de um dicionário global `dic`) e acumula valores usando a função `busca_linear_comptmov` para cada mês. Por fim, a função retorna o dicionário preenchido com todos os dados.

In [None]:
def executar(compts, lista, local, sexo, raca, idade, gdi):
    # Inicializa um dicionário com os campos de identificação e meses zerados.
    dic_linha = {
        "uf": local,
        "sexo": sexo,
        "raca": raca,
        "idade": idade,
        "graudeinstrucao": gdi,
        "janeiro": 0,
        "fevereiro": 0,
        "março": 0,
        "abril": 0,
        "maio": 0,
        "junho": 0,
        "julho": 0,
        "agosto": 0,
        "setembro": 0,
        "outubro": 0,
        "novembro": 0,
        "dezembro": 0
    }

    # Separa as competências em anteriores e posteriores a janeiro de 2024.
    compts_anteriores = [c for c in compts if c == "" or c <= 202401.0]
    compts_posteriores = [c for c in compts if c != "" and c > 202401.0]

    # Para competências anteriores, soma os valores buscando por mês de 202401.0.
    for c in compts_anteriores:
        for mes in dic[202401.0]:
            dic_linha[mes] += busca_linear_comptmov(lista, c, local, sexo, raca, idade, gdi)

    # Para competências posteriores, soma os valores buscando pelo mês da competência atual.
    for c in compts_posteriores:
        for mes in dic[c]:
            dic_linha[mes] += busca_linear_comptmov(lista, c, local, sexo, raca, idade, gdi)

    return dic_linha # Retorna o dicionário com os valores somados por mês.

In [None]:
def Tabela_For_admissoes(mes = 'janeiro') -> dict:
  dados = list(dados_iterador()) # Converte iterador em lista de dados
  dict_lista = {i[:6]: i[6] for i in lista_for(caged_for_admissoes(mes= mes))}
  compts = lista_comptmov(caged_for_admissoes(mes= mes)) # Obtém lista de competências
  # dic deve ser global ou passado também # Comentário sobre a variável 'dic'

  with parallel_backend('loky'): # Define backend de paralelização
        resultados = Parallel(n_jobs=-1)( # Inicia processamento paralelo
            delayed(executar)(compts,dict_lista,x[0].upper(), x[1].upper(), x[2].upper(), x[3].upper(), x[4].upper()) # Executa função com atraso
            for x in dados
        )
  return pd.DataFrame(resultados) # Retorna resultados em um DataFrame

A função `Tabela_For_admissoes` processa dados de admissões para um mês específico, utilizando processamento paralelo para criar um dicionário de DataFrames Pandas, onde cada chave representa uma competência e o valor é um DataFrame com os resultados das execuções.

In [None]:
def Tabela_For_admissoes_final():
  dados = []

  # Popula a lista 'dados' com todas as combinações de atributos
  for local_ in local:
    for sexo_ in sexo:
      for raca_ in raca_cor:
        for idade_ in idades:
          for gdi_ in grau_de_instrucao:
            dados.append({'sigla_uf': local_, 'sexo': sexo_, 'raca': raca_, 'faixa_etaria': idade_, 'grau_instrucao': gdi_})

  df = pd.DataFrame(dados) # Converte a lista 'dados' em um DataFrame

  # Instancia um objeto Tabela_For_admissoes para cada mês
  janeiro = Tabela_For_admissoes(mes= 'janeiro')
  fevereiro = Tabela_For_admissoes(mes= 'fevereiro')
  marco = Tabela_For_admissoes(mes= 'março')
  abril = Tabela_For_admissoes(mes= 'abril')
  maio = Tabela_For_admissoes(mes= 'maio')
  junho = Tabela_For_admissoes(mes= 'junho')
  julho = Tabela_For_admissoes(mes= 'julho')
  agosto = Tabela_For_admissoes(mes= 'agosto')
  setembro = Tabela_For_admissoes(mes= 'setembro')
  outubro = Tabela_For_admissoes(mes= 'outubro')
  novembro = Tabela_For_admissoes(mes= 'novembro')
  dezembro = Tabela_For_admissoes(mes= 'dezembro')

  # Soma os valores mensais de todas as tabelas de admissões e armazena no DataFrame final
  for mes in meses:
    df[mes] = janeiro[mes] + fevereiro[mes] + marco[mes] + abril[mes] + maio[mes] + junho[mes] + julho[mes] + agosto[mes] + setembro[mes] + outubro[mes] + novembro[mes] + dezembro[mes]

  return df # Retorna o DataFrame com as admissões consolidadas

CagedFor demissões

Esta função `caged_for_demissoes` carrega um dataset de demissões, padroniza e trata dados de colunas específicas como grau de instrução, UF, sexo, raça/cor e faixa etária, e então retorna um subconjunto dessas informações filtrado pelo mês de competência.

In [None]:
def caged_for_demissoes(mes = 'janeiro'):
  try:
    # Carrega o arquivo CSV
    dados = pd.read_csv('/content/drive/MyDrive/for_demissoes2024 (2).csv', sep = ';') # Lê CSV
    # Filtra por mês e seleciona colunas específicas, preenchendo vazios
    dados['graudeinstrução'] = dados['graudeinstrução'].map(mapeamento) # Aplica o mapeamento aos graus de instrução
    dados['uf'] = dados['uf'].str.upper() # Converte a coluna 'uf' para maiúsculas
    dados['sexo'] = dados['sexo'].str.upper() # Converte a coluna 'sexo' para maiúsculas
    dados['raçacor'] = dados['raçacor'].str.upper() # Converte a coluna 'raçacor' para maiúsculas
    dados['faixa_idade'] = dados['faixa_idade'].str.upper() # Converte a coluna 'faixa_idade' para maiúsculas
    dados['graudeinstrução'] = dados['graudeinstrução'].str.upper() # Converte a coluna 'graudeinstrução' para maiúsculas
    return dados.query(f'mes == "{mes}"')[['competênciamov','uf','sexo','raçacor','faixa_idade','graudeinstrução','demissoes']].fillna("") # Filtra, seleciona colunas e preenche NaN
  except FileNotFoundError as caminho:
    # Mensagem de erro se o arquivo não for encontrado
    print(f"Arquivo não encontrado em {caminho}") # Informa erro de arquivo não encontrado

Esta função `Tabela_For_demissoes` processa dados de demissões para gerar uma tabela consolidada. Ela utiliza o resultado da função `caged_for_demissoes` para criar um dicionário de mapeamento e uma lista de competências. Em seguida, executa a função auxiliar executar em paralelo para cada item de uma lista de dados, retornando os resultados em um DataFrame do Pandas.

In [None]:
def Tabela_For_demissoes(mes = 'janeiro') -> dict:
  dados = list(dados_iterador()) # Converte iterador em lista de dados
  dict_lista = {i[:6]: i[6] for i in lista_for(caged_for_demissoes(mes= mes))}
  compts = lista_comptmov(caged_for_demissoes(mes= mes)) # Obtém lista de competências
  # dic deve ser global ou passado também # Comentário sobre a variável 'dic'

  with parallel_backend('loky'): # Define backend de paralelização
        resultados = Parallel(n_jobs=-1)( # Inicia processamento paralelo
            delayed(executar)(compts,dict_lista,x[0].upper(), x[1].upper(), x[2].upper(), x[3].upper(), x[4].upper()) # Executa função com atraso
            for x in dados
        )
  return pd.DataFrame(resultados) # Retorna resultados em um DataFrame

redator de código
Gem personalizado
A função Tabela_For_demissoes_final gera um DataFrame combinando dados de demissões de todos os meses do ano. Ela cria um conjunto inicial de combinações de filtros (UF, sexo, raça, idade, grau de instrução) e, para cada uma dessas combinações, soma os totais de demissões obtidos de cada mês através da função Tabela_For_demissoes. O resultado é um DataFrame final que resume as demissões anuais por essas categorias.

In [None]:
def Tabela_For_demissoes_final():
  dados = []

  # Preenche 'dados' com combinações de atributos
  for local_ in local:
    for sexo_ in sexo:
      for raca_ in raca_cor:
        for idade_ in idades:
          for gdi_ in grau_de_instrucao:
            dados.append({'sigla_uf': local_, 'sexo': sexo_, 'raca': raca_, 'faixa_etaria': idade_, 'grau_instrucao': gdi_})

  df = pd.DataFrame(dados) # Converte 'dados' em DataFrame

  # Instancia Tabela_For_demissoes para cada mês
  janeiro = Tabela_For_demissoes(mes= 'janeiro')
  fevereiro = Tabela_For_demissoes(mes= 'fevereiro')
  marco = Tabela_For_demissoes(mes= 'março')
  abril = Tabela_For_demissoes(mes= 'abril')
  maio = Tabela_For_demissoes(mes= 'maio')
  junho = Tabela_For_demissoes(mes= 'junho')
  julho = Tabela_For_demissoes(mes= 'julho')
  agosto = Tabela_For_demissoes(mes= 'agosto')
  setembro = Tabela_For_demissoes(mes= 'setembro')
  outubro = Tabela_For_demissoes(mes= 'outubro')
  novembro = Tabela_For_demissoes(mes= 'novembro')
  dezembro = Tabela_For_demissoes(mes= 'dezembro')

  # Soma os valores mensais de cada tabela
  for mes in tqdm.tqdm(meses):
    df[mes] = janeiro[mes] + fevereiro[mes] + marco[mes] + abril[mes] + maio[mes] + junho[mes] + julho[mes] + agosto[mes] + setembro[mes] + outubro[mes] + novembro[mes] + dezembro[mes]

  return df # Retorna o DataFrame resultante


A função `teste_tabela_final` consolida dados de diferentes fontes (RAIS, Movimentação de Admissões/Demissões e CAGED de Admissões/Demissões) em um único DataFrame. Ela primeiro cria um DataFrame base com todas as combinações de UF, sexo, raça, faixa etária e grau de instrução. Em seguida, para cada mês, calcula o estoque de empregos somando e subtraindo os dados das tabelas de admissões e demissões correspondentes.

In [None]:
def teste_tabela_final():
  dados = []

  # Itera sobre combinações de filtros e adiciona ao DataFrame
  for local_ in local:
    for sexo_ in sexo:
      for raca_ in raca_cor:
        for idade_ in idades:
          for gdi_ in grau_de_instrucao:
            dados.append({'sigla_uf': local_, 'sexo': sexo_, 'raca': raca_, 'faixa_etaria': idade_, 'grau_instrucao': gdi_})
  df = pd.DataFrame(dados) # Cria DataFrame com os dados

  # Instancia classes de tabelas
  rais = Tabela_Rais()
  mov_admissoes = TabelaMOv_admissoes(admissoes = True)
  mov_demissoes = TabelaMOv_admissoes(admissoes = False)
  for_admissoes = Tabela_For_admissoes_final()
  for_demissoes = Tabela_For_demissoes_final()

  # Calcula valor mensal para cada combinação de filtros
  for mes_ in meses:
    df[mes_] = rais['estoque'] + mov_admissoes[mes_] - mov_demissoes[mes_] + for_admissoes[mes_] - for_demissoes[mes_]

  return df # Retorna o DataFrame final

## Caged EXC

A função **caged_exc_admissoes** lê um arquivo CSV de dados de admissões, filtra esses dados pelo mês especificado e padroniza o formato de diversas colunas relacionadas a características demográficas e de escolaridade, retornando um DataFrame com as colunas selecionadas e sem valores nulos.

In [None]:
def caged_exc_admissoes(mes = 'janeiro'):
  try:
    # Carrega o arquivo CSV
    dados = pd.read_csv('/content/drive/MyDrive/exc_admissoes2024 (1).csv', sep = ';') # Lê CSV
    # Filtra por mês e seleciona colunas específicas, preenchendo vazios
    dados['graudeinstrução'] = dados['graudeinstrução'].map(mapeamento) # Aplica o mapeamento aos graus de instrução
    dados['uf'] = dados['uf'].str.upper() # Converte a coluna 'uf' para maiúsculas
    dados['sexo'] = dados['sexo'].str.upper() # Converte a coluna 'sexo' para maiúsculas
    dados['raçacor'] = dados['raçacor'].str.upper() # Converte a coluna 'raçacor' para maiúsculas
    dados['faixa_idade'] = dados['faixa_idade'].str.upper() # Converte a coluna 'faixa_idade' para maiúsculas
    dados['graudeinstrução'] = dados['graudeinstrução'].str.upper() # Converte a coluna 'graudeinstrução' para maiúsculas
    return dados.query(f'mes == "{mes}"')[['competênciamov','uf','sexo','raçacor','faixa_idade','graudeinstrução','admissoes']].fillna("") # Filtra, seleciona colunas e preenche NaN
  except FileNotFoundError as caminho:
    # Mensagem de erro se o arquivo não for encontrado
    print(f"Arquivo não encontrado em {caminho}") # Informa erro de arquivo não encontrado

A função **caged_exc_demissoes** lê um arquivo CSV de dados de demissões, filtra esses dados pelo mês especificado e padroniza o formato de diversas colunas relacionadas a características demográficas e de escolaridade, retornando um DataFrame com as colunas selecionadas e sem valores nulos.

In [None]:
def caged_exc_demissoes(mes = 'janeiro'):
  try:
    # Carrega o arquivo CSV
    dados = pd.read_csv('/content/drive/MyDrive/exc_demissoes2024 (1).csv', sep = ';') # Lê CSV
    # Filtra por mês e seleciona colunas específicas, preenchendo vazios
    dados['graudeinstrução'] = dados['graudeinstrução'].map(mapeamento) # Aplica o mapeamento aos graus de instrução
    dados['uf'] = dados['uf'].str.upper() # Converte a coluna 'uf' para maiúsculas
    dados['sexo'] = dados['sexo'].str.upper() # Converte a coluna 'sexo' para maiúsculas
    dados['raçacor'] = dados['raçacor'].str.upper() # Converte a coluna 'raçacor' para maiúsculas
    dados['faixa_idade'] = dados['faixa_idade'].str.upper() # Converte a coluna 'faixa_idade' para maiúsculas
    dados['graudeinstrução'] = dados['graudeinstrução'].str.upper() # Converte a coluna 'graudeinstrução' para maiúsculas
    return dados.query(f'mes == "{mes}"')[['competênciamov','uf','sexo','raçacor','faixa_idade','graudeinstrução','demissoes']].fillna("") # Filtra, seleciona colunas e preenche NaN
  except FileNotFoundError as caminho:
    # Mensagem de erro se o arquivo não for encontrado
    print(f"Arquivo não encontrado em {caminho}") # Informa erro de arquivo não encontrado

A função **Tabela_exc** processa dados de admissões ou demissões de forma paralela. Ela recebe uma função (`funcao`) para obter os dados de um mês específico, organiza esses dados em dicionários e listas, e então executa uma função auxiliar (`executar`) em paralelo para cada item de um conjunto de dados, retornando os resultados em um DataFrame.

In [None]:
def Tabela_exc(funcao,mes = 'janeiro', ) -> dict:
  dados = list(dados_iterador()) # Converte iterador em lista de dados
  dict_lista = {i[:6]: i[6] for i in lista_for(funcao(mes= mes))}
  compts = lista_comptmov(funcao(mes= mes)) # Obtém lista de competências
  # dic deve ser global ou passado também # Comentário sobre a variável 'dic'

  with parallel_backend('loky'): # Define backend de paralelização
        resultados = Parallel(n_jobs=-1)( # Inicia processamento paralelo
            delayed(executar)(compts,dict_lista,x[0].upper(), x[1].upper(), x[2].upper(), x[3].upper(), x[4].upper()) # Executa função com atraso
            for x in dados
        )
  return pd.DataFrame(resultados) # Retorna resultados em um DataFrame

A função **tabela_exc_final** consolida dados de admissões ou demissões ao longo do ano. Ela cria um DataFrame base com combinações de características demográficas e de instrução, e então popula esse DataFrame com os totais mensais, somando os dados de cada mês obtidos através da função `Tabela_exc` para cada tipo de movimentação.

In [None]:
def tabela_exc_final(funcao) -> dict:
  dados = []
  for local_ in local:
    for sexo_ in sexo:
      for raca_ in raca_cor:
        for idade_ in idades:
          for gdi_ in grau_de_instrucao:
            dados.append({'sigla_uf': local_, 'sexo': sexo_, 'raca': raca_, 'faixa_etaria': idade_, 'grau_instrucao': gdi_})
  df = pd.DataFrame(dados)
  janeiro = Tabela_exc(funcao = funcao, mes= 'janeiro')
  fevereiro = Tabela_exc(funcao = funcao, mes= 'fevereiro')
  marco = Tabela_exc(funcao = funcao, mes= 'março')
  abril = Tabela_exc(funcao = funcao, mes= 'abril')
  maio = Tabela_exc(funcao = funcao, mes= 'maio')
  junho = Tabela_exc(funcao = funcao, mes= 'junho')
  julho = Tabela_exc(funcao = funcao, mes= 'julho')
  agosto = Tabela_exc(funcao = funcao, mes= 'agosto')
  setembro = Tabela_exc(funcao = funcao, mes= 'setembro')
  outubro = Tabela_exc(funcao = funcao, mes= 'outubro')
  novembro = Tabela_exc(funcao = funcao, mes= 'novembro')
  dezembro = Tabela_exc(funcao = funcao, mes= 'dezembro')
  for mes in tqdm.tqdm(meses):
    df[mes] = janeiro[mes] + fevereiro[mes] + marco[mes] + abril[mes] + maio[mes] + junho[mes] + julho[mes] + agosto[mes] + setembro[mes] + outubro[mes] + novembro[mes] + dezembro[mes]
  return df


In [None]:
tabela_exc_final(funcao = caged_exc_admissoes)

100%|██████████| 12/12 [00:00<00:00, 288.09it/s]


Unnamed: 0,sigla_uf,sexo,raca,faixa_etaria,grau_instrucao,janeiro,fevereiro,março,abril,maio,junho,julho,agosto,setembro,outubro,novembro,dezembro
0,,,,,,60831,61550,63858,65692,66980,67977,68245,68617,68945,68952,68954,68954
1,,,,,ANALFABETO,357,372,390,413,421,425,433,437,442,450,457,457
2,,,,,ATE 5.A INC,224,254,272,292,312,335,359,374,386,396,400,400
3,,,,,5.A CO FUND,255,279,302,321,336,348,364,375,388,399,407,407
4,,,,,6. A 9. FUND,645,699,769,816,853,894,927,972,1007,1058,1069,1069
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9211,BA,Não informado,Não identificado,60 ou mais,MEDIO COMPL,0,0,0,0,0,0,0,0,0,0,0,0
9212,BA,Não informado,Não identificado,60 ou mais,SUP. INCOMP,0,0,0,0,0,0,0,0,0,0,0,0
9213,BA,Não informado,Não identificado,60 ou mais,SUP. COMP,0,0,0,0,0,0,0,0,0,0,0,0
9214,BA,Não informado,Não identificado,60 ou mais,MESTRADO,0,0,0,0,0,0,0,0,0,0,0,0


## Tabela de estoque atualizado

A função **teste_tabela_final** consolida dados de estoque de empregos e movimentações (admissões e demissões) de diferentes fontes para calcular o saldo mensal de empregos. Ela começa criando um DataFrame com todas as combinações de filtros demográficos e de escolaridade e, em seguida, preenche as colunas de cada mês, somando e subtraindo os dados de estoque, admissões e demissões de várias tabelas geradas por outras funções.

In [None]:
def teste_tabela_final():
  dados = []

  # Itera sobre combinações de filtros e adiciona ao DataFrame
  for local_ in local:
    for sexo_ in sexo:
      for raca_ in raca_cor:
        for idade_ in idades:
          for gdi_ in grau_de_instrucao:
            dados.append({'sigla_uf': local_, 'sexo': sexo_, 'raca': raca_, 'faixa_etaria': idade_, 'grau_instrucao': gdi_})
  df = pd.DataFrame(dados) # Cria DataFrame com os dados

  # Instancia classes de tabelas
  rais = Tabela_Rais()
  mov_admissoes = TabelaMOv_admissoes(admissoes = True)
  mov_demissoes = TabelaMOv_admissoes(admissoes = False)
  for_admissoes = Tabela_For_admissoes_final()
  for_demissoes = Tabela_For_demissoes_final()
  exc_admissoes = tabela_exc_final(funcao = caged_exc_admissoes)
  exc_demissoes = tabela_exc_final(funcao = caged_exc_demissoes)

  # Calcula valor mensal para cada combinação de filtros
  # for mes_ in meses:
  #   df[mes_] = rais['estoque'] + mov_admissoes[mes_] - mov_demissoes[mes_] + for_admissoes[mes_] - for_demissoes[mes_] - exc_admissoes[mes_] + exc_demissoes[mes_]

  df['janeiro'] =  rais['estoque'] + mov_admissoes['janeiro'] - mov_demissoes['janeiro'] + for_admissoes['janeiro'] - for_demissoes['janeiro'] - exc_admissoes['janeiro'] + exc_demissoes['janeiro']
  df['fevereiro'] = df['janeiro'] + mov_admissoes['fevereiro'] - mov_demissoes['fevereiro'] + for_admissoes['fevereiro'] - for_demissoes['fevereiro'] - exc_admissoes['fevereiro'] + exc_demissoes['fevereiro']
  df['março'] = df['fevereiro'] + mov_admissoes['março'] - mov_demissoes['março'] + for_admissoes['março'] - for_demissoes['março'] - exc_admissoes['março'] + exc_demissoes['março']
  df['abril'] = df['março'] + mov_admissoes['abril'] - mov_demissoes['abril'] + for_admissoes['abril'] - for_demissoes['abril'] - exc_admissoes['abril'] + exc_demissoes['abril']
  df['maio'] = df['abril'] + mov_admissoes['maio'] - mov_demissoes['maio'] + for_admissoes['maio'] - for_demissoes['maio'] - exc_admissoes['maio'] + exc_demissoes['maio']
  df['junho'] = df['maio'] + mov_admissoes['junho'] - mov_demissoes['junho'] + for_admissoes['junho'] - for_demissoes['junho'] - exc_admissoes['junho'] + exc_demissoes['junho']
  df['julho'] = df['junho'] + mov_admissoes['julho'] - mov_demissoes['julho'] + for_admissoes['julho'] - for_demissoes['julho'] - exc_admissoes['julho'] + exc_demissoes['julho']
  df['agosto'] = df['julho'] + mov_admissoes['agosto'] - mov_demissoes['agosto'] + for_admissoes['agosto'] - for_demissoes['agosto'] - exc_admissoes['agosto'] + exc_demissoes['agosto']
  df['setembro'] = df['agosto'] + mov_admissoes['setembro'] - mov_demissoes['setembro'] + for_admissoes['setembro'] - for_demissoes['setembro'] - exc_admissoes['setembro'] + exc_demissoes['setembro']
  df['outubro'] = df['setembro'] + mov_admissoes['outubro'] - mov_demissoes['outubro'] + for_admissoes['outubro'] - for_demissoes['outubro'] - exc_admissoes['outubro'] + exc_demissoes['outubro']
  df['novembro'] = df['outubro'] + mov_admissoes['novembro'] - mov_demissoes['novembro'] + for_admissoes['novembro'] - for_demissoes['novembro'] - exc_admissoes['novembro'] + exc_demissoes['novembro']
  df['dezembro'] = df['novembro'] + mov_admissoes['dezembro'] - mov_demissoes['dezembro'] + for_admissoes['dezembro'] - for_demissoes['dezembro'] - exc_admissoes['dezembro'] + exc_demissoes['dezembro']

  return df # Retorna o DataFrame final

In [None]:
tabela_final = teste_tabela_final()

100%|██████████| 9216/9216 [03:04<00:00, 50.05it/s]
100%|██████████| 9216/9216 [02:01<00:00, 75.65it/s]
100%|██████████| 9216/9216 [02:12<00:00, 69.65it/s]
100%|██████████| 12/12 [00:00<00:00, 364.49it/s]
100%|██████████| 12/12 [00:00<00:00, 342.57it/s]
100%|██████████| 12/12 [00:00<00:00, 312.64it/s]


In [None]:
tabela_final.to_csv('resultados_caged.csv', sep = ';')