## Pré Processamento

In [6]:
import pandas as pd # Importa a biblioteca pandas para manipulação de dados.
import tqdm # Importa tqdm para exibir barras de progresso.
import sqlite3 # Importa sqlite3 para interagir com bancos de dados SQLite.

lista de arquivos

In [5]:
arquivos_cagedmov = {'cagedmov202401':'/content/drive/MyDrive/dados caged - nao processados/CAGEDMOV202401.txt',
                     'cagedmov202402':'/content/drive/MyDrive/dados caged - nao processados/CAGEDMOV202402.txt',
                     'cagedmov202403':'/content/drive/MyDrive/dados caged - nao processados/CAGEDMOV202403.txt',
                     'cagedmov202404':'/content/drive/MyDrive/dados caged - nao processados/CAGEDMOV202404.txt'}

In [None]:
arquivos_cagedfor = ['/content/drive/MyDrive/dados caged - nao processados/CAGEDFOR202401.txt',
                     '/content/drive/MyDrive/dados caged - nao processados/CAGEDFOR202402.txt',
                     '/content/drive/MyDrive/dados caged - nao processados/CAGEDFOR202403.txt',
                     '/content/drive/MyDrive/dados caged - nao processados/CAGEDFOR202404.txt',
                     '/content/drive/MyDrive/dados caged - nao processados/CAGEDFOR202405.txt',
                     '/content/drive/MyDrive/dados caged - nao processados/CAGEDFOR202406.txt',
                     '/content/drive/MyDrive/dados caged - nao processados/CAGEDFOR202407.txt',
                     '/content/drive/MyDrive/dados caged - nao processados/CAGEDFOR202408.txt',
                     '/content/drive/MyDrive/dados caged - nao processados/CAGEDFOR202409.txt',
                     '/content/drive/MyDrive/dados caged - nao processados/CAGEDFOR2024010.txt',
                     '/content/drive/MyDrive/dados caged - nao processados/CAGEDFOR2024011.txt',
                     '/content/drive/MyDrive/dados caged - nao processados/CAGEDFOR2024012.txt']

In [None]:
arquivos_cagedexc = {"cagedexc202401":'/content/drive/MyDrive/dados caged - nao processados/CAGEDEXC202401.txt',
                     "cagedexc202402":'/content/drive/MyDrive/dados caged - nao processados/CAGEDEXC202402.txt'}

A função **preprocessamento** lê um arquivo de dados do CAGED, **padroniza os valores de diversas colunas categóricas** (como sexo, UF, região, raça/cor, grau de instrução, seção, categoria e tipo de movimentação) através de mapeamentos, cria uma **nova coluna de faixas etárias** e, por fim, **remove colunas** que não são consideradas relevantes para a análise, retornando o DataFrame tratado ou mensagens de erro em caso de problemas.

In [None]:
def preprocessamento(arquivo_caged):
    try:
        # Abre o arquivo de dados CAGED
        caged = pd.read_table(arquivo_caged, sep=";")

        # Mapeia códigos de 'sexo' para descrições textuais
        caged['sexo'] = caged['sexo'].replace({
            1: 'Masculino',
            3: 'Feminino',
            9: 'Não informado'
        })

        # Mapeia códigos de 'uf' para siglas dos estados
        caged['uf'] = caged['uf'].replace({
            11: 'RO', 12: 'AC', 13: 'AM', 14: 'RR', 15: 'PA', 16: 'AP', 17: 'TO',
            21: 'MA', 22: 'PI', 23: 'CE', 24: 'RN', 25: 'PB', 26: 'PE', 27: 'AL', 28: 'SE', 29: 'BA',
            31: 'MG', 32: 'ES', 33: 'RJ', 35: 'SP', 41: 'PR', 42: 'SC', 43: 'RS',
            50: 'MS', 51: 'MT', 52: 'GO', 53: 'DF'
        })

        # Mapeia códigos de 'região' para nomes das regiões
        caged['região'] = caged['região'].replace({
            1: 'Norte', 2: 'Nordeste', 3: 'Sudeste',
            4: 'Sul', 5: 'Centro-Oeste', 9: 'Não identificado'
        })

        # Mapeia códigos de 'raçacor' para descrições de raça/cor
        caged['raçacor'] = caged['raçacor'].replace({
            1: 'Branca', 2: 'Preta', 3: 'Parda', 4: 'Amarela',
            5: 'Indígena', 6: 'Não informada', 9: 'Não identificada'
        })

        # Mapeia códigos de 'graudeinstrução' para descrições de escolaridade
        caged['graudeinstrução'] = caged['graudeinstrução'].replace({
            1: "ANALFABETO", 2: "ATE 5.A INC", 3: "5.A CO FUND", 4: "6.A.9.FUND", 5: "FUND COMPL",
            6: "MEDIO INCOMP", 7: "MEDIO COMPL", 8: "SUP.INCOMP", 9: "SUP.COMP",
            10: "MESTRADO", 11: "DOUTORADO", 80: "Pós-Graduação completa", 99: "Não identificado"
        })

        # Mapeia códigos de 'seção' para descrições de atividade econômica
        caged['seção'] = caged['seção'].replace({
            'A': 'Agricultura, Pecuária, Produção Florestal, Pesca e AqÜIcultura',
            'B': 'Indústrias Extrativas',
            'C': 'Indústrias de Transformação',
            'D': 'Eletricidade e Gás',
            'E': 'Água, Esgoto, Atividades de Gestão de Resíduos e Descontaminação',
            'F': 'Construção',
            'G': 'Comércio, Reparação de Veículos Automotores e Motocicletas',
            'H': 'Transporte, Armazenagem e Correio',
            'I': 'Alojamento e Alimentação',
            'J': 'Informação e Comunicação',
            'K': 'Atividades Financeiras, de Seguros e Serviços Relacionados',
            'L': 'Atividades Imobiliárias',
            'M': 'Atividades Profissionais, Científicas e Técnicas',
            'N': 'Atividades Administrativas e Serviços Complementares',
            'O': 'Administração Pública, Defesa e Seguridade Social',
            'P': 'Educação',
            'Q': 'Saúde Humana e Serviços Sociais',
            'R': 'Artes, Cultura, Esporte e Recreação',
            'S': 'Outras Atividades de Serviços',
            'T': 'Serviços Domésticos',
            'U': 'Organismos Internacionais e Outras Instituições Extraterritoriais',
            'Z': 'Não identificado'
        })

        # Mapeia códigos de 'categoria' para descrições de categorias de emprego
        caged['categoria'] = caged['categoria'].replace({
            101: 'Empregado - Geral, inclusive o empregado público da administração direta ou indireta contratado pela CLT',
            102: 'Empregado - Trabalhador rural por pequeno prazo da Lei 11.718/2008',
            103: 'Empregado - Aprendiz',
            104: 'Empregado - Doméstico',
            105: 'Empregado - Contrato a termo firmado nos termos da Lei 9.601/1998',
            106: 'Trabalhador temporário - Contrato nos termos da Lei 6.019/1974',
            107: 'Empregado - Contrato de trabalho Verde e Amarelo - sem acordo para antecipação mensal da multa rescisória do FGTS',
            108: 'Empregado - Contrato de trabalho Verde e Amarelo - com acordo para antecipação mensal da multa rescisória do FGTS',
            111: 'Empregado - Contrato de trabalho intermitente',
            999: 'Não Identificado'
        })

        # Mapeia códigos de 'tipomovimentação' para descrições de movimentações
        caged['tipomovimentação'] = caged['tipomovimentação'].replace({
            10: 'Admissao por primeiro emprego',
            20: 'Admissao por reemprego',
            25: 'Admissao por contrato trabalho prazo determinado',
            31: 'Desligamento por demissão sem justa causa',
            32: 'Desligamento por demissão com justa causa',
            33: 'Culpa Recíproca',
            35: 'Admissao por reintegração',
            40: 'Desligamento a pedido',
            43: 'Término contrato trabalho prazo determinado',
            45: 'Desligamento por Término de contrato',
            50: 'Desligamento por aposentadoria',
            60: 'Desligamento por morte',
            70: 'Admissão por transferência',
            80: 'Desligamento por transferência',
            90: 'Desligamento por Acordo entre empregado e empregador',
            97: 'Admissao de Tipo Ignorado',
            98: 'Desligamento de Tipo Ignorado',
            99: 'Não Identificado'
        })

        # Cria a coluna 'faixa_idade' categorizando a 'idade'
        caged['faixa_idade'] = pd.cut(
            caged['idade'],
            bins=[14, 17, 24, 39, 59, float('inf')],
            labels=["14 a 17", "18 a 24", "25 a 39", "40 a 59", "60 ou mais"]
        )

        # Define colunas a serem excluídas
        colunas_excluir = [
            'região', 'idade', 'subclasse', 'saldomovimentação', 'categoria',
            'horascontratuais', 'tipoempregador', 'tipoestabelecimento', 'tipodedeficiência',
            'indtrabintermitente', 'indtrabparcial', 'salário', 'tamestabjan', 'indicadoraprendiz',
            'origemdainformação', 'competênciadec', 'indicadordeforadoprazo', 'unidadesaláriocódigo',
            'valorsaláriofixo','município','seção','competênciaexc','indicadordeexclusão'
        ]
        # Exclui as colunas do DataFrame
        caged = caged.drop(columns=colunas_excluir, errors='ignore')

        return caged # Retorna o DataFrame preprocessado
    except FileNotFoundError as e:
        print(e)
        print("Trecho de código: caged = pd.read_table(arquivo_caged, sep=';')")
        print("Erro: O arquivo especificado para leitura não foi encontrado.")

    except ValueError as v:
        print(v)
        print("Trecho de código: caged = pd.read_table(arquivo_caged, sep=';')")
        print("Erro: O arquivo está vazio ou não contém dados válidos.")

    except KeyError as k:
        print(k)
        print( "Erro: Uma coluna esperada não foi encontrada no DataFrame. Verifique se o arquivo de entrada possui todas as colunas necessárias.")

    except TypeError as t:
        print(e)
        print("Trecho do Código: caged['sexo'] = caged['sexo'].replace(...) (e demais linhas que usam .replace() em colunas)")
        print("Erro: O tipo de dado em uma coluna não é compatível com a operação de substituição esperada.")

Esta função **`bd_mov`** tem como objetivo principal criar ou atualizar um banco de dados SQLite com dados de múltiplos arquivos. Ela itera sobre um dicionário de arquivos, pré-processa cada um e insere seus dados em tabelas correspondentes no banco de dados.

In [3]:
def bd_mov(nome,arquivos):
    try:
        conn = sqlite3.connect(nome) # Conecta ao banco de dados SQLite.

        for nome_arquivo, arquivo in tqdm.tqdm(arquivos.items()): # Itera sobre os arquivos com barra de progresso.
            df = preprocessamento(arquivo) # Pré-processa cada arquivo.
            df.to_sql(nome_arquivo, conn, if_exists='append', index=False) # Insere DataFrame no BD.

    except TypeError as t: # Captura erro de tipo.
        print(t)
        print("O nome do banco de dados deve ser uma string")

    except AttributeError as a: # Captura erro de atributo.
        print(a)
        print("O objeto 'arquivos' não possui o método 'items()'.")

    except FileNotFoundError as f: # Captura erro de arquivo não encontrado.
        print(f)
        print("O arquivo especificado para leitura não foi encontrado.")

    except ValueError as v: # Captura erro de valor.
        print(v)
        print("Falha no pré-processamento do arquivo. Verifique o conteúdo do arquivo.")
