## Problema
Os dados disponibilizados apresentam informações irrelevantes para a solução proposta.
Também possuem dados qualidade inadequada e que precisam ser corrigidos.

## Solução
Criar visão da tabela de "processos / movimentos" com remoção dos campos que já sabemos não serem relevantes para a solução proposta.
Será feita uma primeira melhoria na qualidade dos dados.
Por fim, incluir informações das tabelas auxiliares facilitará etapas posteriores.

In [7]:
import pandas as pd
import numpy as np
import os
import fnmatch
import pandas_assistente as pa

origem_dados = 'dados/01_tabelas_extraidas/'
destino_dados = 'dados/02_tabelas_transformadas/'

# campos não relevantes
nao_relevantes = ['dadosBasicos_assunto_assuntoLocal_codigoAssunto', 'dadosBasicos_competencia',
                  'dadosBasicos_nivelSigilo', 'dadosBasicos_valorCausa', 'movimento_movimentoLocal_codigoMovimento', 'movimento']

In [8]:
# Carregar tabelas auxiliares
def carregar_tabelas_auxiliares():

    data_path = 'dados/01_tabelas_auxiliares/'

    # carrega dados
    tabAssunto = pd.read_csv(data_path + 'tabAssunto.csv', usecols=['cod_assunto','descricao_assunto', 'descricao_assunto_pai'])
    tabClasse = pd.read_csv(data_path + 'tabClasse.csv', usecols=['cod_classe','descricao_classe', 'descricao_classe_pai'])
    tabMovimento = pd.read_csv(data_path + 'tabMovimento.csv', usecols=['cod_movimento','descricao_movimento', 'descricao_movimento_pai'])

    return tabAssunto, tabClasse, tabMovimento

In [9]:
# Ajusta datas
def ajustar_datas(tabela):
    
    # dataInsercao
    tabela = pa.converter_campo_data(tabela, 'millisInsercao', 'data_insercao')
    
    # dataAjuizamento
    tabela = pa.converter_campo_data(tabela, 'dadosBasicos_dataAjuizamento', 'data_ajuizamento')
    
    # movimento_dataHora
    tabela = pa.converter_campo_data(tabela, 'movimento_dataHora', 'data_movimento')
        
    return tabela


In [10]:
# Transformar processo
def transformar_processo(diretorio, arquivo_id):

    # Carga dos processos
    print(origem_dados + diretorio + arquivo_id)
    processos = pa.carregar_tabela(origem_dados + diretorio + arquivo_id, nao_relevantes)
    
    # Diversos ajustes
    ajustar_datas(processos)

    # Campos auxiliares
    processos = pa.merge_tabelas(processos, tabClasse, 'cod_classe', 'dadosBasicos_classeProcessual')
    processos = pa.merge_tabelas(processos, tabAssunto, 'cod_assunto', 'dadosBasicos_assunto_codigoNacional',
                                 'dadosBasicos_assunto_assuntoLocal_codigoPaiNacional')
    processos = pa.merge_tabelas(processos, tabMovimento, 'cod_movimento', 'movimento_movimentoNacional_codigoNacional', 
                                 'movimento_movimentoLocal_codigoPaiNacional')

    # Salvar arquivo .CSV
    processos.to_csv(destino_dados + diretorio + arquivo_id, index=False)
    print(processos.shape)

In [11]:
# Faz o loop em todos os arquivos do diretório e efetua transformação dos processos
def transformar_processos(diretorio):

    print('Tranformação inciada: ' + origem_dados + diretorio)
    for file in fnmatch.filter(os.listdir(origem_dados + diretorio), 'processos-*.csv'):
        file_name = file.split('.')
        print('Transformando tabela: ' + file)
        transformar_processo(diretorio, file)
        print()

In [12]:
# Execução do código 

tabAssunto, tabClasse, tabMovimento = carregar_tabelas_auxiliares()

transformar_processos('00_justica_federal/processos-trf1/')
transformar_processos('00_justica_federal/processos-trf2/')
transformar_processos('00_justica_federal/processos-trf3/')
transformar_processos('00_justica_federal/processos-trf4/')
transformar_processos('00_justica_federal/processos-trf5/')
print("Finalizada transformação das tabelas!!")

Ajustando tabela: processos-trf1_1.csv
dados/01_tabelas_extraidas/00_justica_federal/processos-trf1/processos-trf1_1.csv
(56651, 24)

Ajustando tabela: processos-trf1_10.csv
dados/01_tabelas_extraidas/00_justica_federal/processos-trf1/processos-trf1_10.csv
(5959, 24)

Ajustando tabela: processos-trf1_11.csv
dados/01_tabelas_extraidas/00_justica_federal/processos-trf1/processos-trf1_11.csv
(928, 24)

Ajustando tabela: processos-trf1_2.csv
dados/01_tabelas_extraidas/00_justica_federal/processos-trf1/processos-trf1_2.csv
(496649, 24)

Ajustando tabela: processos-trf1_3.csv
dados/01_tabelas_extraidas/00_justica_federal/processos-trf1/processos-trf1_3.csv
(379776, 24)

Ajustando tabela: processos-trf1_4.csv
dados/01_tabelas_extraidas/00_justica_federal/processos-trf1/processos-trf1_4.csv
(83254, 24)

Ajustando tabela: processos-trf1_5.csv
dados/01_tabelas_extraidas/00_justica_federal/processos-trf1/processos-trf1_5.csv
(755999, 24)

Ajustando tabela: processos-trf1_6.csv
dados/01_tabelas_ex