In [13]:
import os
import re
import csv
import codecs
from datetime import datetime

In [21]:
def rename_data_file(**kwargs):
    """
    Funcao que recebe o nome do arquivo original e o renomeia, com um novo
    assunto e uma nova extensao.
    
    Args:
        subject(str): Assunto a ser incluido no nome do arquivo.
            Ex.: 'CNPJ' ou 'SOCIO' ou 'CNAE'
        data_file(str): Nome do arquivo original.
            Ex.: 'K3241.K03200DV.D00422.L00001'
        file_ext(str): Tipo de extensao a ser adicionado ao nome do arquivo.
            Ex.: '.csv'
    
    Returns:
        string: Nome do arquivo modificado.
            Ex.: 'CNPJ_K3241.K03200DV.D00422.L00001.csv'
    """
  
    # Define o novo nome do arquivo
    renamed_file = kwargs['subject'] + '_' + kwargs['data_file'] + kwargs['file_ext']
    
    return renamed_file

In [22]:
def cnpj_pos_to_col(**kwargs):
    """
    Transforma o arquivo posicional em um arquivo delimitado.
    
    Args:
        in_data_path(str): Caminho completo do arquivo de entrada.
        out_data_dir(str): Caminho da pasta para armazenamento do arquivo de saida.
        data_file(str): Nome do arquivo de entrada.
        delimiter(str): Delimitador de campos utilizado no arquivo de saida
        file_ext(str): Extensao do arquivo de saida
        encoding(str): Codificacao do arquivo de saida
        
    Returns:
        file: Arquivo com os dados separados por tabulacao e com cabecalho.
    """
    
    # Log: Mensagem de inicio organizacao dos registros
    print(str(datetime.now()) + ': Inicio da organizacao dos tipo de registro 1 do arquivo ' + kwargs['data_file'])
    
    # Define o nome a ser adicionado no arquivo de saida
    kwargs['subject'] = 'CNPJ'
    # Nome do arquivo de saida
    kwargs['out_data_file'] = rename_data_file(**kwargs)
    # Caminho completo do arquivo de saida
    kwargs['out_data_path'] = os.path.join(kwargs['out_data_dir'], kwargs['out_data_file'])
    
    # Define o header para o arquivo de saida
    kwargs['header'] = 'tp_registro\tin_forma_envio\ttp_atualizacao\tnr_cnpj\tin_matriz_filial\tnm_razao_social\tnm_fantasia\tin_situacao_cadastral\tdt_situacao_cadastral\tcd_motivo_situacao_cadastral\tnm_cidade_exterior\tco_pais\tnm_pais\tcd_natureza_juridica\tdt_inicio_atividade\tcd_cnae_principal\ttp_logradouro\tds_logradouro\tnr_logradouro\tds_logradouro_complemento\tds_logradouro_bairro\tnr_cep\tsg_uf\tcd_municipio\tnm_municipio\tnr_telefone_ddd_01\tnr_telefone_001\tnr_telefone_ddd_02\tnr_telefone_002\tnr_fax_ddd\tnr_fax\tds_correio_eletronico\tcd_qualificacao_responsalvel\tvl_capital_social\tcd_porte_empresa\tcd_opcao_simples\tdt_opcao_simples_inclusao\tdt_opcao_simples_exclusao\tin_existe_opcao_mei\tds_situacao_especial\tdt_situacao_especial\n'
    
    # Le o arquivo de entrada
    with codecs.open(kwargs['in_data_path'], 'r', encoding = kwargs['encoding']) as reader:
        
        # Prepara o arquivo de saida
        with codecs.open(kwargs['out_data_path'], 'w', encoding = kwargs['encoding']) as writer:
            
            # Escreve o cabecalho no inicio do arquivo de saida
            writer.write(kwargs['header'])
            
            # Para cada linha no arquivo de entrada
            for line in reader:
                
                # Se for uma linha do tipo '01 - Informacao da empresa'
                if line[:1] == "1":
                    
                    # Escreve a linha no arquivo de saida
                    writer.write(
                                                line[:1]       # tp_registro
                        + kwargs['delimiter'] + line[1:2]      # in_forma_envio
                        + kwargs['delimiter'] + line[2:3]      # tp_atualizacao
                        + kwargs['delimiter'] + line[3:17]     # nr_cnpj
                        + kwargs['delimiter'] + line[17:18]    # in_matriz_filial
                        + kwargs['delimiter'] + line[18:168]   # nm_razao_social
                        + kwargs['delimiter'] + line[168:223]  # nm_fantasia
                        + kwargs['delimiter'] + line[223:225]  # in_situacao_cadastral
                        + kwargs['delimiter'] + line[225:233]  # dt_situacao_cadastral
                        + kwargs['delimiter'] + line[233:235]  # cd_motivo_situacao_cadastral
                        + kwargs['delimiter'] + line[235:290]  # nm_cidade_exterior
                        + kwargs['delimiter'] + line[290:293]  # co_pais
                        + kwargs['delimiter'] + line[293:363]  # nm_pais
                        + kwargs['delimiter'] + line[363:367]  # cd_natureza_juridica
                        + kwargs['delimiter'] + line[367:375]  # dt_inicio_atividade
                        + kwargs['delimiter'] + line[375:382]  # cd_cnae_principal
                        + kwargs['delimiter'] + line[382:402]  # tp_logradouro
                        + kwargs['delimiter'] + line[402:462]  # ds_logradouro
                        + kwargs['delimiter'] + line[462:468]  # nr_logradouro
                        + kwargs['delimiter'] + line[468:624]  # ds_logradouro_complemento
                        + kwargs['delimiter'] + line[624:674]  # ds_logradouro_bairro
                        + kwargs['delimiter'] + line[674:682]  # nr_cep
                        + kwargs['delimiter'] + line[682:684]  # sg_uf
                        + kwargs['delimiter'] + line[684:688]  # cd_municipio
                        + kwargs['delimiter'] + line[688:738]  # nm_municipio
                        + kwargs['delimiter'] + line[738:742]  # nr_telefone_ddd_01
                        + kwargs['delimiter'] + line[742:750]  # nr_telefone_001
                        + kwargs['delimiter'] + line[750:754]  # nr_telefone_ddd_02
                        + kwargs['delimiter'] + line[754:762]  # nr_telefone_002
                        + kwargs['delimiter'] + line[762:766]  # nr_fax_ddd
                        + kwargs['delimiter'] + line[766:774]  # nr_fax
                        + kwargs['delimiter'] + line[774:889]  # ds_correio_eletronico
                        + kwargs['delimiter'] + line[889:891]  # cd_qualificacao_responsalvel
                        + kwargs['delimiter'] + line[891:905]  # vl_capital_social
                        + kwargs['delimiter'] + line[905:907]  # cd_porte_empresa
                        + kwargs['delimiter'] + line[907:908]  # cd_opcao_simples
                        + kwargs['delimiter'] + line[908:916]  # dt_opcao_simples_inclusao
                        + kwargs['delimiter'] + line[916:924]  # dt_opcao_simples_exclusao
                        + kwargs['delimiter'] + line[924:925]  # in_existe_opcao_mei
                        + kwargs['delimiter'] + line[925:948]  # ds_situacao_especial
                        + kwargs['delimiter'] + line[948:956]  # dt_situacao_especial
                        + '\n'
                    )
                    
    # Log: Mensagem de fim da organizacao dos registros 
    print(str(datetime.now()) + ': Arquivo ' + kwargs['data_file'] + ' organizado por ' + kwargs['subject'] + '.')

In [23]:
def socio_pos_to_col(**kwargs):
    """
    Transforma o arquivo posicional em um arquivo delimitado.
    
    Args:
        in_data_path(str): Caminho completo do arquivo de entrada.
        out_data_dir(str): Caminho da pasta para armazenamento do arquivo de saida.
        data_file(str): Nome do arquivo de entrada.
        delimiter(str): Delimitador de campos utilizado no arquivo de saida
        file_ext(str): Extensao do arquivo de saida
        encoding(str): Codificacao do arquivo de saida
        
    Returns:
        file: Arquivo com os dados separados por tabulacao e com cabecalho.
    """
    # Log: Mensagem de inicio organizacao dos registros
    print(str(datetime.now()) + ': Inicio da organizacao dos tipo de registro 2 do arquivo ' + kwargs['data_file'])
    
    # Define o nome a ser adicionado no arquivo de saida
    kwargs['subject'] = 'SOCIO'
    # Nome do arquivo de saida
    kwargs['out_data_file'] = rename_data_file(**kwargs)
    # Caminho completo do arquivo de saida
    kwargs['out_data_path'] = os.path.join(kwargs['out_data_dir'], kwargs['out_data_file'])
    
    # Define o header para o arquivo de saida
    kwargs['header'] = "tp_registro\tin_forma_envio\ttp_atualizacao\tnr_cnpj\ttp_socio\tnm_socio\tnr_cpf_cnpj_socio\tcd_qualificacao_socio\tpc_capital_social\tdt_sociedade_inclusao\tcd_pais_socio\tnm_pais_socio\tnr_cpf_representante_legal\tnm_representante_legal\tcd_qualificacao_rep_legal\n"
    
    # Le o arquivo de entrada
    with codecs.open(kwargs['in_data_path'], 'r', encoding = kwargs['encoding']) as reader:
        
        # Prepara o arquivo de saida
        with codecs.open(kwargs['out_data_path'], 'w', encoding = kwargs['encoding']) as writer:
            
            # Escreve o cabecalho no inicio do arquivo de saida
            writer.write(kwargs['header'])
            
            # Para cada linha no arquivo
            for line in reader:
                
                # Se for uma linha do tipo 02-Informacao do socio
                if line[:1] == "2":
                    
                    # Escreve a linha no arquivo de saida
                    writer.write(
                                                line[:1]       # tp_registro
                        + kwargs['delimiter'] + line[1:2]      # in_forma_envio
                        + kwargs['delimiter'] + line[2:3]      # tp_atualizacao
                        + kwargs['delimiter'] + line[3:17]     # nr_cnpj
                        + kwargs['delimiter'] + line[17:18]    # tp_socio
                        + kwargs['delimiter'] + line[18:168]   # nm_socio
                        + kwargs['delimiter'] + line[168:182]  # nr_cpf_cnpj_socio
                        + kwargs['delimiter'] + line[182:184]  # cd_qualificacao_socio
                        + kwargs['delimiter'] + line[184:189]  # pc_capital_social
                        + kwargs['delimiter'] + line[189:197]  # dt_sociedade_inclusao
                        + kwargs['delimiter'] + line[197:200]  # cd_pais_socio
                        + kwargs['delimiter'] + line[200:270]  # nm_pais_socio
                        + kwargs['delimiter'] + line[270:281]  # nr_cpf_representante_legal
                        + kwargs['delimiter'] + line[281:341]  # nm_representante_legal
                        + kwargs['delimiter'] + line[341:343]  # cd_qualificacao_rep_legal
                        + '\n'
                    )
                    
    # Log: Mensagem de fim da organizacao dos registros 
    print(str(datetime.now()) + ': Arquivo ' + kwargs['data_file'] + ' organizado por ' + kwargs['subject'] + '.')

In [24]:
def cnae_pos_to_col(**kwargs):
    """
    Transforma o arquivo posicional em um arquivo delimitado.
    
    Args:
        in_data_path(str): Caminho completo do arquivo de entrada.
        out_data_dir(str): Caminho da pasta para armazenamento do arquivo de saida.
        data_file(str): Nome do arquivo de entrada.
        delimiter(str): Delimitador de campos utilizado no arquivo de saida
        file_ext(str): Extensao do arquivo de saida
        encoding(str): Codificacao do arquivo de saida
        
    Returns:
        file: Arquivo com os dados separados por tabulacao e com cabecalho.
    """
    
    # Log: Mensagem de inicio organizacao dos registros
    print(str(datetime.now()) + ': Inicio da organizacao dos tipo de registro 6 do arquivo ' + kwargs['data_file'])
    
    # Define o nome a ser adicionado no arquivo de saida
    kwargs['subject'] = 'CNAE'
    # Nome do arquivo de saida
    kwargs['out_data_file'] = rename_data_file(**kwargs)
    # Caminho completo do arquivo de saida
    kwargs['out_data_path'] = os.path.join(kwargs['out_data_dir'], kwargs['out_data_file'])
    
    # Define o header para o arquivo de saida
    kwargs['header'] = "tp_registro\tin_forma_envio\ttp_atualizacao\tnr_cnpj\tcd_cnae_secundaria\n"
    
    # Le o arquivo de entrada
    with codecs.open(kwargs['in_data_path'], 'r', encoding = kwargs['encoding']) as reader:
        
        # Prepara o arquivo de saida
        with codecs.open(kwargs['out_data_path'], 'w', encoding = kwargs['encoding']) as writer:
            
            # Escreve o cabecalho no inicio do arquivo de saida
            writer.write(kwargs['header'])
            
            # Para cada linha no arquivo
            for line in reader:
                
                # Se for uma linha do tipo 02-Informacao do socio
                if line[:1] == "6":
                    
                    # Armazena as informacoes base
                    tp_registro    = line[:1]
                    in_forma_envio = line[1:2]
                    tp_atualizacao = line[2:3]
                    nr_cnpj        = line[3:17]
                    
                    # Prepara os indices de inicio e fim
                    # de referencia das cnaes cadastradas
                    cnae_start_idx = 17
                    cnae_end_idx   = 710
                    
                    # Enquantou houverem cnaes no cnpj
                    while cnae_start_idx < cnae_end_idx:
                        
                        # Prepara o cnae de 7 digitos
                        cd_cnae = line[cnae_start_idx:cnae_start_idx+7]
                        
                        # Caso nao encontre novos cnaes
                        # passa para a proxima linha
                        if cd_cnae == '0000000':
                            break
                       
                        # Escreve a linha no arquivo de saida
                        writer.write(
                                                    tp_registro     # tp_registro
                            + kwargs['delimiter'] + in_forma_envio  # in_forma_envio
                            + kwargs['delimiter'] + tp_atualizacao  # tp_atualizacao
                            + kwargs['delimiter'] + nr_cnpj         # nr_cnpj
                            + kwargs['delimiter'] + cd_cnae         # cd_cnae
                            + '\n'
                        )
                        
                        # Atualiza o indice para o proximo cnae
                        cnae_start_idx += 7
                    
    # Log: Mensagem de fim da organizacao dos registros 
    print(str(datetime.now()) + ': Arquivo ' + kwargs['data_file'] + ' organizado por ' + kwargs['subject'] + '.')

In [25]:
def organize_files():
    """
    Funcao que organiza o arquivo original tres arquivos:
    - Arquivo de CNPJs 
    - Arquivo de Socios
    - Arquivo de CNAEs Secundarias
    """
       
    # Prepara o dicionario de variaveis (kwargs = keyworded arguments)
    kwargs = {}
    
    # Diretorio de armazenamento dos arquivos originais
    kwargs['in_data_dir'] = '..\\data\\02-cleaned'
    
    # Diretorio de armazenamento dos arquivos tratados
    kwargs['out_data_dir'] = '..\\data\\03-organized'
    
    # Parametros de organizacao dos arquivos delimitados
    kwargs['delimiter'] = '\t'
    kwargs['file_ext'] = '.csv'
    kwargs['encoding'] = 'utf-8'

    # Lista dos arquivos originais 
    files = os.listdir(kwargs['in_data_dir'])

    # Log: Mensagem de inicio do processo 
    print(str(datetime.now()) + ': Organizacao dos arquivos iniciada.')
    
    # Para cada arquivo na lista de arquivos originais
    for data_file in files:

        # Define o caminho completo de acesso e escrita dos arquivos
        kwargs['data_file'] = data_file
        kwargs['in_data_path'] = os.path.join(kwargs['in_data_dir'], kwargs['data_file'])
        
        # Organiza o arquivo por tipo de registro
        cnpj_pos_to_col(**kwargs)
        socio_pos_to_col(**kwargs)
        cnae_pos_to_col(**kwargs)

    # Log: Mensagem de fim do processo 
    print(str(datetime.now()) + ': Organizacao dos arquivos finalizada.')

In [27]:
def main():
    """
    Organiza os dados do Cadastro Nacional de Pessoas Juridicas (CNPJ).
    Origem: Ministerio da Economia - Receita Federal
    """
    
    ### Organiza os arquivos
    organize_files()

if __name__ == '__main__':
    main()

2020-08-16 21:14:54.652996: Organizacao dos arquivos iniciada.
2020-08-16 21:14:54.654017: Inicio da organizacao dos tipo de registro 1 do arquivo K3241.K03200DV.D00422.L00016
2020-08-16 21:16:48.382664: Arquivo K3241.K03200DV.D00422.L00016 organizado por CNPJ.
2020-08-16 21:16:48.383631: Inicio da organizacao dos tipo de registro 2 do arquivo K3241.K03200DV.D00422.L00016
2020-08-16 21:18:02.618425: Arquivo K3241.K03200DV.D00422.L00016 organizado por SOCIO.
2020-08-16 21:18:02.619416: Inicio da organizacao dos tipo de registro 6 do arquivo K3241.K03200DV.D00422.L00016
2020-08-16 21:19:17.045539: Arquivo K3241.K03200DV.D00422.L00016 organizado por CNAE.
2020-08-16 21:19:17.046505: Inicio da organizacao dos tipo de registro 1 do arquivo K3241.K03200DV.D00422.L00017
2020-08-16 21:21:26.142418: Arquivo K3241.K03200DV.D00422.L00017 organizado por CNPJ.
2020-08-16 21:21:26.142418: Inicio da organizacao dos tipo de registro 2 do arquivo K3241.K03200DV.D00422.L00017
2020-08-16 21:22:42.538584: