In [7]:
import pandas as pd
import os

In [8]:
files = ['areas', 'atuacoes', 'capitulos', 'enderecos', 'eventos', 'formacoes',
        'gerais', 'linhas', 'livros', 'participacoesEventos', 'periodicos', 'projetos']

scopes = ['abrangente', 'aplicacoes', 'restritivo']

In [9]:
DATA_DIR = '../data/'

In [10]:
for scope in scopes:
    for file in files:

        try:
            
            
            # paths
            header_file_path = DATA_DIR + 'raw/headers/' + file + '.cab'
            csv_file_path = DATA_DIR + 'raw/' + scope +'/' + file + '.csv'
            
            # Carregando o arquivo csv sem header
            df = pd.read_csv(csv_file_path, header=None, delimiter='\t', on_bad_lines='skip')

            # Carregando o header do arquivo .cab
            with open(header_file_path, 'r') as file_header:
                header = file_header.read().strip().split(',')

            # Transformar a string dentro da lista em uma nova lista separada por "\t"
            header = header[0].split('\t')

            # Foi observado que alguns headers possuiam colunas desnecessárias à direita
            # Sendo assim, o header terá o tamanho da quantidade de colunas do dataframe
            # ao eliminar as colunas a direita
            
            columns_lenght = df.shape[1]
            header = header[:columns_lenght]
            
            # Detectar quantas linhas com má formatação foram puladas em cada dataframe
            linhas_lidas = len(df)
            
            total_linhas = sum(1 for line in open(csv_file_path))
            

            if total_linhas != linhas_lidas:
                
                linhas_puladas = total_linhas - linhas_lidas
                
                print(f'Linhas não lidas em {scope} {file}: {linhas_puladas} de {total_linhas}')


            # Inserindo o header lido do arquivo .cab
            df.columns = header
            
            
            outdir = DATA_DIR + 'processed/' + scope + '/'
            if not os.path.exists(outdir):
                os.mkdir(outdir)
            
            df.to_csv(outdir + file + '.csv', index=False)


        except Exception as e:

            print('ERRO!!!')

            print(f'scope = {scope}')
            print(f'file = {file}')
            
            print(len(header))
            print(df.shape)


            # Código que será executado para qualquer outra exceção
            print(f"Ocorreu um erro: {e}")
            
            raise 
            


Linhas não lidas em abrangente capitulos: 37018 de 72180
Linhas não lidas em abrangente eventos: 349235 de 733958
Linhas não lidas em abrangente livros: 6392 de 23967
Linhas não lidas em abrangente periodicos: 176533 de 359053


  df = pd.read_csv(csv_file_path, header=None, delimiter='\t', on_bad_lines='skip')


Linhas não lidas em aplicacoes capitulos: 14810 de 27645
Linhas não lidas em aplicacoes eventos: 180000 de 328035
Linhas não lidas em aplicacoes livros: 2262 de 8119
Linhas não lidas em aplicacoes periodicos: 90204 de 169425
Linhas não lidas em restritivo capitulos: 32206 de 63061
Linhas não lidas em restritivo eventos: 289894 de 629565
Linhas não lidas em restritivo livros: 5524 de 20715
Linhas não lidas em restritivo periodicos: 151212 de 308120


In [11]:
header

['LattesID',
 'NATUREZA',
 'SITUACAO',
 'NOME-DO-PROJETO',
 'ANO-INICIO',
 'ANO-FIM',
 'FLAG-RESPONSAVEL',
 'CODIGO-INSTITUICAO',
 'NOME-INSTITUICAO',
 'CODIGO-UNIDADE',
 'NOME-UNIDADE',
 'CODIGO-ORGAO',
 'NOME-ORGAO',
 'INTEGRANTES']

### Orientacoes

In [12]:
header_orientacoes = ['LattesID',
                     'NATUREZA',
                     'STATUS',
                     'ANO',
                     'NomeDoOrientador',
                     'CODIGO-INSTITUICAO',
                     'NOME-INSTITUICAO',
                     'CODIGO-CURSO',
                     'FLAG-BOLSA',
                     'CODIGO-AGENCIA-FINANCIADORA',
                     'NOME-DA-AGENCIA',
                     'TITULO',
                     'NumeroIdOrientado',
                     'NOME-CURSO',
                     'NomeGrandeAreaDoConhecimento',
                     'NomeDaAreaDoConhecimento',
                     'NomeDaSubAreaDoConhecimento',
                     'TIPO-DE-ORIENTACAO-CONCLUIDA',
                     'TIPO-DE-ORIENTACAO']

In [13]:
for scope in scopes:

    try:

        # paths
        csv_file_path = DATA_DIR  + 'raw/orientacoes/' + scope + '/orientacoes.csv'

        # Carregando o arquivo csv sem header
        df = pd.read_csv(csv_file_path, header=None, delimiter='\t')

        # Inserindo o header lido do arquivo .cab
        df.columns = header_orientacoes
        
        df.to_csv( DATA_DIR  + 'processed/orientacoes/' + scope + '/' + 'orientacoes.csv', index=False)
        

    except Exception as e:

        # Código que será executado para qualquer outra exceção
        print(f"Ocorreu um erro: {e}")

Ocorreu um erro: Cannot save file into a non-existent directory: '../data/processed/orientacoes/abrangente'
Ocorreu um erro: Cannot save file into a non-existent directory: '../data/processed/orientacoes/aplicacoes'
Ocorreu um erro: Cannot save file into a non-existent directory: '../data/processed/orientacoes/restritivo'
