In [1]:
import pandas as pd

In [2]:
files = ['areas', 'atuacoes', 'capitulos', 'enderecos', 'eventos', 'formacoes',
        'gerais', 'linhas', 'livros', 'participacoesEventos', 'periodicos', 'projetos']

scopes = ['abrangente', 'aplicacoes', 'restritivo']

In [3]:
for scope in scopes:
    for file in files:

        try:
            
            
            # paths
            header_file_path = '../../data/raw/headers/' + file + '.cab'
            csv_file_path = '../../data/raw/' + scope +'/' + file + '.csv'
            
            # Carregando o arquivo csv sem header
            df = pd.read_csv(csv_file_path, header=None, delimiter='\t', on_bad_lines='skip')

            # Carregando o header do arquivo .cab
            with open(header_file_path, 'r') as file_header:
                header = file_header.read().strip().split(',')

            # Transformar a string dentro da lista em uma nova lista separada por "\t"
            header = header[0].split('\t')

            # Foi observado que alguns headers possuiam colunas desnecessárias à direita
            # Sendo assim, o header terá o tamanho da quantidade de colunas do dataframe
            # ao eliminar as colunas a direita
            
            columns_lenght = df.shape[1]
            header = header[:columns_lenght]
            
            # Detectar quantas linhas com má formatação foram puladas em cada dataframe
            linhas_lidas = len(df)
            
            total_linhas = sum(1 for line in open(csv_file_path))
            

            if total_linhas != linhas_lidas:
                
                linhas_puladas = total_linhas - linhas_lidas
                
                print(f'Linhas não lidas em {scope} {file}: {linhas_puladas}')


            # Inserindo o header lido do arquivo .cab
            df.columns = header
            
            df.to_csv('../../data/processed/' + scope + '/' + file + '.csv', index=False)


        except Exception as e:

            print('ERRO!!!')

            print(f'scope = {scope}')
            print(f'file = {file}')
            
            print(len(header))
            print(df.shape)


            # Código que será executado para qualquer outra exceção
            print(f"Ocorreu um erro: {e}")
            


Linhas não lidas em abrangente capitulos: 37018
Linhas não lidas em abrangente eventos: 349235
Linhas não lidas em abrangente livros: 6392
Linhas não lidas em abrangente periodicos: 176533


  df = pd.read_csv(csv_file_path, header=None, delimiter='\t', on_bad_lines='skip')


Linhas não lidas em aplicacoes capitulos: 14810
Linhas não lidas em aplicacoes eventos: 180000
Linhas não lidas em aplicacoes livros: 2262
Linhas não lidas em aplicacoes periodicos: 90204
Linhas não lidas em restritivo capitulos: 32206
Linhas não lidas em restritivo eventos: 289894
Linhas não lidas em restritivo livros: 5524
Linhas não lidas em restritivo periodicos: 151212


### Orientacoes

In [4]:
header_orientacoes = ['LattesID',
                     'NATUREZA',
                     'STATUS',
                     'ANO',
                     'NomeDoOrientador',
                     'CODIGO-INSTITUICAO',
                     'NOME-INSTITUICAO',
                     'CODIGO-CURSO',
                     'FLAG-BOLSA',
                     'CODIGO-AGENCIA-FINANCIADORA',
                     'NOME-DA-AGENCIA',
                     'TITULO',
                     'NumeroIdOrientado',
                     'NOME-CURSO',
                     'NomeGrandeAreaDoConhecimento',
                     'NomeDaAreaDoConhecimento',
                     'NomeDaSubAreaDoConhecimento',
                     'TIPO-DE-ORIENTACAO-CONCLUIDA',
                     'TIPO-DE-ORIENTACAO']

In [5]:
for scope in scopes:

    try:

        # paths
        csv_file_path = '../../data/raw/orientacoes/' + scope + '/orientacoes.csv'

        # Carregando o arquivo csv sem header
        df = pd.read_csv(csv_file_path, header=None, delimiter='\t')

        # Inserindo o header lido do arquivo .cab
        df.columns = header_orientacoes
        
        df.to_csv('../../data/processed/orientacoes/' + scope + '/' + 'orientacoes.csv', index=False)
        

    except Exception as e:

        # Código que será executado para qualquer outra exceção
        print(f"Ocorreu um erro: {e}")