In [18]:
import pandas as pd
import os
from typing import List

In [19]:
files = ['areas', 'atuacoes', 'capitulos', 'enderecos', 'eventos', 'formacoes',
        'gerais', 'linhas', 'livros', 'participacoesEventos', 'periodicos', 'projetos']

scopes = ['abrangente', 'aplicacoes', 'restritivo']

In [20]:
DATA_DIR = '../data/'

In [21]:
def make_unique(lst: List) -> List:
    """
    Transforma os elementos repetidos de uma lista de strings em strings únicas, 
    adicionando um sufixo numérico incremental para cada ocorrência subsequente de um elemento repetido.
    
    Parâmetros:
    -----------
    lst : list of str
        Uma lista de strings onde alguns elementos podem se repetir.
        
    Retorna:
    --------
    list of str
        Uma nova lista onde cada elemento é único. Para elementos repetidos,
        um sufixo numérico é adicionado para diferenciá-los (ex: 'a', 'a2', 'a3').

    Exemplo:
    --------
    >>> make_unique(['a', 'a', 'b', 'a', 'b'])
    ['a', 'a2', 'b', 'a3', 'b2']
    """
    count_dict = {}
    result = []
    
    for item in lst:
        if item in count_dict:
            count_dict[item] += 1
            result.append(f"{item}{count_dict[item]}")
        else:
            count_dict[item] = 1
            result.append(item)
    
    return result


In [22]:
for scope in scopes:
    for file in files:

        try:
            
            
            # paths
            header_file_path = DATA_DIR + 'raw/headers/' + file + '.cab'
            csv_file_path = DATA_DIR + 'raw/' + scope +'/' + file + '.csv'
            
            
            # Carregando o header do arquivo .cab
            with open(header_file_path, 'r') as file_header:
                header = file_header.read().strip().split(',')

            # Transformar a string dentro da lista em uma nova lista separada por "\t"
            header = header[0].split('\t')
            
            # torna a coluna unica
            header = make_unique(header)
            
            # Carregando o arquivo csv sem header
            df = pd.read_csv(csv_file_path, header=None, delimiter='\t', names = header)


            # Foi observado que alguns headers possuiam colunas desnecessárias à direita
            # Sendo assim, o header terá o tamanho da quantidade de colunas do dataframe
            # ao eliminar as colunas a direita
            
            columns_lenght = df.shape[1]
            header = header[:columns_lenght]
            
            # Detectar quantas linhas com má formatação foram puladas em cada dataframe
            linhas_lidas = len(df)
            
            total_linhas = sum(1 for line in open(csv_file_path))
            
            linhas_puladas = total_linhas - linhas_lidas
            
            print(f'Linhas não lidas em {scope} {file}: {linhas_puladas} de {total_linhas}')


            # Inserindo o header lido do arquivo .cab
            df.columns = header
            
            
            outdir = DATA_DIR + 'processed/' + scope + '/'
            if not os.path.exists(outdir):
                os.mkdir(outdir)
            
            df.to_csv(outdir + file + '.csv', index=False)


        except Exception as e:

            print('ERRO!!!')

            print(f'scope = {scope}')
            print(f'file = {file}')
            
            print(len(header))
            print(df.shape)


            # Código que será executado para qualquer outra exceção
            print(f"Ocorreu um erro: {e}")
            
            raise 
            


Linhas não lidas em abrangente areas: 0 de 44356
Linhas não lidas em abrangente atuacoes: 0 de 199553
Linhas não lidas em abrangente capitulos: 0 de 72180
Linhas não lidas em abrangente enderecos: 0 de 9914
Linhas não lidas em abrangente eventos: 0 de 733958
Linhas não lidas em abrangente formacoes: 0 de 50393
Linhas não lidas em abrangente gerais: 0 de 10969
Linhas não lidas em abrangente linhas: 0 de 18027
Linhas não lidas em abrangente livros: 0 de 23967
Linhas não lidas em abrangente participacoesEventos: 0 de 379872


  df = pd.read_csv(csv_file_path, header=None, delimiter='\t', names = header)


Linhas não lidas em abrangente periodicos: 0 de 359053


  df = pd.read_csv(csv_file_path, header=None, delimiter='\t', names = header)


Linhas não lidas em abrangente projetos: 0 de 131078
Linhas não lidas em aplicacoes areas: 0 de 16286
Linhas não lidas em aplicacoes atuacoes: 0 de 77542
Linhas não lidas em aplicacoes capitulos: 0 de 27645
Linhas não lidas em aplicacoes enderecos: 0 de 3644
Linhas não lidas em aplicacoes eventos: 0 de 328035
Linhas não lidas em aplicacoes formacoes: 0 de 18236
Linhas não lidas em aplicacoes gerais: 0 de 3992
Linhas não lidas em aplicacoes linhas: 0 de 7271
Linhas não lidas em aplicacoes livros: 0 de 8119
Linhas não lidas em aplicacoes participacoesEventos: 0 de 149748


  df = pd.read_csv(csv_file_path, header=None, delimiter='\t', names = header)


Linhas não lidas em aplicacoes periodicos: 0 de 169425
Linhas não lidas em aplicacoes projetos: 0 de 53045
Linhas não lidas em restritivo areas: 0 de 37844
Linhas não lidas em restritivo atuacoes: 0 de 172026
Linhas não lidas em restritivo capitulos: 0 de 63061
Linhas não lidas em restritivo enderecos: 0 de 8439
Linhas não lidas em restritivo eventos: 0 de 629565
Linhas não lidas em restritivo formacoes: 0 de 42913
Linhas não lidas em restritivo gerais: 0 de 9328
Linhas não lidas em restritivo linhas: 0 de 15571
Linhas não lidas em restritivo livros: 0 de 20715
Linhas não lidas em restritivo participacoesEventos: 0 de 326925


  df = pd.read_csv(csv_file_path, header=None, delimiter='\t', names = header)


Linhas não lidas em restritivo periodicos: 0 de 308120
Linhas não lidas em restritivo projetos: 0 de 112001


### Orientacoes

In [23]:
header_orientacoes = ['LattesID',
                     'NATUREZA',
                     'STATUS',
                     'ANO',
                     'NomeDoOrientador',
                     'CODIGO-INSTITUICAO',
                     'NOME-INSTITUICAO',
                     'CODIGO-CURSO',
                     'FLAG-BOLSA',
                     'CODIGO-AGENCIA-FINANCIADORA',
                     'NOME-DA-AGENCIA',
                     'TITULO',
                     'NumeroIdOrientado',
                     'NOME-CURSO',
                     'NomeGrandeAreaDoConhecimento',
                     'NomeDaAreaDoConhecimento',
                     'NomeDaSubAreaDoConhecimento',
                     'TIPO-DE-ORIENTACAO-CONCLUIDA',
                     'TIPO-DE-ORIENTACAO']

In [31]:
for scope in scopes:

    try:

        # paths
        csv_file_path = DATA_DIR  + 'raw/orientacoes/' + scope + '/orientacoes.csv'

        # Carregando o arquivo csv sem header
        df = pd.read_csv(csv_file_path, header=None, delimiter='\t', names = header_orientacoes)
        
        outdir = DATA_DIR  + 'processed/' + scope + '/'
        if not os.path.exists(outdir):
            os.mkdir(outdir)
        
        df.to_csv( outdir + 'orientacoes.csv', index=False)
        

    except Exception as e:

        # Código que será executado para qualquer outra exceção
        print(f"Ocorreu um erro: {e}")