In [1]:
import os
import bibtexparser 
import pandas as pd
import numpy as np

In [2]:
# parametrsos globais
entrada = "input/"
saida = "output/"

In [3]:
# Função para criar um lista dos arquivos BibTex existentes no diretório de entrada 
def get_files(dir):
    
    # carregando os arquivos da pasta entrada
    dir_list = os.listdir(dir)
    files_list = []
    
    for file in dir_list:
    
        # validar se o arquivo do diretório possui a extensao .bib
        if '.BIB' not in file.upper():
            continue

        files_list.append(file)
    
    return files_list
    

In [4]:
# função para carregar o arquivo em um DF
def read_file(dir, file):
    
    with open(dir + file, encoding = "utf_8" ) as bibtex_file:
        
        bib_database = bibtexparser.load(bibtex_file)
        
    # retornando um DF do arquivo 
    return pd.DataFrame(bib_database.entries)

In [5]:
# Função para criar um novo DF com as colunas do escopo baseado no DF Geral
def select_col(df_geral):
    
    # criando um lista com as colunas do escopo do projeto
    col_types = [["author"],["title"],["keywords"],["abstract"],["year"],
                 ["type_publication","ENTRYTYPE"],["doi"]]
    
    new_df = pd.DataFrame()

    # interar lista de todos os tipos de colunas
    for col_type in col_types:

        # interar uma lista de um tipo de coluna apenas
        for col in col_type:

            # verificar se um item do tipo existe no DF
            if col in df_geral.columns:
                # se existir criar um nova coluna no new_DF com o rótulo do primeiro item da lista do tipo da coluna
                new_df[col_type[0]] = df_geral[col]
                break
            else:
                # se a coluna não existir então verificar se é a última coluna da lista do tipo
                # isso significa que não existe a coluna no DF, então criar um coluna com o rótulo do primeiro item 
                # com conteúdo em branco
                if col == col_type[-1]:
                    new_df[col_type[0]] = np.nan

    new_df["file"] = file
    
    return new_df

In [6]:
# Principal
files = get_files(entrada)

## fazer a leitura de todos os arquivos
# criando um DF em branco para armazenar todos os arquivos
df_final = pd.DataFrame()

for file in files:
    
    # carregando dados do arquivo para um DF
    df_geral = read_file(entrada, file)
    
    # criando um novo DF selecionando colunas
    new_df = select_col(df_geral)
    
    # concatendando cada novo DF no DF Final
    df_final = pd.concat([df_final, new_df]) 
    



In [7]:
df_final

Unnamed: 0,author,title,keywords,abstract,year,type_publication,doi,file
0,"El Alaoui, Imane and Gahi, Youssef and Messous...",Big Data Quality Metrics for Sentiment Analysi...,"Big data, Sentiment analysis, Big data quality...","In a world increasingly connected, and in whic...",2019,inproceedings,10.1145/3341620.3341629,acm.bib
1,"Reda, Oumaima and Sassi, Imad and Zellou, Ahme...",Towards a Data Quality Assessment in Big Data,"Data Quality, Quality Models, Data Quality eva...","In recent years, as more and more data sources...",2020,inproceedings,10.1145/3419604.3419803,acm.bib
2,"Emmanuel, Isitor and Stanier, Clare",Defining Big Data,"Big Data, Big Data characteristics, Data Quali...","As Big Data becomes better understood, there i...",2016,inproceedings,10.1145/3010089.3010090,acm.bib
3,"Baldassarre, Maria Teresa and Caballero, Ismae...",From Big Data to Smart Data: A Data Quality Pe...,"Smart Data, Data Quality, Big Data",Big Data (BD) solutions are designed to better...,2018,inproceedings,10.1145/3281022.3281026,acm.bib
4,"Cuzzocrea, Alfredo and Sacc\`{a}, Domenico and...",Big Data: A Research Agenda,"OLAP over big data, privacy of big data, big d...","Recently, a great deal of interest for Big Dat...",2013,inproceedings,10.1145/2513591.2527071,acm.bib
...,...,...,...,...,...,...,...,...
995,Ana Isabel Canhoto,Leveraging machine learning in the global figh...,"Big data, Artificial intelligence, Machine lea...",Financial services organisations facilitate th...,2021,article,https://doi.org/10.1016/j.jbusres.2020.10.012,sdFull.bib
996,Daqing Wang and Haoli Xu and Yue Shi and Zhibi...,The groundwater potential assessment system ba...,"Big data, Cloud computing, Remote sensing, Gro...",Today’s intelligent system based on cloud comp...,2021,article,https://doi.org/10.1016/j.comcom.2021.06.028,sdFull.bib
997,R. Priyadarshini and Latha Tamilselvan and T. ...,Semantic Retrieval of Relevant Sources for Lar...,"Virtual documents (VD), Source document, Hadoo...",The term big data has come into use in recent ...,2015,article,https://doi.org/10.1016/j.procs.2015.06.043,sdFull.bib
998,Chenhao Tian and Chenghong Feng and Lei Chen a...,Impact of water source mixture and population ...,"Al residue, Mixed water sources, Big data anal...",This study establishes a new understanding of ...,2020,article,https://doi.org/10.1016/j.watres.2020.116335,sdFull.bib
