# Pasta de origem dos arquivos

Salvar o arquivo geral zipado do e-lattes na pasta _data/in_json

In [1]:
# import os
# import tkinter as tk
# from tkinter import filedialog
# from file_manipulation import FileManipulation

# root = tk.Tk()

# # Pergunta ao usuário se ele deseja criar uma nova pasta ou escolher uma já existente
# selection = input("Digite (N) para criar uma nova pasta ou tecle enter para escolher uma existente")

# # Define a pasta onde serão salvas as análises
# if selection.lower() == "n":
#     folder_path = filedialog.askdirectory(initialdir="./", title="Selecione uma pasta")
# else:
#     folder_path = "./analises"

#     # Caso a pasta já exista, avisa o usuário que os arquivos antigos serão substituídos
#     if len(os.listdir(folder_path)) > 0:
#         confirmation = input("\nAtenção: a pasta selecionada já contém arquivos. Eles serão substituídos. Deseja continuar (S/N)? ")
#         if confirmation.lower() != "s":
#             root.destroy()
#             exit()

# fm = FileManipulation(master=root)

In [2]:
import os
import csv
import json
import zipfile
import pandas as pd

class PreparadorDePublicacoes:
    def __init__(self):
        self.data = []
        self.colunas = ['idLattes', 'nome', 'tipo', 'titulo_do_capitulo', 'idioma', 'titulo_do_livro', 'ano', 'doi', 'pais_de_publicacao', 'isbn', 'nome_da_editora', 'numero_da_edicao_revisao', 'organizadores', 'paginas', 'autores', 'autores-endogeno', 'autores-endogeno-nome', 'tags', 'Hash', 'tipo_producao', 'natureza', 'titulo', 'nome_do_evento', 'ano_do_trabalho', 'pais_do_evento', 'cidade_do_evento', 'classificacao', 'periodico', 'volume', 'issn', 'estrato_qualis', 'editora', 'numero_de_paginas', 'numero_de_volumes']

    def extrair_dados(self, registro, tipo_producao):
        linha = {coluna: None for coluna in self.colunas}
        linha['tipo'] = tipo_producao  # Define o tipo de produção com base na chave do dicionário
        
        # Mapear diretamente os campos do registro para a linha, assegurando que todos os campos desejados sejam extraídos
        for campo in ['titulo', 'idioma', 'periodico', 'ano', 'volume', 'issn', 'estrato_qualis', 'pais_de_publicacao', 'paginas', 'doi']:
            linha[campo] = registro.get(campo, '')

        # Tratar os autores como uma string concatenada se eles existirem
        linha['autores'] = '; '.join(registro.get('autores', []))

        # Tratar os campos 'autores-endogeno' e 'autores-endogeno-nome'
        if 'autores-endogeno' in registro and registro['autores-endogeno']:
            id_endogeno = registro['autores-endogeno'][0]
            linha['idLattes'] = id_endogeno
            linha['nome'] = registro['autores-endogeno-nome'][0].get(id_endogeno, None)
        
        # Adicionar os outros campos conforme necessário aqui
        # Por exemplo, tratamento de 'tags', 'Hash', etc., quando necessário

        return linha

    def processar_publicacoes(self):
        linhas = []
        # Itera diretamente sobre cada registro em self.data
        for registro in self.data:
            linha = self.extrair_dados(registro, registro.get('tipo_producao', 'Desconhecido'))
            linhas.append(linha)
        return linhas

    def exportar_para_csv(self, nome_arquivo='dados_achatados.csv'):
        linhas = self.processar_publicacoes()
        print(f"{len(linhas)} linhas processadas...")
        df = pd.DataFrame(linhas, columns=self.colunas)
        df.to_csv(nome_arquivo, index=False)
        print(f'Arquivo {nome_arquivo} criado com sucesso.')
    
    def extract_zips(self, pathzip):
        destination = os.path.join(os.getcwd(), '_data', 'in_json')
        if not os.path.exists(destination):
            os.makedirs(destination)
            print(f"Criada pasta para armazenar dados descompactados: {destination}")
        else:
            print(f"Descompactando arquivos para: {destination}")

        with zipfile.ZipFile(pathzip, 'r') as zip_ref:
            zip_ref.extractall(destination)
        
        print("Descompactação concluída...")
        return destination  # Retorna o caminho onde os arquivos foram descompactados

    def find_and_merge_publication_json_files(self, pathjson):
        all_data = []
        for filename in os.listdir(pathjson):
            if 'publication.json' in filename:
                print(f"Extraindo dados do arquivo '{filename}'...")
                with open(os.path.join(pathjson, filename), 'r', encoding='utf-8') as file:
                    file_data = json.load(file)
                    for tipo_producao in file_data:  # Para cada tipo de produção no arquivo
                        for ano in file_data[tipo_producao]:  # Para cada ano dentro de um tipo de produção
                            all_data.extend(file_data[tipo_producao][ano])  # Une os registros

        # Salva a lista unificada em um novo arquivo JSON
        unified_json_path = os.path.join(pathjson, 'unified_pub.json')
        with open(unified_json_path, 'w', encoding='utf-8') as unified_file:
            json.dump(all_data, unified_file, ensure_ascii=False, indent=4)
        
        print(f"Arquivo unificado criado em: {unified_json_path}")

        # Atualiza self.data com os dados unidos
        self.data = all_data

    def merge_publication_json_files(self, pathjson):
        """
        This function receives a path to a JSON folder, accesses the folder's contents, searches for files
        containing 'publication.json' in their filename, merges their contents and saves the resulting
        data as a CSV file in destination folder.
        """
        data = []
        # Looping through the files in the given path
        for filename in os.listdir(pathjson):
            if 'publication.json' in filename:
                print(f"Extraindo dados do arquivo {filename}...")
                # Opening the file and appending its data to the list
                with open(os.path.join(pathjson, filename), 'r', encoding='utf-8') as file:
                    data.append(json.load(file))

        # Creating the output directory if it doesn't exist
        destination = os.path.join(os.getcwd(), '_data','powerbi')
        if not os.path.exists(destination):
            os.mkdir(destination)

        # Writing the merged data to a CSV file
        print(f"Criando arquivo CSV...")
        with open(os.path.join(destination, 'publication.csv'), 'w', encoding='utf-8', newline='') as csv_file:
            writer = csv.writer(csv_file)
            # Writing the header based on the keys of the first item in the list
            writer.writerow(data[0].keys())
            # Looping through the items in the list and writing them as rows in the CSV file
            for item in data:
                writer.writerow(item.values())

    def exportar_para_csv(self, nome_arquivo='publicacoes.csv'):
        linhas = self.processar_publicacoes()
        df = pd.DataFrame(linhas, columns=self.colunas)
        filepathcsv = os.path.join("./","_data","powerbi",nome_arquivo)
        df.to_csv(filepathcsv, index=False)
        print(f'Arquivo criado com sucesso em {filepathcsv}.')


In [3]:
path = "./"
print(f"     Pasta corrente: {path}")
pathjson = os.path.join(path,'_data','in_json')
print(f"Pasta arquivos JSON: {pathjson}")
try:
    pathdata = os.path.join(path,'_data','powerbi')
    print(f" Pasta de dados CSV: {pathdata}")
except:
    print('Pasta de dados ainda não existe.')

print("\nConteúdo da pasta JSON:")
list(os.listdir(pathjson))

     Pasta corrente: ./
Pasta arquivos JSON: ./_data\in_json
 Pasta de dados CSV: ./_data\powerbi

Conteúdo da pasta JSON:


['642.files', '644.files', '863.files.zip']

In [4]:
## Descompactar arquivo zipado na pasta JSON:
preparador = PreparadorDePublicacoes()
arquivo_zip = '863.files.zip'
pathfilezip = os.path.join(pathjson,arquivo_zip)
destination = preparador.extract_zips(pathfilezip)

## Unir aquivos de publicações caso haja mais de um:
preparador.find_and_merge_publication_json_files(pathjson)

## Mapear arquivo de dados para PowerBI a partir do JSON unificado
linhas = preparador.processar_publicacoes()
preparador.exportar_para_csv()

Descompactando arquivos para: c:\Users\marco\ppgcs\_data\in_json
Descompactação concluída...
Extraindo dados do arquivo '863.publication.json'...
Arquivo unificado criado em: ./_data\in_json\unified_pub.json
Arquivo criado com sucesso em ./_data\powerbi\publicacoes.csv.


In [5]:
os.listdir(pathdata)

['2020_Madhumangal-Ghorai_modern-trends-in-fuzzy-graph-theory-1st-ed.odt',
 'classificacoes_publicadas_todas_as_areas_avaliacao1672761192111.csv',
 'classificações_publicadas_todas_as_areas_avaliacao1672761192111.xlsx',
 'colaboracao_discente.csv',
 'dashboard_ppggs_v3.pbix',
 'dashboard_ppggs_v4.pbix',
 'dashboard_ppggs_v5.pbix',
 'DAX_ApuraMetas.txt',
 'df_dadosartigos.csv',
 'lista_docentes.csv',
 'lista_docentes_colaboradores.csv',
 'lista_docentes_permanentes.csv',
 'lista_orientadores-discentes.csv',
 'orientacoes.csv',
 'patentes.csv',
 'publicacoes.csv',
 'publicacoes_old.csv',
 'publication_test.csv']

### Funções tratar nomes

In [None]:
def padronizar_titulo(titulo_bruto):
    '''Retira acentos, expressão (Org.) e espaços vazios do título da publicação
    Autor: Marcos Aires (Fev.2022)
    '''
    import unicodedata
    import re
    string = ''.join(ch for ch in unicodedata.normalize('NFKD', titulo_bruto) if not unicodedata.combining(ch))
    string = string.replace('(Org)','').replace('(Org.)','').replace('(Org).','').replace('.','')
    
    titulo_padronizado = string.strip().strip('"')
    
    return titulo_padronizado



def padronizar_nome(linha_texto):
    '''Procura sobrenomes e abreviaturas e monta nome completo
     Recebe: String com todos os sobrenomes e nomes, abreviados ou não
    Retorna: Nome completo no formato padronizado em SOBRENOME AGNOME, Prenomes
      Autor: Marcos Aires (Mar.2022)
    '''
    import unicodedata
    import re
    # print('               Analisando:',linha_texto)
    string = ''.join(ch for ch in unicodedata.normalize('NFKD', linha_texto) if not unicodedata.combining(ch))
    string = string.replace('(Org)','').replace('(Org.)','').replace('(Org).','').replace('.','').replace('\'','')
    string = string.replace(',,,',',').replace(',,',',')
    string = re.sub(r'[0-9]+', '', string)
    string = ''.join(ch for ch in unicodedata.normalize('NFKD', string) if not unicodedata.combining(ch))
    
    # Expressões regulares para encontrar padrões de divisão de nomes de autores
    sobrenome_inicio   = re.compile(r'^[A-ZÀ-ú-a-z]+,')                  # Sequência de letras maiúsculas no início da string
    sobrenome_composto = re.compile(r'^[A-ZÀ-ú-a-z]+[ ][A-ZÀ-ú-a-z]+,')  # Duas sequências de letras no início da string, separadas por espaço, seguidas por vírgula
    letra_abrevponto   = re.compile(r'^[A-Z][.]')                        # Uma letra maiúscula no início da string, seguida por ponto
    letra_abrevespaco  = re.compile(r'^[A-Z][ ]')                        # Uma letra maiúscula no início da string, seguida por espaço
    letras_dobradas    = re.compile(r'[A-Z]{2}')                         # Duas letras maiúsculas juntas no início da string, seguida por espaço
    letras_dobradasini = re.compile(r'[A-Z]{2}[ ]')                      # Duas letras maiúsculas juntas no início da string, seguida por espaço
    letras_dobradasfim = re.compile(r'[ ][A-Z]{2}')                      # Duas letras maiúsculas juntas no final da string, precedida por espaço
    letras_duasconsnts = re.compile(r'[B-DF-HJ-NP-TV-XZ]{2}')            # Duas Letras maiúsculas e consoantes juntas
    letras_tresconsnts = re.compile(r'[B-DF-HJ-NP-TV-XZ]{3}')            # Três Letras maiúsculas e consoantes juntas
    
    # Agnomes e preprosições a tratar, agnomes vão maiúsculas para sobrenome e preposições vão para minúsculas nos nomes
    nomes=[]
    agnomes       = ['NETO','JUNIOR','FILHO','SEGUNDO','TERCEIRO','SOBRINHO']
    preposicoes   = ['de','da','do','das','dos', ' e ']
    nome_completo = ''
    
    # Ajustar lista de termos, identificar sobrenomes compostos e ajustar sobrenome com ou sem presença de vírgula
    div_sobrenome   = sobrenome_inicio.findall(string)
    div_sbrcomposto = sobrenome_composto.findall(string)
    
    # print('-'*100)
    # print('                 Recebido:',string)
    
    # Caso haja vírgulas na string, tratar sobrenomes e sobrenomes compostos
    if div_sobrenome != [] or div_sbrcomposto != []:
        # print('CASO_01: Há víruglas na string')
        div = string.split(', ')
        sobrenome     = div[0].strip().upper()
        try:
            div_espaco    = div[1].split(' ')
        except:
            div_espaco    = ['']
        primeiro      = div_espaco[0].strip('.').strip()
        
        # print('     Dividir por vírgulas:',div)
        # print('      Primeira DivVirgula:',sobrenome)
        # print('Segunda DivVrg/DivEspaços:',div_espaco)
        # print('      Primeira DivEspaços:',primeiro)
               
        # Caso primeiro nome seja somente duas letras maiúsculas juntas, trata-se de duas iniciais
        if len(primeiro)==2 or letras_tresconsnts.findall(primeiro):
            # print('CASO_01.a: Há duas letras ou três letras consoantes juntas, são iniciais')
            primeiro_nome=primeiro[0].strip()
            # print('          C01.a1_PrimNome:',primeiro_nome)
            nomes.append(primeiro[1].strip().upper())
            try:
                nomes.append(primeiro[2].strip().upper())
            except:
                pass
        else:
            # print('CASO_01.b: Primeiro nome maior que 2 caracteres')
            primeiro_nome = div_espaco[0].strip().title()
            # print('          C01.a2_PrimNome:',primeiro_nome)
        
        # Montagem da lista de nomes do meio
        for nome in div_espaco:
            # print('CASO_01.c: Para cada nome da divisão por espaços após divisão por vírgula')
            if nome not in nomes and nome.lower()!=primeiro_nome.lower() and nome.lower() not in primeiro_nome.lower() and nome!=sobrenome:   
                # print('CASO_01.c1: Se o nome não está nem como primeiro nome, nem sobrenomes')
                # print(nome, len(nome))
                
                # Avaliar se é abreviatura seguida de ponto e remover o ponto
                if len(nome)<=2 and nome.lower() not in preposicoes:
                    # print('    C01.c1.1_Nome<=02:',nome)
                    for inicial in nome:
                        # print(inicial)
                        if inicial not in nomes and inicial not in primeiro_nome:
                            nomes.append(inicial.replace('.','').strip().title())
                elif len(nome)==3 and nome.lower() not in preposicoes:
                        # print('    C01.c1.2_Nome==03:',nome)
                        for inicial in nome:
                            if inicial not in nomes and inicial not in primeiro_nome:
                                nomes.append(inicial.replace('.','').strip().title())
                else:
                    if nome not in nomes and nome!=primeiro_nome and nome!=sobrenome and nome!='':
                        if nome.lower() in preposicoes:
                            nomes.append(nome.replace('.','').strip().lower())
                        else:
                            nomes.append(nome.replace('.','').strip().title())
                        # print(nome,'|',primeiro_nome)
                        
        #caso haja sobrenome composto que não esteja nos agnomes considerar somente primeiro como sobrenome
        if div_sbrcomposto !=[] and sobrenome.split(' ')[1] not in agnomes and sobrenome.split(' ')[0].lower() not in preposicoes:
            # print('CASO_01.d: Sobrenome composto sem agnomes')
            # print(div_sbrcomposto)
            # print('Sobrenome composto:',sobrenome)
            
            nomes.append(sobrenome.split(' ')[1].title())
            sobrenome = sobrenome.split(' ')[0].upper().strip()
            # print('Sobrenome:',sobrenome)
            
            for i in nomes:
                if i.lower() in sobrenome.lower():
                    nomes.remove(i)
            # print('    Nomes:',nomes)
        
        #caso haja preposição como agnome desconsiderar e passar para final dos nomes
        if div_sbrcomposto !=[] and sobrenome.split(' ')[0].lower() in preposicoes:
            # print('CASO_01.e: Preposição no Sobrenome passar para o final dos nomes')
            # print('   div_sbrcomposto:', div_sbrcomposto)
            # print('Sobrenome composto:',div_sbrcomposto)
            
            nomes.append(div_sbrcomposto[0].split(' ')[0].lower())
            # print('    Nomes:',nomes)
            sobrenome = div_sbrcomposto[0].split(' ')[1].upper().strip(',').strip()
            # print('Sobrenome:',sobrenome)
            
            for i in nomes:
                # print('CASO_01.e1: Para cada nome avaliar se o sobrenome está na lista')
                if i.lower() in sobrenome.lower():
                    nomes.remove(i)
            # print('  Nomes:',nomes)
        
        # print('Ao final do Caso 01')
        # print('    Sobrenome com vírgula:',sobrenome, len(sobrenome),'letras')
        # print('Primeiro nome com vírgula:',primeiro_nome, len(primeiro_nome),'letras')
        # print('           Lista de nomes:',nomes, len(nomes),'nomes')
        
    # Caso não haja vírgulas na string considera sobrenome o último nome da string dividida com espaço vazio
    else:
        # print('CASO_02: Não há víruglas na string')
        try:
            div = string.split(' ')
            # print('      Divisões por espaço:',div)
            
            if div[-1] in agnomes: # nome final é um agnome
                sobrenome     = div[-2].upper().strip()+' '+div[-1].upper().strip()
                for i in div[1:-2]:
                    if i not in sobrenome and i not in preposicoes:
                        nomes.append(i.title().strip())
                    if i in preposicoes:
                        nomes.append(i.lower().strip())
            else:
                if len(div[-1]) > 2:
                    sobrenome     = div[-1].upper().strip()
                    primeiro_nome = div[1].title().strip()
                    for i in div[1:-1]:
                        if i != sobrenome and i not in preposicoes:
                            nomes.append(i.title().strip())
                        if i in preposicoes:
                            nomes.append(i.lower().strip())
                else:
                    sobrenome     = div[-2].upper().strip()
                    for i in div[-1]:
                        nomes.append(i.title())
                    primeiro_nome = nomes[0].title().strip()
                    for i in div[1:-1]:
                        if i != sobrenome and i not in preposicoes:
                            nomes.append(i.title().strip())
                        if i in preposicoes:
                            nomes.append(i.lower().strip())
        except:
            sobrenome = div[-1].upper().strip()
            for i in div[1:-1]:
                    if i != sobrenome and i not in preposicoes:
                        nomes.append(i.title().strip())
                    if i in preposicoes:
                        nomes.append(i.lower().strip())
            
        if sobrenome.lower() != div[0].lower().strip():
            primeiro_nome=div[0].title().strip()
        else:
            primeiro_nome=''
        
        # print('Ao final do Caso 02')
        # print('    Sobrenome sem vírgula:',sobrenome, len(sobrenome),'letras')
        # print('Primeiro nome sem vírgula:',primeiro_nome, len(primeiro_nome),'letras')
        # print('Nomes do meio sem vírgula:',nomes, len(nomes),'nomes')
    
    # Encontrar e tratar como abreviaturas termos com apenas uma ou duas letras iniciais juntas, com ou sem ponto
    for j in nomes:
        # print('CASO_03: Avaliar cada nome armazenado na variável nomes')
        # Procura padrões com expressões regulares na string
        div_sobrenome      = sobrenome_inicio.findall(j)
        div_sbrcomposto    = sobrenome_composto.findall(j)
        div_abrevponto     = letra_abrevponto.findall(j)
        div_abrevespaco    = letra_abrevespaco.findall(j)
        div_ltrdobradasini = letras_dobradasini.findall(j)
        div_ltrdobradasfim = letras_dobradasfim.findall(j)
        div_ltrdobradas    = letras_dobradas.findall(j)
        tamanho=len(j)
        # print('\n', div_ltrdobradasini, div_ltrdobradasfim, tamanho, 'em:',j,len(j))
        
        #caso houver abreviatura com uma letra em maiúscula nos nomes
        if div_abrevponto !=[] or tamanho==1:
            # print('CASO_03.1: Há abreviaturas uma letra maiúscula nos nomes')
            nome = j.replace('.','').strip()
            if nome not in nomes and nome != sobrenome and nome != primeiro_nome:
                # print('CASO_03.1a: Há abreviaturas uma letra maiúscula nos nomes')
                nomes.append(nome.upper())
        
        #caso houver duas inicias juntas em maiúsculas
        elif div_ltrdobradasini !=[] or div_ltrdobradasfim !=[] or div_ltrdobradas !=[] :
            # print('CASO_03.2: Há abreviaturas uma letra maiúscula nos nomes')
            for letra in j:
                # print('CASO_03.2a: Avaliar cada inicial do nome')
                if letra not in nomes and letra != sobrenome and letra != primeiro_nome:
                    # print('CASO_03.2a.1: Se não estiver adicionar inicial aos nomes')
                    nomes.append(letra.upper())
        
        #caso haja agnomes ao sobrenome
        elif sobrenome in agnomes:
            # print('CASO_03.3: Há agnomes nos sobrenomes')
            sobrenome = nomes[-1].upper()+' '+sobrenome
            # print(sobrenome.split(' '))
            # print('Sobrenome composto:',sobrenome)
            for i in nomes:
                if i.lower() in sobrenome.lower():
                    nomes.remove(i)
            # print('Nomes do meio:',nomes)
            
        else:
            # print('CASO_03.4: Não há agnomes nos sobrenomes')
            if j not in nomes and j not in sobrenome and j != primeiro_nome:
                if len(nomes) == 1:
                    nomes.append(j.upper())
                elif 1 < len(nomes) <= 3:
                    nomes.append(j.lower())
                else:
                    nomes.append(j.title())
         
        # print('Ao final do Caso 03')
        # print('    Sobrenome com vírgula:',sobrenome, len(sobrenome),'letras')
        # print('Primeiro nome com vírgula:',primeiro_nome, len(primeiro_nome),'letras')
        # print('Nomes do meio com vírgula:',nomes, len(nomes),'nomes')
        
    nomes_meio=' '.join([str for str in nomes]).strip()
    # print('        Qte nomes do meio:',nomes,len(nomes))
    
    if primeiro_nome.lower() == sobrenome.lower():
        # print('CASO_04: Primeiro nome é igual ao sobrenome')
        try:
            primeiro_nome=nomes_meio.split(' ')[0]
        except:
            pass
        try:
            nomes_meio.remove(sobrenome)
        except:
            pass
    
        # print('Ao final do caso 04')
        # print('    Sobrenome com vírgula:',sobrenome, len(sobrenome),'letras')
        # print('Primeiro nome com vírgula:',primeiro_nome, len(primeiro_nome),'letras')
        # print('Nomes do meio com vírgula:',nomes, len(nomes),'nomes')
    
    # Caso sobrenome seja só de 1 letra passá-lo para nomes e considerar o próximo nome como sobrenome
    for i in range(len(div)):
        if len(sobrenome)==1 or sobrenome.lower() in preposicoes:
            # print('CASO_05: Mudar sobrenomes até o adequado')
            div    = string.split(', ')
            # print('Divisão por vírgulas:',div)
            avaliar0       = div[0].split(' ')[0].strip()
            if 1< len(avaliar0) < 3:
                # print('CASO_05.1: 1 < Sobrenome < 3 fica em minúsculas')
                sbrn0          = avaliar0.lower()
            else:
                # print('CASO_05.2: Sobrenome de tamanho 1 ou maior que 3 fica em maiúsculas')
                sbrn0          = avaliar0.title()
            # print('sbrn0:',sbrn0, len(sbrn0))
            
            try:
                avaliar1=div[0].split(' ')[1].strip()
                # print('avaliar0',avaliar0)
                # print('avaliar1',avaliar1)
                if 1 < len(avaliar1) <=3:
                    sbrn1     = avaliar1.lower()
                else:
                    sbrn1     = avaliar1.title()
                # print('sbrn1:',sbrn1, len(sbrn1))

            except:
                pass

            if div != []:
                # print('CASO_05.3: Caso haja divisão por vírgulas na string')
                try:
                    div_espaco     = div[1].split(' ')
                except:
                    div_espaco     = div[0].split(' ')
                sobrenome      = div_espaco[0].strip().upper()
                try:
                    primeiro_nome  = div_espaco[1].title().strip()
                except:
                    primeiro_nome  = div_espaco[0].title().strip()
                if len(sbrn0) == 1:
                    # print('CASO_05.3a: Avalia primeiro sobrenome de tamanho 1')
                    # print('Vai pros nomes:',str(sbrn0).title())
                    nomes_meio = nomes_meio+str(' '+sbrn0.title())
                    # print('   NomesMeio:',nomes_meio)

                elif 1 < len(sbrn0) <= 3:
                    # print('CASO_05.3b: Avalia primeiro sobrenome 1< tamanho <=3')
                    # print('Vão pros nomes sbrn0:',sbrn0, 'e sbrn1:',sbrn1)

                    div_tresconsoantes = letras_tresconsnts.findall(sobrenome)
                    if div_tresconsoantes != []:
                        # print('CASO_05.4: Três consoantes como sobrenome')
                        for letra in sobrenome:
                            nomes.append(letra)

                        if len(sobrenome) >2:
                            sobrenome=nomes[0]
                        else:
                            sobrenome=nomes[1]
                        nomes.remove(sobrenome)
                        primeiro_nome=nomes[0]
                        nomes_meio=' '.join([str for str in nomes[1:]]).strip()
                        nome_completo=sobrenome.upper()+', '+nomes_meio                
                    
                    try:                       
                        # print(' 05.3b    Lista de Nomes:',nomes_meio)
                        nomes_meio=nomes_meio.replace(sbrn0,'')
                        # print(' 05.3b ReplaceSobrenome0:',nomes_meio)
                        nomes_meio=nomes_meio.replace(sbrn1,'')
                        # print(' 05.3b ReplaceSobrenome1:',nomes_meio)
                    except Exception as e:
                        # print('   Erro ReplaceSobrenome:',e)
                        pass
                    try:
                        nomes_meio.replace(primeiro_nome.title(),'')
                        nomes_meio.replace(primeiro_nome.lower(),'')
                        nomes_meio.replace(primeiro_nome,'')
                        # print(' 05.3b Replace PrimNome:',nomes_meio)
                    except Exception as e:
                        print('Erro no try PrimeiroNome:',e)
                        pass
                    nomes_meio = nomes_meio.replace(sobrenome,'')
                    try:
                        for n,i in enumerate(avaliar1):
                            nomes.append(i.upper())
                            sbrn1     = avaliar1[0]
                        else:
                            sbrn1     = avaliar1.title()
                        # print('sbrn1:',sbrn1, len(sbrn1))
                        nomes_meio = nomes_meio+str(' '+sbrn0)+str(' '+sbrn1)
                    except:
                        nomes_meio = nomes_meio+str(' '+sbrn0)
                    nomes      = nomes_meio.strip().strip(',').split(' ')
                    # print(' 05.3b NomesMeio:',nomes_meio)
                    # print(' 05.3b     Nomes:',nome)

                else:
                    # print('CASO_05.3c: Avalia primeiro sobrenome >3')
                    nomes_meio = nomes_meio+str(' '+div[0].strip().title())
                    nomes      = nomes_meio.strip().split(' ')
                    # print(' 05.3c NomesMeio:',nomes_meio)
                    # print(' 05.3c     Nomes:',nomes)

                nomes_meio=nomes_meio.replace(sobrenome,'').replace(',','').strip()
                nomes_meio=nomes_meio.replace(primeiro_nome,'').strip()

            # print('Ao final do caso 05')
            # print('    Sobrenome com vírgula:',sobrenome, len(sobrenome),'letras')
            # print('Primeiro nome com vírgula:',primeiro_nome, len(primeiro_nome),'letras')
            # print('Nomes do meio com vírgula:',nomes, len(nomes),'nomes')
    
    if sobrenome != '' and primeiro_nome !='':
        nome_completo=sobrenome.upper().replace(',','')+', '+primeiro_nome.replace(',','')+' '+nomes_meio.replace(sobrenome,'').replace(',','')
    elif sobrenome != '':
        nome_completo=sobrenome.upper().replace(',','')+', '+nomes_meio.replace(sobrenome,'').replace(',','')
    else:
        nome_completo=sobrenome.upper()
    
#     print('Após ajustes finais')
#     print('     Sobrenome:',sobrenome)
#     print(' Primeiro Nome:',primeiro_nome)
#     print('         Nomes:',nomes)
#     print('     NomesMeio:',nomes_meio)        
        
#     print('                Resultado:',nome_completo)
    
    return nome_completo.strip()


def iniciais_nome(linha_texto):
    '''Função para retornar sobrenome+iniciais dos nomes, na forma: SOBRENOME, X Y Z
     Recebe: String com nome
    Retorna: Tupla com nome e sua versão padronizada em sobrenome+agnomes em maiúsculas, seguida de vírgula e iniciais dos nomes 
      Autor: Marcos Aires (Mar.2022)
    '''
    import unicodedata
    import re
    # print('               Analisando:',linha_texto)
    string = ''.join(ch for ch in unicodedata.normalize('NFKD', linha_texto) if not unicodedata.combining(ch))
    string = string.replace('(Org)','').replace('(Org.)','').replace('(Org).','').replace('.','')
        
    # Expressões regulares para encontrar padrões de divisão de nomes de autores
    sobrenome_inicio   = re.compile(r'^[A-ZÀ-ú-a-z]+,')                 # Sequência de letras maiúsculas no início da string
    sobrenome_composto = re.compile(r'^[A-ZÀ-ú-a-z]+[ ][A-ZÀ-ú-a-z]+,') # Duas sequências de letras no início da string, separadas por espaço, seguidas por vírgula
    letra_abrevponto   = re.compile(r'^[A-Z][.]')                       # Uma letra maiúscula no início da string, seguida por ponto
    letra_abrevespaco  = re.compile(r'^[A-Z][ ]')                       # Uma letra maiúscula no início da string, seguida por espaço
    letras_dobradas    = re.compile(r'[A-Z]{2}')                        # Duas letras maiúsculas juntas no início da string, seguida por espaço
    letras_dobradasini = re.compile(r'[A-Z]{2}[ ]')                     # Duas letras maiúsculas juntas no início da string, seguida por espaço
    letras_dobradasfim = re.compile(r'[ ][A-Z]{2}')                     # Duas letras maiúsculas juntas no final da string, precedida por espaço
        
    nomes=[]
    agnomes       = ['NETO','JUNIOR','FILHO','SEGUNDO','TERCEIRO', 'SOBRINHO']
    preposicoes   = ['da','de','do','das','dos','DA','DE','DOS','DAS','DOS','De']
    nome_completo = ''
    
    # Ajustar lista de termos, identificar sobrenomes compostos e ajustar sobrenome com ou sem presença de vírgula
    div_sobrenome      = sobrenome_inicio.findall(string)
    div_sbrcomposto    = sobrenome_composto.findall(string)
    
    # Caso haja vírgulas na string, tratar sobrenomes e sobrenomes compostos
    if div_sobrenome != [] or div_sbrcomposto != []:
        div   = string.split(', ')
        sobrenome     = div[0].strip().upper()
        try:
            div_espaco    = div[1].split(' ')
        except:
            div_espaco  = ['']
        primeiro      = div_espaco[0].strip('.')
        
        # Caso primeiro nome sejam somente duas letras maiúsculas juntas, trata-se de duas iniciais
        if len(primeiro)==2:
            primeiro_nome=primeiro[0].strip()
            nomes.append(primeiro[1].strip())
        else:
            primeiro_nome = div_espaco[0].strip().title()
        
        # Montagem da lista de nomes do meio
        for nome in div_espaco:
            if nome not in nomes and nome.lower()!=primeiro_nome.lower() and nome.lower() not in primeiro_nome.lower() and nome!=sobrenome:   
                # print(nome, len(nome))
                
                # Avaliar se é abreviatura seguida de ponto e remover o ponto
                if len(nome)<=2 and nome.lower() not in preposicoes:
                    for inicial in nome:
                        # print(inicial)
                        if inicial not in nomes and inicial not in primeiro_nome:
                            nomes.append(inicial.replace('.','').strip().title())
                else:
                    if nome not in nomes and nome!=primeiro_nome and nome!=sobrenome and nome!='':
                        if nome.lower() in preposicoes:
                            nomes.append(nome.replace('.','').strip().lower())
                        else:
                            nomes.append(nome.replace('.','').strip().title())
                        # print(nome,'|',primeiro_nome)
                        
        #caso haja sobrenome composto que não esteja nos agnomes considerar somente primeiro como sobrenome
        if div_sbrcomposto !=[] and sobrenome.split(' ')[1] not in agnomes:
            # print(div_sbrcomposto)
            # print('Sobrenome composto:',sobrenome)
            nomes.append(sobrenome.split(' ')[1].title())
            sobrenome = sobrenome.split(' ')[0].upper()
            # print('Sobrenome:',sobrenome.split(' '))
            for i in nomes:
                if i.lower() in sobrenome.lower():
                    nomes.remove(i)
            # print('Nomes do meio:',nomes)
        
        # print('    Sobrenome com vírgula:',sobrenome, len(sobrenome),'letras')
        # print('Primeiro nome com vírgula:',primeiro_nome, len(primeiro_nome),'letras')
        # print('Nomes do meio com vírgula:',nomes, len(nomes),'nomes')
        
    # Caso não haja vírgulas na string considera sobrenome o último nome da string dividida com espaço vazio
    else:
        try:
            div       = string.split(' ')
            if div[-2] in agnomes:
                sobrenome = div[-2].upper()+' '+div[-1].strip().upper()
                for i in nomes[1:-2]:
                    if i not in sobrenome and i not in preposicoes:
                        nomes.append(i.strip().title())
                    if i in preposicoes:
                        nomes.append(i.strip().lower())
            else:
                sobrenome = div[-1].strip().upper()
                for i in div[1:-1]:
                    if i not in sobrenome and i not in preposicoes:
                        nomes.append(i.strip().title())
                    if i in preposicoes:
                        nomes.append(i.strip().lower())
        except:
            sobrenome = div[-1].strip().upper()
            for i in div[1:-1]:
                    if i not in sobrenome and i not in preposicoes:
                        nomes.append(i.strip().title())
                    if i in preposicoes:
                        nomes.append(i.strip().lower())
            
        if sobrenome.lower() != div[0].strip().lower():
            primeiro_nome=div[0].strip().title()
        else:
            primeiro_nome=''
        
        # print('    Sobrenome sem vírgula:',sobrenome)
        # print('Primeiro nome sem vírgula:',primeiro_nome)
        # print('Nomes do meio sem vírgula:',nomes)
    
    # Encontrar e tratar como abreviaturas termos com apenas uma ou duas letras iniciais juntas, com ou sem ponto
    for j in nomes:
        # Procura padrões com expressões regulares na string
        div_sobrenome      = sobrenome_inicio.findall(j)
        div_sbrcomposto    = sobrenome_composto.findall(j)
        div_abrevponto     = letra_abrevponto.findall(j)
        div_abrevespaco    = letra_abrevespaco.findall(j)
        div_ltrdobradasini = letras_dobradasini.findall(j)
        div_ltrdobradasfim = letras_dobradasfim.findall(j)
        div_ltrdobradas    = letras_dobradas.findall(j)
        tamanho=len(j)
        # print('\n', div_ltrdobradasini, div_ltrdobradasfim, tamanho, 'em:',j,len(j))
        
        #caso houver abreviatura com uma letra em maiúscula nos nomes
        if div_abrevponto !=[] or tamanho==1:
            cada_nome = j.replace('.','').strip()
            if cada_nome not in nomes and cada_nome != sobrenome and nome != primeiro_nome:
                nomes.append(cada_nome)
        
        #caso houver duas inicias juntas em maiúsculas
        elif div_ltrdobradasini !=[] or div_ltrdobradasfim !=[] or div_ltrdobradas !=[] :
            for letra in j:
                if letra not in nomes and letra != sobrenome and letra != primeiro_nome:
                    nomes.append(letra)
        
        #caso haja agnomes ao sobrenome
        elif sobrenome in agnomes:
            sobrenome = nomes[-1].upper()+' '+sobrenome
            # print(sobrenome.split(' '))
            # print('Sobrenome composto:',sobrenome)
            for i in nomes:
                if i.lower() in sobrenome.lower():
                    nomes.remove(i)
            # print('Nomes do meio:',nomes)
            
        else:
            if j not in nomes and j not in sobrenome and j != primeiro_nome:
                nomes.append(j)
    
    nomes_meio=' '.join([str[0] for str in nomes]).strip()
    # print('Qte nomes do meio',len(nomes),nomes)
    if sobrenome != '' and primeiro_nome !='':
        sobrenome_iniciais = sobrenome+', '+primeiro_nome[0]+' '+nomes_meio
    elif sobrenome != '':
        sobrenome_iniciais = sobrenome
    
    return sobrenome_iniciais.strip()


## Agregar aprendizado supervisionado humano à medida que forem sendo identificados erros na situação atual
lista_extra = [
                # ('ALBUQUERQUE, Adriano B', 'ALBUQUERQUE, Adriano Bessa'),
                # ('ALBUQUERQUE, Adriano', 'ALBUQUERQUE, Adriano Bessa'),
                # ('COELHO, Andre L V', 'COELHO, Andre Luis Vasconcelos'),
                # ('DUARTE, Joao B F', 'DUARTE, Joao Batista Furlan'),
                # ('FILHO, Raimir H','HOLANDA FILHO, Raimir'),
                # ('FILHO, Raimir','HOLANDA FILHO, Raimir'),
                # ('FORMIGO, A','FORMICO, Maria Andreia Rodrigues'),
                # ('FORMICO, A','FORMICO, Maria Andreia Rodrigues'),
                # ('FURLAN, J B D', 'FURLAN, Joao Batista Duarte'),
                # ('FURTADO, Elizabeth', 'FURTADO, Maria Elizabeth Sucupira'),
                # ('FURTADO, Elizabeth S', 'FURTADO, Maria Elizabeth Sucupira'),
                # ('FURTADO, Elizabeth Sucupira','FURTADO, Maria Elizabeth Sucupira'),
                # ('FURTADO, M E S', 'FURTADO, Maria Elizabeth Sucupira'),
                # ('FURTADO, Vasco', 'FURTADO, Joao Jose Vasco Peixoto'),
                # ('FURTADO, J P', 'FURTADO, Joao Jose Vasco Peixoto'),
                # ('FURTADO, J V P', 'FURTADO, Joao Jose Vasco Peixoto'),
                # ('FURTADO, Vasco', 'FURTADO, Joao Jose Vasco Peixoto'),
                # ('FURTADO, Elizabeth','FURTADO, Maria Elizabeth Sucupira'),
                # ('HOLANDA, Raimir', 'HOLANDA FILHO, Raimir'),
                # ('LEITE, G S', 'LEITE, Gleidson Sobreira'),
                # ('PEQUENO, T H C', 'PEQUENO, Tarcisio Haroldo Cavalcante'),
                # ('PEQUENO, Tarcisio','PEQUENO, Tarcisio Haroldo Cavalcante'),
                # ('PEQUENO, Tarcisio Cavalcante', 'PEQUENO, Tarcisio Haroldo Cavalcante'),
                # ('PINHEIRO, Placido R', 'PINHEIRO, Placido Rogerio'),
                # ('PINHEIRO, Vladia', 'PINHEIRO, Vladia Celia Monteiro'),
                # ('RODRIGUES, M A F', 'RODRIGUES, Maria Andreia Formico'),
                # ('RODRIGUES, Andreia', 'RODRIGUES, Maria Andreia Formico'),
                # ('JOAO, Batista F Duarte,', 'FURLAN, Joao Batista Duarte'),
                # ('MACEDO, Antonio Roberto M de', 'MACEDO, Antonio Roberto Menescal de'),
                # ('MACEDO, D V', 'MACEDO, Daniel Valente'),
                # ('MENDONCA, Nabor C', 'MENDONCA, Nabor das Chagas'),
                # ('PEQUENO, Tarcisio', 'PEQUENO, Tarcisio Haroldo Cavalcante'),
                # ('PEQUENO, Tarcisio H', 'PEQUENO, Tarcisio Haroldo Cavalcante'),
                # ('PINHEIRO, Mirian C D', 'PINHEIRO, Miriam Caliope Dantas'),
                # ('PINHEIRO, Mirian Caliope Dantas', 'PINHEIRO, Miriam Caliope Dantas'),
                # ('PINHEIRO, P G C D', 'PINHEIRO, Pedro Gabriel Caliope Dantas'),
                # ('PINHEIRO, Pedro G C', 'PINHEIRO, Pedro Gabriel Caliope Dantas'),
                # ('PINHEIRO, Placido R', 'PINHEIRO, Placido Rogerio'),
                # ('PINHEIRO, Vladia', 'PINHEIRO, Vladia Celia Monteiro'),
                # ('ROGERIO, Placido Pinheiro', 'PINHEIRO, Placido Rogerio'),
                # ('REBOUCRAS FILHO, Pedro', 'REBOUCAS FILHO, Pedro Pedrosa'),
                # ('SAMPAIO, A', 'SAMPAIO, Americo Tadeu Falcone'),
                # ('SAMPAIO, Americo', 'SAMPAIO, Americo Tadeu Falcone'),
                # ('SAMPAIO, Americo Falcone', 'SAMPAIO, Americo Tadeu Falcone'),
                # ('SUCUPIRA, Elizabeth Furtado','FURTADO, Maria Elizabeth Sucupira'),
                ]

In [None]:
def quebrar_partesnomes(nome):
    padrao = padronizar_nome(nome).lower()
    sobrenome  = padrao.split(',')[0].strip()
    restonomes = padrao.split(',')[1].strip().split(' ')
    try:
        partenome1 = restonomes[0].strip()
    except:
        partenome1 = ''
    try:
        partenome2 = restonomes[1].strip()
    except:
        partenome2 = ''
    try:
        partenome3 = restonomes[2].strip()
    except:
        partenome3 = ''        
    # print(f'{sobrenome:15} | {partenome1:1} | {partenome2:1} | {partenome3}')
    
    return sobrenome, partenome1, partenome2, partenome3



def quebrar_iniciais(nome):
    padrao = iniciais_nome(nome).lower()
    sobrenome  = padrao.split(',')[0].strip()
    restonomes = padrao.split(',')[1].strip().split(' ')
    try:
        partenome1 = restonomes[0].strip()
    except:
        partenome1 = ''
    try:
        partenome2 = restonomes[1].strip()
    except:
        partenome2 = ''
    try:
        partenome3 = restonomes[2].strip()
    except:
        partenome3 = ''        
    # print(f'{sobrenome:15} | {partenome1:1} | {partenome2:1} | {partenome3}')
    
    return sobrenome, partenome1, partenome2, partenome3


## compilar padrão regular expression para buscar dois termos dentro de janela de no máximo 3 palavras de distância
## em caso de dúvidas ver a fonte https://regex101.com/r/yL6dE4/1
def pesquisar_partes(sobrenome, partenome1, partenome2, partenome3):
    return re.compile(r'\b{0}(?:\W+\w+){{0,3}}\W+{1}\b|\b{0}(?:\W+\w+){{0,3}}\W+{2}\b|\b{0}(?:\W+\w+){{0,3}}\W+{3}\b'.format(sobrenome, partenome1, partenome2, partenome3), flags=re.IGNORECASE)
    # return re.compile(r'\b{0}(?:\W+\w+){{0,3}}\W+{1}\b|\b{0}(?:\W+\w+){{0,3}}\W+{2}\b|\b{0}(?:\W+\w+){{0,3}}\W+{3}\b|\b{3}(?:\W+\w+){{0,3}}\W+{0}\b|\b{2}(?:\W+\w+){{0,3}}\W+{0}\b|'.format(sobrenome, partenome1, partenome2, partenome3), flags=re.IGNORECASE)


def buscar_padrao(sobrenome, partenome1, partenome2, partenome3):
    indices_achados=[]
    qte_achados_artigo=0
    for n,i in enumerate(df_prod['AUTORES'].tolist()):
        lista_autores  = i.replace('Autores: ','').lower()
        
        ## Buscar pelos nomes de autor em cada linha de autores de artigo
        busca_autor = pesquisar_partes(sobrenome, partenome1, partenome2, partenome3)
        try:
            achar = re.search(busca_autor, lista_autores)
            if achar.span() !=None:
                print(achar.group(1))
                indices_achados.append(n)
        except:
            pass
        
    return indices_achados


In [None]:
def ler_pastacsv():    
    print(pathcsv)
    import os, sys

    lista_csv=[]
    dirs = os.listdir(pathcsv)
    for file in dirs:
        if 'Artigos' in file:
            lista_csv.append(file)
    lista_csv.sort()
    
    for i in lista_csv:
        print(i)

    return lista_csv

def ler_lista_docentes():
    try:
        l1='lista_docentes_colaboradores.csv'
        l2='lista_docentes_permanentes.csv'
        df_docclbr = pd.read_csv(pathcsv+l1, header=None)
        df_docperm = pd.read_csv(pathcsv+l2, header=None)
        lista_docentes = pd.concat([df_docperm, df_docclbr], ignore_index=True)[0].values
        print(f'{len(lista_docentes)} docentes permanentes e colaboradores encontrados')
    except Exception as e:
        print(e)
        
    return lista_docentes



def ler_lista_orientacoes():
    try:
        l1='lista_orientadores-discentes.csv'
        df_orientacoes = pd.read_csv(pathcsv+l1, delimiter=';', header=None)
        
        lista_orientadores = df_orientacoes.iloc[:,0].unique()
        lista_discentes    = df_orientacoes.iloc[:,1].unique()
        print(f'{len(lista_orientadores)} orientadores, com {len(lista_discentes)} discentes encontrados')
    except Exception as e:
        print('Erro ao gerar lista de orientações:')
        print(e)
        return df_orientacoes
        
    return lista_orientadores, lista_discentes 

In [None]:
# Funções montagem de dataframes
def montardf_orientacoes():
    try:
        l1='lista_orientadores-discentes.csv'
        df_orientacoes = pd.read_csv(pathcsv+l1, delimiter=';', header=None)
        df_orientacoes.columns=['ORIENTADOR','DISCENTE']
        
    except Exception as e:
        print('Erro ao dividir dataframe de orientações:')
        print(e)
        return
        
    return df_orientacoes



def montardf_docentes_permanentes_colaboradores():
    try:
        l1='lista_docentes_colaboradores.csv'
        l2='lista_docentes_permanentes.csv'
        df_docclbr = pd.read_csv(pathcsv+l1, header=None)
        df_docperm = pd.read_csv(pathcsv+l2, header=None)
        df_docentes = pd.concat([df_docperm, df_docclbr], ignore_index=True)
        print(f'{len(df_docentes.index)} docentes permanentes e colaboradores encontrados')
    except Exception as e:
        print(e)
        
    return df_docentes


def montardf_producao(lista_csv):
    df_public=pd.DataFrame()
    for nome_csv in lista_csv:
        if 'colaboradores' in nome_csv.lower():
            tipo='colaboradores'
        else:
            tipo='permanentes'
        
        df_pub = pd.read_csv(pathcsv+nome_csv)

        pat='\t\t\t\t\t\t\t\t\t\t\t\t \t\t\t\t\t\t\t\t\t\t\t\t\t'
        df_temp1 = df_pub.Data.str.split(pat=pat,expand=True)
        df_temp1.columns = (['TITULO','RevAut'])

        pat1='\t\t\t\t\t\t\t\t\t\t\t\t \t\t\t\t\t\t\t\t\t\t\t\t'
        df_temp2 = df_temp1.RevAut.str.split(pat=pat1,expand=True)
        df_temp2.columns = (['REVISTA','AUTORES'])

        df_temp0 = df_pub.drop(['Data'], axis=1)
        df_pub=df_temp0.merge(df_temp1['TITULO'],left_index=True,right_index=True)
        df_pub=df_pub.merge(df_temp2,left_index=True,right_index=True)
        try:
            df_pub.drop(['Issn','Natureza'], axis=1, inplace=True)
        except:
            pass
        try:
            df_pub.drop(['Tipo','Idioma'], axis=1, inplace=True)
        except:
            pass

        df_public = pd.concat([df_public, df_pub], ignore_index=True)
        # print(len(df_public.index))
        
    ## Extrai o período com base nos dados
    inicio = min(df_public['Ano'])
    final  = max(df_public['Ano'])
    
    total_artigos=len(df_public.index)
    print(f'Carregadas {total_artigos} publicações de artigos de docentes do programa no período de {inicio} a {final}...') 
    
    return df_public


def similares(lista_autores, lista_grupo, limite_jarowinkler, distancia_levenshtein, lista_extra):
    """Função para aplicar padronização no nome de autor da lista de pesquisadores e buscar similaridade na lista de coautores
     Recebe: Lista de pesquisadores do grupo em análise gerada pela lista de nomes dos coautores das publicações em análise
    Utiliza: get_jaro_distance(), editdistance()
    Retorna: Lista de autores com fusão de nomes cuja similaridade esteja dentro dos limites definidos nesta função
      Autor: Marcos Aires (Fev.2022)
      
    Refazer: Inserir crítica de, mantendo sequência ordem alfabética, retornar no final nome mais extenso em caso de similaridade;
    """
    from pyjarowinkler.distance import get_jaro_distance
    from IPython.display import clear_output
    import editdistance
    import numpy as np
    import time
    
    t0=time.time()
    
    # limite_jarowinkler=0.85
    # distancia_levenshtein=6
    similares_jwl=[]
    similares_regras=[]
    similares=[]
    tempos=[]
    
    count=0
    t1=time.time()
    for i in lista_autores:
        count+=1
        if count > 0:
            tp=time.time()-t1
            tmed=tp/count*2
            tempos.append(tp)
        # print("Analisar similaridades com: ", nome_padronizado)
        
        count1=0
        for nome in lista_autores:
            if count1 > 0:
                resta=len(lista_autores)-count
                print(f'Analisando {count1:3}/{len(lista_autores)} resta analisar {resta:3} nomes. Previsão de término em {np.round(tmed*resta/60,1)} minutos')
            else:
                print(f'Analisando {count1:3}/{len(lista_autores)} resta analisar {len(lista_autores)-count1} nomes.')
            
            t2=time.time()
            count1+=1            

            try:
                similaridade_jarowinkler = get_jaro_distance(i, nome)
                print(f'{i:40} | {nome:40} | Jaro-Winkler: {np.round(similaridade_jarowinkler,2):4} Levenshtein: {editdistance.eval(i, nome)}')
                similaridade_levenshtein = editdistance.eval(i, nome)

                # inferir similaridade para nomes que estejam acima do limite ponderado definido, mas não idênticos e não muito distantes em edição
                if  similaridade_jarowinkler > limite_jarowinkler and similaridade_jarowinkler!=1 and similaridade_levenshtein < distancia_levenshtein:
                    # Crítica no nome mais extenso como destino no par (origem, destino)
                    
                    similares_jwl.append((i,nome))

            except:
                pass

            clear_output(wait=True)
    
    # Conjunto de regras de validação de similaridade
    # Monta uma lista de nomes a serem retirados antes de montar a lista de troca
    trocar=[]
    retirar=[]
    for i in similares_jwl:
        sobrenome_i = i[0].split(',')[0]
        sobrenome_j = i[1].split(',')[0]

        try:
            iniciais_i  = iniciais_nome(i[0]).split(',')[1].strip()
        except:
            iniciais_i  = ''

        try:
            iniciais_j  = iniciais_nome(i[1]).split(',')[1].strip()
        except:
            iniciais_j  = ''

        try:
            primnome_i = i[0].split(',')[1].strip().split(' ')[0].strip()
        except:
            primnome_i = ''

        try:
            primnome_j = i[1].split(',')[1].strip().split(' ')[0].strip()
        except:
            primnome_j = ''    

        try:
            inicial_i = i[0].split(',')[1].strip()[0]
        except:
            inicial_i = ''

        try:
            resto_i   = i[0].split(',')[1].strip().split(' ')[0][1:]
        except:
            resto_i   = ''

        try:
            inicial_j = i[1].split(',')[1].strip()[0]
        except:
            inicial_j = ''

        try:
            resto_j   = i[1].split(',')[1].strip().split(' ')[0][1:]
        except:
            resto_j = ''

        # Se a distância de edição entre os sobrenomes
        if editdistance.eval(sobrenome_i, sobrenome_j) > 2 or inicial_i!=inicial_j:
            retirar.append(i)
        else:
            if primnome_i!=primnome_j and len(primnome_i)>1:
                retirar.append(i)
            if primnome_i!=primnome_j and len(primnome_i)>1 and len(primnome_j)>1:
                retirar.append(i)
            if resto_i!=resto_j and resto_i!='':
                retirar.append(i)
            if len(i[1]) < len(i[0]):
                retirar.append(i)
            if len(iniciais_i) != len(iniciais_j):
                retirar.append(i)

    for i in similares_jwl:
        if i not in retirar:
            trocar.append(i)

        if iniciais_nome(i[0]) in iniciais_nome(i[1]) and len(i[0]) < len(i[1]):
            trocar.append(i)

        if iniciais_nome(i[0]) == iniciais_nome(i[1]) and len(i[0]) < len(i[1]):
             trocar.append(i)
    
    trocar=trocar+lista_extra
    trocar.sort()
    
    return trocar



def extrair_variantes(df_dadosgrupo):
    ''' Utiliza campo de Nome em Citações do currículo como filtro para obter variantes do nome de cada membro
     Recebe: Dataframe com os dados brutos do grupo de pesquisa agrupados; lista de nomes de pesquisadores de interesse
    Retorna: Lista de tuplas com pares a serem trocados da variante pelo nome padronizado na forma (origem, destino)
    '''
    filtro1   = 'Nome'
    lista_nomes = df_dadosgrupo[(df_dadosgrupo.ROTULOS == filtro1)]['CONTEUDOS'].values

    variantes=[]
    filtro='Nome em citações bibliográficas'
    variantes=df_dadosgrupo[(df_dadosgrupo.ROTULOS == filtro)]['CONTEUDOS'].to_list()

    trocar=[]
    for j in range(len(variantes)):
        padrao_destino = padronizar_nome(lista_nomes[j])
        trocar.append((lista_nomes[j], padrao_destino))
        for k in variantes[j]:
            padrao_origem = padronizar_nome(k)
            trocar.append((k, padrao_destino))
            trocar.append((padrao_origem, padrao_destino))
    
    return trocar

def tempo(start, end):
    t=end-start

    tempo = timedelta(
        weeks   = t//(3600*24*7),
        days    = t//(3600*24),
        seconds = t,
        minutes = t//(60),
        hours   = t//(3600),
        microseconds=t//1000000,
        )
    fmt='{H:2}:{M:02}:{S:02}'
    return strfdelta(tempo)


def horas(segundos): 
    return time.strftime("%H:%M:%S", time.gmtime(segundos)) 


def dias_horas_minutos(td):
    x = (td.days, td.seconds//3600, (td.seconds//60)%60, td.seconds)
    return x #(days, hrs, mins, seconds)


def strfdelta(tdelta, fmt='{H:02}h {M:02}m {S:02}s', inputtype='timedelta'):
    """Convert a datetime.timedelta object or a regular number to a custom-formatted string, 
    just like the stftime() method does for datetime.datetime objects.

    The fmt argument allows custom formatting to be specified.  Fields can 
    include seconds, minutes, hours, days, and weeks.  Each field is optional.

    Some examples:
        '{D:02}d {H:02}h {M:02}m {S:02}s' --> '05d 08h 04m 02s' (default)
        '{W}w {D}d {H}:{M:02}:{S:02}'     --> '4w 5d 8:04:02'
        '{D:2}d {H:2}:{M:02}:{S:02}'      --> ' 5d  8:04:02'
        '{H}h {S}s'                       --> '72h 800s'

    The inputtype argument allows tdelta to be a regular number instead of the  
    default, which is a datetime.timedelta object.  Valid inputtype strings: 
        's', 'seconds', 
        'm', 'minutes', 
        'h', 'hours', 
        'd', 'days', 
        'w', 'weeks'
    """

    # Convert tdelta to integer seconds.
    if inputtype == 'timedelta':
        remainder = int(tdelta.total_seconds())
    elif inputtype in ['s', 'seconds']:
        remainder = int(tdelta)
    elif inputtype in ['m', 'minutes']:
        remainder = int(tdelta)*60
    elif inputtype in ['h', 'hours']:
        remainder = int(tdelta)*3600
    elif inputtype in ['d', 'days']:
        remainder = int(tdelta)*86400
    elif inputtype in ['w', 'weeks']:
        remainder = int(tdelta)*604800

    f = Formatter()
    desired_fields = [field_tuple[1] for field_tuple in f.parse(fmt)]
    possible_fields = ('W', 'D', 'H', 'M', 'S')
    constants = {'W': 604800, 'D': 86400, 'H': 3600, 'M': 60, 'S': 1}
    values = {}
    
    for field in possible_fields:
        if field in desired_fields and field in constants:
            values[field], remainder = divmod(remainder, constants[field])
    
    return f.format(fmt, **values)


# print (timedelta(days=365, hours=8, minutes=15))
# print ("   Hoje é: " + str(date.today()))
# print ("Agora são: " + str(datetime.now()))
# print ("Um ano no futuro estaremos em:" + str(dt.today() + timedelta(days=365)))
# hoje = date.today()
# print(hoje)
# hora = dt.now()
# print(hora)
# dias_ano = date(hoje.year, 1, 1)
# if dias_ano < hoje:
#     print ("Decoridos %d dias do ano" % ((hoje - dias_ano).days))
    
# from datetime import datetime
# now= datetime.now() #get the current date and time

# #%c - local date and time, %x-local's date, %X- local's time
# print(now.strftime("%c"))
# print(now.strftime("%x"))
# print(now.strftime("%X"))

# ##### Time Formatting ####
# #%I/%H - 12/24 Hour, %M - minute, %S - second, %p - local's AM/PM
# print(now.strftime("%I:%M:%S %p")) # 12-Hour:Minute:Second:AM
# print(now.strftime("%H:%M")) # 24-Hour:Minute

### Execução

In [None]:
lista_csv = ler_pastacsv()
df_prod = montardf_producao(lista_csv)
df_prod

In [None]:

print('Sendo:')
lista_titulos = pd.Series(df_prod['TITULO'].values).unique().tolist()
print(f'{len(lista_titulos)} artigos distintos publicados no período')
lista_revistas = pd.Series(df_prod['REVISTA'].values).unique().tolist()
print(f'{len(lista_revistas)} revistas distintas utilizadas no período')
lista_docentes = ler_lista_docentes()
lista_orientadores, lista_discentes = ler_lista_orientacoes()

In [None]:
df_prod[:3]

In [None]:
sobrenome, partenome1, partenome2, partenome3 = quebrar_partesnomes('FARIA, N. R')
indices_achados=[]
qte_achados_artigo=0
for n,i in enumerate(df_prod['AUTORES'].tolist()):
    lista_autores  = i.replace('Autores: ','').lower()

    ## Buscar pelos nomes de autor em cada linha de autores de artigo
    busca_autor = pesquisar_partes(sobrenome, partenome1, partenome2, partenome3)
    achar = re.search(busca_autor, lista_autores)
    print(achar)

### Busca por discentes dentre os autores

In [None]:
import time
t1 = time.time()

indices_discente=[]
indices_docente=[]
nomes_discentes={}
nomes_docentes={}
for m,discente in enumerate(lista_discentes):
    qte_discentes=len(lista_discentes)
    clear_output(wait=True)
    
    ## Buscar por sobrenome seguido de partes de nomes abreviados em suas iniciais
    sobrenome, partenome1, partenome2, partenome3 = quebrar_iniciais(discente)
    lista_indice_discente = buscar_padrao(sobrenome, partenome1, partenome2, partenome3)
    if lista_indice_discente != []:
        nomes_discentes[m] = (discente, lista_indice_discente)
    
    ## Buscar por sobrenome seguido partes de nomes sem abreviaturas por iniciais
    sobrenome, partenome1, partenome2, partenome3 = quebrar_partesnomes(discente)
    lista_indice_discente = buscar_padrao(sobrenome, partenome1, partenome2, partenome3)
    if lista_indice_discente != [] and lista_indice_discente not in indices_discente:
        nomes_discentes[m] = (discente, lista_indice_discente)
    
    tdec=time.time()-t1
    tres=tdec/(m+1)*(qte_discentes-m)
    print(f'Buscado discente: {discente.title():40} registro {m+1:4}/{qte_discentes:4}, buscados {m+1:4} em {horas(tdec)}, resta {qte_discentes-m}')
    
    

for m,docente in enumerate(lista_docentes):
    qte_docentes=len(lista_docentes)
    clear_output(wait=True)
    
    ## Buscar por sobrenome seguido de partes de nomes abreviados em suas iniciais
    sobrenome, partenome1, partenome2, partenome3 = quebrar_iniciais(docente)
    lista_indice_docente = buscar_padrao(sobrenome, partenome1, partenome2, partenome3)
    if lista_indice_docente != []:
        nomes_docentes[m] = (docente, lista_indice_docente)
    
    ## Buscar por sobrenome seguido partes de nomes sem abreviaturas por iniciais
    sobrenome, partenome1, partenome2, partenome3 = quebrar_partesnomes(docente)
    lista_indice_docente = buscar_padrao(sobrenome, partenome1, partenome2, partenome3)
    if lista_indice_docente != [] and lista_indice_docente not in indices_docente:
        nomes_docentes[m] = (docente, lista_indice_docente)

    tdec=time.time()-t1
    tres=tdec/(m+1)*(qte_docentes-m)
    print(f'Buscado  docente: {docente.title():40} registro {m+1:4}/{qte_docentes:4}, buscados {m+1:4} em {horas(tdec)}, resta {qte_docentes-m}')
    
t2=time.time()
tempo(t1,t2)

In [None]:
df_participacao_discente = pd.DataFrame(nomes_discentes).T
df_participacao_discente.columns = ['DISCENTE','INDICES_ARTIGOS']
df_participacao_discente['CONTAGEM_COAUTORIAS'] = [len(x) for x in df_participacao_discente['INDICES_ARTIGOS']]

df_participacao_docente = pd.DataFrame(nomes_docentes).T
df_participacao_docente.columns = ['DOCENTE','INDICES_ARTIGOS']
df_participacao_docente['CONTAGEM_COAUTORIAS'] = [len(x) for x in df_participacao_docente['INDICES_ARTIGOS']]

In [None]:
# for i,d in zip(df_participacao_docente['INDICES_ARTIGOS'],df_participacao_docente['DOCENTE']):
#     for n in i:
        

In [None]:
df_participacao_docente

In [None]:
df_participacao_discente

In [None]:
artigos_com_docentes=[]
for m in df_participacao_docente['INDICES_ARTIGOS']:
    for n in m:
        if n not in artigos_com_docentes:
            artigos_com_docentes.append(n)
print(len(artigos_com_docentes))    
artigos_com_docentes.sort()

In [None]:
artigos_com_discentes=[]
for m in df_participacao_discente['INDICES_ARTIGOS']:
    for n in m:
        if n not in artigos_com_discentes:
            artigos_com_discentes.append(n)
    
artigos_com_discentes.sort()
print(len(artigos_com_discentes))

In [None]:
lista_semparticipacaodiscente=[]
for i in range(len(df_prod.index)):
    if i not in lista_participacaodiscente:
        lista_semparticipacaodiscente.append(i)

In [None]:
len(lista_semparticipacaodiscente)/len(df_prod.index)

In [None]:
len(lista_participacaodocente)/len(df_prod.index)

In [None]:
docentes_unificada=[]
indices_docentes_unificados=[]
for i,j in zip(nomes_discentes,indices_discente):
    print(f'{i:25} | {j}')

In [None]:
# indices_discente

In [None]:
# indices_docente

In [None]:
docentes_autores = pd.Series(nomes_docentes).unique()
docentes_autores.sort()
indices_com_docente = pd.Series(indices_docente).unique()
indices_com_docente.sort()
print(f'{len(docentes_autores)} docentes aparecem como autores em {len(indices_com_docente)} artigos distintos')

discente_autores = pd.Series(nomes_discentes).unique()
discente_autores.sort()
indices_com_discente = pd.Series(indices_discente).unique()
indices_com_discente.sort()
print(f'{len(discente_autores)} discentes aparecem como autores em {len(indices_com_discente)} artigos distintos')

In [None]:
# indices_com_discente

In [None]:
# indices_com_docente

In [None]:
df_discente_achados = pd.DataFrame({
    'di': pd.Series(indices_discente),
    'DISCENTE': pd.Series(nomes_discentes),
})
df_discente_achados = df_discente_achados.sort_values('di')
df_discente_achados.reset_index(inplace=True, drop=True)
df_artigos_discentes = df_discente_achados.groupby(['di'], as_index=False, sort=False).agg('; '.join)

df_docente_achados = pd.DataFrame({
    'do': pd.Series(indices_docente),
    'DOCENTE': pd.Series(nomes_docentes),
})
df_docente_achados = df_docente_achados.sort_values('do')
df_docente_achados.reset_index(inplace=True, drop=True)
df_artigos_docentes = df_docente_achados.groupby(['do'], as_index=False, sort=False).agg('; '.join)

In [None]:
df_producao_docentes = pd.merge(df_prod, df_artigos_docentes,  left_index=True, right_on='do')
df_producao_docentes

In [None]:
lista_artigos_docentes = []
coautorias_docentes=[]
for i,j in zip(indices_docente, nomes_docentes):
    # print(f'{i:3} {j}')
    if i not in lista_artigos_docentes:
        lista_artigos_docentes.append(j)
    else:
        pass
        # lista_artigos_docentes.extend(j)

In [None]:
# import pandas library
import pandas as pd
  
# dictionary with dictionary object in values i.e. nested dictionary
details = { 
    0 : {
        'Name' : 'Ankit',
        'Age' : 22,
        'University' : 'BHU'
        },
    1 : {
        'Name' : 'Aishwarya',
        'Age' : 21,
        'University' : 'JNU'
        },
    2 : {
        'Name' : 'Shaurya',
        'Age' : 23,
        'University' : 'DU'
        }
}
  
# creating a Dataframe object from nested dictionary
# in which inside dictionary key is act as index value
# and column value is 0, 1, 2...
df = pd.DataFrame(details)
  
# swap the columns with indexes
df = df.transpose()
  
df

In [None]:
# df_docentes = montardf_docentes_permanentes_colaboradores()

In [None]:
# df_orientacoes = montardf_orientacoes()