# Criando rede de coautores
Esse notebook contém o código para criar a rede de coautores a partir da base de dados dos currículos dos
pesquisadores da área de Matemática.

Na rede, cada pesquisador é um nó e as arestas representam o fato de dois pesquisadores já terem publicados
pelo menos um artigo em conjunto. A espessura da aresta representa a quantidade de publicações conjuntas.
Note que a rede é não direcional, não importando a ordem de autoria.
Para a construção da rede, consideraram-se somente os artigos publicados em periódicos.

A metodologia implementada para a criação da rede consiste em iterar por cada pesquisador, comparando-o com
os demais de forma a encontrar um trabalho em comum. Para identificar se há artigo escrito em conjunto,
os nomes dos coautores do pesquisador será comparado com o campo "NOME-EM-CITACOES-BIBLIOGRAFICAS"
do outro pesquisador. Caso algum dos nomes seja igual, será estabelecida uma conexão.

É possível que hajam erros nos nomes dos coautores apontados por cada pesquisador, assim, para
buscar reduzir erros por conta de erros de escrita, iremos em seguida buscar pelo nome dos artigos
publicados e ano de publicação. Iremos introduzir um "flag" nesses casos, para verificar manualmente se de fato a
conexão estabelecida entre os pesquisadores está correta. Caso apareçam muitos falsos positivos,
iremos buscar uma outra chave mais restrita, como adicionar o nome da revista em que foi publicado.

Uma vez definidos os pesquisadores conectados, iremos realizar a contagem dos trabalhos conjuntos,
para assim estabelecer a espessura das arestas da rede.

Formato para a base de geração dos grafos:
Lista de Arestas
Pesquisador A | Pesquisador B | Qtd de Trabalhos Juntos


*Foram considerados os currículos indexados na plataforma do Currículo Lattes com área igual a "Matemática",
"Probabilidade e Estatística" ou "Ciência da Computação".*

In [113]:
import zipfile
import json
import xmltodict
import os
from collections import Counter

In [212]:
zips = ['./dados/6383153340652483.zip','./dados/4606011420762986.zip']
cvs  = []
for cvzip in zips:
# cvzip   =  './dados/6383153340652483.zip' # Elon Lages Lima
# cvzip   =  './dados/4606011420762986.zip' # Manfredo do Carmo
# cvzip   =  './dados/2659398455245324.zip' # Eduardo Mendes
    archive = zipfile.ZipFile(cvzip, 'r')
    cv      = archive.read('curriculo.xml')
    cv      = xmltodict.parse(cv)
    cvs.append(cv)

In [218]:
Check_Link(cvs[0],cvs[1])

['6383153340652483', '4606011420762986']

In [217]:
def Get_Coautores(cv):
    coautores = []
    for artigo in cv['CURRICULO-VITAE']['PRODUCAO-BIBLIOGRAFICA']['ARTIGOS-PUBLICADOS']['ARTIGO-PUBLICADO']: 
        if list == type(artigo['AUTORES']):
            for i,autor in enumerate(artigo['AUTORES']):
                coautor = autor['@NOME-PARA-CITACAO'].lower()
                coautores.append(coautor)
        else:
            coautor = artigo['AUTORES']['@NOME-PARA-CITACAO'].lower()
            coautores.append(coautor)
    coautores = dict(Counter(coautores))
    return coautores

def Check_Link(cv1,cv2):
    coautores = Get_Coautores(cv1)
    autor_check = cv2['CURRICULO-VITAE']['DADOS-GERAIS']['@NOME-EM-CITACOES-BIBLIOGRAFICAS'].lower().split(';')
    if bool(set(coautores.keys()).intersection(autor_check)):
        return [cv1['CURRICULO-VITAE']['@NUMERO-IDENTIFICADOR'],
                cv2['CURRICULO-VITAE']['@NUMERO-IDENTIFICADOR']]
    else:
        return ['']
    

In [46]:
# os.listdir('./dados/')