In [76]:
p_storage_dir = "../../storage"
p_notebooks_root = None

In [77]:
if p_notebooks_root is not None:
    import os
    os.chdir(p_notebooks_root)

In [78]:
import pandas as pd
import numpy as np
from pathlib import Path

IFG_PRODUZ_STORAGE_DIR = Path(f"{p_storage_dir}/ifg_produz")

## Produção Bibliográfica

In [79]:
producao_bibliografica = pd.read_csv(IFG_PRODUZ_STORAGE_DIR / "extracted/producaobibliografica.csv", delimiter=";")

producao_bibliografica.head(n=5)

Unnamed: 0,id_producao,doi_producao,natureza,ano_producao,idioma,tipo,titulo_producao,classificacao_do_evento,meio_divulgacao,tipo_producao,id_conferencia_id,id_curriculo_id,id_revista_id,nome_pdf
0,1,10.22149/teee.v2i1.80,COMPLETO,2016,Inglês,,Metric for Calculation of System Complexity ba...,,MEIO_DIGITAL,1,1,1,2,
1,2,10.22149/teee.v2i1.89,COMPLETO,2016,Português,,Calculation of the influence of slot geometry ...,,MEIO_DIGITAL,1,1,1,2,
2,3,10.22149/teee.v2i2.105,COMPLETO,2017,Português,,Proposal of heuristic regression method applie...,,MEIO_DIGITAL,1,1,1,2,
3,4,10.1155/2019/1303241,COMPLETO,2019,Inglês,,Mechanism for Measuring System Complexity Appl...,,MEIO_DIGITAL,1,1,1,4,
4,5,10.22149/teee.v2i2.99,COMPLETO,2017,Português,,Analysis and monitoring of electrical groundin...,,MEIO_DIGITAL,1,1,1,2,


In [80]:
producao_bibliografica = producao_bibliografica.rename(columns={
    'id_producao': 'codigo',
    'ano_producao': 'ano',
    'titulo_producao': 'titulo',
    'id_conferencia_id': 'codigo_conferencia',
    'id_curriculo_id': 'codigo_curriculo',
    'id_revista_id': 'codigo_revista'
})

producao_bibliografica.sample(n=5)

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,tipo_producao,codigo_conferencia,codigo_curriculo,codigo_revista,nome_pdf
9030,9028,,,2018,Português,Capítulo de livro publicado,Pesquisa educacional na formação e na prática ...,,MEIO_DIGITAL,5,1,809,1,
8867,8865,10.22533/at.ed.04819091019,,2019,Português,Capítulo de livro publicado,QUANDO O BALÉ FALA DE SI MESMO: O SUSPIRO DE V...,,MEIO_DIGITAL,5,1,802,1,
22142,22260,,COMPLETO,2010,Português,,A educação infantil e participação da família ...,REGIONAL,MEIO_DIGITAL,3,1,1801,1,
5672,5665,,RESUMO,2018,Português,,ACÚMULO DE SERAPILHEIRA EM DIFERENTES FISIONOM...,REGIONAL,MEIO_DIGITAL,2,1,506,1,
22920,22919,,TEXTO_INTEGRAL,2018,Português,LIVRO_PUBLICADO,Modelagem de Incertezas em Sistemas de Aterram...,,IMPRESSO,4,1,48,1,


### Análise das colunas 'tipo' e 'tipo_produção'

In [81]:
producao_bibliografica['tipo'].unique()

array([nan, 'LIVRO_PUBLICADO', 'Capítulo de livro publicado',
       'LIVRO_ORGANIZADO_OU_EDICAO'], dtype=object)

A coluna 'tipo' possui dados válidos, o único tratamento que será feito é a renomeação de um valor para ficar no padrão dos outros, com letras maíusculas, sem acentos e com underline no lugar dos espaços.

In [82]:
cap_livro_irregular_indexes = producao_bibliografica[producao_bibliografica['tipo'] == 'Capítulo de livro publicado'].index

In [83]:
producao_bibliografica.loc[cap_livro_irregular_indexes, 'tipo'] = 'CAPITULO_DE_LIVRO_PUBLICADO'

In [84]:
producao_bibliografica['tipo'].unique()

array([nan, 'LIVRO_PUBLICADO', 'CAPITULO_DE_LIVRO_PUBLICADO',
       'LIVRO_ORGANIZADO_OU_EDICAO'], dtype=object)

---

In [85]:
producao_bibliografica['tipo_producao'].unique()

array([1, 3, 2, 4, 5])

A coluna 'tipo_producao' possui dados que aparentam ser chaves estrangeiras, entretanto analisando o DER não é possível encontrar nenhuma referência que possa nos dar alguma informação útil de que representam os números utilizados nessa coluna, por isso a coluna será removida do dataset.

In [86]:
producao_bibliografica = producao_bibliografica.drop(columns=['tipo_producao'])

producao_bibliografica.sample(n=5)

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,codigo_conferencia,codigo_curriculo,codigo_revista,nome_pdf
19689,19687,,COMPLETO,2012,Inglês,,Genetic evidence of population structuring in ...,INTERNACIONAL,NAO_INFORMADO,1,1617,1,
22942,22941,,,2021,Português,CAPITULO_DE_LIVRO_PUBLICADO,Flores do Cerrado: relações de trabalho e gêne...,,VARIOS,1,200,1,
7827,7823,,RESUMO_EXPANDIDO,2017,Português,,Proposta de metodologia para aumento da efetiv...,LOCAL,MEIO_DIGITAL,1,709,1,
2455,2444,10.1109/chilecon.2017.8229727,COMPLETO,2017,Português,,Optimizing of the insertion of distributed gen...,INTERNACIONAL,NAO_INFORMADO,1,219,1,
1721,1713,,RESUMO,2007,Português,,Promovendo a Sexualidade Saudável: Trabalhando...,REGIONAL,NAO_INFORMADO,1,152,1,


### Tratamento das colunas com valores categóricos

In [87]:
from replacer import replace_na_repr_with_nan

In [88]:
producao_bibliografica['natureza'].unique()

array(['COMPLETO', 'RESUMO', 'TEXTO_INTEGRAL', nan, 'RESUMO_EXPANDIDO',
       'NAO_INFORMADO', 'OUTRA', 'COLETANEA', 'LIVRO', 'ANAIS', 'VERBETE',
       'CATALOGO'], dtype=object)

In [89]:
producao_bibliografica = replace_na_repr_with_nan(producao_bibliografica, 'NAO_INFORMADO', 'natureza')

In [90]:
producao_bibliografica['idioma'].unique()

array(['Inglês', 'Português', 'Bretão', 'Galego', 'Espanhol', 'Italiano',
       'Malgaxe', 'Outros', 'Francês', 'Russo', 'Abhkazian', 'Albanês',
       'Afar', 'Afrikaans', 'Maltês', 'Alemão', 'Árabe', 'Oria', 'Aimara'],
      dtype=object)

In [91]:
producao_bibliografica['classificacao_do_evento'].unique()

array([nan, 'NACIONAL', 'INTERNACIONAL', 'LOCAL', 'NAO_INFORMADO',
       'REGIONAL'], dtype=object)

In [92]:
producao_bibliografica = replace_na_repr_with_nan(producao_bibliografica, 'NAO_INFORMADO', 'classificacao_do_evento')

In [93]:
producao_bibliografica['meio_divulgacao'].unique()

array(['MEIO_DIGITAL', 'VARIOS', 'NAO_INFORMADO', 'IMPRESSO',
       'MEIO_MAGNETICO', 'OUTRO', 'FILME', 'HIPERTEXTO'], dtype=object)

In [94]:
producao_bibliografica = replace_na_repr_with_nan(producao_bibliografica, 'NAO_INFORMADO', 'meio_divulgacao')

In [95]:
if producao_bibliografica['nome_pdf'].isna().all():
    producao_bibliografica = producao_bibliografica.drop(columns='nome_pdf')

In [96]:
producao_bibliografica.sample(5)

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,codigo_conferencia,codigo_curriculo,codigo_revista
1283,1280,,,2018,Português,CAPITULO_DE_LIVRO_PUBLICADO,Infográficos para Visualização das Práticas de...,,MEIO_DIGITAL,1,110,1
17077,17073,,RESUMO_EXPANDIDO,2008,Português,,Buscando Soluções para as Dificuldades no Ensi...,REGIONAL,MEIO_DIGITAL,1,1448,1
14198,14196,,COMPLETO,2009,Português,,"Um profeta relevante, ontem e hoje",,MEIO_DIGITAL,1,1210,14995
11369,11366,,COMPLETO,2016,Português,,O PIBID e vestibular social atuando na formaçã...,NACIONAL,MEIO_DIGITAL,1,998,1
8980,8977,10.1109/EEEIC.2018.8494564,COMPLETO,2018,Português,,Analysis of Wind Loading on Photovoltaic Panel...,INTERNACIONAL,,1,808,1


## Conferência

In [97]:
conferencia = pd.read_csv(IFG_PRODUZ_STORAGE_DIR / "extracted/conferencia.csv", delimiter=";")

conferencia.head(n=5)

Unnamed: 0,id_conferencia,sigla,titulo_conferencia,qualis
0,1,vazio,vazio,vazio
1,2,AAAI,Conference on Artificial Intelligence,A1
2,3,AAMAS,International Conference on Autonomous Agents ...,A1
3,4,ACL,Annual Meeting of the Association for Computat...,A1
4,5,SoCC,ACM Symposium on Cloud Computing,A1


In [98]:
conferencia = conferencia.rename(columns={
    'id_conferencia': 'codigo',
    'titulo_conferencia': 'nome',
})

### Tratando os valores nulos

In [99]:
conferencia.head()

Unnamed: 0,codigo,sigla,nome,qualis
0,1,vazio,vazio,vazio
1,2,AAAI,Conference on Artificial Intelligence,A1
2,3,AAMAS,International Conference on Autonomous Agents ...,A1
3,4,ACL,Annual Meeting of the Association for Computat...,A1
4,5,SoCC,ACM Symposium on Cloud Computing,A1


In [100]:
idx_nulos_conferencia = list(conferencia[(conferencia['sigla'] == 'vazio') | 
                     (conferencia['nome'] == 'vazio') | (conferencia['qualis'] == 'vazio')].index)

cod_conferencias_nulas = list(conferencia.iloc[idx_nulos_conferencia]['codigo'])

In [101]:
conferencia = conferencia.drop(idx_nulos_conferencia)

### Verificar se os valores das colunas "código" e "nome" são únicos

In [102]:
# Quantidade de linhas do dataset
conferencia.shape[0]

1172

In [103]:
conferencia['codigo'].nunique()

1172

In [104]:
conferencia['nome'].nunique()

1172

In [105]:
conferencia.isna().any()

codigo    False
sigla     False
nome      False
qualis    False
dtype: bool

In [106]:
list(conferencia.columns)

['codigo', 'sigla', 'nome', 'qualis']

## Revista

In [107]:
revista = pd.read_csv(IFG_PRODUZ_STORAGE_DIR / "extracted/revista.csv", delimiter=";")

revista.head(n=5)

Unnamed: 0,id_revista,nome_revista,qualificacao,area_de_atuacao,issn
0,1,vazio,vazio,vazio,vazio
1,2,TRANSACTIONS ON ENVIRONMENT AND ELECTRICAL ENG...,B5,ENGENHARIAS IV ...,2450-5730
2,3,TRANSACTIONS ON ENVIRONMENT AND ELECTRICAL ENG...,B5,INTERDISCIPLINAR ...,2450-5730
3,4,"COMPLEXITY (NEW YORK, N.Y.)",A1,SAÚDE COLETIVA ...,1076-2787
4,5,"COMPLEXITY (NEW YORK, N.Y.)",B1,EDUCAÇÃO FÍSICA ...,1076-2787


In [108]:
revista = revista.rename(columns={
    'id_revista': 'codigo',
    'nome_revista': 'nome',
})

### Tratando os valores nulos

In [109]:
idx_nulos_revista = list(revista[(revista['nome'] == 'vazio') | (revista['qualificacao'] == 'vazio') |
                     (revista['area_de_atuacao'] == 'vazio') | (revista['issn'] == 'vazio')].index)

cod_revistas_nulas = list(revista.iloc[idx_nulos_revista]['codigo'])

In [110]:
revista = revista.drop(idx_nulos_revista)

In [111]:
revista.head()

Unnamed: 0,codigo,nome,qualificacao,area_de_atuacao,issn
1,2,TRANSACTIONS ON ENVIRONMENT AND ELECTRICAL ENG...,B5,ENGENHARIAS IV ...,2450-5730
2,3,TRANSACTIONS ON ENVIRONMENT AND ELECTRICAL ENG...,B5,INTERDISCIPLINAR ...,2450-5730
3,4,"COMPLEXITY (NEW YORK, N.Y.)",A1,SAÚDE COLETIVA ...,1076-2787
4,5,"COMPLEXITY (NEW YORK, N.Y.)",B1,EDUCAÇÃO FÍSICA ...,1076-2787
5,6,"COMPLEXITY (NEW YORK, N.Y.)",B1,ENGENHARIAS IV ...,1076-2787


In [112]:
revista['area_de_atuacao'].head()

1    ENGENHARIAS IV                                ...
2    INTERDISCIPLINAR                              ...
3    SAÚDE COLETIVA                                ...
4    EDUCAÇÃO FÍSICA                               ...
5    ENGENHARIAS IV                                ...
Name: area_de_atuacao, dtype: object

In [113]:
revista['area_de_atuacao'] = revista['area_de_atuacao'].str.strip()

In [114]:
revista['area_de_atuacao'].head()

1      ENGENHARIAS IV
2    INTERDISCIPLINAR
3      SAÚDE COLETIVA
4     EDUCAÇÃO FÍSICA
5      ENGENHARIAS IV
Name: area_de_atuacao, dtype: object

In [115]:
revista.sample(n=5)

Unnamed: 0,codigo,nome,qualificacao,area_de_atuacao,issn
15550,15543,BRAZILIAN JOURNAL OF CHEMICAL ENGINEERING (IMP...,B2,BIOTECNOLOGIA,0104-6632
4541,4532,"Physical Review. B, Condensed Matter and Mater...",A2,ECONOMIA,1098-0121
17271,17240,REVISTA KAIRÓS,B2,SERVIÇO SOCIAL,1516-2567
12997,12983,REVISTA DE NUTRIÇÃO,B3,MEDICINA II,1678-9865
5509,5496,REVISTA LUGARES DE EDUCAÇÃO,B1,ENSINO,2237-1451


In [116]:
revista.isna().any()

codigo             False
nome               False
qualificacao       False
area_de_atuacao    False
issn               False
dtype: bool

In [117]:
list(revista.columns)

['codigo', 'nome', 'qualificacao', 'area_de_atuacao', 'issn']

## Correções no dataset de Produção Bibliográfica

### Substituição por NaN onde o código da conferência referenciar um registro nulo

Como visto no tratamento feito acima no dataset de *Conferência* todas as conferências que tiverem códigos específicos na verdade é onde o dado está ausente, logo deve ser substituído por NaN para ficar coerente no Neo4j.

In [118]:
from replacer import replace_na_repr_with_nan

In [119]:
producao_bibliografica = replace_na_repr_with_nan(producao_bibliografica, cod_conferencias_nulas, 'codigo_conferencia')

In [120]:
producao_bibliografica[producao_bibliografica['codigo_conferencia'] == 13]

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,codigo_conferencia,codigo_curriculo,codigo_revista
3638,3627,10.1109/CEC.2013.6557683,COMPLETO,2013,Inglês,,Multi-objective evolutionary algorithm for var...,INTERNACIONAL,MEIO_DIGITAL,13,330,1
7104,7100,10.1109/cec.2017.7969585,COMPLETO,2017,Português,,Integer-based genetic algorithm for feature se...,INTERNACIONAL,,13,644,1


In [121]:
producao_bibliografica[producao_bibliografica['codigo_conferencia'] == 1]

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,codigo_conferencia,codigo_curriculo,codigo_revista


In [122]:
producao_bibliografica['codigo_conferencia'].unique()

<IntegerArray>
[<NA>,  418,  939,  313,  692,  917,  968, 1127,  289,  590,  394,  708, 1018,
  904,  910,  310, 1022, 1012,  221,   63,  382,  164,   75,  201,   13,  627,
 1136,  639,  916,  895,  737,  253,  676,  647,  475,  723,  824,  680,  903,
 1168,  912,  748,  819,  682,  980, 1077,  924,  883,  378,  826,  859,  345,
  775,  732, 1024,  866,  773,  541,  701, 1093,   98,   16,  829, 1062,  907,
  269,   92,  107,   93,  652,  148,  864,  803,   65,  465,  539,  400,  184,
  615,  926,  976,  966,  174,   86,  786,  170, 1155,  967,  186,  979, 1078,
 1044,  563,  147,  999,  640,  277,  683,  326,  220]
Length: 100, dtype: Int64

### Substituição por NaN onde o código da revista referenciar um registro nulo

Como visto no tratamento feito abaixo no dataset de *Revista* todas as conferências que tiverem códigos específicos na verdade é onde o dado está ausente, logo deve ser substituído por NaN para ficar coerente no Neo4j.

In [123]:
producao_bibliografica = replace_na_repr_with_nan(producao_bibliografica, cod_revistas_nulas, 'codigo_revista')

In [124]:
producao_bibliografica['codigo_revista'].unique()

<IntegerArray>
[    2,     4,  <NA>,     8,    21,    40,    54,   111,   116,   122,
 ...
 20372, 20373, 20394, 20395, 20419, 20441, 20450, 20459, 20460, 20467]
Length: 1884, dtype: Int64

In [125]:
producao_bibliografica[producao_bibliografica['codigo_revista'] == 2]

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,codigo_conferencia,codigo_curriculo,codigo_revista
0,1,10.22149/teee.v2i1.80,COMPLETO,2016,Inglês,,Metric for Calculation of System Complexity ba...,,MEIO_DIGITAL,,1,2
1,2,10.22149/teee.v2i1.89,COMPLETO,2016,Português,,Calculation of the influence of slot geometry ...,,MEIO_DIGITAL,,1,2
2,3,10.22149/teee.v2i2.105,COMPLETO,2017,Português,,Proposal of heuristic regression method applie...,,MEIO_DIGITAL,,1,2
4,5,10.22149/teee.v2i2.99,COMPLETO,2017,Português,,Analysis and monitoring of electrical groundin...,,MEIO_DIGITAL,,1,2
1284,1281,10.22149/teee.v2i2.105,COMPLETO,2017,Inglês,,Proposal of heuristic regression method applie...,,MEIO_DIGITAL,,111,2
2139,2131,10.22149/teee.v2i2.105,COMPLETO,2017,Inglês,,Proposal of heuristic regression method applie...,,MEIO_DIGITAL,,196,2
2428,2418,10.22149/teee.v2i1.91,COMPLETO,2016,Português,,Efficiency Improvement of Switched Reluctance ...,,MEIO_DIGITAL,,219,2
2432,2422,10.22149/teee.v2i2.105,COMPLETO,2017,Português,,Proposal of heuristic regression method applie...,,MEIO_DIGITAL,,219,2
5806,5802,10.22149/teee.v1i4.75,COMPLETO,2016,Português,,Reconditioning in synchronous operation with o...,,MEIO_DIGITAL,,519,2
5810,5806,,COMPLETO,2017,Inglês,,Calculation of the influence of slot geometry ...,,MEIO_DIGITAL,,519,2


In [126]:
producao_bibliografica[producao_bibliografica['codigo_revista'].isin(idx_nulos_revista)]

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,codigo_conferencia,codigo_curriculo,codigo_revista


In [127]:
producao_bibliografica.isna().any()

codigo                     False
doi_producao                True
natureza                    True
ano                        False
idioma                     False
tipo                        True
titulo                     False
classificacao_do_evento     True
meio_divulgacao             True
codigo_conferencia          True
codigo_curriculo           False
codigo_revista              True
dtype: bool

In [128]:
list(producao_bibliografica.columns)

['codigo',
 'doi_producao',
 'natureza',
 'ano',
 'idioma',
 'tipo',
 'titulo',
 'classificacao_do_evento',
 'meio_divulgacao',
 'codigo_conferencia',
 'codigo_curriculo',
 'codigo_revista']

## Exportar

In [93]:
export_path = Path(IFG_PRODUZ_STORAGE_DIR / "preprocessed")

if not export_path.is_dir():
    Path(export_path).mkdir()

producao_bibliografica.to_csv(export_path / "producao_bibliografica.csv", sep=";", index=False)
conferencia.to_csv(export_path / "conferencia.csv", sep=";", index=False)
revista.to_csv(export_path / "revista.csv", sep=";", index=False)