In [2]:
p_storage_dir = "../../storage"
p_notebooks_root = None

In [3]:
if p_notebooks_root is not None:
    import os
    os.chdir(p_notebooks_root)

In [4]:
import pandas as pd
import numpy as np
from pathlib import Path

IFG_PRODUZ_STORAGE_DIR = Path(f"{p_storage_dir}/ifg_produz")

## Produção Bibliográfica

In [5]:
producao_bibliografica = pd.read_csv(IFG_PRODUZ_STORAGE_DIR / "extracted/producaobibliografica.csv", delimiter=";")

producao_bibliografica.head(n=5)

Unnamed: 0,id_producao,doi_producao,natureza,ano_producao,idioma,tipo,titulo_producao,classificacao_do_evento,meio_divulgacao,tipo_producao,id_conferencia_id,id_curriculo_id,id_revista_id,nome_pdf
0,1,10.22149/teee.v2i1.80,COMPLETO,2016,Inglês,,Metric for Calculation of System Complexity ba...,,MEIO_DIGITAL,1,1,1,2,
1,2,10.22149/teee.v2i1.89,COMPLETO,2016,Português,,Calculation of the influence of slot geometry ...,,MEIO_DIGITAL,1,1,1,2,
2,3,10.22149/teee.v2i2.105,COMPLETO,2017,Português,,Proposal of heuristic regression method applie...,,MEIO_DIGITAL,1,1,1,2,
3,4,10.1155/2019/1303241,COMPLETO,2019,Inglês,,Mechanism for Measuring System Complexity Appl...,,MEIO_DIGITAL,1,1,1,4,
4,5,10.22149/teee.v2i2.99,COMPLETO,2017,Português,,Analysis and monitoring of electrical groundin...,,MEIO_DIGITAL,1,1,1,2,


In [6]:
producao_bibliografica = producao_bibliografica.rename(columns={
    'id_producao': 'codigo',
    'ano_producao': 'ano',
    'titulo_producao': 'titulo',
    'id_conferencia_id': 'codigo_conferencia',
    'id_curriculo_id': 'codigo_curriculo',
    'id_revista_id': 'codigo_revista'
})

producao_bibliografica.sample(n=5)

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,tipo_producao,codigo_conferencia,codigo_curriculo,codigo_revista,nome_pdf
3879,3868,,COMPLETO,2014,Português,,A Mídia a Serviço da Educação para o Mundo do ...,REGIONAL,MEIO_DIGITAL,3,1,359,1,
18168,18165,,RESUMO,2004,Português,,Educação de Saberes e Sabores de Mulher,INTERNACIONAL,IMPRESSO,2,1,1506,1,
3264,3248,,COMPLETO,2017,Inglês,,SIMULATION AND EXPERIMENTAL VERIFICATION OF A ...,INTERNACIONAL,VARIOS,3,1,282,1,
20397,20398,,COMPLETO,2015,Português,,Aparato de Estratificação Tridimensional do So...,,VARIOS,1,1,1678,18540,
23023,23022,10.11606/issn.2316-901X.v1i78p315-321,COMPLETO,2021,Português,,Destecer os 60 anos de Formação econômica do B...,,MEIO_DIGITAL,1,1,774,20314,


### Análise das colunas 'tipo' e 'tipo_produção'

In [7]:
producao_bibliografica['tipo'].unique()

array([nan, 'LIVRO_PUBLICADO', 'Capítulo de livro publicado',
       'LIVRO_ORGANIZADO_OU_EDICAO'], dtype=object)

A coluna 'tipo' possui dados válidos, o único tratamento que será feito é a renomeação de um valor para ficar no padrão dos outros, com letras maíusculas, sem acentos e com underline no lugar dos espaços.

In [8]:
cap_livro_irregular_indexes = producao_bibliografica[producao_bibliografica['tipo'] == 'Capítulo de livro publicado'].index

In [9]:
producao_bibliografica.loc[cap_livro_irregular_indexes, 'tipo'] = 'CAPITULO_DE_LIVRO_PUBLICADO'

In [10]:
producao_bibliografica['tipo'].unique()

array([nan, 'LIVRO_PUBLICADO', 'CAPITULO_DE_LIVRO_PUBLICADO',
       'LIVRO_ORGANIZADO_OU_EDICAO'], dtype=object)

---

In [11]:
producao_bibliografica['tipo_producao'].unique()

array([1, 3, 2, 4, 5])

A coluna 'tipo_producao' possui dados que aparentam ser chaves estrangeiras, entretanto analisando o DER não é possível encontrar nenhuma referência que possa nos dar alguma informação útil de que representam os números utilizados nessa coluna, por isso a coluna será removida do dataset.

In [12]:
producao_bibliografica = producao_bibliografica.drop(columns=['tipo_producao'])

producao_bibliografica.sample(n=5)

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,codigo_conferencia,codigo_curriculo,codigo_revista,nome_pdf
20317,20318,,COMPLETO,2010,Português,,Desenvolvimento de metodologia analítica para ...,REGIONAL,MEIO_MAGNETICO,1,1673,1,
19182,19182,,COMPLETO,2014,Português,,Metodologia para determinação do fator de Cart...,NACIONAL,MEIO_DIGITAL,1,1554,1,
5625,5619,,RESUMO,2012,Português,,"COMPOSIÇÃO FLORÍSTICA DO CERRADO DE PARAÚNA, G...",REGIONAL,IMPRESSO,1,506,1,
14791,14791,,COMPLETO,2015,Português,,"Educação Dialógica, os Limites e as Possibilid...",REGIONAL,NAO_INFORMADO,1,1268,1,
15742,15742,,RESUMO,2013,Português,,A ENFERMAGEM E OS DETERMINANTES SOCIAIS DA SAÚDE,NACIONAL,VARIOS,1,1356,1,


### Tratamento das colunas com valores categóricos

In [13]:
from replacer import replace_na_repr_with_nan

In [14]:
producao_bibliografica['natureza'].unique()

array(['COMPLETO', 'RESUMO', 'TEXTO_INTEGRAL', nan, 'RESUMO_EXPANDIDO',
       'NAO_INFORMADO', 'OUTRA', 'COLETANEA', 'LIVRO', 'ANAIS', 'VERBETE',
       'CATALOGO'], dtype=object)

In [15]:
producao_bibliografica = replace_na_repr_with_nan(producao_bibliografica, 'NAO_INFORMADO', 'natureza')

In [16]:
producao_bibliografica['idioma'].unique()

array(['Inglês', 'Português', 'Bretão', 'Galego', 'Espanhol', 'Italiano',
       'Malgaxe', 'Outros', 'Francês', 'Russo', 'Abhkazian', 'Albanês',
       'Afar', 'Afrikaans', 'Maltês', 'Alemão', 'Árabe', 'Oria', 'Aimara'],
      dtype=object)

In [17]:
producao_bibliografica['classificacao_do_evento'].unique()

array([nan, 'NACIONAL', 'INTERNACIONAL', 'LOCAL', 'NAO_INFORMADO',
       'REGIONAL'], dtype=object)

In [18]:
producao_bibliografica = replace_na_repr_with_nan(producao_bibliografica, 'NAO_INFORMADO', 'classificacao_do_evento')

In [19]:
producao_bibliografica['meio_divulgacao'].unique()

array(['MEIO_DIGITAL', 'VARIOS', 'NAO_INFORMADO', 'IMPRESSO',
       'MEIO_MAGNETICO', 'OUTRO', 'FILME', 'HIPERTEXTO'], dtype=object)

In [20]:
producao_bibliografica = replace_na_repr_with_nan(producao_bibliografica, 'NAO_INFORMADO', 'meio_divulgacao')

In [21]:
if producao_bibliografica['nome_pdf'].isna().all():
    producao_bibliografica = producao_bibliografica.drop(columns='nome_pdf')

In [22]:
producao_bibliografica.sample(5)

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,codigo_conferencia,codigo_curriculo,codigo_revista
13033,13027,,RESUMO_EXPANDIDO,2014,Bretão,,Comparação das respostas bioquímicas à diferen...,LOCAL,MEIO_DIGITAL,1,1126,1
10927,10925,,COMPLETO,2009,Português,,"Monteiro Lobato: diálogos intelectuais, modern...",LOCAL,MEIO_DIGITAL,1,966,1
17537,17536,,RESUMO,2004,Português,,Absorção Óptica e Ressonância Paramagnética El...,NACIONAL,IMPRESSO,1,1477,1
4935,4924,,COMPLETO,2015,Português,,Aplicações do Princípio de Cavalieri ao cálcul...,REGIONAL,VARIOS,1,447,1
12583,12577,,RESUMO,2005,Inglês,,Let's get it right: A workshop for teching adu...,LOCAL,IMPRESSO,1,1092,1


## Conferência

In [23]:
conferencia = pd.read_csv(IFG_PRODUZ_STORAGE_DIR / "extracted/conferencia.csv", delimiter=";")

conferencia.head(n=5)

Unnamed: 0,id_conferencia,sigla,titulo_conferencia,qualis
0,1,vazio,vazio,vazio
1,2,AAAI,Conference on Artificial Intelligence,A1
2,3,AAMAS,International Conference on Autonomous Agents ...,A1
3,4,ACL,Annual Meeting of the Association for Computat...,A1
4,5,SoCC,ACM Symposium on Cloud Computing,A1


In [24]:
conferencia = conferencia.rename(columns={
    'id_conferencia': 'codigo',
    'titulo_conferencia': 'nome',
})

### Tratando os valores nulos

In [25]:
conferencia.head()

Unnamed: 0,codigo,sigla,nome,qualis
0,1,vazio,vazio,vazio
1,2,AAAI,Conference on Artificial Intelligence,A1
2,3,AAMAS,International Conference on Autonomous Agents ...,A1
3,4,ACL,Annual Meeting of the Association for Computat...,A1
4,5,SoCC,ACM Symposium on Cloud Computing,A1


In [26]:
idx_nulos_conferencia = list(conferencia[(conferencia['sigla'] == 'vazio') | 
                     (conferencia['nome'] == 'vazio') | (conferencia['qualis'] == 'vazio')].index)

cod_conferencias_nulas = list(conferencia.iloc[idx_nulos_conferencia]['codigo'])

In [27]:
conferencia = conferencia.drop(idx_nulos_conferencia)

### Verificar se os valores das colunas "código" e "nome" são únicos

In [28]:
# Quantidade de linhas do dataset
conferencia.shape[0]

1172

In [29]:
conferencia['codigo'].nunique()

1172

In [30]:
conferencia['nome'].nunique()

1172

## Revista

In [31]:
revista = pd.read_csv(IFG_PRODUZ_STORAGE_DIR / "extracted/revista.csv", delimiter=";")

revista.head(n=5)

Unnamed: 0,id_revista,nome_revista,qualificacao,area_de_atuacao,issn
0,1,vazio,vazio,vazio,vazio
1,2,TRANSACTIONS ON ENVIRONMENT AND ELECTRICAL ENG...,B5,ENGENHARIAS IV ...,2450-5730
2,3,TRANSACTIONS ON ENVIRONMENT AND ELECTRICAL ENG...,B5,INTERDISCIPLINAR ...,2450-5730
3,4,"COMPLEXITY (NEW YORK, N.Y.)",A1,SAÚDE COLETIVA ...,1076-2787
4,5,"COMPLEXITY (NEW YORK, N.Y.)",B1,EDUCAÇÃO FÍSICA ...,1076-2787


In [32]:
revista = revista.rename(columns={
    'id_revista': 'codigo',
    'nome_revista': 'nome',
})

### Tratando os valores nulos

In [33]:
idx_nulos_revista = list(revista[(revista['nome'] == 'vazio') | (revista['qualificacao'] == 'vazio') |
                     (revista['area_de_atuacao'] == 'vazio') | (revista['issn'] == 'vazio')].index)

cod_revistas_nulas = list(revista.iloc[idx_nulos_revista]['codigo'])

In [34]:
revista = revista.drop(idx_nulos_revista)

In [35]:
revista.head()

Unnamed: 0,codigo,nome,qualificacao,area_de_atuacao,issn
1,2,TRANSACTIONS ON ENVIRONMENT AND ELECTRICAL ENG...,B5,ENGENHARIAS IV ...,2450-5730
2,3,TRANSACTIONS ON ENVIRONMENT AND ELECTRICAL ENG...,B5,INTERDISCIPLINAR ...,2450-5730
3,4,"COMPLEXITY (NEW YORK, N.Y.)",A1,SAÚDE COLETIVA ...,1076-2787
4,5,"COMPLEXITY (NEW YORK, N.Y.)",B1,EDUCAÇÃO FÍSICA ...,1076-2787
5,6,"COMPLEXITY (NEW YORK, N.Y.)",B1,ENGENHARIAS IV ...,1076-2787


In [36]:
revista['area_de_atuacao'].head()

1    ENGENHARIAS IV                                ...
2    INTERDISCIPLINAR                              ...
3    SAÚDE COLETIVA                                ...
4    EDUCAÇÃO FÍSICA                               ...
5    ENGENHARIAS IV                                ...
Name: area_de_atuacao, dtype: object

In [37]:
revista['area_de_atuacao'] = revista['area_de_atuacao'].str.strip()

In [38]:
revista['area_de_atuacao'].head()

1      ENGENHARIAS IV
2    INTERDISCIPLINAR
3      SAÚDE COLETIVA
4     EDUCAÇÃO FÍSICA
5      ENGENHARIAS IV
Name: area_de_atuacao, dtype: object

## Correções no dataset de Produção Bibliográfica

### Substituição por NaN onde o código da conferência referenciar um registro nulo

Como visto no tratamento feito acima no dataset de *Conferência* todas as conferências que tiverem códigos específicos na verdade é onde o dado está ausente, logo deve ser substituído por NaN para ficar coerente no Neo4j.

In [39]:
from replacer import replace_na_repr_with_nan

In [40]:
producao_bibliografica = replace_na_repr_with_nan(producao_bibliografica, cod_conferencias_nulas, 'codigo_conferencia')

In [41]:
producao_bibliografica[producao_bibliografica['codigo_conferencia'] == 13]

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,codigo_conferencia,codigo_curriculo,codigo_revista
3638,3627,10.1109/CEC.2013.6557683,COMPLETO,2013,Inglês,,Multi-objective evolutionary algorithm for var...,INTERNACIONAL,MEIO_DIGITAL,13,330,1
7104,7100,10.1109/cec.2017.7969585,COMPLETO,2017,Português,,Integer-based genetic algorithm for feature se...,INTERNACIONAL,,13,644,1


In [42]:
producao_bibliografica[producao_bibliografica['codigo_conferencia'] == 1]

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,codigo_conferencia,codigo_curriculo,codigo_revista


In [43]:
producao_bibliografica['codigo_conferencia'].unique()

<IntegerArray>
[<NA>,  418,  939,  313,  692,  917,  968, 1127,  289,  590,  394,  708, 1018,
  904,  910,  310, 1022, 1012,  221,   63,  382,  164,   75,  201,   13,  627,
 1136,  639,  916,  895,  737,  253,  676,  647,  475,  723,  824,  680,  903,
 1168,  912,  748,  819,  682,  980, 1077,  924,  883,  378,  826,  859,  345,
  775,  732, 1024,  866,  773,  541,  701, 1093,   98,   16,  829, 1062,  907,
  269,   92,  107,   93,  652,  148,  864,  803,   65,  465,  539,  400,  184,
  615,  926,  976,  966,  174,   86,  786,  170, 1155,  967,  186,  979, 1078,
 1044,  563,  147,  999,  640,  277,  683,  326,  220]
Length: 100, dtype: Int64

### Substituição por NaN onde o código da revista referenciar um registro nulo

Como visto no tratamento feito abaixo no dataset de *Revista* todas as conferências que tiverem códigos específicos na verdade é onde o dado está ausente, logo deve ser substituído por NaN para ficar coerente no Neo4j.

In [44]:
producao_bibliografica = replace_na_repr_with_nan(producao_bibliografica, cod_revistas_nulas, 'codigo_revista')

In [45]:
producao_bibliografica['codigo_revista'].unique()

<IntegerArray>
[    2,     4,  <NA>,     8,    21,    40,    54,   111,   116,   122,
 ...
 20372, 20373, 20394, 20395, 20419, 20441, 20450, 20459, 20460, 20467]
Length: 1884, dtype: Int64

In [46]:
producao_bibliografica[producao_bibliografica['codigo_revista'] == 2]

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,codigo_conferencia,codigo_curriculo,codigo_revista
0,1,10.22149/teee.v2i1.80,COMPLETO,2016,Inglês,,Metric for Calculation of System Complexity ba...,,MEIO_DIGITAL,,1,2
1,2,10.22149/teee.v2i1.89,COMPLETO,2016,Português,,Calculation of the influence of slot geometry ...,,MEIO_DIGITAL,,1,2
2,3,10.22149/teee.v2i2.105,COMPLETO,2017,Português,,Proposal of heuristic regression method applie...,,MEIO_DIGITAL,,1,2
4,5,10.22149/teee.v2i2.99,COMPLETO,2017,Português,,Analysis and monitoring of electrical groundin...,,MEIO_DIGITAL,,1,2
1284,1281,10.22149/teee.v2i2.105,COMPLETO,2017,Inglês,,Proposal of heuristic regression method applie...,,MEIO_DIGITAL,,111,2
2139,2131,10.22149/teee.v2i2.105,COMPLETO,2017,Inglês,,Proposal of heuristic regression method applie...,,MEIO_DIGITAL,,196,2
2428,2418,10.22149/teee.v2i1.91,COMPLETO,2016,Português,,Efficiency Improvement of Switched Reluctance ...,,MEIO_DIGITAL,,219,2
2432,2422,10.22149/teee.v2i2.105,COMPLETO,2017,Português,,Proposal of heuristic regression method applie...,,MEIO_DIGITAL,,219,2
5806,5802,10.22149/teee.v1i4.75,COMPLETO,2016,Português,,Reconditioning in synchronous operation with o...,,MEIO_DIGITAL,,519,2
5810,5806,,COMPLETO,2017,Inglês,,Calculation of the influence of slot geometry ...,,MEIO_DIGITAL,,519,2


In [47]:
producao_bibliografica[producao_bibliografica['codigo_revista'].isin(idx_nulos_revista)]

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,codigo_conferencia,codigo_curriculo,codigo_revista


## Exportar

In [93]:
export_path = Path(IFG_PRODUZ_STORAGE_DIR / "preprocessed")

if not export_path.is_dir():
    Path(export_path).mkdir()

producao_bibliografica.to_csv(export_path / "producao_bibliografica.csv", sep=";", index=False)
conferencia.to_csv(export_path / "conferencia.csv", sep=";", index=False)
revista.to_csv(export_path / "revista.csv", sep=";", index=False)