In [1]:
p_storage_dir = "../../storage"

In [2]:
import pandas as pd
import numpy as np
from pathlib import Path

IFG_PRODUZ_STORAGE_DIR = Path(f"{p_storage_dir}/ifg_produz")

## Produção Bibliográfica

In [3]:
producao_bibliografica = pd.read_csv(IFG_PRODUZ_STORAGE_DIR / "extracted/producaobibliografica.csv", delimiter=";")

producao_bibliografica.head(n=5)

Unnamed: 0,id_producao,doi_producao,natureza,ano_producao,idioma,tipo,titulo_producao,classificacao_do_evento,meio_divulgacao,tipo_producao,id_conferencia_id,id_curriculo_id,id_revista_id,nome_pdf
0,1,10.22149/teee.v2i1.80,COMPLETO,2016,Inglês,,Metric for Calculation of System Complexity ba...,,MEIO_DIGITAL,1,1,1,2,
1,2,10.22149/teee.v2i1.89,COMPLETO,2016,Português,,Calculation of the influence of slot geometry ...,,MEIO_DIGITAL,1,1,1,2,
2,3,10.22149/teee.v2i2.105,COMPLETO,2017,Português,,Proposal of heuristic regression method applie...,,MEIO_DIGITAL,1,1,1,2,
3,4,10.1155/2019/1303241,COMPLETO,2019,Inglês,,Mechanism for Measuring System Complexity Appl...,,MEIO_DIGITAL,1,1,1,4,
4,5,10.22149/teee.v2i2.99,COMPLETO,2017,Português,,Analysis and monitoring of electrical groundin...,,MEIO_DIGITAL,1,1,1,2,


In [4]:
producao_bibliografica = producao_bibliografica.rename(columns={
    'id_producao': 'codigo',
    'ano_producao': 'ano',
    'titulo_producao': 'titulo',
    'id_conferencia_id': 'codigo_conferencia',
    'id_curriculo_id': 'codigo_curriculo',
    'id_revista_id': 'codigo_revista'
})

producao_bibliografica.sample(n=5)

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,tipo_producao,codigo_conferencia,codigo_curriculo,codigo_revista,nome_pdf
12668,12662,,,2015,Português,Capítulo de livro publicado,Hydrochar as a soil conditioner in ecological ...,,VARIOS,5,1,1095,1,
5749,5743,10.1016/j.fuel.2011.11.060,COMPLETO,2012,Inglês,,Simultaneous gas chromatographic analysis of t...,,MEIO_DIGITAL,1,1,513,2695,
2136,2128,,TEXTO_INTEGRAL,2011,Português,LIVRO_PUBLICADO,A Representação do Feminino na Ficção de Yvonn...,,IMPRESSO,4,1,195,1,
16711,16707,,RESUMO_EXPANDIDO,2006,Português,,Prática pedagógica e formação discente no ensi...,REGIONAL,MEIO_DIGITAL,2,1,1427,1,
13559,13558,,RESUMO,2006,Português,,Evasão universitária: uma questão do curso de ...,REGIONAL,MEIO_DIGITAL,2,1,1165,1,


### Análise das colunas 'tipo' e 'tipo_produção'

In [5]:
producao_bibliografica['tipo'].unique()

array([nan, 'LIVRO_PUBLICADO', 'Capítulo de livro publicado',
       'LIVRO_ORGANIZADO_OU_EDICAO'], dtype=object)

A coluna 'tipo' possui dados válidos, o único tratamento que será feito é a renomeação de um valor para ficar no padrão dos outros, com letras maíusculas, sem acentos e com underline no lugar dos espaços.

In [6]:
cap_livro_irregular_indexes = producao_bibliografica[producao_bibliografica['tipo'] == 'Capítulo de livro publicado'].index

In [7]:
producao_bibliografica.loc[cap_livro_irregular_indexes, 'tipo'] = 'CAPITULO_DE_LIVRO_PUBLICADO'

In [8]:
producao_bibliografica['tipo'].unique()

array([nan, 'LIVRO_PUBLICADO', 'CAPITULO_DE_LIVRO_PUBLICADO',
       'LIVRO_ORGANIZADO_OU_EDICAO'], dtype=object)

---

In [9]:
producao_bibliografica['tipo_producao'].unique()

array([1, 3, 2, 4, 5])

A coluna 'tipo_producao' possui dados que aparentam ser chaves estrangeiras, entretanto analisando o DER não é possível encontrar nenhuma referência que possa nos dar alguma informação útil de que representam os números utilizados nessa coluna, por isso a coluna será removida do dataset.

In [10]:
producao_bibliografica = producao_bibliografica.drop(columns=['tipo_producao'])

producao_bibliografica.sample(n=5)

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,codigo_conferencia,codigo_curriculo,codigo_revista,nome_pdf
16729,16725,,,2019,Português,CAPITULO_DE_LIVRO_PUBLICADO,Corpo e Juventude Skatista,,IMPRESSO,1,1427,1,
20140,20141,,NAO_INFORMADO,2007,Português,LIVRO_PUBLICADO,Instrumento de Avaliação da gestão para os CEF...,,IMPRESSO,1,1663,1,
16386,16384,,,2012,Português,CAPITULO_DE_LIVRO_PUBLICADO,Dança contemporânea e a pesquisa sobre o caval...,,NAO_INFORMADO,1,1403,1,
14809,14809,,COMPLETO,2011,Português,,Avaliação do Desempenho Lumínico de Edificação...,,MEIO_DIGITAL,1,1274,15385,
13777,13776,,RESUMO,2009,Português,,A instância da escrita e da letra no documentá...,INTERNACIONAL,VARIOS,1,1172,1,


### Tratamento das colunas com valores categóricos

In [13]:
from replacer import replace_na_repr_with_nan

In [81]:
producao_bibliografica['natureza'].unique()

array(['COMPLETO', 'RESUMO', 'TEXTO_INTEGRAL', nan, 'RESUMO_EXPANDIDO',
       'NAO_INFORMADO', 'OUTRA', 'COLETANEA', 'LIVRO', 'ANAIS', 'VERBETE',
       'CATALOGO'], dtype=object)

In [14]:
producao_bibliografica = replace_na_repr_with_nan(producao_bibliografica, 'NAO_INFORMADO', 'natureza')

In [43]:
producao_bibliografica['idioma'].unique()

array(['Inglês', 'Português', 'Bretão', 'Galego', 'Espanhol', 'Italiano',
       'Malgaxe', 'Outros', 'Francês', 'Russo', 'Abhkazian', 'Albanês',
       'Afar', 'Afrikaans', 'Maltês', 'Alemão', 'Árabe', 'Oria', 'Aimara'],
      dtype=object)

In [33]:
producao_bibliografica['classificacao_do_evento'].unique()

array([nan, 'NACIONAL', 'INTERNACIONAL', 'LOCAL', 'NAO_INFORMADO',
       'REGIONAL'], dtype=object)

In [16]:
producao_bibliografica = replace_na_repr_with_nan(producao_bibliografica, 'NAO_INFORMADO', 'classificacao_do_evento')

In [17]:
producao_bibliografica['meio_divulgacao'].unique()

array(['MEIO_DIGITAL', 'VARIOS', 'NAO_INFORMADO', 'IMPRESSO',
       'MEIO_MAGNETICO', 'OUTRO', 'FILME', 'HIPERTEXTO'], dtype=object)

In [18]:
producao_bibliografica = replace_na_repr_with_nan(producao_bibliografica, 'NAO_INFORMADO', 'meio_divulgacao')

In [43]:
if producao_bibliografica['nome_pdf'].isna().all():
    producao_bibliografica = producao_bibliografica.drop(columns='nome_pdf')

In [44]:
producao_bibliografica.sample(5)

Unnamed: 0,codigo,doi_producao,natureza,ano,idioma,tipo,titulo,classificacao_do_evento,meio_divulgacao,codigo_conferencia,codigo_curriculo,codigo_revista
19680,19678,,COMPLETO,2006,Português,,Gestão Participativa e os conflitos entre as c...,INTERNACIONAL,VARIOS,1,1617,1
17601,17600,,COMPLETO,2004,Português,,Roda Viva (1968) de Chico Buarque: a dramaturg...,,MEIO_DIGITAL,1,1481,11774
5637,5631,,COMPLETO,2013,Bretão,,A importância das abelhas nas produções agríco...,INTERNACIONAL,MEIO_DIGITAL,1,506,1
413,413,,COMPLETO,2007,Português,,PCH Mosquitão - O Controle Tecnológico do Conc...,NACIONAL,VARIOS,1,30,1
4840,4829,,,2019,Português,CAPITULO_DE_LIVRO_PUBLICADO,Políticas Educacionais: O Ensino Médio no Bras...,,VARIOS,1,435,1


**Exportar**

In [45]:
export_path = Path(IFG_PRODUZ_STORAGE_DIR / "preprocessed")

if not export_path.is_dir():
    Path(export_path).mkdir()

producao_bibliografica.to_csv(export_path / "producao_bibliografica.csv", sep=";", index=False)