In [54]:
p_storage_dir = "../../storage"
p_notebooks_root = None

In [55]:
if p_notebooks_root is not None:
    import os
    os.chdir(p_notebooks_root)

In [56]:
import pandas as pd
import numpy as np
from pathlib import Path

IFG_PRODUZ_STORAGE_DIR = Path(f"{p_storage_dir}/ifg_produz")

## Tabela Intermediária

![Tabela Intermediária](./assets/images/tabela_intermediaria_grupos_de_pesquisa.png)

In [57]:
intermediaria = pd.read_csv(IFG_PRODUZ_STORAGE_DIR / "extracted/curriculo_grupos.csv", delimiter=";", dtype={'curriculo_id': 'Int64'})

In [58]:
intermediaria.head()

Unnamed: 0,id_curriculo_linha_grupo,curriculo_id,grupos_id,linhas_id
0,1,888,1,1
1,2,1438,1,1
2,3,973,1,1
3,4,1324,1,1
4,5,39,1,1


In [59]:
intermediaria['curriculo_id']

0       888
1      1438
2       973
3      1324
4        39
       ... 
983    1263
984     564
985     555
986    1436
987     893
Name: curriculo_id, Length: 988, dtype: Int64

## Linhas de Pesquisa

In [60]:
linhas_de_pesquisa = pd.read_csv(IFG_PRODUZ_STORAGE_DIR / "extracted/linhas_de_pesquisa.csv", delimiter=";")

linhas_de_pesquisa.head(n=5)

Unnamed: 0,id_linha,nome_da_linha
0,1,"Ambiente, Saúde, Qualidade de Vida e Sociedade"
1,2,Estudos interdisciplinares em Infecções Relaci...
2,3,Formação humana e cultura corporal
3,4,"Política educacional, currículo e trabalho doc..."
4,5,Processo educativo e trabalho pedagógico


In [61]:
linhas_de_pesquisa = linhas_de_pesquisa.rename(columns={
    'id_linha': 'codigo',
    'nome_da_linha': 'nome',
})

linhas_de_pesquisa.sample(n=5)

Unnamed: 0,codigo,nome
225,226,Mecânica de Estruturas de Concretos
158,159,História na Educação Matemática
72,73,A Relação Universidade- Empresa Aplicada à For...
112,113,Hidrologia
253,254,Processos de usinagem


In [62]:
if not (linhas_de_pesquisa['nome'] == linhas_de_pesquisa['nome'].str.strip()).all():
    linhas_de_pesquisa['nome'] = linhas_de_pesquisa['nome'].str.strip()

In [63]:
linhas_de_pesquisa.sample(n=5)

Unnamed: 0,codigo,nome
229,230,Formação de professores na educação de trabalh...
93,94,"Gestão, Inovação e Processos de Mercado"
166,167,SOCIAIS E HUMANIDADES
242,243,Acionamento e Controle de Máquinas Elétricas
65,66,"Tecnologia Educacional, Inclusão e Ensino"


## Grupos de Pesquisa

In [64]:
grupos_de_pesquisa = pd.read_csv(IFG_PRODUZ_STORAGE_DIR / "extracted/grupos_de_pesquisa.csv", delimiter=";")

grupos_de_pesquisa.head(n=5)

Unnamed: 0,id_grupo,nome_grupo,situacao_do_grupo,ano_formacao,lider_do_grupo,link_do_grupo,linha_de_pesquisa,situacao_do_grupo_por_criterios
0,1,Núcleo de Estudos e Pesquisas em Ciências da Vida,Certificado,2020,Patricia Carvalho de Oliveira,http://dgp.cnpq.br/dgp/espelhogrupo/633526,,Certificado
1,2,Núcleo de estudos e pesquisas socicríticas em ...,Em preenchimento,2020,Fernando Henrique Silva Carneiro,http://dgp.cnpq.br/dgp/espelhogrupo/590146,,Certificado
2,3,Grupo de Pesquisas em Artes e Audiovisual,Em preenchimento,2020,Adérito Schneider Alencar e Távora,http://dgp.cnpq.br/dgp/espelhogrupo/607747,,Certificado
3,4,Núcleo Multicampi de Pesquisas e Estudos em Li...,Certificado,2011,Mabel Pettersen Prudente,http://dgp.cnpq.br/dgp/espelhogrupo/33150,,Pendente
4,5,"Núcleo de Estudos de Cultura, Linguagens e sua...",Certificado,2013,Rangel Gomes Godinho,http://dgp.cnpq.br/dgp/espelhogrupo/377570,,Pendente


In [65]:
grupos_de_pesquisa = grupos_de_pesquisa.rename(columns={
    'id_grupo': 'codigo',
    'nome_grupo': 'nome',
    'situacao_do_grupo': 'situacao',
    'situacao_do_grupo_por_criterios': 'situacao_por_criterios',
    'lider_do_grupo': 'nome_lider',
    'link_do_grupo': 'link'
})

In [66]:
grupos_de_pesquisa.head(n=5)

Unnamed: 0,codigo,nome,situacao,ano_formacao,nome_lider,link,linha_de_pesquisa,situacao_por_criterios
0,1,Núcleo de Estudos e Pesquisas em Ciências da Vida,Certificado,2020,Patricia Carvalho de Oliveira,http://dgp.cnpq.br/dgp/espelhogrupo/633526,,Certificado
1,2,Núcleo de estudos e pesquisas socicríticas em ...,Em preenchimento,2020,Fernando Henrique Silva Carneiro,http://dgp.cnpq.br/dgp/espelhogrupo/590146,,Certificado
2,3,Grupo de Pesquisas em Artes e Audiovisual,Em preenchimento,2020,Adérito Schneider Alencar e Távora,http://dgp.cnpq.br/dgp/espelhogrupo/607747,,Certificado
3,4,Núcleo Multicampi de Pesquisas e Estudos em Li...,Certificado,2011,Mabel Pettersen Prudente,http://dgp.cnpq.br/dgp/espelhogrupo/33150,,Pendente
4,5,"Núcleo de Estudos de Cultura, Linguagens e sua...",Certificado,2013,Rangel Gomes Godinho,http://dgp.cnpq.br/dgp/espelhogrupo/377570,,Pendente


### Verificando valores nulos

In [67]:
grupos_de_pesquisa.isna().sum()

codigo                     0
nome                       0
situacao                   0
ano_formacao               0
nome_lider                 0
link                       0
linha_de_pesquisa         76
situacao_por_criterios     0
dtype: int64

In [68]:
grupos_de_pesquisa['linha_de_pesquisa'].shape

(76,)

### Ligar as Linhas de Pesquisa ao Grupo de Pesquisa

In [69]:
intermediaria.sample(n=5)

Unnamed: 0,id_curriculo_linha_grupo,curriculo_id,grupos_id,linhas_id
945,947,847,72,268
18,19,827,2,3
619,621,1548,47,166
887,889,188,68,249
845,847,1097,65,238


In [70]:
grupos_de_pesquisa = grupos_de_pesquisa.rename(columns={'linha_de_pesquisa': 'codigos_linhas_de_pesquisa'})

In [71]:
grupos_de_pesquisa.columns

Index(['codigo', 'nome', 'situacao', 'ano_formacao', 'nome_lider', 'link',
       'codigos_linhas_de_pesquisa', 'situacao_por_criterios'],
      dtype='object')

In [72]:
def find_and_set_research_lines_for_research_groups(row, intermediaria: pd.DataFrame):
    research_lines_codes = list(intermediaria[intermediaria['grupos_id'] == row['codigo']]['linhas_id'].unique())
    row['codigos_linhas_de_pesquisa'] = research_lines_codes

    return row

In [73]:
grupos_de_pesquisa = grupos_de_pesquisa.apply(find_and_set_research_lines_for_research_groups, args=(intermediaria,), axis=1)

In [74]:
grupos_de_pesquisa.head()

Unnamed: 0,codigo,nome,situacao,ano_formacao,nome_lider,link,codigos_linhas_de_pesquisa,situacao_por_criterios
0,1,Núcleo de Estudos e Pesquisas em Ciências da Vida,Certificado,2020,Patricia Carvalho de Oliveira,http://dgp.cnpq.br/dgp/espelhogrupo/633526,"[1, 2]",Certificado
1,2,Núcleo de estudos e pesquisas socicríticas em ...,Em preenchimento,2020,Fernando Henrique Silva Carneiro,http://dgp.cnpq.br/dgp/espelhogrupo/590146,"[3, 4, 5]",Certificado
2,3,Grupo de Pesquisas em Artes e Audiovisual,Em preenchimento,2020,Adérito Schneider Alencar e Távora,http://dgp.cnpq.br/dgp/espelhogrupo/607747,"[6, 7, 8]",Certificado
3,4,Núcleo Multicampi de Pesquisas e Estudos em Li...,Certificado,2011,Mabel Pettersen Prudente,http://dgp.cnpq.br/dgp/espelhogrupo/33150,"[9, 10]",Pendente
4,5,"Núcleo de Estudos de Cultura, Linguagens e sua...",Certificado,2013,Rangel Gomes Godinho,http://dgp.cnpq.br/dgp/espelhogrupo/377570,"[11, 12, 13]",Pendente


### Inserir uma coluna com o ID do currículo de cada líder

In [75]:
from text_processors import normalizar_string

In [76]:
curriculos = pd.read_csv(IFG_PRODUZ_STORAGE_DIR / "extracted/curriculo.csv", delimiter=";")
curriculos = curriculos.loc[:, ['id_curriculo', 'nome_completo']]

In [77]:
curriculos['nome_completo_normalizado'] = curriculos['nome_completo'].apply(normalizar_string)

In [78]:
curriculos.sample(n=3)

Unnamed: 0,id_curriculo,nome_completo,nome_completo_normalizado
1607,170,Katia Pereira Fonseca,katia pereira fonseca
958,1446,Matheus Couto Alves,matheus couto alves
855,1286,Marshal Gaioso Pinto,marshal gaioso pinto


In [79]:
linhas_de_pesquisa.sample(n=3)

Unnamed: 0,codigo,nome
195,196,Análise e Modelagem de Sistemas Ambientais
85,86,"Vibrações, Análise Estática e Dinâmica de Estr..."
203,204,Modelagem e controle de sistemas mecânicos


In [80]:
intermediaria.sample(n=3)

Unnamed: 0,id_curriculo_linha_grupo,curriculo_id,grupos_id,linhas_id
308,310,1279,19,73
506,508,574,37,137
163,164,409,7,36


In [81]:
def find_and_set_research_group_leader_code(row, curriculos: pd.DataFrame, linhas_de_pesquisa: pd.DataFrame, intermediaria: pd.DataFrame):
    # rg = research group
    rg_leader_normalized = normalizar_string(row['nome_lider'])
    rg_code = row['codigo']

    found_leader_resume = curriculos[curriculos['nome_completo_normalizado'] == rg_leader_normalized]

    if len(found_leader_resume) > 1:
        print(f'Não foi possível encontrar o código correto para o líder do grupo com ID: {rg_code}. Foi encontrado mais de um resultado na busca realizada.')
        return row
    elif len(found_leader_resume) == 0:
        print(f'Não foi possível encontrar o líder do grupo com ID: {rg_code}. Não foram encontrados registros.')
        return row
    
    found_leader_code = found_leader_resume['id_curriculo'].iloc[0]
    found_leader_research_lines = intermediaria[(intermediaria['curriculo_id'] == found_leader_code) & 
    (intermediaria['grupos_id'] == row['codigo'])]
    
    if len(found_leader_research_lines) == 0:
        print(f"Não foi possível ligar o líder do grupo com ID: {rg_code}. O líder do grupo não está ligado a nenhuma linha de pesquisa do grupo.")
        return row

    row['codigo_lider'] = found_leader_code

    return row

In [82]:
grupos_de_pesquisa = grupos_de_pesquisa.apply(find_and_set_research_group_leader_code, args=(curriculos, linhas_de_pesquisa, intermediaria), axis=1)

Não foi possível ligar o líder do grupo com ID: 27. O líder do grupo não está ligado a nenhuma linha de pesquisa do grupo.


In [83]:
grupos_de_pesquisa['codigo_lider'] = grupos_de_pesquisa['codigo_lider'].astype('Int64')

### Colocar o código dos participantes do grupo em uma coluna

In [84]:
intermediaria.sample(n=5)

Unnamed: 0,id_curriculo_linha_grupo,curriculo_id,grupos_id,linhas_id
721,723,597,56,190
107,108,1804,7,32
354,356,1379,25,91
82,83,544,6,19
493,495,341,36,132


In [85]:
def find_and_set_group_member_codes(row, intermediaria: pd.DataFrame):
    group_members_codes = list(intermediaria[intermediaria['grupos_id'] == row['codigo']]['curriculo_id'].dropna().unique())

    row['codigo_membros'] = group_members_codes

    return row

In [86]:
grupos_de_pesquisa = grupos_de_pesquisa.apply(find_and_set_group_member_codes, args=(intermediaria,), axis=1)

In [87]:
list(grupos_de_pesquisa.columns)

['ano_formacao',
 'codigo',
 'codigo_lider',
 'codigos_linhas_de_pesquisa',
 'link',
 'nome',
 'nome_lider',
 'situacao',
 'situacao_por_criterios',
 'codigo_membros']

In [88]:
grupos_de_pesquisa.isna().any()

ano_formacao                  False
codigo                        False
codigo_lider                   True
codigos_linhas_de_pesquisa    False
link                          False
nome                          False
nome_lider                    False
situacao                      False
situacao_por_criterios        False
codigo_membros                False
dtype: bool

## Alunos

In [89]:
alunos = pd.read_csv(IFG_PRODUZ_STORAGE_DIR / "extracted/alunos.csv", delimiter=";")

alunos.head(n=5)

Unnamed: 0,id_aluno,nome_aluno,id_grupos_de_pesquisa_id
0,1,Amanda Sousa de Queiros,1
1,2,Ellen Kelrye Ferreira Reis,1
2,3,Janailza Barbosa da Silva,1
3,4,Jariele Ferreira de Oliveira,1
4,5,Maisa Cecília da Silva Reis,1


In [90]:
alunos = alunos.rename(columns={
    'id_aluno': 'codigo',
    'nome_aluno': 'nome',
    'id_grupos_de_pesquisa_id': 'codigo_grupo_de_pesquisa'
})

In [91]:
alunos.columns

Index(['codigo', 'nome', 'codigo_grupo_de_pesquisa'], dtype='object')

In [92]:
alunos.isna().any()

codigo                      False
nome                        False
codigo_grupo_de_pesquisa    False
dtype: bool

## Tratando a tabela intermediária para montar os relacionamentos no grafo

In [93]:
intermediaria.isna().sum()

id_curriculo_linha_grupo     0
curriculo_id                35
grupos_id                    0
linhas_id                    0
dtype: int64

In [94]:
intermediaria_final = intermediaria.rename({
    "curriculo_id": "id_curriculo",
    "grupos_id": "id_grupo",
    "linhas_id": "id_linha"
}, axis=1)

In [95]:
intermediaria_final = intermediaria.dropna()

In [96]:
intermediaria_final.isna().sum()

id_curriculo_linha_grupo    0
curriculo_id                0
grupos_id                   0
linhas_id                   0
dtype: int64

In [97]:
intermediaria_final = intermediaria_final.drop("id_curriculo_linha_grupo", axis=1)

In [98]:
intermediaria_final.shape

(953, 3)

In [99]:
intermediaria_final = intermediaria_final.drop_duplicates()

In [100]:
intermediaria_final.dtypes

curriculo_id    Int64
grupos_id       int64
linhas_id       int64
dtype: object

In [101]:
intermediaria_final = intermediaria_final.rename({
    "curriculo_id": "id_curriculo",
    "grupos_id": "id_grupo",
    "linhas_id": "id_linha"
}, axis=1)

In [102]:
intermediaria_final.columns

Index(['id_curriculo', 'id_grupo', 'id_linha'], dtype='object')

In [103]:
intermediaria_final = intermediaria_final.sort_values("id_curriculo")

In [104]:
intermediaria_final.head(n=20)

Unnamed: 0,id_curriculo,id_grupo,id_linha
540,3,40,148
14,4,1,2
7,4,1,1
539,12,40,148
957,26,74,274
952,26,74,272
954,26,74,262
299,28,19,71
474,29,36,124
477,29,36,125


## Exportar

In [105]:
export_path = Path(IFG_PRODUZ_STORAGE_DIR / "preprocessed")

if not export_path.is_dir():
    Path(export_path).mkdir()

linhas_de_pesquisa.to_csv(export_path / "linhas_de_pesquisa.csv", sep=";", index=False)
grupos_de_pesquisa.to_csv(export_path / "grupos_de_pesquisa.csv", sep=";", index=False)
alunos.to_csv(export_path / "alunos.csv", sep=";", index=False)
intermediaria_final.to_csv(export_path / "curriculo_grupos.csv", sep=";", index=False)