In [16]:
p_storage_dir = "../../storage"

In [17]:
import pandas as pd
import numpy as np
import re
import uuid
from pathlib import Path

DA_STORAGE_DIR = Path(f"{p_storage_dir}/dados_abertos")

# Editais de Iniciação Científica

In [18]:
editais_iniciacao_cientifica = pd.read_csv(DA_STORAGE_DIR / "transformed/editais_iniciacao_cientifica.csv", delimiter=";")

editais_iniciacao_cientifica.head()

Unnamed: 0,ano,programas,instituicao,unidade,descricao
0,2023,PIBIC PIBIC-Af PIBITI PIBIC-EM PIVIC,"Instituto Federal de Educação, Ciência e Tecno...",Câmpus Goiânia,Chamada para submissão de trabalhos - XI Semin...
1,2023,PIBIC PIBIC-Af PIBITI PIBIC-EM PIVIC,"Instituto Federal de Educação, Ciência e Tecno...",PROPPG - Diretoria de Pesquisa,Edital n. 35/2023 - 16º Seminário de Iniciação...
2,2023,PIBIC PIBIC-Af PIBITI PIBIC-EM PIVIC,"Instituto Federal de Educação, Ciência e Tecno...",Câmpus Uruaçu,XIII - Seminário Local de Iniciação Científica...
3,2022,PIBIC PIBIC-Af PIBITI PIBIC-EM PIBIC-EM/EJA,"Instituto Federal de Educação, Ciência e Tecno...",Câmpus Goiânia,Chamada para submissão de trabalhos - X Seminá...
4,2022,PIBIC PIBIC-Af PIBITI PIBIC-EM PIVIC PIBIC-EM/EJA,"Instituto Federal de Educação, Ciência e Tecno...",PROPPG - Diretoria de Pesquisa,Edital n. 30 - 15º Seminário de Iniciação Cien...


**Remover a coluna instituição, pois todos os editais analisados são do IFG**

In [19]:
editais_iniciacao_cientifica['instituicao'].unique()

array(['Instituto Federal de Educação, Ciência e Tecnologia de Goiás'],
      dtype=object)

In [20]:
editais_iniciacao_cientifica.drop('instituicao', axis=1, inplace=True)

In [21]:
editais_iniciacao_cientifica.sample(n=5)

Unnamed: 0,ano,programas,unidade,descricao
5,2022,PIBIC PIBIC-Af PIBIC-EM PIBIC-EM/EJA,Câmpus Luziânia,Seminário de Iniciação Científica
13,2019,ProAPP,PROPPG - Pró-Reitoria de Pesquisa e Pós-Graduação,EDITAL Nº 25/2019 -PROGRAMA DE APOIO À PRODUTI...
38,2016,PIBITI,PROPPG - Pró-Reitoria de Pesquisa e Pós-Graduação,Edital PIBITI nº 05/2016
39,2016,PIBIC PIBIC-Af PIBITI PIBIC-EM PIVIC,Câmpus Aparecida de Goiânia,III Seminário de ICT do Câmpus Aparecida
35,2016,PIBIC PIBIC-Af PIBITI PIBIC-EM PIVIC,PROPPG - Pró-Reitoria de Pesquisa e Pós-Graduação,10° Seminário de Iniciação Científica e Tecnol...


**Criar uma coluna sigla_unidade com a sigla da unidade de cada edital**

In [22]:
editais_iniciacao_cientifica['unidade'].unique()

array(['Câmpus Goiânia', 'PROPPG - Diretoria de Pesquisa',
       'Câmpus Uruaçu', 'Câmpus Luziânia',
       'PROPPG - Pró-Reitoria de Pesquisa e Pós-Graduação',
       'Câmpus Aparecida de Goiânia', 'Câmpus Águas Lindas',
       'Câmpus Itumbiara'], dtype=object)

In [23]:
editais_iniciacao_cientifica['sigla_unidade'] = editais_iniciacao_cientifica['unidade']

In [24]:
campus_replacement_map = {
    "Câmpus Águas Lindas": "LIN",
    "Câmpus Aparecida de Goiânia": "APA",
    "Câmpus Goiânia": "GYN",
    "Câmpus Itumbiara": "ITU",
    "Câmpus Luziânia": "LUZ",
    "Câmpus Uruaçu": "URU",
}

In [25]:
editais_iniciacao_cientifica['sigla_unidade'].replace(campus_replacement_map, inplace=True)

In [26]:
nome_unidade_discrepantes = []

for unidade in editais_iniciacao_cientifica['sigla_unidade'].unique():
    if not re.match(r'^\D{3}$', unidade):
        nome_unidade_discrepantes.append(unidade)

In [27]:
editais_iniciacao_cientifica['sigla_unidade'].replace(nome_unidade_discrepantes, np.nan, inplace=True)

In [28]:
editais_iniciacao_cientifica['sigla_unidade'].unique()

array(['GYN', nan, 'URU', 'LUZ', 'APA', 'LIN', 'ITU'], dtype=object)

**Colocar uma coluna com um identificador único para cada edital**

In [29]:
editais_iniciacao_cientifica['codigo'] = [str(uuid.uuid4()) for _ in range(len(editais_iniciacao_cientifica))]

In [30]:
 editais_iniciacao_cientifica.head()

Unnamed: 0,ano,programas,unidade,descricao,sigla_unidade,codigo
0,2023,PIBIC PIBIC-Af PIBITI PIBIC-EM PIVIC,Câmpus Goiânia,Chamada para submissão de trabalhos - XI Semin...,GYN,26f46ea0-5eff-49f7-b5d8-abd9a3edc265
1,2023,PIBIC PIBIC-Af PIBITI PIBIC-EM PIVIC,PROPPG - Diretoria de Pesquisa,Edital n. 35/2023 - 16º Seminário de Iniciação...,,324f757d-77a9-4dc3-b8a2-7ecaf188f4ab
2,2023,PIBIC PIBIC-Af PIBITI PIBIC-EM PIVIC,Câmpus Uruaçu,XIII - Seminário Local de Iniciação Científica...,URU,45c34770-bf79-4877-83ea-17151b2fd21d
3,2022,PIBIC PIBIC-Af PIBITI PIBIC-EM PIBIC-EM/EJA,Câmpus Goiânia,Chamada para submissão de trabalhos - X Seminá...,GYN,1e28cf39-8bd7-4688-84b3-e687b72eaa61
4,2022,PIBIC PIBIC-Af PIBITI PIBIC-EM PIVIC PIBIC-EM/EJA,PROPPG - Diretoria de Pesquisa,Edital n. 30 - 15º Seminário de Iniciação Cien...,,2a1b8a6c-5961-4196-a10e-cb9847cdbdaf


**Exportar o dataset**

In [31]:
export_path = Path(DA_STORAGE_DIR / "preprocessed")

if not export_path.is_dir():
    Path(export_path).mkdir()

try:
    editais_iniciacao_cientifica.to_csv(export_path / "editais_iniciacao_cientifica.csv", sep=";", index=False)
except Exception as e:
    print(str(e))