In [35]:
p_storage_dir = "../../storage"

In [36]:
import pandas as pd
import numpy as np
import uuid
import re
from collections import defaultdict
from pathlib import Path

DA_STORAGE_DIR = Path(f"{p_storage_dir}/dados_abertos")

# Discentes

In [37]:
discentes = pd.read_csv(DA_STORAGE_DIR / "transformed/discentes.csv", delimiter=";")

discentes.head()

Unnamed: 0,campus,ano_ingresso,periodo_letivo_ingresso,curso,modalidade,formato,sexo,nivel,renda_per_capita,etnia,ano_nascimento,situacao
0,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Preta,1968,Matriculado
1,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1981,Matriculado
2,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1982,Matriculado
3,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"2,5 Sm < Rfp <= 3 Sm",Parda,1988,Matriculado
4,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Parda,1988,Matriculado


**Colocar uma string vazia na coluna câmpus onde os valores não forem condizentes com os câmpus existentes**

In [38]:
for campus in discentes["campus"].unique():
    print(f"• {campus}")

• -
• Câmpus Águas Lindas
• Câmpus Anápolis
• Câmpus Aparecida de Goiânia
• Câmpus Cidade de Goiás
• Câmpus Formosa
• Câmpus Goiânia
• Câmpus Goiânia Oeste
• Câmpus Inhumas
• Câmpus Itumbiara
• Câmpus Jataí
• Câmpus Luziânia
• Câmpus Senador Canedo
• Câmpus Uruaçu
• Câmpus Valparaíso
• Câmpus Virtual de Ead
• Polo Águas Lindas de Goiás
• Polo Anápolis
• Polo Aparecida de Goiânia
• Polo Catalão
• Polo Cavalcante
• Polo Cidade de Goiás
• Polo Formosa
• Polo Goianésia
• Polo Goiânia
• Polo Goiânia Oeste
• Polo Inhumas
• Polo Itumbiara
• Polo Jatai
• Polo Luziânia
• Polo Mineiros
• Polo Niqueilândia
• Polo Santo Antônio do Descoberto
• Polo Senador Canedo
• Polo Uruaçu
• Polo Uruana
• Polo Valparaíso de Goiás


In [39]:
discentes['campus'] = discentes['campus'].replace({'-': np.nan})

**Inserir uma coluna com a sigla do nome do câmpus**

In [40]:
campus_replacement_map = {
    "Câmpus Águas Lindas": "LIN",
    "Câmpus Anápolis": "ANA",
    "Câmpus Aparecida de Goiânia": "APA",
    "Câmpus Cidade de Goiás": "GOI",
    "Câmpus Formosa": "FOR",
    "Câmpus Goiânia": "GYN",
    "Câmpus Goiânia Oeste": "OES",
    "Câmpus Inhumas": "INH",
    "Câmpus Itumbiara": "ITU",
    "Câmpus Jataí": "JAT",
    "Câmpus Luziânia": "LUZ",
    "Câmpus Senador Canedo": "SEN",
    "Câmpus Uruaçu": "URU",
    "Câmpus Valparaíso": "VAL",
    
    "Polo Águas Lindas de Goiás": "LIN",
    "Polo Anápolis": "ANA",
    "Polo Aparecida de Goiânia": "APA",
    "Polo Cidade de Goiás": "GOI",
    "Polo Formosa": "FOR",
    "Polo Goiânia": "GYN",
    "Polo Goiânia Oeste": "OES",
    "Polo Inhumas": "INH",
    "Polo Itumbiara": "ITU",
    "Polo Jatai": "JAT",
    "Polo Luziânia": "LUZ",
    "Polo Senador Canedo": "SEN",
    "Polo Uruaçu": "URU",
    "Polo Valparaíso de Goiás": "VAL"
}

In [41]:
discentes['sigla_campus'] = discentes['campus'].replace(campus_replacement_map)

In [42]:
discentes[discentes['sigla_campus'] == 'URU']['campus'].unique()

array(['Câmpus Uruaçu', 'Polo Uruaçu'], dtype=object)

**Renomear a coluna "renda per capita"**

In [43]:
discentes.rename(columns={"renda_per_capita": "renda_familiar_per_capita"}, inplace=True)

In [44]:
discentes.head()

Unnamed: 0,campus,ano_ingresso,periodo_letivo_ingresso,curso,modalidade,formato,sexo,nivel,renda_familiar_per_capita,etnia,ano_nascimento,situacao,sigla_campus
0,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Preta,1968,Matriculado,
1,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1981,Matriculado,
2,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1982,Matriculado,
3,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"2,5 Sm < Rfp <= 3 Sm",Parda,1988,Matriculado,
4,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Parda,1988,Matriculado,


**Colocar uma string vazia no campo "renda_familiar_per_capita" onde os valores forem "Não Informado" ou "Não Declarado"**

In [45]:
discentes['renda_familiar_per_capita'].unique()

array(['1 Sm < Rfp <= 1,5 Sm', '1,5 Sm < Rfp <= 2,5 Sm',
       '2,5 Sm < Rfp <= 3 Sm', '0,5 Sm < Rfp <= 1 Sm', 'Rfp <= 0,5 Sm',
       'Não Informado', 'Rfp > 3 Sm', 'Não Declarado'], dtype=object)

In [46]:
discentes['renda_familiar_per_capita'].replace({'Não Informado': np.nan, 'Não Declarado': np.nan}, inplace=True)

In [47]:
discentes['renda_familiar_per_capita'].replace({'Não Informado': np.nan, 'Não Declarado': np.nan}).unique()

array(['1 Sm < Rfp <= 1,5 Sm', '1,5 Sm < Rfp <= 2,5 Sm',
       '2,5 Sm < Rfp <= 3 Sm', '0,5 Sm < Rfp <= 1 Sm', 'Rfp <= 0,5 Sm',
       nan, 'Rfp > 3 Sm'], dtype=object)

**Colocar uma string vazia na coluna "etnia" quando o valor for "Não dispõe da informação"**

In [48]:
discentes['etnia'].unique()

array(['Preta', 'Parda', 'Branca', 'Não dispõe da informação', 'Amarela',
       'Indígena', 'Não quis declarar cor/raça'], dtype=object)

In [49]:
discentes['etnia'].replace({'Não dispõe da informação': np.nan}, inplace=True)

In [50]:
discentes['etnia'].unique()

array(['Preta', 'Parda', 'Branca', nan, 'Amarela', 'Indígena',
       'Não quis declarar cor/raça'], dtype=object)

**Gerar uma coluna "codigo" para identificar unicamente cada discente**

Medida necessária para ligá-los corretamente a outras entidades no grafo

In [51]:
discentes['codigo'] = [str(uuid.uuid4()) for _ in range(len(discentes))]

In [52]:
discentes.head()

Unnamed: 0,campus,ano_ingresso,periodo_letivo_ingresso,curso,modalidade,formato,sexo,nivel,renda_familiar_per_capita,etnia,ano_nascimento,situacao,sigla_campus,codigo
0,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Preta,1968,Matriculado,,a3c47b42-a54c-41d7-be92-4fb64f923dec
1,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1981,Matriculado,,0ed69198-362f-4fc6-8c7f-e0ba1c07b04c
2,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1982,Matriculado,,0d3c607b-966a-4c2b-b561-13d2fbb4e948
3,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"2,5 Sm < Rfp <= 3 Sm",Parda,1988,Matriculado,,3c4e81de-589c-4782-b58d-f29c1c95be0a
4,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Parda,1988,Matriculado,,b973709d-6389-439a-9037-fed8701b228d


In [53]:
discentes.shape

(71556, 14)

**Criar uma coluna com o código do curso do discente**

In [54]:
cursos = pd.read_csv(DA_STORAGE_DIR / "preprocessed/cursos.csv", delimiter=";")

cursos.head(n=3)

Unnamed: 0,campus,nome,codigo,modalidade,formato,turno,periodo_de_ingresso,qtd_vagas_ano,nivel,ch_disciplinas,ch_complementar,ch_estagio,ch_optativas,ch_projeto_final,ch_total,qtd_semestres
0,LIN,Técnico Integrado ao Ensino Médio em Análises ...,967,Integrado,Presencial,Integral,Anual,30,Ensino Médio,3683,3186.0,120.0,160.0,108.0,3574.0,6
1,LIN,Técnico Integrado ao Ensino Médio em Meio Ambi...,968,Integrado,Presencial,Integral,Anual,30,Ensino Médio,3684,2970.0,120.0,160.0,54.0,3304.0,6
2,LIN,Técnico Integrado ao Ensino Médio em Vigilânci...,908,Integrado,Presencial,Integral,Anual,30,Ensino Médio,3592,3240.0,120.0,160.0,54.0,3574.0,6


In [55]:
discentes_to_merge = discentes.loc[:, ['sigla_campus', 'curso', 'codigo']]#.iloc[:10]#.sample(n=10, random_state=90)
discentes_to_merge.rename(columns={'codigo': 'codigo_discente'}, inplace=True)

discentes_to_merge

Unnamed: 0,sigla_campus,curso,codigo_discente
0,,Especialização em Informática na Educação,a3c47b42-a54c-41d7-be92-4fb64f923dec
1,,Especialização em Informática na Educação,0ed69198-362f-4fc6-8c7f-e0ba1c07b04c
2,,Especialização em Informática na Educação,0d3c607b-966a-4c2b-b561-13d2fbb4e948
3,,Especialização em Informática na Educação,3c4e81de-589c-4782-b58d-f29c1c95be0a
4,,Especialização em Informática na Educação,b973709d-6389-439a-9037-fed8701b228d
...,...,...,...
71551,VAL,Curso Técnico Subsequente ao Ensino Médio em S...,d95d818f-cfa6-4c4d-bf1c-40d96a805ffb
71552,VAL,Curso Técnico Subsequente ao Ensino Médio em S...,7ba54c4e-9d55-4498-9638-5702fd09aa42
71553,VAL,Curso Técnico Subsequente ao Ensino Médio em S...,7fc8f38f-9d0e-45a6-85ba-430f2642d7d5
71554,VAL,Curso Técnico Subsequente ao Ensino Médio em S...,f02c6b85-9f2b-48dc-b34e-9d34eeaec60e


In [56]:
cursos_to_merge = cursos[['nome', 'campus', 'codigo']]

cursos_to_merge.head()

Unnamed: 0,nome,campus,codigo
0,Técnico Integrado ao Ensino Médio em Análises ...,LIN,967
1,Técnico Integrado ao Ensino Médio em Meio Ambi...,LIN,968
2,Técnico Integrado ao Ensino Médio em Vigilânci...,LIN,908
3,Técnico Integrado ao Ensino Médio em Enfermage...,LIN,909
4,Licenciatura em Ciências Biológicas,LIN,1174


In [57]:
discentes_cursos_merged = pd.merge(discentes_to_merge, 
                  cursos_to_merge,
                  left_on=['sigla_campus', 'curso'],
                  right_on=['campus', 'nome'],
                  how='left')

In [58]:
discentes_cursos_merged.shape

(72299, 6)

In [59]:
discentes_cursos_merged = discentes_cursos_merged.drop_duplicates('codigo_discente')

In [60]:
discentes_cursos_merged = discentes_cursos_merged.loc[:, ['codigo_discente', 'codigo']].rename(columns={'codigo': 'codigo_curso'})

In [61]:
discentes_cursos_merged.sample(n=15, random_state=10)

Unnamed: 0,codigo_discente,codigo_curso
23752,fbd3107d-0871-418d-986a-77e69f7da426,600.0
67458,5c4a9377-dd2c-4a96-b30d-cd59ac08cdff,
39169,ed875168-a0d7-476e-8e4f-6c9785117f91,1048.0
18098,e75052e1-f595-4a16-b786-1c3166cbe57c,
66357,deac3545-d11b-4e34-9a31-deeb1a8b052f,1231.0
43074,f01f8851-f216-4d4f-a94c-1e5a8574504a,793.0
11241,1e0a82e4-b8fd-4c7c-9de5-2a6fcb71e4d3,
60271,7f49804f-17fb-4c5f-a9d5-3968998774f1,100.0
8793,90424add-0e87-4aa5-bee1-930df04f095e,763.0
65226,cc5e8b4b-b1ca-4c11-81b9-277ee3277971,


In [62]:
discentes = pd.merge(
    discentes, discentes_cursos_merged, left_on='codigo', right_on='codigo_discente', how='left').drop(columns='codigo_discente')

In [63]:
discentes['codigo_curso'] = discentes['codigo_curso'].astype('Int64')

In [64]:
discentes.rename(columns={'curso': 'nome_curso'}, inplace=True)

In [65]:
discentes.sample(n=8, random_state=30)

Unnamed: 0,campus,ano_ingresso,periodo_letivo_ingresso,nome_curso,modalidade,formato,sexo,nivel,renda_familiar_per_capita,etnia,ano_nascimento,situacao,sigla_campus,codigo,codigo_curso
52783,Câmpus Jataí,2022,1,Técnico Integrado ao Ensino Médio em Secretari...,Integrado - EJA,Presencial,F,Ensino Médio,"Rfp <= 0,5 Sm",Parda,2000,Evasão,JAT,7164d12e-5527-4c32-8416-cd58688ea744,643.0
40955,Câmpus Inhumas,2012,2,Técnico Integrado ao Ensino Médio em Manutençã...,Integrado - EJA,Presencial,F,Ensino Médio,,Amarela,1991,Evasão,INH,ab73a38b-3aa7-41b4-919b-af92e9787a79,
41971,Câmpus Inhumas,2018,1,Técnico Integrado ao Ensino Médio em Agroindús...,Integrado,Presencial,F,Ensino Médio,"1 Sm < Rfp <= 1,5 Sm",,2003,Concluído,INH,4fce1797-f994-48d1-972a-6a43ce14431c,953.0
31936,Câmpus Goiânia,2020,1,Bacharelado em Engenharia Cartográfica e de Ag...,Bacharelado,Presencial,M,Superior,,Branca,1993,Cancelado,GYN,5bb336f5-059b-4944-87a9-e09255ac973d,983.0
21703,Câmpus Goiânia,2012,1,Técnico Subsequente ao Ensino Médio em Mecânica,Subsequente,Presencial,M,Ensino Médio,,Parda,1994,Cancelado,GYN,ac76b43c-9b9f-481f-a192-997c44f53d54,66.0
13467,Câmpus Formosa,2018,1,Técnico Integrado ao Ensino Médio em Manutençã...,Integrado - EJA,Presencial,F,Ensino Médio,"Rfp <= 0,5 Sm",Parda,1998,Falecido,FOR,5b50ca63-77e1-4028-af89-765bfc2059dd,743.0
64454,Polo Anápolis,2013,2,Curso Técnico Subsequente ao Ensino Médio em E...,Subsequente,À Distância,M,Ensino Médio,"0,5 Sm < Rfp <= 1 Sm",Parda,1968,Evasão,ANA,c7cd882e-77b4-4cde-a93e-8e9845bdcf37,
16022,Câmpus Goiânia,2008,2,Superior de Tecnologia em Redes de Comunicação,Tecnólogo,Presencial,M,Superior,,,1989,Formado,GYN,4e56853f-4eaf-4d36-80b8-e514b2732cbb,


**Exportar o dataset**

In [525]:
export_path = Path(DA_STORAGE_DIR / "preprocessed")

if not export_path.is_dir():
    Path(export_path).mkdir()

try:
    discentes.to_csv(export_path / "discentes.csv", sep=";", index=False)
except Exception as e:
    print(str(e))