In [494]:
p_storage_dir = "../../storage"

In [495]:
import pandas as pd
import numpy as np
import uuid
import re
from collections import defaultdict
from pathlib import Path

DA_STORAGE_DIR = Path(f"{p_storage_dir}/dados_abertos")

# Discentes

In [496]:
discentes = pd.read_csv(DA_STORAGE_DIR / "transformed/discentes.csv", delimiter=";")

discentes.head()

Unnamed: 0,campus,ano_ingresso,periodo_letivo_ingresso,curso,modalidade,formato,sexo,nivel,renda_per_capita,etnia,ano_nascimento,situacao
0,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Preta,1968,Matriculado
1,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1981,Matriculado
2,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1982,Matriculado
3,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"2,5 Sm < Rfp <= 3 Sm",Parda,1988,Matriculado
4,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Parda,1988,Matriculado


**Colocar uma string vazia na coluna câmpus onde os valores não forem condizentes com os câmpus existentes**

In [497]:
for campus in discentes["campus"].unique():
    print(f"• {campus}")

• -
• Câmpus Águas Lindas
• Câmpus Anápolis
• Câmpus Aparecida de Goiânia
• Câmpus Cidade de Goiás
• Câmpus Formosa
• Câmpus Goiânia
• Câmpus Goiânia Oeste
• Câmpus Inhumas
• Câmpus Itumbiara
• Câmpus Jataí
• Câmpus Luziânia
• Câmpus Senador Canedo
• Câmpus Uruaçu
• Câmpus Valparaíso
• Câmpus Virtual de Ead
• Polo Águas Lindas de Goiás
• Polo Anápolis
• Polo Aparecida de Goiânia
• Polo Catalão
• Polo Cavalcante
• Polo Cidade de Goiás
• Polo Formosa
• Polo Goianésia
• Polo Goiânia
• Polo Goiânia Oeste
• Polo Inhumas
• Polo Itumbiara
• Polo Jatai
• Polo Luziânia
• Polo Mineiros
• Polo Niqueilândia
• Polo Santo Antônio do Descoberto
• Polo Senador Canedo
• Polo Uruaçu
• Polo Uruana
• Polo Valparaíso de Goiás


In [498]:
discentes['campus'] = discentes['campus'].replace({'-': ''})

**Inserir uma coluna com a sigla do nome do câmpus**

In [499]:
campus_replacement_map = {
    "Câmpus Águas Lindas": "LIN",
    "Câmpus Anápolis": "ANA",
    "Câmpus Aparecida de Goiânia": "APA",
    "Câmpus Cidade de Goiás": "GOI",
    "Câmpus Formosa": "FOR",
    "Câmpus Goiânia": "GYN",
    "Câmpus Goiânia Oeste": "OES",
    "Câmpus Inhumas": "INH",
    "Câmpus Itumbiara": "ITU",
    "Câmpus Jataí": "JAT",
    "Câmpus Luziânia": "LUZ",
    "Câmpus Senador Canedo": "SEN",
    "Câmpus Uruaçu": "URU",
    "Câmpus Valparaíso": "VAL",
    
    "Polo Águas Lindas de Goiás": "LIN",
    "Polo Anápolis": "ANA",
    "Polo Aparecida de Goiânia": "APA",
    "Polo Cidade de Goiás": "GOI",
    "Polo Formosa": "FOR",
    "Polo Goiânia": "GYN",
    "Polo Goiânia Oeste": "OES",
    "Polo Inhumas": "INH",
    "Polo Itumbiara": "ITU",
    "Polo Jatai": "JAT",
    "Polo Luziânia": "LUZ",
    "Polo Senador Canedo": "SEN",
    "Polo Uruaçu": "URU",
    "Polo Valparaíso de Goiás": "VAL"
}

In [500]:
discentes['sigla_campus'] = discentes['campus'].replace(campus_replacement_map)

In [501]:
discentes[discentes['sigla_campus'] == 'URU']['campus'].unique()

array(['Câmpus Uruaçu', 'Polo Uruaçu'], dtype=object)

**Renomear a coluna "renda per capita"**

In [502]:
discentes.rename(columns={"renda_per_capita": "renda_familiar_per_capita"}, inplace=True)

In [503]:
discentes.head()

Unnamed: 0,campus,ano_ingresso,periodo_letivo_ingresso,curso,modalidade,formato,sexo,nivel,renda_familiar_per_capita,etnia,ano_nascimento,situacao,sigla_campus
0,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Preta,1968,Matriculado,
1,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1981,Matriculado,
2,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1982,Matriculado,
3,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"2,5 Sm < Rfp <= 3 Sm",Parda,1988,Matriculado,
4,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Parda,1988,Matriculado,


**Colocar uma string vazia no campo "renda_familiar_per_capita" onde os valores forem "Não Informado" ou "Não Declarado"**

In [504]:
discentes['renda_familiar_per_capita'].unique()

array(['1 Sm < Rfp <= 1,5 Sm', '1,5 Sm < Rfp <= 2,5 Sm',
       '2,5 Sm < Rfp <= 3 Sm', '0,5 Sm < Rfp <= 1 Sm', 'Rfp <= 0,5 Sm',
       'Não Informado', 'Rfp > 3 Sm', 'Não Declarado'], dtype=object)

In [505]:
discentes['renda_familiar_per_capita'].replace({'Não Informado': '', 'Não Declarado': ''}, inplace=True)

In [506]:
discentes['renda_familiar_per_capita'].replace({'Não Informado': '', 'Não Declarado': ''}).unique()

array(['1 Sm < Rfp <= 1,5 Sm', '1,5 Sm < Rfp <= 2,5 Sm',
       '2,5 Sm < Rfp <= 3 Sm', '0,5 Sm < Rfp <= 1 Sm', 'Rfp <= 0,5 Sm',
       '', 'Rfp > 3 Sm'], dtype=object)

**Colocar uma string vazia na coluna "etnia" quando o valor for "Não dispõe da informação"**

In [507]:
discentes['etnia'].unique()

array(['Preta', 'Parda', 'Branca', 'Não dispõe da informação', 'Amarela',
       'Indígena', 'Não quis declarar cor/raça'], dtype=object)

In [508]:
discentes['etnia'].replace({'Não dispõe da informação': ''}, inplace=True)

In [509]:
discentes['etnia'].unique()

array(['Preta', 'Parda', 'Branca', '', 'Amarela', 'Indígena',
       'Não quis declarar cor/raça'], dtype=object)

**Gerar uma coluna "codigo" para identificar unicamente cada discente**

Medida necessária para ligá-los corretamente a outras entidades no grafo

In [510]:
discentes['codigo'] = [str(uuid.uuid4()) for _ in range(len(discentes))]

In [511]:
discentes.head()

Unnamed: 0,campus,ano_ingresso,periodo_letivo_ingresso,curso,modalidade,formato,sexo,nivel,renda_familiar_per_capita,etnia,ano_nascimento,situacao,sigla_campus,codigo
0,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Preta,1968,Matriculado,,5a72221e-3d1c-4b39-a300-03aef80429ae
1,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1981,Matriculado,,e6d7eaf8-b117-4444-b67d-2acca3f0a347
2,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1982,Matriculado,,357e8d2d-9127-4010-aaa9-ed1ed160c08e
3,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"2,5 Sm < Rfp <= 3 Sm",Parda,1988,Matriculado,,fd6b1969-1f2a-4f21-bbd2-1e2e9b98ad64
4,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Parda,1988,Matriculado,,9ffaacf0-214f-475a-ba0c-c390ce4e0330


In [512]:
discentes.shape

(69899, 14)

**Criar uma coluna com o código do curso do discente**

In [513]:
cursos = pd.read_csv(DA_STORAGE_DIR / "preprocessed/cursos.csv", delimiter=";")

cursos.head(n=3)

Unnamed: 0,campus,nome,codigo,modalidade,formato,turno,periodo_de_ingresso,qtd_vagas_ano,nivel,ch_disciplinas,ch_complementar,ch_estagio,ch_optativas,ch_projeto_final,ch_total,qtd_semestres
0,LIN,Técnico Integrado ao Ensino Médio em Análises ...,967,Integrado,Presencial,Integral,Anual,30,Ensino Médio,3683,3186.0,120.0,160.0,108.0,3574.0,6
1,LIN,Técnico Integrado ao Ensino Médio em Meio Ambi...,968,Integrado,Presencial,Integral,Anual,30,Ensino Médio,3684,2970.0,120.0,160.0,54.0,3304.0,6
2,LIN,Técnico Integrado ao Ensino Médio em Vigilânci...,908,Integrado,Presencial,Integral,Anual,30,Ensino Médio,3592,3240.0,120.0,160.0,54.0,3574.0,6


In [514]:
discentes_to_merge = discentes.loc[:, ['sigla_campus', 'curso', 'codigo']]#.iloc[:10]#.sample(n=10, random_state=90)
discentes_to_merge.rename(columns={'codigo': 'codigo_discente'}, inplace=True)

discentes_to_merge

Unnamed: 0,sigla_campus,curso,codigo_discente
0,,Especialização em Informática na Educação,5a72221e-3d1c-4b39-a300-03aef80429ae
1,,Especialização em Informática na Educação,e6d7eaf8-b117-4444-b67d-2acca3f0a347
2,,Especialização em Informática na Educação,357e8d2d-9127-4010-aaa9-ed1ed160c08e
3,,Especialização em Informática na Educação,fd6b1969-1f2a-4f21-bbd2-1e2e9b98ad64
4,,Especialização em Informática na Educação,9ffaacf0-214f-475a-ba0c-c390ce4e0330
...,...,...,...
69894,VAL,Curso Técnico Subsequente ao Ensino Médio em S...,1b65bf46-ac38-4da4-8e23-6e137f2b3f13
69895,VAL,Curso Técnico Subsequente ao Ensino Médio em S...,156460c0-3727-4cd1-9395-73be3d786e21
69896,VAL,Curso Técnico Subsequente ao Ensino Médio em S...,b994703a-dc0a-45a7-8c98-f8c3933b4ee1
69897,VAL,Curso Técnico Subsequente ao Ensino Médio em S...,8657037d-0930-4fff-a846-652567427118


In [515]:
cursos_to_merge = cursos[['nome', 'campus', 'codigo']]

cursos_to_merge.head()

Unnamed: 0,nome,campus,codigo
0,Técnico Integrado ao Ensino Médio em Análises ...,LIN,967
1,Técnico Integrado ao Ensino Médio em Meio Ambi...,LIN,968
2,Técnico Integrado ao Ensino Médio em Vigilânci...,LIN,908
3,Técnico Integrado ao Ensino Médio em Enfermage...,LIN,909
4,Licenciatura em Ciências Biológicas,LIN,1174


In [516]:
discentes_cursos_merged = pd.merge(discentes_to_merge, 
                  cursos_to_merge,
                  left_on=['sigla_campus', 'curso'],
                  right_on=['campus', 'nome'],
                  how='left')

In [517]:
discentes_cursos_merged.shape

(70642, 6)

In [518]:
discentes_cursos_merged = discentes_cursos_merged.drop_duplicates('codigo_discente')

In [519]:
discentes_cursos_merged = discentes_cursos_merged.loc[:, ['codigo_discente', 'codigo']].rename(columns={'codigo': 'codigo_curso'})

In [520]:
discentes_cursos_merged.sample(n=15, random_state=10)

Unnamed: 0,codigo_discente,codigo_curso
9376,e3159669-5a27-456b-b93e-a95e5ce13942,806.0
61121,3aeef069-40c8-428c-be43-a8519f7f6738,1014.0
60841,c91d7ef6-42ef-40d7-b523-f6ac43ba3dc2,932.0
30382,09bfec6f-07e9-4ac9-8197-00cb15e0fc98,608.0
62852,763db45f-d001-4046-925c-e952dc24d5b0,
51888,7ff8350e-113a-4b7a-93c0-ccb248ce40b3,414.0
64536,032603bb-416e-4479-8cda-70f761ff3eae,
49610,2d4a507d-b60f-41ac-b3f1-786a69507c4d,1028.0
8080,f809441d-965f-4f64-a01e-c508aab2dfd1,512.0
14278,c295e9a1-a4ff-4cde-9419-95c41e7d6cca,618.0


In [521]:
discentes = pd.merge(
    discentes, discentes_cursos_merged, left_on='codigo', right_on='codigo_discente', how='left').drop(columns='codigo_discente')

In [522]:
discentes['codigo_curso'] = discentes['codigo_curso'].astype('Int64')

In [523]:
discentes.rename(columns={'curso': 'nome_curso'}, inplace=True)

In [524]:
discentes.sample(n=8, random_state=30)

Unnamed: 0,campus,ano_ingresso,periodo_letivo_ingresso,nome_curso,modalidade,formato,sexo,nivel,renda_familiar_per_capita,etnia,ano_nascimento,situacao,sigla_campus,codigo,codigo_curso
45596,Câmpus Itumbiara,2021,2,Licenciatura em Química,Licenciatura,Presencial,M,Superior,,,1988,Cancelado,ITU,3966882a-59d2-4891-8eaa-fc4ffc92dc9e,243.0
12958,Câmpus Formosa,2018,1,Bacharelado em Engenharia Civil,Bacharelado,Presencial,M,Superior,Rfp > 3 Sm,Branca,1999,Formado,FOR,daf3f339-574b-4f55-913e-9e474111bd1d,618.0
63231,Polo Aparecida de Goiânia,2012,2,Curso Técnico Subsequente ao Ensino Médio em I...,Subsequente,À Distância,F,Ensino Médio,,Branca,1958,Concluído,APA,2ecae8aa-2882-42d9-9ca3-bf46301b0f76,
27927,Câmpus Goiânia,2017,1,Técnico Integrado ao Ensino Médio em Cozinha n...,Integrado - EJA,Presencial,F,Ensino Médio,,Parda,1984,Evasão,GYN,7888eafc-a3aa-42f9-9d9a-907804ecbe8b,304.0
38966,Câmpus Inhumas,2009,2,Licenciatura em Química,Licenciatura,Presencial,F,Superior,,Branca,1989,Formado,INH,9d7f5ef5-5e62-4c6c-a3ba-36f4f9e92062,81.0
59293,Câmpus Uruaçu,2019,1,Técnico Integrado ao Ensino Médio em Informática,Integrado,Presencial,M,Ensino Médio,"2,5 Sm < Rfp <= 3 Sm",Parda,2004,Concluído,URU,de663705-ddf1-408a-bbe9-9bc0a171ba94,563.0
23136,Câmpus Goiânia,2013,2,Superior de Tecnologia em Agrimensura,Tecnólogo,Presencial,F,Superior,"1,5 Sm < Rfp <= 2,5 Sm",Branca,1996,Formado,GYN,b79ad3cd-0974-477c-942a-311b6cc2635a,
6277,Câmpus Anápolis,2023,1,Técnico Integrado ao Ensino Médio em Química,Integrado,Presencial,F,Ensino Médio,"Rfp <= 0,5 Sm",Não quis declarar cor/raça,2007,Matriculado,ANA,19424e60-8b6c-4661-a9cf-add527c900b9,344.0


**Exportar o dataset**

In [525]:
export_path = Path(DA_STORAGE_DIR / "preprocessed")

if not export_path.is_dir():
    Path(export_path).mkdir()

try:
    discentes.to_csv(export_path / "discentes.csv", sep=";", index=False)
except Exception as e:
    print(str(e))