In [119]:
p_storage_dir = "../../storage"

In [120]:
import pandas as pd
import numpy as np
import uuid
import re
from collections import defaultdict
from pathlib import Path

DA_STORAGE_DIR = Path(f"{p_storage_dir}/dados_abertos")

# Discentes

In [121]:
discentes = pd.read_csv(DA_STORAGE_DIR / "transformed/discentes.csv", delimiter=";")

discentes.head()

Unnamed: 0,campus,ano_ingresso,periodo_letivo_ingresso,curso,modalidade,formato,sexo,nivel,renda_per_capita,etnia,ano_nascimento,situacao
0,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Preta,1968,Matriculado
1,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1981,Matriculado
2,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1982,Matriculado
3,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"2,5 Sm < Rfp <= 3 Sm",Parda,1988,Matriculado
4,-,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Parda,1988,Matriculado


**Colocar uma string vazia na coluna câmpus onde os valores não forem condizentes com os câmpus existentes**

In [122]:
for campus in discentes["campus"].unique():
    print(f"• {campus}")

• -
• Câmpus Águas Lindas
• Câmpus Anápolis
• Câmpus Aparecida de Goiânia
• Câmpus Cidade de Goiás
• Câmpus Formosa
• Câmpus Goiânia
• Câmpus Goiânia Oeste
• Câmpus Inhumas
• Câmpus Itumbiara
• Câmpus Jataí
• Câmpus Luziânia
• Câmpus Senador Canedo
• Câmpus Uruaçu
• Câmpus Valparaíso
• Câmpus Virtual de Ead
• Polo Águas Lindas de Goiás
• Polo Anápolis
• Polo Aparecida de Goiânia
• Polo Catalão
• Polo Cavalcante
• Polo Cidade de Goiás
• Polo Formosa
• Polo Goianésia
• Polo Goiânia
• Polo Goiânia Oeste
• Polo Inhumas
• Polo Itumbiara
• Polo Jatai
• Polo Luziânia
• Polo Mineiros
• Polo Niqueilândia
• Polo Santo Antônio do Descoberto
• Polo Senador Canedo
• Polo Uruaçu
• Polo Uruana
• Polo Valparaíso de Goiás


In [123]:
discentes['campus'] = discentes['campus'].replace({'-': ''})

**Inserir uma coluna com a sigla do nome do câmpus**

In [124]:
campus_replacement_map = {
    "Câmpus Águas Lindas": "LIN",
    "Câmpus Anápolis": "ANA",
    "Câmpus Aparecida de Goiânia": "APA",
    "Câmpus Cidade de Goiás": "GOI",
    "Câmpus Formosa": "FOR",
    "Câmpus Goiânia": "GYN",
    "Câmpus Goiânia Oeste": "OES",
    "Câmpus Inhumas": "INH",
    "Câmpus Itumbiara": "ITU",
    "Câmpus Jataí": "JAT",
    "Câmpus Luziânia": "LUZ",
    "Câmpus Senador Canedo": "SEN",
    "Câmpus Uruaçu": "URU",
    "Câmpus Valparaíso": "VAL",
    
    "Polo Águas Lindas de Goiás": "LIN",
    "Polo Anápolis": "ANA",
    "Polo Aparecida de Goiânia": "APA",
    "Polo Cidade de Goiás": "GOI",
    "Polo Formosa": "FOR",
    "Polo Goiânia": "GYN",
    "Polo Goiânia Oeste": "OES",
    "Polo Inhumas": "INH",
    "Polo Itumbiara": "ITU",
    "Polo Jatai": "JAT",
    "Polo Luziânia": "LUZ",
    "Polo Senador Canedo": "SEN",
    "Polo Uruaçu": "URU",
    "Polo Valparaíso de Goiás": "VAL"
}

In [125]:
discentes['sigla_campus'] = discentes['campus'].replace(campus_replacement_map)

In [126]:
discentes[discentes['sigla_campus'] == 'URU']['campus'].unique()

array(['Câmpus Uruaçu', 'Polo Uruaçu'], dtype=object)

**Renomear a coluna "renda per capita"**

In [127]:
discentes.rename(columns={"renda_per_capita": "renda_familiar_per_capita"}, inplace=True)

In [128]:
discentes.head()

Unnamed: 0,campus,ano_ingresso,periodo_letivo_ingresso,curso,modalidade,formato,sexo,nivel,renda_familiar_per_capita,etnia,ano_nascimento,situacao,sigla_campus
0,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Preta,1968,Matriculado,
1,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1981,Matriculado,
2,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1982,Matriculado,
3,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"2,5 Sm < Rfp <= 3 Sm",Parda,1988,Matriculado,
4,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Parda,1988,Matriculado,


**Colocar uma string vazia no campo "renda_familiar_per_capita" onde os valores forem "Não Informado" ou "Não Declarado"**

In [129]:
discentes['renda_familiar_per_capita'].unique()

array(['1 Sm < Rfp <= 1,5 Sm', '1,5 Sm < Rfp <= 2,5 Sm',
       '2,5 Sm < Rfp <= 3 Sm', '0,5 Sm < Rfp <= 1 Sm', 'Rfp <= 0,5 Sm',
       'Não Informado', 'Rfp > 3 Sm', 'Não Declarado'], dtype=object)

In [130]:
discentes['renda_familiar_per_capita'].replace({'Não Informado': '', 'Não Declarado': ''}, inplace=True)

In [131]:
discentes['renda_familiar_per_capita'].replace({'Não Informado': '', 'Não Declarado': ''}).unique()

array(['1 Sm < Rfp <= 1,5 Sm', '1,5 Sm < Rfp <= 2,5 Sm',
       '2,5 Sm < Rfp <= 3 Sm', '0,5 Sm < Rfp <= 1 Sm', 'Rfp <= 0,5 Sm',
       '', 'Rfp > 3 Sm'], dtype=object)

**Colocar uma string vazia na coluna "etnia" quando o valor for "Não dispõe da informação"**

In [132]:
discentes['etnia'].unique()

array(['Preta', 'Parda', 'Branca', 'Não dispõe da informação', 'Amarela',
       'Indígena', 'Não quis declarar cor/raça'], dtype=object)

In [133]:
discentes['etnia'].replace({'Não dispõe da informação': ''}, inplace=True)

In [134]:
discentes['etnia'].unique()

array(['Preta', 'Parda', 'Branca', '', 'Amarela', 'Indígena',
       'Não quis declarar cor/raça'], dtype=object)

**Gerar uma coluna "codigo" para identificar unicamente cada discente**

Medida necessária para ligá-los corretamente a outras entidades no grafo

In [135]:
discentes['codigo'] = [str(uuid.uuid4()) for _ in range(len(discentes))]

In [136]:
discentes.head()

Unnamed: 0,campus,ano_ingresso,periodo_letivo_ingresso,curso,modalidade,formato,sexo,nivel,renda_familiar_per_capita,etnia,ano_nascimento,situacao,sigla_campus,codigo
0,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Preta,1968,Matriculado,,0edccfe1-f987-4e06-9a02-15076b5ed24e
1,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1981,Matriculado,,26af4b68-ea89-4d05-9305-5fd920518404
2,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,F,Pós-Graduação Lato Sensu,"1,5 Sm < Rfp <= 2,5 Sm",Parda,1982,Matriculado,,3faec04f-e29a-49a7-975b-a6ad67b799b6
3,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"2,5 Sm < Rfp <= 3 Sm",Parda,1988,Matriculado,,561713ed-0ec5-4acc-9ef8-4163299aefb8
4,,2023,1,Especialização em Informática na Educação,Especialização,Semipresencial,M,Pós-Graduação Lato Sensu,"1 Sm < Rfp <= 1,5 Sm",Parda,1988,Matriculado,,5b132ff5-bd41-49a4-b84f-6cb9e3ea6a8b


**WIP: Criar uma coluna com o código do curso do discente**

**Exportar o dataset**

In [137]:
export_path = Path(DA_STORAGE_DIR / "preprocessed")

if not export_path.is_dir():
    Path(export_path).mkdir()

try:
    discentes.to_csv(export_path / "discentes.csv", sep=";", index=False)
except Exception as e:
    print(str(e))