# Data Preprocessing

Este notebook contém o processo de preparação e tratamento dos dados.

## Estrutura de Dados

- **DataBases - Raw**: Dados brutos originais
- **DataBases - Processed**: Dados processados e tratados

## 1. Importação de Bibliotecas

In [2]:
import pandas as pd
import numpy as np
import os

## 2. Carregamento dos Dados Brutos

In [3]:
# Defina o caminho para os dados brutos
raw_data_path = '../DataBases - Raw/'

# Listar arquivos disponíveis
if os.path.exists(raw_data_path):
    print("Arquivos disponíveis:")
    for file in os.listdir(raw_data_path):
        print(f"  - {file}")
else:
    print("Diretório de dados brutos não encontrado.")

Arquivos disponíveis:
  - catalogo_disciplinas_graduacao_2024_2025.xlsx
  - 2026_2.xlsx
  - 2026_3.xlsx
  - .gitkeep
  - catalogo_disciplinas_graduacao_categorias_2024_2025.xlsx
  - catalogo_disciplinas_graduacao_metodologia_extensionista_2024_2025.xlsx
  - 2026_1.xlsx


In [4]:
df_raw_catalog = pd.read_excel(raw_data_path + 'catalogo_disciplinas_graduacao_categorias_2024_2025.xlsx')
# display(df_raw_catalog.head())
df_raw = pd.read_excel(raw_data_path + 'catalogo_disciplinas_graduacao_2024_2025.xlsx')
# display(df_raw.head())
df_raw_ext = pd.read_excel(raw_data_path + 'catalogo_disciplinas_graduacao_metodologia_extensionista_2024_2025.xlsx')
# display(df_raw_ext.head())
df_raw_do_1 = pd.read_excel(raw_data_path + '2026_1.xlsx')
# display(df_raw_ext.head())

In [None]:
# pd.set_option('display.max_columns', None)

In [5]:
# Supondo que seu DataFrame seja df_raw_catalog
# O sep=';' diz para separar as strings por ponto e vírgula
dummies = df_raw_catalog["Curso (categoria)"].str.get_dummies(sep=';')

# Se você quiser juntar essas novas colunas ao seu DataFrame original:
df_final = pd.concat([df_raw_catalog, dummies], axis=1)

df_final.head()

Unnamed: 0,Sigla,Disciplina,TPEI,Curso (categoria),BPT - Bacharelado em Planejamento Territorial (OL),LM - Licenciatura em Matemática (OL),BBT - Bacharelado em Biotecnologia (OBR),BBT - Bacharelado em Biotecnologia (OL),BC&H - Bacharelado em Ciências e Humanidades (OBR),BC&H - Bacharelado em Ciências e Humanidades (OL),...,LFIS - Licenciatura em Física (OL),LFIS - Licenciatura em Física (OL)),LH - Licenciatura em História (OBR),LH - Licenciatura em História (OL),LM - Licenciatura em Matemática (OBR),LM - Licenciatura em Matemática (OL).1,LQ - Licenciatura em Química (L),LQ - Licenciatura em Química (OBR),LQ - Licenciatura em Química (OL),LQ - Licenciatura em Química (OL)LM - Licenciatura em Matemática (OL)
0,ESZR007-21,A questão nuclear nas Relações Internacionais,4-0-0-4,BRI - Bacharelado em Relações Internacionais (...,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,NHBB003-23,Ações extensionistas em Biodiversidade e Evolução,1-3-4-6,BCB - Bacharelado em Ciências Biológicas (OL),0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,NHBB004-23,Ações extensionistas em Biomoléculas e suas fu...,1-3-4-6,BCB - Bacharelado em Ciências Biológicas (OL);...,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,NHBB005-23,Ações extensionistas em Botânica,1-1-2-4,BCB - Bacharelado em Ciências Biológicas (OL),0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,NHBB006-23,Ações extensionistas em Fisiologia e Saúde,1-1-2-4,BCB - Bacharelado em Ciências Biológicas (OL),0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [5]:
df_raw.head(1)

Unnamed: 0,SIGLA,DISCIPLINA,TPEI,RECOMENDAÇÃO,OBJETIVOS,METODOLOGIA EXTENSIONISTA,EMENTA,BIBLIOGRAFIA BÁSICA,BIBLIOGRAFIA COMPLEMENTAR
0,ESZR007-21,A questão nuclear nas Relações Internacionais,4-0-0-4,Não há,Apresentar ao aluno o debate acadêmico sobre a...,Não se aplica,Complexidade da energia nuclear e a produção...,"KASSENOVA, Togzhan. Brazil’s Nuclear Kaleidosc...","CAVES, John.; CARUS, Seth. The Future of Weapo..."


In [None]:
import pandas as pd

df_merged = df_raw_do_1.merge(
    df_raw, 
    how='left', 
    left_on='Sigla disciplina', 
    right_on='SIGLA', 
    suffixes=('_do1', '_raw')
)

coluna_checar = 'SIGLA' 

total_linhas_originais = len(df_raw_do_1)

linhas_cruzadas = df_merged[coluna_checar].notna().sum()

# Calcular a porcentagem
percentual_cruzamento = (linhas_cruzadas / total_linhas_originais) * 100

# --- 4. Exibir o Resultado ---
print(f"Validação do Left Merge (df_raw_do_1):")
print(f"Total de linhas na base esquerda: {total_linhas_originais}")
print(f"Linhas que encontraram correspondência: {linhas_cruzadas}")
print(f"Percentual de Cruzamento: **{percentual_cruzamento:.2f}%**")
print(f"Linhas sem correspondência (NaN) na coluna '{coluna_checar}': {total_linhas_originais - linhas_cruzadas}")
display(df_merged[df_merged[coluna_checar].isna()].head(10))
df_merged.to_csv('../DataBases - Processed/base_enriquecida_catalog_x_atuais.csv', index=False)


Validação do Left Merge (df_raw_do_1):
Total de linhas na base esquerda: 997
Linhas que encontraram correspondência: 957
Percentual de Cruzamento: **95.99%**
Linhas sem correspondência (NaN) na coluna 'SIGLA': 40


Unnamed: 0,Curso,Disciplina,Código turma,Sigla disciplina,Horário Teoria,Horário Prática,Campus,Turno,Vagas,Reserva,...,Espanhol,SIGLA,DISCIPLINA,TPEI,RECOMENDAÇÃO,OBJETIVOS,METODOLOGIA EXTENSIONISTA,EMENTA,BIBLIOGRAFIA BÁSICA,BIBLIOGRAFIA COMPLEMENTAR
19,BACHARELADO EM BIOTECNOLOGIA,TRABALHO DE CONCLUSÃO DE CURSO DE BIOTECNOLOGIA,DA1NHZ6014-18SA,NHZ6014-18,"segunda das 10:00 às 12:00, sala S-308-3, sema...",,SA,Matutino,30,,...,Não,,,,,,,,,
20,BACHARELADO EM BIOTECNOLOGIA,TRABALHO DE CONCLUSÃO DE CURSO DE BIOTECNOLOGIA,NA1NHZ6014-18SA,NHZ6014-18,"segunda das 21:00 às 23:00, sala S-308-3, sema...",,SA,Noturno,30,,...,Não,,,,,,,,,
306,BACHARELADO EM CIÊNCIAS BIOLÓGICAS,EVOLUÇÃO E DIVERSIDADE DE PLANTAS I,DA1NHT1067-15SA,NHT1067-15,"terça das 08:00 às 10:00, sala S-307-3, semanal","quinta das 10:00 às 12:00, sala 402-3, semanal",SA,Matutino,30,,...,Não,,,,,,,,,
307,BACHARELADO EM CIÊNCIAS BIOLÓGICAS,EVOLUÇÃO E DIVERSIDADE DE PLANTAS I,NA1NHT1067-15SA,NHT1067-15,"terça das 19:00 às 21:00, sala S-308-3, semanal","quinta das 21:00 às 23:00, sala 402-3, semanal",SA,Noturno,30,,...,Não,,,,,,,,,
320,BACHARELADO EM CIÊNCIAS BIOLÓGICAS,TRABALHO DE CONCLUSÃO DE CURSO EM BIOLOGIA,DA1NHT1049-15SA,NHT1049-15,"sexta das 08:00 às 10:00, sala S - 304-1, sema...",,SA,Matutino,30,,...,Não,,,,,,,,,
321,BACHARELADO EM CIÊNCIAS BIOLÓGICAS,TRABALHO DE CONCLUSÃO DE CURSO EM BIOLOGIA,NA1NHT1049-15SA,NHT1049-15,"sexta das 19:00 às 21:00, sala S-304-2, semanal",,SA,Noturno,30,,...,Não,,,,,,,,,
387,BACHARELADO EM CIÊNCIAS ECONÔMICAS,MONOGRAFIA I - TÉCNICAS DE PESQUISA EM ECONOMIA,DA1ESHC907-18SB,ESHC907-18,"quinta das 08:00 às 10:00, sala A1-S205-SB, se...",,SB,Matutino,90,,...,Não,,,,,,,,,
388,BACHARELADO EM CIÊNCIAS ECONÔMICAS,MONOGRAFIA I - TÉCNICAS DE PESQUISA EM ECONOMIA,NA1ESHC907-18SB,ESHC907-18,"segunda das 21:00 às 23:00, sala A2-S105-SB, s...",,SB,Noturno,90,,...,Não,,,,,,,,,
519,BACHARELADO EM ENGENHARIA DE ENERGIA,SISTEMAS FOTOVOLTAICOS CONECTADOS À REDE ELÉTRICA,NA1ESZE106-17SA,ESZE106-17,"segunda das 21:00 às 23:00, sala S - 305-1, se...",,SA,Noturno,30,,...,Não,,,,,,,,,
586,"BACHARELADO EM ENGENHARIA DE INSTRUMENTAÇÃO, A...",SERVO-SISTEMA PARA ROBÔS E ACIONAMENTO PARA SI...,DA1ESZA010-17SA,ESZA010-17,"terça das 14:00 às 17:00, sala S - 304-1, sema...","quinta das 14:00 às 16:00, sala 402-1, quinzen...",SA,Matutino,30,,...,Não,,,,,,,,,


In [14]:
df_merged.columns

Index(['Curso', 'Disciplina', 'Código turma', 'Sigla disciplina',
       'Horário Teoria', 'Horário Prática', 'Campus', 'Turno', 'Vagas',
       'Reserva', 'Docente Teoria', 'Docente Teoria 2', 'Docente Teoria 3',
       'Docente Prática', 'Docente Prática 2', 'Inglês', 'Espanhol', 'SIGLA',
       'DISCIPLINA', 'TPEI', 'RECOMENDAÇÃO', 'OBJETIVOS',
       'METODOLOGIA EXTENSIONISTA', 'EMENTA', 'BIBLIOGRAFIA BÁSICA',
       'BIBLIOGRAFIA COMPLEMENTAR'],
      dtype='object')

In [50]:
# One-hot encoding da coluna 'Curso (categoria)'
# Cria colunas binárias para cada curso presente na lista separada por ';'
col = 'Curso (categoria)'
# Substitui NaN por string vazia para evitar erros
df_raw_catalog[col] = df_raw_catalog[col].fillna('')
# Explode a lista separada por ';' e remove espaços extras
exploded = df_raw_catalog[col].str.split(';').explode().str.strip()
# Remove entradas vazias resultantes de células em branco
exploded = exploded[exploded != '']


if exploded.empty:
    print('Nenhum valor encontrado em', col)
else:
    # Cria dummies (0/1) para cada curso presente
    dummies = pd.get_dummies(exploded)
    # Agrupa pelo índice original (cada linha do df) somando as dummies
    one_hot = dummies.groupby(level=0).sum()
    # Garante que os valores sejam inteiros 0/1
    # one_hot = one_hot.astype(int)
    # Junta as colunas one-hot com o dataframe original
    df_raw_catalog = pd.concat([df_raw_catalog, one_hot], axis=1).fillna(0)
    # Opcional: renomeia colunas para remover espaços e caracteres problemáticos
    def clean_colname(s):
        return s.replace(' ', '_').replace('(', '').replace(')', '').replace("'", '').replace('/', '_')
    df_raw_catalog.rename(columns={c: clean_colname(c) for c in one_hot.columns}, inplace=True)
    # Mostra o resultado (primeiras linhas)
    display(df_raw_catalog.head())
    print(df_raw_catalog.shape)

Unnamed: 0,Sigla,Disciplina,TPEI,Curso (categoria),BBT_-_Bacharelado_em_Biotecnologia_OBR,BBT_-_Bacharelado_em_Biotecnologia_OL,BC&H_-_Bacharelado_em_Ciências_e_Humanidades_OBR,BC&H_-_Bacharelado_em_Ciências_e_Humanidades_OL,BC&H_-_Bacharelado_em_Ciências_e_Humanidades_OL.1,BC&T_-_Bacharelado_em_Ciência_e_Tecnologia_OBR,...,LFIS_-_Licenciatura_em_Física_OL,LFIS_-_Licenciatura_em_Física_OL.1,LH_-_Licenciatura_em_História_OBR,LH_-_Licenciatura_em_História_OL,LM_-_Licenciatura_em_Matemática_OBR,LM_-_Licenciatura_em_Matemática_OL,LQ_-_Licenciatura_em_Química_L,LQ_-_Licenciatura_em_Química_OBR,LQ_-_Licenciatura_em_Química_OL,LQ_-_Licenciatura_em_Química_OLLM_-_Licenciatura_em_Matemática_OL
0,ESZR007-21,A questão nuclear nas Relações Internacionais,4-0-0-4,BRI - Bacharelado em Relações Internacionais (OL);EENE - Engenharia de Energia (OL),0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,NHBB003-23,Ações extensionistas em Biodiversidade e Evolução,1-3-4-6,BCB - Bacharelado em Ciências Biológicas (OL),0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,NHBB004-23,Ações extensionistas em Biomoléculas e suas funções,1-3-4-6,BCB - Bacharelado em Ciências Biológicas (OL);BN - Bacharelado em Neurociência (OL),0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,NHBB005-23,Ações extensionistas em Botânica,1-1-2-4,BCB - Bacharelado em Ciências Biológicas (OL),0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,NHBB006-23,Ações extensionistas em Fisiologia e Saúde,1-1-2-4,BCB - Bacharelado em Ciências Biológicas (OL),0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


(1357, 74)


## 3. Processamento dos Dados

In [None]:
# Adicione aqui o código para processar os dados
# Exemplo:
# df = pd.read_csv(os.path.join(raw_data_path, 'seu_arquivo.csv'))
# df_processed = df.dropna()  # Exemplo de tratamento

## 4. Salvamento dos Dados Processados

In [None]:
# Defina o caminho para os dados processados
processed_data_path = '../DataBases - Processed/'

# Salvar dados processados
# Exemplo:
# 
# 
# cessed.to_csv(os.path.join(processed_data_path, 'dados_processados.csv'), index=False)
# print("Dados processados salvos com sucesso!")