# Mapeamento e Análise Visual do Currículo do PPG-CCMC (ICMC-USP)

Autor 1
Nome: Arthur Kenji Kakuta

Nº USP: 10734881

Email: arthur.kakuta@usp.br

Autor 2
Nome: Diego Giaretta de Paulo

Nº USP: 10857040

Email: giaretta@usp.br

Autor 3
Nome: Ítalo Epifânio de Lima e Silva

Nº USP: 17026507

Email: itepifanio@usp.br

In [8]:
from pathlib import Path
from typing import assert_never

import pandas as pd

# Pré-processamento dos dados

> Esse notebook lê os dados que foram raspados e pré-processa-os para serem utilizados em visualizações.

## Carregando os dados

O arquivo `output.json` não está presente no repositório, ele pode ser obtido através da execução do scrap, para executa-lo basta seguir as instruções do README.md.

Uma vez que o arquivo esteja presente essa seção carregará os dados no formato pandas dataframe.

In [27]:
scrap_file = Path('output.json')

In [28]:
assert scrap_file.exists(), "Arquivo com dados raspados não foi encontrado"

In [11]:
df = pd.read_json(scrap_file)
df.head()

Unnamed: 0,codigo,disciplina,criacao,n_creditos,carga_teorica,carga_pratica,carga_estudo,duracao,carga_total,docentes_responsaveis,...,conteudo,bibliografia,idioma,oferecimento,codigo_area_concentracao,area_concentracao,codigo_commissao,commissao,codigo_programa,nome_programa
0,TNR5790,Segurança radiológica em instalações de tecnol...,12/09/2025,4.0,3.0,5.0,2.0,6 semanas,60 horas,Roberto Vicente | Udalova Alla Aleksandrovna,...,• Tecnologias nucleares: aplicações modernas •...,"1. Cember H., Johnson T.E. Introduction to Hea...",Inglês,Presencial,85133,Tecnologia Nuclear - Reatores,85,Instituto de Pesquisas Energéticas e Nucleares,85001,Tecnologia Nuclear
1,TNR5789,Ciclos de Combustível Nuclear Contemporâneos e...,12/09/2025,4.0,3.0,5.0,2.0,6 semanas,60 horas,Rafael Henrique Lazzari Garcia | Evgeny Kulikov,...,• Introdução\r\n• Combustível nuclear\r\n• Cic...,"1. B.S. Tomar, P.R. Vasudeva Rao, S.B. Roy, Jo...",Inglês,Presencial,85133,Tecnologia Nuclear - Reatores,85,Instituto de Pesquisas Energéticas e Nucleares,85001,Tecnologia Nuclear
2,TNR5785,Teoria do Transporte de Neutrons,26/09/2024,4.0,3.0,5.0,2.0,6 semanas,60 horas,Julian Marco Barbosa Shorto | Roman Fomin,...,&#61692; Características gerais da interação d...,"1.\tShultis, J. K., Faw, R. E. Fundamentos de ...",Inglês,Não-Presencial,85133,Tecnologia Nuclear - Reatores,85,Instituto de Pesquisas Energéticas e Nucleares,85001,Tecnologia Nuclear
3,TNR5784,Aplicações da Ciência e Tecnologia Nuclear e I...,08/01/2024,8.0,4.0,1.0,5.0,12 semanas,120 horas,Delvonei Alves de Andrade | Elaine Aparecida R...,...,MÓDULO 1: INTRODUÇÃO AOS SERVIÇOS ECOSSISTÊMIC...,"LISBÔA, CC; OLIVEIRA JUNIOR, OPD; ANDRADE, DAD...",Português,Presencial,85133,Tecnologia Nuclear - Reatores,85,Instituto de Pesquisas Energéticas e Nucleares,85001,Tecnologia Nuclear
4,TNR5780,Máquinas e equipamentos de Usina Nuclear com r...,14/07/2022,8.0,3.0,2.0,15.0,6 semanas,120 horas,Delvonei Alves de Andrade | Samokhin Dmitrii S...,...,Principais sistemas tecnológicos - Usina nucle...,1. Essential Equipment for Nuclear Power Plant...,Inglês,Presencial,85133,Tecnologia Nuclear - Reatores,85,Instituto de Pesquisas Energéticas e Nucleares,85001,Tecnologia Nuclear


## Filtrando os dados

Algumas disciplinas não conseguiram ser raspadas, por problemas no site do Janus. A seguir a quantidade de disciplinas:

In [12]:
amount_null = len(df[df['n_creditos'].isnull()])
amount_not_null = len(df) - amount_null
print(f'{amount_null} disciplinas não foram recuperadas corretamente. O que corresponde a {amount_null*100/len(df):.2f}% das disciplinas')

32 disciplinas não foram recuperadas corretamente. O que corresponde a 1.43% das disciplinas


O dataset final a ser avaliado não conterá as disciplinas com problemas.

In [13]:
df = df[~df['n_creditos'].isnull()]

## Validanto e transformando os tipos

Nem todos os tipos foram lidos corretamente do json. Essa seção atualiza esses campos.

In [14]:
df.dtypes

codigo                       object
disciplina                   object
criacao                      object
n_creditos                  float64
carga_teorica               float64
carga_pratica               float64
carga_estudo                float64
duracao                      object
carga_total                  object
docentes_responsaveis        object
objetivos                    object
justificativa                object
avaliacao                    object
conteudo                     object
bibliografia                 object
idioma                       object
oferecimento                 object
codigo_area_concentracao      int64
area_concentracao            object
codigo_commissao              int64
commissao                    object
codigo_programa               int64
nome_programa                object
dtype: object

In [15]:
df['criacao'] = pd.to_datetime(
    df['criacao'],
    format='%d/%m/%Y',
    errors='coerce'
)
df['carga_teorica'] = df['carga_teorica'].astype(int)
df['carga_pratica'] = df['carga_pratica'].astype(int)
df['carga_estudo'] = df['carga_estudo'].astype(int)
df['n_creditos'] = df['n_creditos'].astype(int)

As colunas `carga_total` e `duracao` são listadas em horas e semanas, respectivamente, como pode-se ver na célula a seguir. 

In [16]:
display(df['carga_total'].unique())
display(df['duracao'].unique())

array(['60 horas', '120 horas', '75 horas', '90 horas', '30 horas',
       '150 horas', '45 horas', '180 horas', '225 horas', '105 horas',
       '135 horas', '15 horas', '165 horas', '210 horas'], dtype=object)

array(['6 semanas', '12 semanas', '10 semanas', '5 semanas', '3 semanas',
       '15 semanas', '1 semanas', '2 semanas', '4 semanas', '9 semanas',
       '7 semanas', '8 semanas', '20 semanas', '18 semanas'], dtype=object)

Os seguintes comandos transformam o string em um número inteiro de horas.

In [17]:
def extrair_numero(valor_texto: str | None) -> int:
    """
    Recebe uma string como '120 horas' ou '15 semanas' e retorna apenas o valor inteiro em horas.
    """
    numero_str, tipo = str(valor_texto).split(' ')
    if tipo == 'horas':
        return int(numero_str)
    elif tipo == 'semanas':
        return 7 * 24 * int(numero_str)
    else:
        assert_never()

In [18]:
df['carga_total'] = df['carga_total'].apply(extrair_numero)
df['duracao'] = df['duracao'].apply(extrair_numero)
df['carga_total'].astype(int)
df['duracao'].astype(int)

0       1008
1       1008
2       1008
3       2016
4       1008
        ... 
2240    2520
2241    2520
2242    2520
2243    2520
2244    2520
Name: duracao, Length: 2213, dtype: int64

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2213 entries, 0 to 2244
Data columns (total 23 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   codigo                    2213 non-null   object        
 1   disciplina                2213 non-null   object        
 2   criacao                   2213 non-null   datetime64[ns]
 3   n_creditos                2213 non-null   int64         
 4   carga_teorica             2213 non-null   int64         
 5   carga_pratica             2213 non-null   int64         
 6   carga_estudo              2213 non-null   int64         
 7   duracao                   2213 non-null   int64         
 8   carga_total               2213 non-null   int64         
 9   docentes_responsaveis     2213 non-null   object        
 10  objetivos                 2213 non-null   object        
 11  justificativa             2213 non-null   object        
 12  avaliacao                

## Exportando o dataframe

Para reutilizar o dataframe com os mesmos tipos e transformações específicados vamos exportar ele no formato [pickle](https://docs.python.org/3/library/pickle.html), permitindo carrega-lo mais facilmente nos notebooks seguintes.

In [None]:
df.to_pickle('output.pickle')