# T1.1 - Solution
## Authors:
- Leonardo Kaplan 1212509
- Nino Fabrizio Tiriticco Lizardo 1113203

In [None]:
# Pacotes usados
import pandas as pd # Para pegar os dados dos arquivos
from IPython.display import display # Para mostrar informações
import ast # Para transformar string/object em estruturas de dados (listas, dicionários, ...)

In [None]:
# Carregando dados de cada um dos arquivos
DataQualisRaw = pd.read_excel('Files/Qualis CC 2013-2016.xlsx')
DataDocentesRaw = pd.read_csv('Files/docentes.csv')
DataDiscentesRaw = pd.read_csv('Files/discentes.csv')
DataProducaoRaw = pd.read_csv('Files/producao.csv')
DataTrabalhosRaw = pd.read_csv('Files/trabalhos.csv')

## Análise prévia dos dados:

In [None]:
# Pela função info, parece que temos todos os dados disponíveis para cada coluna (sem valores nulos)
display(DataQualisRaw.info())

# Pelas 5 primeiras tuplas, os dados parecem não precisar tratamento
DataQualisRaw.head()

# Fazendo uma análise prévia dos dados, DataQualisRaw parece representar o título de papers associado a um código(?)

In [None]:
# Pela função info, parece que temos todos os dados disponíveis para cada coluna (sem valores nulos)
display(DataDocentesRaw.info())

# Pelas 5 primeiras tuplas, os dados parecem não precisar tratamento
DataDocentesRaw.head()

# Fazendo uma análise prévia dos dados, DataDocentesRaw parece representar docentes e sua relação com a instiuição acadêmica/universidade

In [None]:
# Pela função info, parece que temos dados faltando para algumas das colunas (há valores nulos)
display(DataDiscentesRaw.info())

# Pelas tabela, devemos precisar tratar os dados da coluna "abrev". Importante ressaltar que alguns dos dados em "orientadores" parecem representar listas de dicionários através de string/object.
DataDiscentesRaw.head()

# Fazendo uma análise prévia dos dados, DataDiscentesRaw parece representar os alunos de pós-graduação das instituições acadêmicas/universidades e todos os dados atrelados a eles.

In [None]:
# A função info nos mostra que temos valores nulos em algumas das colunas (total de valores não-nulos menor que o total de tuplas da tabela)
display(DataProducaoRaw.info())

pd.set_option('display.max_columns', 35) # Para poder visualizar todas as colunas deste data frame

# As 5 primeiras tuplas da tabela nos mostram que pelo menos alguns dados precisam ser tratados nas colunas:
# - dict_paper_autores (os dados dessa coluna na verdade representam listas de dicionários) [VER PRÓXIMA CÉLULA]
# - paper_autores (os dados dessa coluna na verdade representam listas de strings/objects) [VER CÉLULA PRÓXIMA À SEGUINTE]
# - doi
# - periodico (talvez?)
# - ano (número fracionário para ano faz sentido? cuidado, faz sim se formos considerar como período [ex.: 2018.1 e 2018.2])
DataProducaoRaw.head()

# Fazendo uma análise prévia dos dados, parece que DataProducaoRaw lista papers publicados por integrantes (docentes?) de instituições acadêmicas/universidades, informando vários outros dados ligados a esses papers.

In [None]:
# Vemos que uma célula da segunda coluna de DataProducaoRaw é uma string/object que representa uma lista de dicionários
display(DataProducaoRaw['dict_paper_autores'][0])

# Transformando uma dessas string/objects em uma lista de dicionários
dictionaryList = ast.literal_eval(DataProducaoRaw['dict_paper_autores'][0])

display(dictionaryList) # Lista de dicionários
display(dictionaryList[0]) # Dicionário
display(dictionaryList[0]['categoria']) # Valor atribuído à chave 'categoria'
dictionaryList[0]['nome'] # Valor atribuído à chave 'nome'

In [None]:
# Vemos que uma célula da coluna 'paper_autores' de DataProducaoRaw é uma string/object que representa uma lista de strings/objects
display(DataProducaoRaw['paper_autores'][0])

stringList = ast.literal_eval(DataProducaoRaw['paper_autores'][0])

display(stringList) # Lista de strings/objects
display(stringList[0]) # Uma (TADAM!) string/object

In [None]:
# Pela função info, parece que temos valores nulos em algumas das colunas
display(DataTrabalhosRaw.info())

# Pelas 5 primeiras tuplas, parece que precisaremos tratar os dados das colunas:
# - keywords
# - palavras-chave
# - paginas (número fracionário para páginas faz sentido?)
# - programa (talvez?)
DataTrabalhosRaw.head()

# Fazendo uma análise prévia dos dados, DataTrabalhosRaw parece representar os dados referentes aos trabalhos de conclusão de curso dos alunos de pós-graduação

## Limpeza dos dados:

In [None]:
# Para DataProducaoRaw

# Vimos que a tabela "ano" possui valores nuyméricos fracionários e um valor nulo. Vemos que apenas dois:
display(DataProducaoRaw['ano'].unique())

# Vemos que a tupla onde temos esse valor na verdade está cheia de valores nulos. Vale a pena retirar ela por esse aspecto, mas podemos usar o valor de "paper_id" presente para encontrar problemas equivalentes nos outros data frames que tenham o mesmo id.
display(DataProducaoRaw.loc[DataProducaoRaw['ano'].isnull()])

# O data frame "limpo" (obs.: pode ir mudando conforme vamos respondendo as perguntas)
producaoDF = DataProducaoRaw.loc[DataProducaoRaw['ano'].isnull() == False]
producaoDF = producaoDF.reset_index(drop = True)
producaoDF

# Perguntas:
## 1) Quantos professores (docentes) havia em cada instituição em 2017, em cada quadro (permanente, colaborador)?

## **<span style="color:red">Detalhes a ficar atento para o trabalho:</span>**
- Verificar repetição de dados (aparentemente temos papers duplicados)
- Estar atento a outros detalhes sobre os dados não percebidos na análise inicial dos dados
- Tentar manter a limpeza dos dados no campo de limpeza para organização, sempre que possível
    - No campo de limpeza, tentar usar uma célula para cada data frame raw, sempre que possível