## Importando as bibliotecas

In [1]:
# boas práticas: criar uma célula com todas as bibliotecas necessárias
# importando as bibliotecas necessárias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [2]:
debug = True

## Analisando o grupo http://dados.ufrn.br/group/ensino

In [3]:
# Turmas 2014.1, 2014.2, 2015.1, 2015.2, 2016.1, 2016.2, 2017.1, 2017.2
# http://dados.ufrn.br/dataset/turmas
# URLs utiliazadas

# turmas
turmas_url = [
    'http://bit.do/turmas_ufrn_2014_1',
    'http://bit.do/turmas_ufrn_2014_2',
    'http://bit.do/turmas_ufrn_2015_1',
    'http://bit.do/turmas_ufrn_2015_2',
    'http://bit.do/turmas_ufrn_2016_1',
    'http://bit.do/turmas_ufrn_2016_2',
    'http://bit.do/turmas_ufrn_2017_1',
    'http://bit.do/turmas_ufrn_2017_2'
]

# matrículas em componentes
notas_url = [
    'http://bit.do/notas_ufrn_2014_1',
    'http://bit.do/notas_ufrn_2014_2',
    'http://bit.do/notas_ufrn_2015_1',
    'http://bit.do/notas_ufrn_2015_2',
    'http://bit.do/notas_ufrn_2016_1',
    'http://bit.do/notas_ufrn_2016_2',
    'http://bit.do/notas_ufrn_2017_1',
    'http://bit.do/notas_ufrn_2017_2'
]

# componentes curriculares presenciais
disciplinas_url = 'http://bit.do/componentes_curriculares_ufrn'

if debug:
    turmas_url = ['turmas/' + i.replace('http://bit.do/', '') + '.csv' for i in turmas_url]
    notas_url = ['notas/' + i.replace('http://bit.do/', '') + '.csv' for i in notas_url]
    disciplinas_url = disciplinas_url.replace('http://bit.do/', '') + '.csv'

In [4]:
# turmas
semestres = [2014.1, 2014.2, 2015.1, 2015.2, 2016.1, 2016.2, 2017.1, 2017.2]
turmas = []
for i in range(len(turmas_url)):
    turmas.insert(i, pd.read_csv(turmas_url[i], sep=';'))
    turmas[i]['semestre'] = semestres[i]

# matriculas em componentes
notas = []
for i in range(len(notas_url)):
    notas.insert(i, pd.read_csv(notas_url[i], sep=';'))

# componentes curriculares presenciais
# por alguma razão ou outra, esse dataset tinha algum lixo em linhas que ocasionava 
# erros de leitura, dessa forma foi realizado um filtro apenas por colunas mais importantes
df_disciplinas = pd.read_csv(disciplinas_url, sep=';', usecols=["id_componente","codigo","nivel","nome","unidade_responsavel"])

In [5]:
# concatenando todas as listas em um dataframe
df_turmas = pd.concat(turmas)
df_notas = pd.concat(notas)

# limpandos os index após o merge
df_turmas.reset_index(drop=True,inplace=True)
df_notas.reset_index(drop=True,inplace=True)

## Preparação e Limpeza dos Dados

In [6]:
# Adaptando o dataframe turma e disciplinas para o merge
# Esse procedimento é necessário pois o dataframe turma está codificado com ids

# A coluna id_componente precisa ser a mesma em ambos os dataframes
df_turmas.rename(columns={'id_componente_curricular': 'id_componente'}, inplace=True)

# id_componente em ambos os dataframes precisam ser do mesmo tipo
df_turmas.id_componente = df_turmas.id_componente.astype(str)
df_turmas.id_componente = [i.replace('.0', '') for i in df_turmas.id_componente]

# # Limpando o dataframe disciplinas com linhas desnecessárias
df_disciplinas.dropna(inplace=True)
df_disciplinas = df_disciplinas[~df_disciplinas.id_componente.duplicated()]

In [7]:
# Fazendo um merge entre o dataframe turmas e disciplinas utilizando como base a coluna id_componente
# https://pandas.pydata.org/pandas-docs/stable/merging.html
colunas = ["id_turma","id_docente_interno","codigo","nivel_ensino","nome","unidade_responsavel",
          "situacao_turma","capacidade_aluno","descricao_horario", "semestre"]

# merge os dois dataframes utilizando como base a coluna id_componente
merge_turmas_disciplinas = pd.merge(df_turmas, df_disciplinas, on='id_componente')[colunas]

merge_turmas_disciplinas.dropna(inplace=True)
merge_turmas_disciplinas.head()

Unnamed: 0,id_turma,id_docente_interno,codigo,nivel_ensino,nome,unidade_responsavel,situacao_turma,capacidade_aluno,descricao_horario,semestre
0,1205342,5752550.0,DCA0004,LATO SENSU,CONTROLE AVANÇADO DE PROCESSOS INDUSTRIAIS,DEPARTAMENTO DE ENGENHARIA DE COMPUTACAO E AUT...,CONSOLIDADA,30,7M2345 7T3456 6N1234 (31/01/2014 - 27/03/2014),2014.1
1,1205342,21790.0,DCA0004,LATO SENSU,CONTROLE AVANÇADO DE PROCESSOS INDUSTRIAIS,DEPARTAMENTO DE ENGENHARIA DE COMPUTACAO E AUT...,CONSOLIDADA,30,7M2345 7T3456 6N1234 (31/01/2014 - 27/03/2014),2014.1
2,57572417,5753700.0,DCA0004,LATO SENSU,CONTROLE AVANÇADO DE PROCESSOS INDUSTRIAIS,DEPARTAMENTO DE ENGENHARIA DE COMPUTACAO E AUT...,CONSOLIDADA,30,7M12345 7T23456 7N12,2015.2
3,57572417,5752550.0,DCA0004,LATO SENSU,CONTROLE AVANÇADO DE PROCESSOS INDUSTRIAIS,DEPARTAMENTO DE ENGENHARIA DE COMPUTACAO E AUT...,CONSOLIDADA,30,7M12345 7T23456 7N12,2015.2
4,57572417,21790.0,DCA0004,LATO SENSU,CONTROLE AVANÇADO DE PROCESSOS INDUSTRIAIS,DEPARTAMENTO DE ENGENHARIA DE COMPUTACAO E AUT...,CONSOLIDADA,30,7M12345 7T23456 7N12,2015.2


## Filtrar as turmas do IMD

In [8]:
# filtrando as turmas com código IMD
turmas_imd = merge_turmas_disciplinas[merge_turmas_disciplinas.codigo.str.contains("IMD")]

# utilizar apenas disciplinas com código "CONSOLIDADA"
turmas_imd = turmas_imd[turmas_imd.situacao_turma == 'CONSOLIDADA']

turmas_imd.capacidade_aluno = turmas_imd.capacidade_aluno.astype(np.int64)
turmas_imd.head()

Unnamed: 0,id_turma,id_docente_interno,codigo,nivel_ensino,nome,unidade_responsavel,situacao_turma,capacidade_aluno,descricao_horario,semestre
5023,1217917,5756220.0,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,70,236M1234 (27/01/2014 - 14/06/2014),2014.1
5024,1217917,5756390.0,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,70,236M1234 (27/01/2014 - 14/06/2014),2014.1
5025,1217918,5756190.0,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,70,236M1234 (27/01/2014 - 14/06/2014),2014.1
5026,1217918,5756390.0,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,70,236M1234 (27/01/2014 - 14/06/2014),2014.1
5027,1217919,5756390.0,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,72,236N1234 (27/01/2014 - 14/06/2014),2014.1


## Notas IMD

In [9]:
# filtrar apenas as turmas do IMD
notas_imd = df_notas[df_notas.id_turma.isin(turmas_imd.id_turma)]

# merge entre os dataframes notas_imd e turmas_imd_nomesprof utilizando como referencia id_turma
notas_imd_merge = pd.merge(notas_imd, turmas_imd, on='id_turma')
# remover alunos duplicados
notas_imd_merge = notas_imd_merge[~notas_imd_merge.duplicated(subset = ['discente', 'id_turma'])]
notas_imd_merge.head()

Unnamed: 0,Unnamed: 10,descricao,discente,faltas_unidade,id_curso,id_turma,media_final,nota,numero_total_faltas,reposicao,unidade,id_docente_interno,codigo,nivel_ensino,nome,unidade_responsavel,situacao_turma,capacidade_aluno,descricao_horario,semestre
0,,APROVADO,932dabed29addc40f1e9d1cf51160601,0.0,94676386.0,1228059,10.0,10.0,0.0,f,1.0,5752260.0,IMD0015,LATO SENSU,DESENVOLVIMENTO WEB NO LADO CLIENTE,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,30,246M12 7M2345,2014.1
6,,APROVADO,12af1e1a9c5f528b10c0caee2888e036,0.0,94676386.0,1228059,9.3,10.0,2.0,f,1.0,5752260.0,IMD0015,LATO SENSU,DESENVOLVIMENTO WEB NO LADO CLIENTE,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,30,246M12 7M2345,2014.1
12,,APROVADO,7e644bd32245fd9c74f036d43907a425,0.0,94676386.0,1228059,10.0,10.0,0.0,f,1.0,5752260.0,IMD0015,LATO SENSU,DESENVOLVIMENTO WEB NO LADO CLIENTE,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,30,246M12 7M2345,2014.1
18,,APROVADO,6695de39125968ba9471e52e5887c045,0.0,94676386.0,1228059,10.0,10.0,0.0,f,1.0,5752260.0,IMD0015,LATO SENSU,DESENVOLVIMENTO WEB NO LADO CLIENTE,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,30,246M12 7M2345,2014.1
24,,APROVADO,1efcdbf03e9fcdc6990ea987bc15defb,0.0,94676386.0,1228059,10.0,10.0,0.0,f,1.0,5752260.0,IMD0015,LATO SENSU,DESENVOLVIMENTO WEB NO LADO CLIENTE,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,30,246M12 7M2345,2014.1
