# Importando as bibliotecas

In [1]:
# boas práticas: criar uma célula com todas as bibliotecas necessárias
# importando as bibliotecas necessárias
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Analisando o grupo http://dados.ufrn.br/group/ensino

In [86]:
# Turmas 2017.2
# http://dados.ufrn.br/dataset/turmas
 
# turmas
#turmas_url = 'http://bit.do/turmas_ufrn_2017_2'
#turmas = pd.read_csv(turmas_url, sep=';')

# matrículas em componentes em 2017.2
#notas_url = 'http://bit.do/notas_ufrn_2017_2'
#notas = pd.read_csv(notas1_url, sep=';')

# docentes da ufrn atualizado em 2018
#docentes_url = 'http://bit.do/docentes_ufrn_2018'
#docentes = pd.read_csv(docentes_url, sep=';')

# componentes curriculares presenciais
# foi realizado um filtro apenas por colunas mais importantes pois por alguma razão o dataset estava com erro
#disciplinas_url = 'http://bit.do/componentes_curriculares_ufrn'
#disciplinas = pd.read_csv(disciplinas_url, sep=';', 
#                          usecols=['id_componente','codigo','nivel','nome','unidade_responsavel'])

# matrículas em componentes em 2017.1
notas_url = 'dados/matricula-componente-20171'
notas = pd.read_csv(notas_url, sep=';')

# avaliacoes dos docentes da ufrn
avaliacoes_url = 'dados/avaliacaodocencia.csv'
avaliacoes = pd.read_csv(avaliacoes_url, sep=';')


# Preparação e Limpeza dos Dados

In [3]:
# Adaptando o dataframe turma e disciplinas para o merge
# Esse procedimento é necessário pois o dataframe turma está codificado com ids

# A coluna id_componente precisa ser a mesma em ambos os dataframes
#turmas.rename(columns={'id_componente_curricular': 'id_componente'}, inplace=True)

# id_componente em ambos os dataframes precisam ser do mesmo tipo
#turmas.id_componente = turmas.id_componente.astype(str)

# Limpando o dataframe disciplinas com linhas desnecessárias
#disciplinas.dropna(inplace=True)
#disciplinas = disciplinas[~disciplinas.id_componente.duplicated()]

In [4]:
# Fazendo um merge entre o dataframe turmas e disciplinas utilizando como base a coluna id_componente
# https://pandas.pydata.org/pandas-docs/stable/merging.html
#colunas = ["id_turma","id_docente_interno","codigo","nivel_ensino","nome","unidade_responsavel",
#          "situacao_turma","capacidade_aluno","descricao_horario"]

# merge os dois dataframes utilizando como base a coluna id_componenteb
#merge_turmas_disciplinas = pd.merge(turmas, disciplinas, on='id_componente')[colunas]

#merge_turmas_disciplinas.dropna(inplace=True)
#merge_turmas_disciplinas.head()

In [80]:
# removendo notas nulas ou repitidas
notas = notas[notas.media_final.notnull()]
notas = notas[~notas[['discente']].duplicated()]

# Remover colunas desnecessárias:
# notas = notas.drop(columns=['numero_total_faltas', 'faltas_unidade', 'reposicao'])

# removendo discentes(matriculas) que que não realizam avaliações
notas = notas[notas.descricao != 'CANCELADO']
notas = notas[notas.descricao != 'CUMPRIU']
notas = notas[notas.descricao != 'DISPENSADO']
notas = notas[notas.descricao != 'DESISTENCIA']
notas = notas[notas.descricao != 'MATRICULADO']
notas = notas[notas.descricao != 'TRANCADO']
notas = notas[notas.descricao != 'EXCLUIDA']

# unificando em aprovados e reprovados
notas.loc[notas.descricao == 'APROVADO POR NOTA', 'descricao'] = 'APROVADO'
notas.loc[notas.descricao == 'REPROVADO POR MÉDIA E POR FALTAS', 'descricao'] = 'REPROVADO'
notas.loc[notas.descricao == 'REPROVADO POR NOTA E FALTA', 'descricao'] = 'REPROVADO'
notas.loc[notas.descricao == 'REPROVADO POR NOTA', 'descricao'] = 'REPROVADO'
notas.loc[notas.descricao == 'REPROVADO POR FALTAS', 'descricao'] = 'REPROVADO'

# Remover dados faltantes
notas = notas.dropna()
notas

Unnamed: 0,id_turma,discente,id_curso,unidade,nota,media_final,descricao
0,57597218,880d7ee5080d3b969bf45556f95ac6b4,2000057.0,1.0,8.7,8.9,APROVADO
3,57597218,07feb1dc40e26ad43ecb18608f102c49,2000057.0,1.0,8.1,9.0,APROVADO
6,57597218,4b7f3472e6cb49c22d608494a87e3743,2000057.0,3.0,0.0,0.0,REPROVADO
9,57597218,bdc55e5eb26a7b26d8b9a9351a006581,2000057.0,3.0,10.0,9.6,APROVADO
13,57597218,b83369657a8d12b026bb0d50b51842c6,2000057.0,1.0,8.5,9.5,APROVADO
16,57597218,fd1dadf10ed2f78de12d678d140b7af0,2000057.0,3.0,5.5,6.8,APROVADO
19,57597218,71ae21e953148a06a413cb9aabf34512,2000057.0,3.0,10.0,9.8,APROVADO
22,57597218,bffb4eb3d59998051e0c91068f5d46a1,2000057.0,3.0,0.0,2.0,REPROVADO
25,57597218,966161ee6290ca765610b2047fb650d0,111635069.0,2.0,8.3,8.4,APROVADO
28,57597218,cd0227358f5de2f2a1deaad1ca93d238,2000057.0,3.0,7.0,7.0,APROVADO


# Obtendo os dados dos docentes

In [47]:
# docentes da ufrn atualizado em 2018
docentes_url = 'dados/docentes.csv'

docentes = pd.read_csv(docentes_url, sep=';')

# Limpando os dados das turmas e filtrando as turmas do IMD

In [36]:
# componentes curriculares presenciais
disciplinas_url = 'dados/componentes-curriculares-presenciais.csv'

# componentes curriculares presenciais
# por alguma razão ou outra, esse dataset tinha algum lixo em linhas que ocasionava 
# erros de leitura, dessa forma foi realizado um filtro apenas por colunas mais importantes
disciplinas = pd.read_csv(disciplinas_url, 
                          sep=';', 
                          usecols=["id_componente","codigo","nivel","nome","unidade_responsavel"])

# Limpando o dataframe disciplinas com linhas desnecessárias
disciplinas.dropna(inplace=True)
disciplinas = disciplinas[~disciplinas.id_componente.duplicated()]

In [38]:
# turmas
turmas_url = 'dados/turmas-2017.1'

# colocando os dados em um dataframe
turmas = pd.read_csv(turmas_url, sep=';')

# A coluna id_componente precisa ser a mesma em ambos os dataframes
turmas.rename(columns={'id_componente_curricular': 'id_componente'}, inplace=True)

# id_componente em ambos os dataframes precisam ser do mesmo tipo
turmas.id_componente = turmas.id_componente.astype(str)


In [39]:
# Fazendo um merge entre o dataframe turmas e disciplinas utilizando como base a coluna id_componente
# https://pandas.pydata.org/pandas-docs/stable/merging.html
colunas = ["id_turma","id_docente_interno","codigo","nivel_ensino","nome","unidade_responsavel",
          "situacao_turma","capacidade_aluno","descricao_horario"]

# merge os dois dataframes utilizando como base a coluna id_componenteb
merge_turmas_disciplinas = pd.merge(turmas, disciplinas, on='id_componente')[colunas]

merge_turmas_disciplinas.dropna(inplace=True)
merge_turmas_disciplinas.head()

Unnamed: 0,id_turma,id_docente_interno,codigo,nivel_ensino,nome,unidade_responsavel,situacao_turma,capacidade_aluno,descricao_horario
0,57593168,26652.0,MUT0101,TÉCNICO,LINGUAGEM E ESTRUTURAÇÃO MUSICAL I,ESCOLA DE MÚSICA,CONSOLIDADA,50.0,2T12
1,57593169,21707.0,MUT0101,TÉCNICO,LINGUAGEM E ESTRUTURAÇÃO MUSICAL I,ESCOLA DE MÚSICA,CONSOLIDADA,50.0,4T12
2,57593170,21707.0,MUT0103,TÉCNICO,LINGUAGEM E ESTRUTURAÇÃO MUSICAL III,ESCOLA DE MÚSICA,EXCLUÍDA,50.0,3T56
3,57593172,5752921.0,MUT310,TÉCNICO,APRECIAÇÃO MUSICAL I,ESCOLA DE MÚSICA,EXCLUÍDA,30.0,2T3456
4,57593173,5752917.0,MUT477,TÉCNICO,ARRANJOS I,ESCOLA DE MÚSICA,CONSOLIDADA,20.0,3T34


In [43]:
# filtrando as turmas com código IMD
turmas_imd = merge_turmas_disciplinas[merge_turmas_disciplinas.codigo.str.contains("IMD")]

# utilizar apenas disciplinas com código "CONSOLIDADA"
turmas_imd = turmas_imd[turmas_imd.situacao_turma == 'CONSOLIDADA']

# Adaptar o nome da coluna id_docente_interno para id_servidor
turmas_imd.rename(columns={'id_docente_interno': 'id_servidor'}, inplace=True)

turmas_imd.capacidade_aluno = turmas_imd.capacidade_aluno.astype(np.int64)

# Adaptar os tipos de dados em turmas_imd para o merge com o dataframe docentes
turmas_imd.id_servidor = turmas_imd.id_servidor.astype(np.int64)
turmas_imd

Unnamed: 0,id_turma,id_servidor,codigo,nivel_ensino,nome,unidade_responsavel,situacao_turma,capacidade_aluno,descricao_horario
5260,57597051,5756816,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,83,246M3456 (13/02/2017 - 01/07/2017)
5261,57597051,5757585,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,83,246M3456 (13/02/2017 - 01/07/2017)
5262,57597055,5759154,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,81,246M3456 (13/02/2017 - 01/07/2017)
5263,57597055,5756816,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,81,246M3456 (13/02/2017 - 01/07/2017)
5264,57597057,5756386,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,89,246T1234 (13/02/2017 - 01/07/2017)
5265,57597057,5757585,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,89,246T1234 (13/02/2017 - 01/07/2017)
5266,57597058,5757583,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,87,246N1234 (13/02/2017 - 01/07/2017)
5267,57597058,5758787,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,87,246N1234 (13/02/2017 - 01/07/2017)
5268,57597062,5757583,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,77,246N1234 (13/02/2017 - 01/07/2017)
5269,57597062,5757669,IMD0019,GRADUAÇÃO,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI,INSTITUTO METROPOLE DIGITAL,CONSOLIDADA,77,246N1234 (13/02/2017 - 01/07/2017)


In [48]:
# merge os dataframes  turmas_imd e docentes utilizando como base a coluna id_servidor

colunas = ["id_turma", "codigo", "id_servidor", "nivel_ensino", "nome_y", "codigo",
          "nome_x"]
turmas_imd_nomesprof = pd.merge(turmas_imd, docentes, on='id_servidor')[colunas]
turmas_imd_nomesprof.rename(columns={'nome_y':'nome_docente'}, inplace=True)
turmas_imd_nomesprof.rename(columns={'nome_x':'nome_diciplina'}, inplace=True)
turmas_imd_nomesprof = turmas_imd_nomesprof[turmas_imd_nomesprof.nivel_ensino == 'GRADUAÇÃO']
turmas_imd_nomesprof.head()

Unnamed: 0,id_turma,codigo,id_servidor,nivel_ensino,nome_docente,codigo.1,nome_diciplina
0,57597051,IMD0019,5756816,GRADUAÇÃO,ALYSON MATHEUS DE CARVALHO SOUZA,IMD0019,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI
1,57597055,IMD0019,5756816,GRADUAÇÃO,ALYSON MATHEUS DE CARVALHO SOUZA,IMD0019,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI
3,57597057,IMD0019,5756386,GRADUAÇÃO,CHARLES ANDRYE GALVAO MADEIRA,IMD0019,RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI
4,57598078,IMD0822,5756386,GRADUAÇÃO,CHARLES ANDRYE GALVAO MADEIRA,IMD0822,PROJETO DE INOVAÇÃO TECNOLÓGICA
5,57598079,IMD0521,5756386,GRADUAÇÃO,CHARLES ANDRYE GALVAO MADEIRA,IMD0521,FUNDAMENTOS DE JOGOS DIGITAIS


# Obtendo dados das avaliações dos docentes

In [87]:
# avaliação dos docentes
aval_url = 'dados/avaliacaodocencia.csv'
# lendo para um dataframe
aval = pd.read_csv(aval_url, sep=';')

aval = aval.drop(columns=['autoavaliacao_aluno_DP', 'autoavaliacao_aluno_media', 'atuacao_profissional_DP',
                          'postura_profissional_DP'])

# Pegar apenas turmas do IMD
aval_imd = aval[aval.id_turma.isin(turmas_imd_nomesprof.id_turma)]

aval['media_discentes'] = 0
aval['nota_min'] = 0
aval['nota_max'] = 0
aval['nota_med'] = 0
aval['percentual_aprovados'] = 0

# Filtrar apenas turmas de 2017.1
aval = aval[aval.ano == 2017]
aval = aval[aval.periodo == 1]

turma_lista = aval.id_docente.unique()

# Pegando apenas turmas do imd
#       turma_imd_2017_1 = aval_imd.id_docente.unique()

lista_aval_professores = []

# Percorrendo turmas dos Professores 
#       for i in turma_imd_2017_1: 
for i in turma_lista: 
    lista_aval_professores.append(aval[aval.id_docente == i])
lista_aval_professores[0].id_turma.unique()
lista_aval_professores[0]



Unnamed: 0,id_docente,nome_docente,id_turma,ano,periodo,qtd_discentes,postura_profissional_media,atuacao_profissional_media,media_discentes,nota_min,nota_max,nota_med,percentual_aprovados
12,15370,FERNANDO MOREIRA DA SILVA,57594086,2017,1,47,9.67,8.19,0,0,0,0,0


# Avaliações versão antiga

In [6]:
# limitando avaliações para 2017.1
avaliacoes = avaliacoes[avaliacoes.ano == 2017]
avaliacoes = avaliacoes[avaliacoes.periodo == 1]

avaliacoes

Unnamed: 0,id_docente,nome_docente,id_turma,ano,periodo,qtd_discentes,postura_profissional_media,postura_profissional_DP,atuacao_profissional_media,atuacao_profissional_DP,autoavaliacao_aluno_media,autoavaliacao_aluno_DP
12,15370,FERNANDO MOREIRA DA SILVA,57594086,2017,1,47,9.67,0.53,8.19,2.18,8.36,1.79
21,15373,ALMIR MIRANDA FERREIRA,57593708,2017,1,22,9.69,0.58,9.56,0.91,8.87,1.53
22,15373,ALMIR MIRANDA FERREIRA,57600492,2017,1,7,9.50,0.53,9.15,1.08,8.34,1.43
42,15423,EDMILSON JOVINO DE OLIVEIRA,57599679,2017,1,23,9.36,0.83,8.79,1.37,8.53,1.66
43,15423,EDMILSON JOVINO DE OLIVEIRA,57599681,2017,1,31,8.54,1.29,8.83,1.33,7.91,1.89
62,15425,MARCO AURELIO DE ALBUQUERQUE OTHON,57596801,2017,1,54,9.86,0.44,9.37,1.01,9.10,1.59
63,15425,MARCO AURELIO DE ALBUQUERQUE OTHON,57596915,2017,1,41,9.88,0.44,9.22,1.24,8.75,1.68
64,15425,MARCO AURELIO DE ALBUQUERQUE OTHON,57596919,2017,1,37,9.76,0.48,7.66,2.47,8.03,2.02
93,15453,NADJA CALDAS LOPES CARDOSO,57598618,2017,1,47,9.48,1.11,8.15,2.36,9.12,1.26
94,15453,NADJA CALDAS LOPES CARDOSO,57598619,2017,1,44,9.62,0.85,8.77,2.28,8.90,1.54


## Calcular dados das avaliações dos professores

In [7]:
# criando as colunas e gerando seus valores
avaliacoes['media_discentes'] = 0
avaliacoes['nota_min'] = 0
avaliacoes['nota_max'] = 0
avaliacoes['nota_med'] = 0
avaliacoes['percentual_aprovados'] = 0

for turma in avaliacoes.id_turma:
    discentes = notas[notas.id_turma == turma]
    if(len(discentes) > 0):
        avaliacoes.loc[avaliacoes.id_turma == turma,'media_discentes'] = discentes.media_final.sum() / len(discentes)
        avaliacoes.loc[avaliacoes.id_turma == turma,'nota_min'] = discentes.media_final.min()
        avaliacoes.loc[avaliacoes.id_turma == turma,'nota_max'] = discentes.media_final.max()
        avaliacoes.loc[avaliacoes.id_turma == turma,'nota_max'] = discentes.media_final.median()
        avaliacoes.loc[avaliacoes.id_turma == turma,
                       'percentual_aprovados'] = len(discentes[discentes.descricao == 'APROVADO']) * 100 / len(discentes)

avaliacoes

Unnamed: 0,id_docente,nome_docente,id_turma,ano,periodo,qtd_discentes,postura_profissional_media,postura_profissional_DP,atuacao_profissional_media,atuacao_profissional_DP,autoavaliacao_aluno_media,autoavaliacao_aluno_DP,media_discentes,nota_min,nota_max,nota_med,percentual_aprovados
12,15370,FERNANDO MOREIRA DA SILVA,57594086,2017,1,47,9.67,0.53,8.19,2.18,8.36,1.79,4.863830,0.0,5.80,0,65.957447
21,15373,ALMIR MIRANDA FERREIRA,57593708,2017,1,22,9.69,0.58,9.56,0.91,8.87,1.53,7.077273,0.0,7.70,0,90.909091
22,15373,ALMIR MIRANDA FERREIRA,57600492,2017,1,7,9.50,0.53,9.15,1.08,8.34,1.43,7.185714,5.0,7.00,0,100.000000
42,15423,EDMILSON JOVINO DE OLIVEIRA,57599679,2017,1,23,9.36,0.83,8.79,1.37,8.53,1.66,8.647826,0.3,9.30,0,95.652174
43,15423,EDMILSON JOVINO DE OLIVEIRA,57599681,2017,1,31,8.54,1.29,8.83,1.33,7.91,1.89,7.203226,0.3,7.70,0,93.548387
62,15425,MARCO AURELIO DE ALBUQUERQUE OTHON,57596801,2017,1,54,9.86,0.44,9.37,1.01,9.10,1.59,7.661111,0.3,8.00,0,92.592593
63,15425,MARCO AURELIO DE ALBUQUERQUE OTHON,57596915,2017,1,41,9.88,0.44,9.22,1.24,8.75,1.68,5.731707,0.0,6.00,0,75.609756
64,15425,MARCO AURELIO DE ALBUQUERQUE OTHON,57596919,2017,1,37,9.76,0.48,7.66,2.47,8.03,2.02,5.100000,0.0,5.40,0,67.567568
93,15453,NADJA CALDAS LOPES CARDOSO,57598618,2017,1,47,9.48,1.11,8.15,2.36,9.12,1.26,7.823404,6.3,7.80,0,100.000000
94,15453,NADJA CALDAS LOPES CARDOSO,57598619,2017,1,44,9.62,0.85,8.77,2.28,8.90,1.54,7.447727,5.5,7.50,0,100.000000
