# O que queremos?

Decidimos analisar os três turnos (matutino, vespertino e noturno) das turmas de **Resolução de Problemas Matemáticas Para Tecnologia da Informação - RPMTI** durante três semestres letivos correspondentes a **2015.2**, **2016.1** e **2016.2**.

As informações para a nossa análise serão extraídas da API de [dados públicos](http://dados.ufrn.br) da **Universidade Federal do Rio Grande do Norte - UFRN**. 

# Como conseguir esses dados?

Inicialmente precisamos descobrir dados sobre a disciplina RPTMI. É possível encontrar a relação de todas as disciplinas presenciais da UFRN atráves [desse link](http://dados.ufrn.br/dataset/3fea67e8-6916-4ed0-aaa6-9a8ca06a9bdc/resource/9a3521d2-4bc5-4fda-93f0-f701c8a20727/download/componentes-curriculares-presenciais.csv).

Abrindo o dataset das disciplinas pelo **Libre Office Calc**, é possível visualizar rapidamente o conteúdo de algumas linhas. Para descobrir os dados sobre RPMTI basta aplicar os seguintes filtros:

* **nivel:** G
* **unidade_responsavel:** INSTITUTO METROPOLE DIGITAL
* **codigo:** IMD0019

Agora é possível montar um dicionário com as informações chave da disciplina.

In [0]:
rpmti_info = {
    "codigo": "IMD0019",
    "nome": "RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI",
    "id_componente": 55031,
    "carga_horaria": 180
}

rpmti_info

{'carga_horaria': 180,
 'codigo': 'IMD0019',
 'id_componente': 55031,
 'nome': 'RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI'}

Prosseguindo com a busca, acessamos novamente a API para conseguir os dados das turmas em [2015.2](http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/7c59621c-4a8b-49d4-b319-83cfea9bdf28/download/turmas-2015.2.csv), [2016.1](http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/322d9977-ba15-47f1-8216-75a1ca78e197/download/turmas-2016.1.csv) e [2016.2](http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/5e8e3228-7f22-40a2-9efd-561c44844567/download/turmas-2016.2.csv).

Agora, começaremos a tratar esses datasets para manter apenas as informações que nos são necessárias.


In [0]:
# Importando as bibliotecas necessárias para análise
import pandas as pd
import numpy as np

# Lendo os datasets
rpmti_2015_2 = pd.read_csv("turmas-2015.2.csv", sep=";")
rpmti_2016_1 = pd.read_csv("turmas-2016.1.csv", sep=";")
rpmti_2016_2 = pd.read_csv("turmas-2016.2.csv", sep=";")

# Concatenando datasets
rpmti_turmas = pd.concat([rpmti_2015_2, rpmti_2016_1, rpmti_2016_2])

# Tratando para deixar apenas RPMTI
rpmti_turmas = rpmti_turmas[rpmti_turmas["id_componente_curricular"] == rpmti_info["id_componente"]]

In [0]:
# Excluindo colunas que não serão analizadas
rpmti_turmas.drop([
    "id_docente_interno", "id_docente_externo", "observacao", "nivel_ensino",
    "data_inicio", "data_fim", "distancia", "data_consolidacao", "agrupadora",
    "id_turma_agrupadora", "situacao_turma", "convenio", "campus_turma", "tipo",
    "modalidade_participantes", "id_componente_curricular", "total_solicitacoes",
    "qtd_aulas_lancadas", "Unnamed: 25"
], axis=1, inplace=True)

# Visualizando o dataset
rpmti_turmas

Unnamed: 0,id_turma,codigo_turma,local,ano,periodo,descricao_horario,capacidade_aluno
3461,57565214,1,3H2 - Setor III,2015,2,246T1234 (27/07/2015 - 19/12/2015),76.0
3462,57565214,1,3H2 - Setor III,2015,2,246T1234 (27/07/2015 - 19/12/2015),76.0
3471,57565222,2,3H2 - Setor III,2015,2,246M1234 (27/07/2015 - 19/12/2015),60.0
3472,57565222,2,3H2 - Setor III,2015,2,246M1234 (27/07/2015 - 19/12/2015),60.0
3474,57565224,3,3H2 - Setor III,2015,2,246N1234 (27/07/2015 - 19/12/2015),61.0
3475,57565224,3,3H2 - Setor III,2015,2,246N1234 (27/07/2015 - 19/12/2015),61.0
5349,57576566,1,SETOR III - 3H7,2016,1,246M1234 (01/02/2016 - 18/06/2016),77.0
5350,57576566,1,SETOR III - 3H7,2016,1,246M1234 (01/02/2016 - 18/06/2016),77.0
5353,57576568,2,SETOR III - 3H6,2016,1,246M3456 (01/02/2016 - 18/06/2016),82.0
5354,57576568,2,SETOR III - 3H6,2016,1,246M3456 (01/02/2016 - 18/06/2016),82.0


Nota-se ainda que no dataset as turmas estão duplicadas. Vamos resolver isso atrvés do seguinte código:

In [0]:
rpmti_turmas = rpmti_turmas.drop_duplicates(subset='id_turma', keep="last")
rpmti_turmas

Unnamed: 0,id_turma,codigo_turma,local,ano,periodo,descricao_horario,capacidade_aluno
3462,57565214,1,3H2 - Setor III,2015,2,246T1234 (27/07/2015 - 19/12/2015),76.0
3472,57565222,2,3H2 - Setor III,2015,2,246M1234 (27/07/2015 - 19/12/2015),60.0
3475,57565224,3,3H2 - Setor III,2015,2,246N1234 (27/07/2015 - 19/12/2015),61.0
5350,57576566,1,SETOR III - 3H7,2016,1,246M1234 (01/02/2016 - 18/06/2016),77.0
5354,57576568,2,SETOR III - 3H6,2016,1,246M3456 (01/02/2016 - 18/06/2016),82.0
5356,57576569,3,SETOR III - 3H7,2016,1,246N1234 (01/02/2016 - 18/06/2016),75.0
5359,57576571,4,SETOR III - 3H6,2016,1,246N1234 (01/02/2016 - 18/06/2016),87.0
5361,57576572,5,SETOR III - 3H6,2016,1,246T1234 (01/02/2016 - 18/06/2016),76.0
3405,57586202,1,A308 - CIVT,2016,2,246T2345 (25/07/2016 - 17/12/2016),74.0
3425,57586215,2,B321,2016,2,246N1234 (25/07/2016 - 17/12/2016),69.0


Agora nós temos informações referentes a todas as turmas de RPMTI ofertadas nos três semestres que estamos analisando.

Também é possível encontrar informações referentes às matrículas dos discentes, incluindo o status final (i.e. APROVADO, REPROVADO, etc.). Aqui estão os links para fazer o download desses dados para as turmas de [2015.2](http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/baa6c8b4-2072-417f-b238-c028ccc8c14b/download/matriculas-de-2015.2.csv), [2016.1](http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/4778d3ce-8898-46a8-a623-ee6a480a2980/download/matriculas-de-2016.1.csv) e [2016.2](http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/f6179838-b619-4d7d-af9c-18c438b80dd4/download/matriculas-de-2016.2.csv).

Devido ao tamanho elevado desses datasets, escolheu-se fazer o upload e já trabalhar com a versão tratada dos dados.

O seguinte código foi desenvolvido para realizar esse tratamento (não há necessidade de executar a célula):

In [0]:
import pandas as pd
import numpy as np

# Extraindo apenas as turmas de RPMTI de 2015.2
m_15_2 = pd.read_csv("matriculas-de-2015.2.csv", sep=";")
m_15_2 = m_15_2[
    (m_15_2["id_turma"] == 57565214) | (m_15_2["id_turma"] == 57565222) |
    (m_15_2["id_turma"] == 57565224)
]

# Extraindo apenas as turmas de RPMTI de 2016.1
m_16_1 = pd.read_csv("matriculas-de-2016.1.csv", sep=";")
m_16_1 = m_16_1[
    (m_16_1["id_turma"] == 57576566) | (m_16_1["id_turma"] == 57576568) |
    (m_16_1["id_turma"] == 57576569) | (m_16_1["id_turma"] == 57576571) |
    (m_16_1["id_turma"] == 57576572)
]

# Extraindo apenas as turmas de RPMTI de 2016.2
m_16_2 = pd.read_csv("matriculas-de-2016.2.csv", sep=";")
m_16_2 = m_16_2[
    (m_16_2["id_turma"] == 57586202) | (m_16_2["id_turma"] == 57586215)
]

# Removendo os alunos "Indeferidos"
m_15_2 = m_15_2[m_15_2["descricao"] != "INDEFERIDO"]
m_16_1 = m_16_1[m_16_1["descricao"] != "INDEFERIDO"]
m_16_2 = m_16_2[m_16_2["descricao"] != "INDEFERIDO"]

# Cada aluno está no dataset triplicado, removendo esse problema
m_15_2 = m_15_2.drop_duplicates(subset='discente', keep="last")
m_16_1 = m_16_1.drop_duplicates(subset='discente', keep="last")
m_16_2 = m_16_2.drop_duplicates(subset='discente', keep="last")

# Adicionando informação sobre o semestre
m_15_2["semestre"] = "2015.2"
m_16_1["semestre"] = "2016.1"
m_16_2["semestre"] = "2016.2"

# Concatenando todos os datasets
rpmti = pd.concat([m_15_2, m_16_1, m_16_2])
rpmti.drop("Unnamed: 10", axis=1, inplace=True)

# Convertendo o resultado para um arquivo
rpmti.to_csv("alunos_rpmti.csv", encoding='utf-8', index=False)

Agora podemos utilizar o nosso dataset já tratado para iniciar as análises sobre os alunos.

In [0]:
rpmti_dataset = pd.read_csv("alunos_rpmti.csv")
rpmti_dataset

Unnamed: 0,id_turma,discente,id_curso,unidade,nota,reposicao,faltas_unidade,media_final,numero_total_faltas,descricao,semestre
0,57565214,b433ff4854fc0247521a8d85ac933932,92127264.0,3.0,8.0,f,0.0,7.5,0.0,APROVADO,2015.2
1,57565214,f8fbf27b209754521cdbc40840a5a8c3,92127264.0,3.0,7.5,f,0.0,6.0,0.0,APROVADO POR NOTA,2015.2
2,57565214,aa00f9c2f38e7757521cf0d96b480b90,92127264.0,3.0,7.5,f,0.0,7.5,0.0,APROVADO,2015.2
3,57565214,955ba10f8916207996e764ffcb355b02,92127264.0,3.0,7.5,f,0.0,6.5,0.0,APROVADO POR NOTA,2015.2
4,57565214,a056f5d41cd8918f1f154de7c3f0575e,92127264.0,3.0,8.0,f,0.0,7.5,0.0,APROVADO,2015.2
5,57565214,4502ef9166c14d7469243abd3dc0f70d,92127264.0,3.0,8.5,f,0.0,8.3,0.0,APROVADO,2015.2
6,57565214,5ae28cd41b501ff35073a13dd1370d64,92127264.0,3.0,8.0,f,0.0,8.2,0.0,APROVADO,2015.2
7,57565214,f9050ce6ad26787023581e2cc346e703,92127264.0,3.0,7.5,f,0.0,6.2,0.0,APROVADO POR NOTA,2015.2
8,57565214,97fe348def50c5c3375b5167701c7202,92127264.0,3.0,8.0,f,0.0,7.3,0.0,APROVADO,2015.2
9,57565214,80f9d9e023fb9a2d30a678e02184bd23,92127264.0,3.0,7.5,f,0.0,5.2,0.0,APROVADO POR NOTA,2015.2
