<a href="https://colab.research.google.com/github/vertumno/probabilidade-analise/blob/master/Extraindo_os_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# O que queremos?

Decidimos analisar os três turnos (matutino, vespertino e noturno) das turmas de **Resolução de Problemas Matemáticas Para Tecnologia da Informação - RPMTI** durante três semestres letivos correspondentes a **2015.2**, **2016.1** e **2016.2**.

As informações para a nossa análise serão extraídas da API de [dados públicos](http://dados.ufrn.br) da **Universidade Federal do Rio Grande do Norte - UFRN**. 

# Como conseguir esses dados?

Inicialmente precisamos descobrir dados sobre a disciplina RPTMI. É possível encontrar a relação de todas as disciplinas presenciais da UFRN atráves [desse link](http://dados.ufrn.br/dataset/3fea67e8-6916-4ed0-aaa6-9a8ca06a9bdc/resource/9a3521d2-4bc5-4fda-93f0-f701c8a20727/download/componentes-curriculares-presenciais.csv).

Abrindo o dataset das disciplinas pelo **Libre Office Calc**, é possível visualizar rapidamente o conteúdo de algumas linhas. Para descobrir os dados sobre RPMTI basta aplicar os seguintes filtros:

* **nivel:** G
* **unidade_responsavel:** INSTITUTO METROPOLE DIGITAL
* **codigo:** IMD0019

Agora é possível montar um dicionário com as informações chave da disciplina.

In [1]:
rpmti_info = {
    "codigo": "IMD0019",
    "nome": "RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI",
    "id_componente": 55031,
    "carga_horaria": 180
}

rpmti_info

{'carga_horaria': 180,
 'codigo': 'IMD0019',
 'id_componente': 55031,
 'nome': 'RESOLUÇÃO DE PROBLEMAS MATEMÁTICOS PARA TI'}

Prosseguindo com a busca, acessamos novamente a API para conseguir os dados das turmas em [2015.2](http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/7c59621c-4a8b-49d4-b319-83cfea9bdf28/download/turmas-2015.2.csv), [2016.1](http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/322d9977-ba15-47f1-8216-75a1ca78e197/download/turmas-2016.1.csv) e [2016.2](http://dados.ufrn.br/dataset/1938623d-fb07-41a4-a55a-1691f7c3b8b5/resource/5e8e3228-7f22-40a2-9efd-561c44844567/download/turmas-2016.2.csv).

Agora, começaremos a tratar esses datasets para manter apenas as informações que nos são necessárias.


In [0]:
# Importando as bibliotecas necessárias para análise
import pandas as pd
import numpy as np

In [0]:
# Lendo os datasets
rpmti_2015_2 = pd.read_csv("turmas-2015.2.csv", sep=";")
rpmti_2016_1 = pd.read_csv("turmas-2016.1.csv", sep=";")
rpmti_2016_2 = pd.read_csv("turmas-2016.2.csv", sep=";")

# Concatenando datasets
rpmti_turmas = pd.concat([rpmti_2015_2, rpmti_2016_1, rpmti_2016_2])

# Tratando para deixar apenas RPMTI
rpmti_turmas = rpmti_turmas[rpmti_turmas["id_componente_curricular"] == rpmti_info["id_componente"]]

In [0]:
# Excluindo colunas que não serão analizadas
rpmti_turmas.drop([
    "id_docente_interno", "id_docente_externo", "observacao", "nivel_ensino",
    "data_inicio", "data_fim", "distancia", "data_consolidacao", "agrupadora",
    "id_turma_agrupadora", "situacao_turma", "convenio", "campus_turma", "tipo",
    "modalidade_participantes", "id_componente_curricular", "total_solicitacoes",
    "qtd_aulas_lancadas", "Unnamed: 25"
], axis=1, inplace=True)

# Visualizando o dataset
rpmti_turmas

Unnamed: 0,id_turma,codigo_turma,local,ano,periodo,descricao_horario,capacidade_aluno
3461,57565214,1,3H2 - Setor III,2015,2,246T1234 (27/07/2015 - 19/12/2015),76.0
3462,57565214,1,3H2 - Setor III,2015,2,246T1234 (27/07/2015 - 19/12/2015),76.0
3471,57565222,2,3H2 - Setor III,2015,2,246M1234 (27/07/2015 - 19/12/2015),60.0
3472,57565222,2,3H2 - Setor III,2015,2,246M1234 (27/07/2015 - 19/12/2015),60.0
3474,57565224,3,3H2 - Setor III,2015,2,246N1234 (27/07/2015 - 19/12/2015),61.0
3475,57565224,3,3H2 - Setor III,2015,2,246N1234 (27/07/2015 - 19/12/2015),61.0
5349,57576566,1,SETOR III - 3H7,2016,1,246M1234 (01/02/2016 - 18/06/2016),77.0
5350,57576566,1,SETOR III - 3H7,2016,1,246M1234 (01/02/2016 - 18/06/2016),77.0
5353,57576568,2,SETOR III - 3H6,2016,1,246M3456 (01/02/2016 - 18/06/2016),82.0
5354,57576568,2,SETOR III - 3H6,2016,1,246M3456 (01/02/2016 - 18/06/2016),82.0


Nota-se ainda que no dataset as turmas estão duplicadas. Vamos resolver isso atrvés do seguinte código:

In [0]:
rpmti_turmas = rpmti_turmas.drop_duplicates(subset='id_turma', keep="last")
rpmti_turmas

Unnamed: 0,id_turma,codigo_turma,local,ano,periodo,descricao_horario,capacidade_aluno
3462,57565214,1,3H2 - Setor III,2015,2,246T1234 (27/07/2015 - 19/12/2015),76.0
3472,57565222,2,3H2 - Setor III,2015,2,246M1234 (27/07/2015 - 19/12/2015),60.0
3475,57565224,3,3H2 - Setor III,2015,2,246N1234 (27/07/2015 - 19/12/2015),61.0
5350,57576566,1,SETOR III - 3H7,2016,1,246M1234 (01/02/2016 - 18/06/2016),77.0
5354,57576568,2,SETOR III - 3H6,2016,1,246M3456 (01/02/2016 - 18/06/2016),82.0
5356,57576569,3,SETOR III - 3H7,2016,1,246N1234 (01/02/2016 - 18/06/2016),75.0
5359,57576571,4,SETOR III - 3H6,2016,1,246N1234 (01/02/2016 - 18/06/2016),87.0
5361,57576572,5,SETOR III - 3H6,2016,1,246T1234 (01/02/2016 - 18/06/2016),76.0
3405,57586202,1,A308 - CIVT,2016,2,246T2345 (25/07/2016 - 17/12/2016),74.0
3425,57586215,2,B321,2016,2,246N1234 (25/07/2016 - 17/12/2016),69.0


Agora nós temos informações referentes a todas as turmas de RPMTI ofertadas nos três semestres que estamos analisando.

Também é possível encontrar informações referentes às matrículas dos discentes, incluindo o status final (i.e. APROVADO, REPROVADO, etc.). Aqui estão os links para fazer o download desses dados para as turmas de [2015.2](http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/baa6c8b4-2072-417f-b238-c028ccc8c14b/download/matriculas-de-2015.2.csv), [2016.1](http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/4778d3ce-8898-46a8-a623-ee6a480a2980/download/matriculas-de-2016.1.csv) e [2016.2](http://dados.ufrn.br/dataset/c8650d55-3c5a-4787-a126-d28a4ef902a6/resource/f6179838-b619-4d7d-af9c-18c438b80dd4/download/matriculas-de-2016.2.csv).

Devido ao tamanho elevado desses datasets, escolheu-se fazer o upload e já trabalhar com a versão tratada dos dados.

O seguinte código foi desenvolvido para realizar esse tratamento (não há necessidade de executar a célula):

In [0]:
import pandas as pd
import numpy as np

# Extraindo apenas as turmas de RPMTI de 2015.2
m_15_2 = pd.read_csv("matriculas-de-2015.2.csv", sep=";")
m_15_2 = m_15_2[
    (m_15_2["id_turma"] == 57565214) | (m_15_2["id_turma"] == 57565222) |
    (m_15_2["id_turma"] == 57565224)
]

# Extraindo apenas as turmas de RPMTI de 2016.1
m_16_1 = pd.read_csv("matriculas-de-2016.1.csv", sep=";")
m_16_1 = m_16_1[
    (m_16_1["id_turma"] == 57576566) | (m_16_1["id_turma"] == 57576568) |
    (m_16_1["id_turma"] == 57576569) | (m_16_1["id_turma"] == 57576571) |
    (m_16_1["id_turma"] == 57576572)
]

# Extraindo apenas as turmas de RPMTI de 2016.2
m_16_2 = pd.read_csv("matriculas-de-2016.2.csv", sep=";")
m_16_2 = m_16_2[
    (m_16_2["id_turma"] == 57586202) | (m_16_2["id_turma"] == 57586215)
]

# Removendo os alunos "Indeferidos"
m_15_2 = m_15_2[m_15_2["descricao"] != "INDEFERIDO"]
m_16_1 = m_16_1[m_16_1["descricao"] != "INDEFERIDO"]
m_16_2 = m_16_2[m_16_2["descricao"] != "INDEFERIDO"]

# Cada aluno está no dataset triplicado, removendo esse problema
m_15_2 = m_15_2.drop_duplicates(subset='discente', keep="last")
m_16_1 = m_16_1.drop_duplicates(subset='discente', keep="last")
m_16_2 = m_16_2.drop_duplicates(subset='discente', keep="last")

# Adicionando informação sobre o semestre
m_15_2["semestre"] = "2015.2"
m_16_1["semestre"] = "2016.1"
m_16_2["semestre"] = "2016.2"

# Concatenando todos os datasets
rpmti = pd.concat([m_15_2, m_16_1, m_16_2])
rpmti.drop("Unnamed: 10", axis=1, inplace=True)

# Convertendo o resultado para um arquivo
rpmti.to_csv("alunos_rpmti.csv", encoding='utf-8', index=False)

Agora podemos utilizar o nosso dataset já tratado para iniciar as análises sobre os alunos.

In [20]:
rpmti_dataset = pd.read_csv("alunos_rpmti.csv")
rpmti_dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 628 entries, 0 to 627
Data columns (total 11 columns):
id_turma               628 non-null int64
discente               628 non-null object
id_curso               627 non-null float64
unidade                533 non-null float64
nota                   473 non-null float64
reposicao              533 non-null object
faltas_unidade         533 non-null float64
media_final            472 non-null float64
numero_total_faltas    520 non-null float64
descricao              628 non-null object
semestre               628 non-null float64
dtypes: float64(7), int64(1), object(3)
memory usage: 54.0+ KB


In [0]:
# Criando listas com todas as id_turmas referentes a cada periodo.
rpmti_2015_2 = [57565214, 57565222, 57565224]
rpmti_2016_1 = [57576566, 57576568, 57576569, 57576571, 57576572]
rpmti_2016_2 = [57586202, 57586215]

In [16]:
data_2015_2 = pd.DataFrame()

for it in rpmti_2015_2:
  data_2015_2 = pd.concat([data_2015_2, rpmti_dataset[rpmti_dataset['id_turma'] == it]]) 
  
data_2015_2.info()  

<class 'pandas.core.frame.DataFrame'>
Int64Index: 125 entries, 0 to 116
Data columns (total 11 columns):
id_turma               125 non-null int64
discente               125 non-null object
id_curso               124 non-null float64
unidade                108 non-null float64
nota                   104 non-null float64
reposicao              108 non-null object
faltas_unidade         108 non-null float64
media_final            104 non-null float64
numero_total_faltas    108 non-null float64
descricao              125 non-null object
semestre               125 non-null float64
dtypes: float64(7), int64(1), object(3)
memory usage: 11.7+ KB


In [17]:
data_2016_1 = pd.DataFrame()

for it in rpmti_2016_1:
  data_2016_1 = pd.concat([data_2016_1, rpmti_dataset[rpmti_dataset['id_turma'] == it]]) 
  
data_2016_1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 351 entries, 125 to 370
Data columns (total 11 columns):
id_turma               351 non-null int64
discente               351 non-null object
id_curso               351 non-null float64
unidade                281 non-null float64
nota                   250 non-null float64
reposicao              281 non-null object
faltas_unidade         281 non-null float64
media_final            249 non-null float64
numero_total_faltas    268 non-null float64
descricao              351 non-null object
semestre               351 non-null float64
dtypes: float64(7), int64(1), object(3)
memory usage: 32.9+ KB


In [19]:
data_2016_2 = pd.DataFrame()

for it in rpmti_2016_2:
  data_2016_2 = pd.concat([data_2016_2, rpmti_dataset[rpmti_dataset['id_turma'] == it]]) 
  
data_2016_2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 152 entries, 476 to 627
Data columns (total 11 columns):
id_turma               152 non-null int64
discente               152 non-null object
id_curso               152 non-null float64
unidade                144 non-null float64
nota                   119 non-null float64
reposicao              144 non-null object
faltas_unidade         144 non-null float64
media_final            119 non-null float64
numero_total_faltas    144 non-null float64
descricao              152 non-null object
semestre               152 non-null float64
dtypes: float64(7), int64(1), object(3)
memory usage: 14.2+ KB


In [0]:
data_2015_2.to_csv('rpmti_2015_2.csv', encoding='utf-8', index=False)
data_2016_1.to_csv('rpmti_2016_1.csv', encoding='utf-8', index=False)
data_2016_2.to_csv('rpmti_2016_2.csv', encoding='utf-8', index=False)