# Preparação dos dados
Nesse notebook vamos preparar os dados que utilizaremos ao longo do desenvolvimento do projeto. Os datasets aqui utilizados são importados do portal de dados abertos da UFRN (http://dados.ufrn.br/).

Para esse estudo, analisaremos apenas os dados do curso de Ciência e Tecnologia da UFRN, mais espeficamente a disciplina de Cálculo 2, onde tentaremos prever as possiveis reprovações dos alunos se baseando em seu histórico e na nota da primeira unidade na disciplina.

In [1]:
# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

### Importando os dados
Vamos importar e já separar os escolhidos.

In [2]:
lista_anos_analisados = ['20151', '20152', '20161', '20162', '20171', '20172'] # 20172 vai ficar para validação

matriculas_geral = pd.read_csv(f"data/matriculas_geral_pos_limpeza.csv", sep=";")
# matriculas_geral = pd.DataFrame()
# for ano in lista_anos_analisados:
#     matriculas = pd.read_csv(f"data/matriculas_pos_limpeza_{ano}.csv", sep=";")
    
#     matriculas_geral = pd.concat([matriculas_geral, matriculas])

In [3]:
matriculas_geral.shape

(46248, 10)

In [4]:
matriculas_geral.head()

Unnamed: 0,descricao,discente,faltas_unidade,id_curso,id_turma,media_final,nota,numero_total_faltas,reposicao,unidade
0,REPROVADO POR MÉDIA E POR FALTAS,397100d23a3bdd6ef9443f04e5de1d27,0.0,10320810.0,57595053,0,0,52.0,False,2.0
1,REPROVADO POR MÉDIA E POR FALTAS,397100d23a3bdd6ef9443f04e5de1d27,0.0,10320810.0,57595053,0,0,52.0,False,3.0
2,REPROVADO POR MÉDIA E POR FALTAS,397100d23a3bdd6ef9443f04e5de1d27,0.0,10320810.0,57595053,0,1,52.0,False,1.0
3,REPROVADO POR MÉDIA E POR FALTAS,998389a2499babdb2d03932164699f2f,0.0,10320810.0,57595053,0,0,60.0,False,1.0
4,REPROVADO POR MÉDIA E POR FALTAS,998389a2499babdb2d03932164699f2f,0.0,10320810.0,57595053,0,0,60.0,False,2.0


In [5]:
matriculas_geral.columns

Index(['descricao', 'discente', 'faltas_unidade', 'id_curso', 'id_turma',
       'media_final', 'nota', 'numero_total_faltas', 'reposicao', 'unidade'],
      dtype='object')

In [6]:
matriculas_geral.descricao.value_counts()

REPROVADO                           21285
APROVADO POR NOTA                   11553
REPROVADO POR MÉDIA E POR FALTAS     7773
APROVADO                             5556
REPROVADO POR NOTA                     75
REPROVADO POR FALTAS                    3
REPROVADO POR NOTA E FALTA              3
Name: descricao, dtype: int64

In [7]:
status_aprovado = ['APROVADO', 'APROVADO POR NOTA']

matriculas_geral['reprovou'] = matriculas_geral.descricao.apply(lambda x: False if x in status_aprovado else True)

In [8]:
columns_matriculas = ['discente', 'faltas_unidade',
       'id_turma', 'media_final', 'nota', 'numero_total_faltas',
       'reposicao', 'unidade', 'reprovou']
matriculas_geral = matriculas_geral[columns_matriculas]

In [9]:
matriculas_geral.to_csv("data/matriculas_geral_pos_preparacao.csv", sep=';', index=False)

### Importando os dados de turmas

In [10]:
turmas_geral = pd.read_csv("data/turmas_geral_pos_limpeza.csv", sep=";")
# turmas_geral = pd.DataFrame()
# for ano in lista_anos_analisados:
#     turmas = pd.read_csv(f"data/turmas_pos_limpeza_{ano}.csv", sep=";")
    
#     turmas_geral = pd.concat([turmas_geral, turmas])

In [11]:
turmas_geral.shape

(2158, 6)

In [12]:
turmas_geral.head()

Unnamed: 0.1,Unnamed: 0,id_turma,id_componente_curricular,id_docente_interno,ano_periodo,situacao_turma
0,0,57595025,57586,3550015.0,Turmas_2017_1,CONSOLIDADA
1,1,57595026,57586,1756325.0,Turmas_2017_1,CONSOLIDADA
2,2,57595027,57586,1756325.0,Turmas_2017_1,CONSOLIDADA
3,3,57595028,57586,1753234.0,Turmas_2017_1,CONSOLIDADA
4,4,57595029,57586,6350665.0,Turmas_2017_1,CONSOLIDADA


In [13]:
turmas_geral.columns

Index(['Unnamed: 0', 'id_turma', 'id_componente_curricular',
       'id_docente_interno', 'ano_periodo', 'situacao_turma'],
      dtype='object')

In [14]:
columns_turma = ['id_turma', 'id_componente_curricular','id_docente_interno', 'ano_periodo']
turmas_geral = turmas_geral[columns_turma]

In [15]:
turmas_geral.to_csv("data/turmas_geral_pos_preparacao.csv", sep=';', index=False)

## Pegando apenas os dados de Cálculo II

In [22]:
id_componente_c2 = ['48584', 57588, '2051052']
turmas_c2 = turmas_geral[turmas_geral.id_componente_curricular.isin(id_componente_c2)]

In [23]:
# Pegando apenas dos periodos que seram analisados: 2016.1, 2016.2, 2017.1
turmas_c2 = turmas_c2[turmas_c2.ano_periodo.isin(['Turmas_2018_1', 'Turmas_2018_2', 'Turmas_2019_1'])]

In [24]:
turmas_c2.id_docente_interno.value_counts()

2998751.0    3
1680333.0    3
2583622.0    2
2646069.0    2
1912054.0    2
2141197.0    2
1753781.0    1
Name: id_docente_interno, dtype: int64

In [25]:
turmas_geral.id_docente_interno.value_counts()

3057895.0    65
1481705.0    55
1255011.0    55
2254759.0    46
1658061.0    46
             ..
1655461.0     4
2384379.0     3
1246519.0     3
1640260.0     1
2452782.0     1
Name: id_docente_interno, Length: 123, dtype: int64

In [26]:
matriculas_geral[matriculas_geral.id_turma.isin(turmas_c2.id_turma.unique())]

Unnamed: 0,discente,faltas_unidade,id_turma,media_final,nota,numero_total_faltas,reposicao,unidade,reprovou
15669,58a1cb3b87c4e66fa6f4ca54230be9e0,0.0,57616292,07,20,32.0,False,1.0,True
15670,58a1cb3b87c4e66fa6f4ca54230be9e0,0.0,57616292,07,00,32.0,False,2.0,True
15671,58a1cb3b87c4e66fa6f4ca54230be9e0,0.0,57616292,07,00,32.0,False,3.0,True
15672,abf219e724216524a585e780f0c63c0e,0.0,57616292,15,00,16.0,False,1.0,True
15673,abf219e724216524a585e780f0c63c0e,0.0,57616292,15,25,16.0,False,2.0,True
...,...,...,...,...,...,...,...,...,...
35662,6491bc49a57c50bcefa58b40eb7497a0,0.0,57636203,25,20,12.0,False,3.0,True
35663,6491bc49a57c50bcefa58b40eb7497a0,0.0,57636203,25,15,12.0,False,1.0,True
35664,e58d34e2bd87e68909e8cd0e1e46778c,0.0,57636203,50,05,8.0,True,1.0,False
35665,e58d34e2bd87e68909e8cd0e1e46778c,0.0,57636203,50,50,8.0,False,2.0,False
