## Análise de dados do aproveitamento dos estudantes  da Universidade do Estado do Amazonas
> Aluna: Juliany Raiol

Esta primeira parte da análise consiste em formatar e limpar os dados contindos no dataset que abrange o período de 2013 - 2014.

In [2]:
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
import datetime

In [3]:
dataframe = pd.read_csv('../data/ciclo_2013_2014_05_03.csv')
dataframe.head()

Unnamed: 0,ALUNO,LYCEUM.GET_MUNICIPIO_NASCIMENTO_UEA(P.PESSOA),DT_NASC,CURSO,NOME,TIPO_INGRESSO,ANO_INGRESSO,UNIDADE_FISICA,SERIE,DISCIPLINA,NOME_DISCIPLINA,NOTA_FINAL,SITUACAO_HIST,PERC_PRESENCA,FALTAS
0,1,Manaus,23/07/1995,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,1.0,ESTTPD108,Algoritmos e Programação,5.17,Rep Nota,92,6.0
1,2,Manaus,23/07/1995,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,1.0,ESTBAS006,Comunicação e Expressão,6.0,Aprovado,1,
2,3,Manaus,23/07/1995,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,1.0,ESTBAS002,Cálculo I,2.9,Rep Nota,1,0.0
3,4,Manaus,23/07/1995,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,1.0,ESTBAS035,Empreendedorismo,8.5,Aprovado,1,
4,5,Manaus,23/07/1995,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,1.0,ESTTPD100,Introdução à Computação,7.7,Aprovado,8667,8.0


## Limpando e formatando dataframe

Neste trecho é realizado a padronização dos nomes das tabelas, indo para minúsculo. A tabela 'lyceum.get_municipio_nascimento_uea(p.pessoa)' é bastante extensa, para facilitar a análise, mudou-se parar 'municipio_nascimento'.

In [4]:
dataframe.rename(columns=lambda x: x.strip().lower(), inplace=True)
dataframe.rename(columns = {'lyceum.get_municipio_nascimento_uea(p.pessoa)':'municipio_nascimento', 'curso' : 'id_curso', 'nome' : 'nome_curso', 'disciplina': 'id_disciplina'}, inplace=True)

In [5]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 57075 entries, 0 to 57074
Data columns (total 15 columns):
aluno                   57075 non-null int64
municipio_nascimento    57075 non-null object
dt_nasc                 57075 non-null object
id_curso                57075 non-null object
nome_curso              57075 non-null object
tipo_ingresso           57075 non-null object
ano_ingresso            57075 non-null int64
unidade_fisica          57075 non-null object
serie                   56274 non-null float64
id_disciplina           57075 non-null object
nome_disciplina         57075 non-null object
nota_final              56976 non-null object
situacao_hist           57075 non-null object
perc_presenca           57054 non-null object
faltas                  38850 non-null object
dtypes: float64(1), int64(2), object(12)
memory usage: 6.5+ MB


> Há valores nulos em determinadas linhas do dataframe, por exemplo, na coluna serie, nota_final e faltas. Além disso, estes valores estão no formato string e não como ponto flutuante. Foi preciso modificar estas linhas.

In [6]:
#Se houve valor nulo em determinada linha, ele é adicionado '-1' em seu lugar.
dataframe.fillna('-1', inplace=True)

Os valores que são do tipo string, são modificados para o tipo ponto flutuante. Há também formatação na representação decimal, o formato brasileiro com vírgula (,) foi trocado para o formato americano com ponto (.) . 

In [7]:
dataframe['perc_presenca'] = [float(valor.replace(',', '.')) if valor.find(',') else float(valor) for valor in dataframe['perc_presenca']]
dataframe['faltas'] = [float(valor.replace(',', '.')) for valor in dataframe['faltas']]

In [8]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 57075 entries, 0 to 57074
Data columns (total 15 columns):
aluno                   57075 non-null int64
municipio_nascimento    57075 non-null object
dt_nasc                 57075 non-null object
id_curso                57075 non-null object
nome_curso              57075 non-null object
tipo_ingresso           57075 non-null object
ano_ingresso            57075 non-null int64
unidade_fisica          57075 non-null object
serie                   57075 non-null object
id_disciplina           57075 non-null object
nome_disciplina         57075 non-null object
nota_final              57075 non-null object
situacao_hist           57075 non-null object
perc_presenca           57075 non-null float64
faltas                  57075 non-null float64
dtypes: float64(2), int64(2), object(11)
memory usage: 6.5+ MB


## Valores faltantes

> Durante a análise dos dados, percebeu-se que havia uma relação entre situacao do aluno em determinada disciplina e a sua nota final. Aqueles alunos que haviam espaços em branco (' ') no lugar a nota final, eram os mesmos que havia trancado ou cancelado a matrícula na disciplina correspondente. Havia também os alunos que foram dispensados, alguns possuiam nota, outros não. Os que não possuiam nota cadastrada no sistema, foram os não fizeram ENADE.

> As faltas dos alunos que possuiam a disciplina ENADE, estavam com o valor nulo. Após o uso da função dataframe.fillna('-1', inplace=True), as faltas foram modificadas para -1.



In [9]:
dataframe.query("situacao_hist == 'Trancado' | situacao_hist == 'Cancelado' | situacao_hist == 'Dispensado'")

Unnamed: 0,aluno,municipio_nascimento,dt_nasc,id_curso,nome_curso,tipo_ingresso,ano_ingresso,unidade_fisica,serie,id_disciplina,nome_disciplina,nota_final,situacao_hist,perc_presenca,faltas
28,29,Manaus,18/10/1994,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,2,ESTBMT027,Atividades Complementares,,Trancado,0.0,-1.0
36,37,Manaus,18/10/1994,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,4,ESTTPD320,Estruturas de Dados para Tecnologia,,Trancado,0.0,-1.0
39,40,Manaus,18/10/1994,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,5,ESTLIN325,Arquitetura e Organização de Computadores,,Trancado,0.0,-1.0
41,42,Manaus,18/10/1994,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,5,ESTBAS002,Cálculo I,,Trancado,0.0,-1.0
45,46,Manaus,18/10/1994,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,6,ESTTPD320,Estruturas de Dados para Tecnologia,,Trancado,0.0,-1.0
47,48,Manaus,18/10/1994,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,6,ESTTPD319,Linguagem e Técnicas de Programação II,,Trancado,0.0,-1.0
48,49,Manaus,18/10/1994,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,6,ESTSIV011,Organização e Arquitetura de Computadores,,Trancado,0.0,-1.0
121,122,Itapeva,04/04/1992,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,1,ESTTPD108,Algoritmos e Programação,,Cancelado,0.0,-1.0
122,123,Itapeva,04/04/1992,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,1,ESTBAS006,Comunicação e Expressão,,Cancelado,0.0,-1.0
123,124,Itapeva,04/04/1992,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,1,ESTBAS002,Cálculo I,,Cancelado,0.0,-1.0


In [10]:
dataframe['nota_final'] = [valor.replace(' ', '-') for valor in dataframe['nota_final']]

> A nota_final dos alunos que possuiam a disciplina ENADE, estavam com espaço (' '). Após o uso da função replace(' ', '-'), as faltas foram modificadas para o símbolo de traço (-). O tipo da coluna nota_final, permanece como string.

In [11]:
dataframe.query("situacao_hist == 'Trancado' | situacao_hist == 'Cancelado'")

Unnamed: 0,aluno,municipio_nascimento,dt_nasc,id_curso,nome_curso,tipo_ingresso,ano_ingresso,unidade_fisica,serie,id_disciplina,nome_disciplina,nota_final,situacao_hist,perc_presenca,faltas
28,29,Manaus,18/10/1994,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,2,ESTBMT027,Atividades Complementares,-,Trancado,0.0,-1.0
36,37,Manaus,18/10/1994,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,4,ESTTPD320,Estruturas de Dados para Tecnologia,-,Trancado,0.0,-1.0
39,40,Manaus,18/10/1994,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,5,ESTLIN325,Arquitetura e Organização de Computadores,-,Trancado,0.0,-1.0
41,42,Manaus,18/10/1994,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,5,ESTBAS002,Cálculo I,-,Trancado,0.0,-1.0
45,46,Manaus,18/10/1994,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,6,ESTTPD320,Estruturas de Dados para Tecnologia,-,Trancado,0.0,-1.0
47,48,Manaus,18/10/1994,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,6,ESTTPD319,Linguagem e Técnicas de Programação II,-,Trancado,0.0,-1.0
48,49,Manaus,18/10/1994,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,6,ESTSIV011,Organização e Arquitetura de Computadores,-,Trancado,0.0,-1.0
121,122,Itapeva,04/04/1992,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,1,ESTTPD108,Algoritmos e Programação,-,Cancelado,0.0,-1.0
122,123,Itapeva,04/04/1992,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,1,ESTBAS006,Comunicação e Expressão,-,Cancelado,0.0,-1.0
123,124,Itapeva,04/04/1992,EST17KSN,Análise e Desenvolvimento de Sistemas,SAES,2013,EST,1,ESTBAS002,Cálculo I,-,Cancelado,0.0,-1.0


> Algumas colunas precisaram ser removidas pois não influenciariam na análise. Estas colunas são unidade_fisica (todos os alunos são da EST), dt_nasc (a idade deles já foi calculada), id_curso e id_disciplina, não há necessidade de usar estas últimas.

In [12]:
iniperiodo = datetime.date(2013, 2, 3)
dataframe['idade'] = [ (iniperiodo - datetime.date(int(data[6:10]), int(data[3:5]), int(data[0:2]))).days/365 for data in dataframe['dt_nasc']]
dataframe.drop(['unidade_fisica', 'dt_nasc', 'id_curso', 'id_disciplina'], axis=1, inplace=True)

In [13]:
dataframe.head()

Unnamed: 0,aluno,municipio_nascimento,nome_curso,tipo_ingresso,ano_ingresso,serie,nome_disciplina,nota_final,situacao_hist,perc_presenca,faltas,idade
0,1,Manaus,Análise e Desenvolvimento de Sistemas,SAES,2013,1,Algoritmos e Programação,5.17,Rep Nota,0.92,6.0,17
1,2,Manaus,Análise e Desenvolvimento de Sistemas,SAES,2013,1,Comunicação e Expressão,6.0,Aprovado,1.0,-1.0,17
2,3,Manaus,Análise e Desenvolvimento de Sistemas,SAES,2013,1,Cálculo I,2.9,Rep Nota,1.0,0.0,17
3,4,Manaus,Análise e Desenvolvimento de Sistemas,SAES,2013,1,Empreendedorismo,8.5,Aprovado,1.0,-1.0,17
4,5,Manaus,Análise e Desenvolvimento de Sistemas,SAES,2013,1,Introdução à Computação,7.7,Aprovado,0.8667,8.0,17


> Salvando os dados moficados em outro csv

In [14]:
dataframe.to_csv('../data/lyceum_2013_2014.csv', index=False)