In [26]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go

pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

## Load dataset

In [28]:
df = pd.read_csv('data/hist_ppgi.csv', sep=';',encoding='latin-1')

### Data preprocessing: removing irrelevant attributes from raw data

In [29]:
df = df.drop(['Nome','Matrícula','Curso','Código do Curso','Código da Opção','Nível'], axis=1)

nroInstances,nroAttributes = df.shape

df.head()

Unnamed: 0,Período,Código da Disciplina,Disciplina,Turma,Menção,Modalidade
0,20102,316261,Tópicos em Engenharia de Software ...,A,SS,OPT
1,20102,316440,Sistemas Distribuídos ...,A,MS,OPT
2,20102,316032,Inteligência Artificial 2 ...,A,SS,OPT
3,20102,316504,Tópicos em Fundamentos e Métodos de Computação...,A,MS,OPT
4,20102,316296,Teoria da Computação ...,A,MM,OBR


### Group all courses of PPGI

In [32]:
disciplinas = df.groupby(['Disciplina', 'Código da Disciplina','Turma']).size()

fig = px.pie(df, names='Disciplina', title='Matrículas nas disciplinas cursadas')
fig.show()

In [34]:
dfmm = df[df.Menção == 'MM']

fig = px.pie(dfmm, names='Disciplina', title='Matrículas em disciplinas que obtiveram menção MM')
fig.show()

In [35]:
fig = px.pie(df, names='Menção', title='Todas as menções')
fig.show()

In [37]:
dfcc = df[df.Menção == 'CC']

fig = px.pie(dfcc, names='Disciplina', title='Disciplinas Credito Concedido')
fig.show()

## Análise das matrículas resultantes em reprovações, desistências e trancamentos

In [38]:
mi = df['Menção'] == "MI"

ii = df['Menção'] == "II"

sr = df['Menção'] == "SR"

tr = df['Menção'] == "TR"

dfrep = df[mi | ii | sr | tr]

fig = px.pie(dfrep, names='Disciplina', title='Disciplinas com maiores reprovacoes/desistencias/trancamentos')
fig.show()

## Disciplinas com maior quantidade de matrículas não-aprovadas proporcionalmente ao número de matrículas

In [71]:
propdf = df;

propdf = propdf.drop(['Período','Código da Disciplina','Turma','Modalidade'], axis=1)

propdf = propdf[propdf.Menção != 'AP']

propdf = propdf[propdf.Menção != 'CC']

propdf = propdf[propdf.Menção != 'DP']

propdf = propdf[propdf.Menção != 'RP']

totalDisc = propdf.groupby(['Disciplina']).size()

print(totalDisc)

#prop = c / c.groupby(level=0).transform("sum")

#propdf['taxa_reprovacao'] = prop

Disciplina
Algoritmos e Estruturas de Dados                                           5
Análise Estatística de Dados e Informações                                 3
Apresentação de Grupos e Métodos Computacionais                            1
Armazenamento e Gerenciamento de Informações                               1
Arquitetura e Desenho de Software                                          3
Arquiteturas VLSI                                                          5
Banco de Dados Massivos                                                    1
Construção de Software                                                     3
Convergência de Redes                                                      1
Criptografia                                                               4
Criptografia e Segurança de Dados                                          4
Delineamento e Análise de Experimentos                                     2
Ecologia de Paisagens                                            

In [None]:
## Q2

In [74]:
prop = propdf.groupby(['Disciplina','Menção']).size() / propdf.groupby(['Disciplina']).size()

print(prop)

Disciplina                                                              Menção
Algoritmos e Estruturas de Dados                                        MM        0.200000
                                                                        MS        0.600000
                                                                        SS        0.200000
Análise Estatística de Dados e Informações                              MS        0.666667
                                                                        SS        0.333333
Apresentação de Grupos e Métodos Computacionais                         SS        1.000000
Armazenamento e Gerenciamento de Informações                            SS        1.000000
Arquitetura e Desenho de Software                                       MS        0.333333
                                                                        SS        0.666667
Arquiteturas VLSI                                                       MS        0.800000
           

### Drop course's name attribute (we refer them by their own IDs)

In [23]:
precdf = df.drop(['Turma','Modalidade'], axis=1)

precdf = precdf[precdf.Menção != 'AP']

precdf = precdf[precdf.Menção != 'CC']

precdf = precdf[precdf.Menção != 'DP']

precdf = precdf[precdf.Menção != 'RP']

In [24]:
mencoes = precdf.groupby(['Menção']).size()

fig = px.pie(precdf, names='Menção', title='Contabilizacao das Mencoes')
fig.show()

In [None]:
precdf = precdf.rename(columns={'Período':'periodo', 'Código da Disciplina': 'codigo_disciplina','Menção' : 'mencao'})

precdf

In [7]:
print(disciplinas)

Disciplina                                                              Código da Disciplina  Turma
Algoritmos e Estruturas de Dados                                        301477                A         5
Análise Estatística de Dados e Informações                              301566                A         3
Apresentação de Grupos e Métodos Computacionais                         313629                A         1
Armazenamento e Gerenciamento de Informações                            301841                A         1
Arquitetura e Desenho de Software                                       301892                A         3
Arquiteturas VLSI                                                       316407                          2
                                                                                              A         5
Banco de Dados Massivos                                                 311596                A         1
Construção de Software                              

In [None]:
mencoes = precdf.groupby(['Menção']).size()

fig = px.pie(df, names='Menção', title='Contabilizacao das Mencoes')
fig.show()

In [9]:
precdf['mencao'] = precdf['mencao'].astype('category')

cat_columns = precdf.select_dtypes(['category']).columns

precdf[cat_columns] = precdf[cat_columns].apply(lambda x: x.cat.codes)

print(precdf)

print(cat_columns)

      periodo  codigo_disciplina  mencao
0       20102             316261       5
1       20102             316440       3
2       20102             316032       5
3       20102             316504       3
4       20102             316296       2
...       ...                ...     ...
1140    20192             316377       2
1141    20192             316261       3
1142    20192             316415       5
1143    20192             316296       4
1144    20192             316334       5

[913 rows x 3 columns]
Index(['mencao'], dtype='object')


### Dummy variables

In [10]:
#pd.get_dummies(df, prefix=['Código da Disciplina'])
mencoes = precdf.groupby(['mencao']).size()

print(mencoes)

mencoes = df.groupby(['Menção']).size()

print()

print(mencoes)

mencao
0      6
1     12
2    127
3    297
4      6
5    455
6     10
dtype: int64

Menção
AP    120
CC    102
DP      9
II      6
MI     12
MM    127
MS    297
RP      1
SR      6
SS    455
TR     10
dtype: int64


### Visualization based on Parallel Coordinates

In [12]:
fig = go.Figure(data=
    go.Parcoords(
        line = dict(color = precdf['mencao'],
                     colorscale=["red","red","pink","green","yellow","blue","black"]),
        dimensions = list([
            dict(range = [20102,20192],
                label = 'Período', values = precdf['periodo']),
            dict(range = [300000,398420],
                label = 'Código da Disciplina', values = precdf['codigo_disciplina']),
            dict(range = [0,6],
                label = 'Menção', values = precdf['mencao'])
        ])
    )
)

fig.update_layout(
    plot_bgcolor = 'white',
    paper_bgcolor = 'white'
)
fig.show()

#parallel_coordinates(precdf,'Menção',color=('#556270', '#4ECDC4', '#C7F464','#000000','#AAAAAA'))
#plt.xlabel("Each Component of X is Shown on its Own Vertical Axis")
#plt.ylabel("Values")
#plt.title("Finding the Optimal Value of X")
#plt.show()

In [92]:
coursesArray = pd.unique(df['Disciplina'].values)
courses = coursesArray.tolist()

discNames = {}

invdict = {}
for i in range(0,len(courses)):
    discNames[i] = courses[i]
    invdict[courses[i]] = i

#print(discNomes)

codesArray = pd.unique(df['Código da Disciplina'].values)
codes = codesArray.tolist()

discCodes = {}

invdict2 = {}
for i in range(0,len(codes)):
    discCodes[i] = codes[i]
    invdict2[codes[i]] = i


for i in range(0,len(courses)):
    print(str(discCodes[i])+' '+str(discNames[i]))


316261 Tópicos em Engenharia de Software                                     
316440 Sistemas Distribuídos                                                 
316032 Inteligência Artificial 2                                             
316504 Tópicos em Fundamentos e Métodos de Computação                        
316296 Teoria da Computação                                                  
316491 Tópicos em Sistemas de Computação                                     
363111 Processamento de Sinais                                               
316415 Seminário                                                             
316547 Proficiência em Inglês                                                
313343 Geometria Diferencial                                                 
313599 Seminário de Computação                                               
323543 Ecologia de Paisagens                                                 
316385 Processamento de Imagens Digitais                        

KeyError: 95