# Agrupandos dos diferentes estados dos alunos de C&T
## objetivo
O objetivo desse notebook é lista todos os estados possíveis de um aluno em C&T, tendo como vista
as materias que ele pode pagar nesse curso. Serão listadas apenas as disciplinas oferecidas pelo departamento, 
tendo em vista que o objetivo é listar os primeiros semestres, onde ainda não há uma necessidade tão 
grande de pagar matérias em outros departamentos.

## Definição de Estado
Um Estado é formado pelo conjunto de disciplinas que o discente está pagando naquele semestre, assim, haverá um
estado para cada possibilidade possível de disciplinas. Os estados com menor adesão serão tidos como outlies e 
não serão utilizados na aplicação do algoritmo.

In [1]:
import pandas as pd
import numpy as np

In [36]:
matr = pd.read_csv("data/outputs/matr_final_20172.csv", sep=";")

In [3]:
matr.head()

Unnamed: 0,id_turma,discente,id_curso,media_final,numero_total_faltas,descricao,id_componente_curricular,ano,periodo,codigo,nome,curso_componente
0,57603646,c119d334d6c55121d48dc7f5d43bbe1f,10320810.0,8.2,4.0,APROVADO,25009,2017,2,DEF0152,CULTURA POPULAR,
1,57603630,30156bac31160066c22688ccc9fa1287,10320810.0,1.0,48.0,REPROVADO POR MÉDIA E POR FALTAS,25025,2017,2,DEF0054,METODOLOGIA DO ATLETISMO,
2,57603630,7c8756bfafd6623effbeefe83ac2ea15,10320810.0,7.0,4.0,APROVADO,25025,2017,2,DEF0054,METODOLOGIA DO ATLETISMO,
3,57603833,972c641f5303e93483e5c318ef19e0cd,10320810.0,7.3,0.0,APROVADO,25042,2017,2,DEF0051,METODOLOGIA DO FUTSAL,
4,57606520,e0830e6363b8c6a692d3aea55eab73c1,10320810.0,5.0,0.0,APROVADO POR NOTA,25455,2017,2,ELE0500,INTRODUCAO A ENGENHARIA ELETRICA,


## Agrupando por Discentes
Nesse passo, vamos agrupar as matriculas por discentes a fim de começar a mapear os estados e 
verificar possíveis outliers.

In [9]:
# matr.groupby('discente')['discente'].count().sort_values(ascending=False)

In [32]:
matr.descricao.unique()

array(['REPROVADO POR MÉDIA E POR FALTAS', 'APROVADO POR NOTA',
       'APROVADO', 'TRANCADO', 'REPROVADO', 'REPROVADO POR NOTA',
       'REPROVADO POR FALTAS', 'REPROVADO POR NOTA E FALTA'], dtype=object)

In [37]:
matr.sort_values('codigo', ascending=True, inplace=True)

In [40]:
matr['descricao'] = matr['descricao'].map({'REPROVADO POR MÉDIA E POR FALTAS': 'R', 'REPROVADO POR NOTA': 'R',
                 'REPROVADO POR NOTA E FALTA': 'R',
                 'REPROVADO POR FALTAS': 'R', 'REPROVADO': 'R',
                'APROVADO POR NOTA': 'A', 'APROVADO': 'A', 'TRANCADO': 'T'})

In [34]:
group = matr[['discente', 'codigo', 'descricao']].groupby('discente')

In [35]:
group.agg(lambda x: ','.join(x))

Unnamed: 0_level_0,descricao
discente,Unnamed: 1_level_1
0010345ff1be7da25478b5a96c772616,"REPROVADO,APROVADO POR NOTA,APROVADO POR NOTA,..."
005cdf6ddf92e14dfa387c87f3f6e946,"APROVADO POR NOTA,APROVADO POR NOTA,APROVADO,A..."
00a54c3ed49fdd50c7dd248458255e17,"APROVADO POR NOTA,REPROVADO,REPROVADO,APROVADO..."
00b4c9b8bd631422f6a05bad05774d2b,"TRANCADO,APROVADO POR NOTA,REPROVADO,TRANCADO,..."
00c95b0e427b18e5443272c0c01549c3,"REPROVADO POR MÉDIA E POR FALTAS,REPROVADO POR..."
00d67b98ad2471688f50b37e26017c8e,"REPROVADO,REPROVADO,REPROVADO,APROVADO POR NOT..."
011a9ba9e3300b9774c2422832e2e775,"APROVADO,APROVADO,APROVADO POR NOTA,REPROVADO,..."
0120b6290275041d959e36cc17bbf368,"REPROVADO,REPROVADO POR MÉDIA E POR FALTAS,APR..."
014d0049a66c06dd7b4b97d25b5530c3,"APROVADO POR NOTA,APROVADO POR NOTA,APROVADO P..."
015eb3a978d70ee070a21cb5f518ae39,"APROVADO POR NOTA,APROVADO POR NOTA,APROVADO P..."


## Criando os Estados
Nesse passo, vamos criar os estados dos discentes, sendo verificado as disciplinas que estão sendo pagas e 
perando um hash para cada conjunto de disciplinas.

Pode ser criado um discionários ou estrutura semelhante para armazenar os hashs que serão criados e agrupados.

In [7]:
hash(str(['ECT2414', 'ECT0123', 'ECT1241']))

7125945113005725043

In [None]:
def hash_situacao(descricao):
    '''
    Função para computar o resultado do discente no semestre.
    '''
    situacoes = list(descricao)
    situacoes.replace

In [5]:
def hash_disciplinas(disciplinas):
    '''
    Função que calcula um hash para as disciplinas. Assim será possível varer todos os estados possíveis.
    
    A função recebe uma lista de disciplinas e retorna um valor hash.
    >>> hash_disciplinas(['ECT2414', 'ECT0123', 'ECT1241'])
    '3-2914823815191669391'
    '''
    # O primeiro numero é a quantidade de disciplinas
    hash_ = str(len(disciplinas))
    
    # Ordena o vetor de disciplinas e gera uma string dele
    disc = list(disciplinas)
    disc.sort()
    hash_ += "".join(disc)
    
    return hash_

In [6]:
hash_disciplinas(['ECT2414', 'ECT0123', 'ECT1241'])

'3ECT0123ECT1241ECT2414'

## Agrupando os discentes por Estado

In [22]:
# Aplicando a função hash_disciplinas no nosso grupo

estados = group.agg(hash_disciplinas)
type(estados)

pandas.core.frame.DataFrame

In [41]:
estados.groupby('codigo')['codigo'].count().sort_values(ascending=False)

codigo
6ECT2101ECT2102ECT2103ECT2104ECT2105ECT2106                                 469
7ECT2201ECT2202ECT2203ECT2204ECT2205ECT2206ECT2207                           56
7ECT2301ECT2302ECT2303ECT2304ECT2305ECT2306ECT2307                           15
6ECT2401ECT2402ECT2403ECT2411ECT2412ECT2413                                  13
6ECT2201ECT2202ECT2203ECT2204ECT2205ECT2302                                  10
6ECT2103ECT2202ECT2203ECT2205ECT2206ECT2306                                   9
8ECT2201ECT2202ECT2203ECT2204ECT2205ECT2206ECT2207ECT2305                     9
7ECT2401ECT2402ECT2403ECT2411ECT2412ECT2413ECT2415                            9
7ECT2101ECT2202ECT2203ECT2204ECT2205ECT2206ECT2207                            7
6ECT2206ECT2301ECT2303ECT2304ECT2305ECT2307                                   7
6ECT2301ECT2302ECT2303ECT2304ECT2305ECT2307                                   6
6ECT2101ECT2102ECT2103ECT2203ECT2205ECT2206                                   6
7ECT2103ECT2202ECT2203ECT2205ECT2

## Analisando só materias obrigatórias

In [9]:
obrig_s1 = ['ECT2101', 'ECT2102', 'ECT2103', 'ECT2104', 'ECT2105', 'ECT2106']
obrig_s2 = ['ECT2201', 'ECT2202', 'ECT2203', 'ECT2204', 'ECT2205', 'ECT2206', 'ECT2207']
obrig_s3 = ['ECT2301', 'ECT2302', 'ECT2303', 'ECT2304', 'ECT2305', 'ECT2306', 'ECT2307']
obrig_s4 = ['ECT2401', 'ECT2402', 'ECT2403', 'ECT2311', 'ECT2412', 'ECT2413', 'ECT2414']

obrig = obrig_s1 + obrig_s2 + obrig_s3 + obrig_s4

In [10]:
# Pegando apenas as matriculas em disciplinas obrigadorias
matr_obrig = matr[matr.codigo.isin(obrig)]
group_ob = matr_obrig[['discente', 'codigo']].groupby('discente')

estados_ob = group_ob.agg(hash_disciplinas)

In [42]:
estados_ob.groupby('codigo')['codigo'].count().sort_values(ascending=False)

codigo
6ECT2101ECT2102ECT2103ECT2104ECT2105ECT2106                  472
1ECT2414                                                     105
7ECT2201ECT2202ECT2203ECT2204ECT2205ECT2206ECT2207            60
5ECT2401ECT2402ECT2403ECT2412ECT2413                          41
1ECT2302                                                      36
1ECT2401                                                      31
1ECT2206                                                      26
1ECT2413                                                      25
2ECT2413ECT2414                                               20
7ECT2301ECT2302ECT2303ECT2304ECT2305ECT2306ECT2307            20
3ECT2402ECT2403ECT2413                                        19
2ECT2206ECT2302                                               17
4ECT2401ECT2402ECT2403ECT2412                                 16
2ECT2412ECT2414                                               15
3ECT2412ECT2413ECT2414                                        14
4ECT2402ECT2403ECT

In [16]:
def periodo_ano(first):
    #first = df.iloc[0]
    return (str(first.ano) + str(first.periodo))

In [17]:
estados_ob['ano_periodo'] = periodo_ano(matr.iloc[0])

In [18]:
estados_ob

Unnamed: 0_level_0,codigo,ano_periodo
discente,Unnamed: 1_level_1,Unnamed: 2_level_1
0010345ff1be7da25478b5a96c772616,5ECT2301ECT2304ECT2401ECT2402ECT2412,20172
005cdf6ddf92e14dfa387c87f3f6e946,7ECT2301ECT2302ECT2303ECT2304ECT2305ECT2306ECT...,20172
00a54c3ed49fdd50c7dd248458255e17,4ECT2201ECT2202ECT2204ECT2303,20172
00b4c9b8bd631422f6a05bad05774d2b,2ECT2412ECT2413,20172
00c95b0e427b18e5443272c0c01549c3,3ECT2102ECT2103ECT2104,20172
00d67b98ad2471688f50b37e26017c8e,6ECT2101ECT2102ECT2103ECT2302ECT2305ECT2306,20172
011a9ba9e3300b9774c2422832e2e775,3ECT2201ECT2204ECT2302,20172
0120b6290275041d959e36cc17bbf368,7ECT2201ECT2202ECT2203ECT2204ECT2205ECT2206ECT...,20172
014d0049a66c06dd7b4b97d25b5530c3,3ECT2402ECT2403ECT2413,20172
015eb3a978d70ee070a21cb5f518ae39,7ECT2301ECT2302ECT2303ECT2304ECT2305ECT2306ECT...,20172
