# Agrupandos dos diferentes estados dos alunos de C&T
## objetivo
O objetivo desse notebook é lista todos os estados possíveis de um aluno em C&T, tendo como vista
as materias que ele pode pagar nesse curso. Serão listadas apenas as disciplinas oferecidas pelo departamento, 
tendo em vista que o objetivo é listar os primeiros semestres, onde ainda não há uma necessidade tão 
grande de pagar matérias em outros departamentos.

## Definição de Estado
Um Estado é formado pelo conjunto de disciplinas que o discente está pagando naquele semestre, assim, haverá um
estado para cada possibilidade possível de disciplinas. Os estados com menor adesão serão tidos como outlies e 
não serão utilizados na aplicação do algoritmo.

In [1]:
import pandas as pd
import numpy as np

In [121]:
matr = pd.read_csv("data/outputs/matr_final_20162.csv", sep=";")

In [107]:
matr.head()

Unnamed: 0,id_turma,discente,id_curso,media_final,numero_total_faltas,descricao,codigo,ano,periodo
0,57576612,b74693d943171df25b0a502b522d4165,10320810.0,5.5,0.0,APROVADO POR NOTA,ECT2103,2016,1
1,57576612,a36def5f899c2f94c3e40b6144be51d7,10320810.0,0.5,20.0,REPROVADO,ECT2103,2016,1
2,57576612,a036073779ed35848a20788046f54bb5,10320810.0,5.0,0.0,APROVADO POR NOTA,ECT2103,2016,1
3,57576612,00d4dab41b0960fd67973cbe407130c8,10320810.0,6.1,0.0,APROVADO POR NOTA,ECT2103,2016,1
4,57576612,163e3a79d64656ae9744164dc019805c,10320810.0,5.0,0.0,APROVADO POR NOTA,ECT2103,2016,1


## Agrupando por Discentes
Nesse passo, vamos agrupar as matriculas por discentes a fim de começar a mapear os estados e 
verificar possíveis outliers.

In [9]:
# matr.groupby('discente')['discente'].count().sort_values(ascending=False)

In [108]:
matr.descricao.unique()

array(['APROVADO POR NOTA', 'REPROVADO', 'TRANCADO',
       'REPROVADO POR MÉDIA E POR FALTAS', 'APROVADO',
       'REPROVADO POR NOTA', 'REPROVADO POR FALTAS',
       'REPROVADO POR NOTA E FALTA'], dtype=object)

In [109]:
matr.sort_values('codigo', ascending=True, inplace=True)

In [122]:
simple_desc = {'REPROVADO POR MÉDIA E POR FALTAS': 'R', 'REPROVADO POR NOTA': 'R',
                 'REPROVADO POR NOTA E FALTA': 'R',
                 'REPROVADO POR FALTAS': 'R', 'REPROVADO': 'R',
                'APROVADO POR NOTA': 'A', 'APROVADO': 'A', 'TRANCADO': 'T'}

matr['descricao'] = matr['descricao'].map(simple_desc)

In [123]:
group = matr[['discente', 'codigo', 'descricao']].groupby('discente')

In [124]:
group.agg(lambda x: ','.join(x))

Unnamed: 0_level_0,codigo,descricao
discente,Unnamed: 1_level_1,Unnamed: 2_level_1
0010345ff1be7da25478b5a96c772616,"ECT2303,ECT2305,ECT2306,ECT2302,ECT2201,ECT2204","R,A,A,A,R,A"
0015133009a53469a2615e7dfa6d638a,"ECT2401,ECT2306,ECT2411,ECT2412,ELE0701,ECT2206","R,A,R,R,A,R"
002321f817fa95db1e0506e5320df513,"ECT1503,ECT1504,ECT2304,ECT2502,ECT2402,ECT252...","R,A,R,R,R,T,R"
003f2bc2c3179baf0bea21a6f3d64d0c,"DEB1004,ECT2302,DEB0804,DEB0701,DEB0705","A,A,A,A,A"
005826163b7c91f427b5b9e4b02edefd,"ECT2102,ECT2201,ECT2304,ECT2206","R,R,R,A"
005cdf6ddf92e14dfa387c87f3f6e946,"ECT2104,ECT2105,ECT2106,ECT2101,ECT2102,ECT2103","A,A,A,A,A,A"
009844fdf108330ba90263c37476db3b,"MOR0070,DEB0604,DEB0504,DEB0503","A,A,A,A"
00a54c3ed49fdd50c7dd248458255e17,"ECT2203,ECT2104,ECT2302,ECT2102,ECT2103","R,A,A,A,R"
00b4c9b8bd631422f6a05bad05774d2b,"ECT2303,ECT2205,ECT2306,ECT2500,ECT2201,ECT230...","A,R,R,R,R,A,R,A"
00c95b0e427b18e5443272c0c01549c3,"DET0171,ECT2203,ECT2305,ECT2306,ECT2102,ECT210...","T,T,A,R,R,T,R"


## Criando os Estados
Nesse passo, vamos criar os estados dos discentes, sendo verificado as disciplinas que estão sendo pagas e 
perando um hash para cada conjunto de disciplinas.

Pode ser criado um discionários ou estrutura semelhante para armazenar os hashs que serão criados e agrupados.

In [9]:
hash(str(['ECT2414', 'ECT0123', 'ECT1241']))

1477592985109038364

In [10]:
def hash_situacao(descricao):
    '''
    Função para computar o resultado do discente no semestre.
    '''
    situacoes = list(descricao)
    situacoes.replace

In [11]:
def hash_disciplinas(disciplinas):
    '''
    Função que calcula um hash para as disciplinas. Assim será possível varer todos os estados possíveis.
    
    A função recebe uma lista de disciplinas e retorna um valor hash.
    >>> hash_disciplinas(['ECT2414', 'ECT0123', 'ECT1241'])
    '3-2914823815191669391'
    '''
    # O primeiro numero é a quantidade de disciplinas
    hash_ = str(len(disciplinas))
    
    # Ordena o vetor de disciplinas e gera uma string dele
    disc = list(disciplinas)
    disc.sort()
    hash_ += "".join(disc)
    
    return hash_

In [12]:
hash_disciplinas(['ECT2414', 'ECT0123', 'ECT1241'])

'3ECT0123ECT1241ECT2414'

## Agrupando os discentes por Estado

In [91]:
# Aplicando a função hash_disciplinas no nosso grupo

estados = group.agg(hash_disciplinas)
type(estados)

pandas.core.frame.DataFrame

In [92]:
estados.groupby('codigo')['codigo'].count().sort_values(ascending=False).head(5)

codigo
6ECT2101ECT2102ECT2103ECT2104ECT2105ECT2106           381
5ECT2102ECT2103ECT2104ECT2105ECT2106                   75
7ECT2201ECT2202ECT2203ECT2204ECT2205ECT2206ECT2207     58
6ECT2201ECT2202ECT2203ECT2204ECT2205ECT2302            27
7ECT2301ECT2302ECT2303ECT2304ECT2305ECT2306ECT2307     21
Name: codigo, dtype: int64

## Analisando só materias obrigatórias

In [125]:
obrig_s1 = ['ECT2101', 'ECT2102', 'ECT2103', 'ECT2104', 'ECT2105', 'ECT2106']
obrig_s2 = ['ECT2201', 'ECT2202', 'ECT2203', 'ECT2204', 'ECT2205', 'ECT2206', 'ECT2207']
obrig_s3 = ['ECT2301', 'ECT2302', 'ECT2303', 'ECT2304', 'ECT2305', 'ECT2306', 'ECT2307']
obrig_s4 = ['ECT2401', 'ECT2402', 'ECT2403', 'ECT2311', 'ECT2412', 'ECT2413', 'ECT2414']

obrig = obrig_s1 + obrig_s2 + obrig_s3 + obrig_s4

In [126]:
# Pegando apenas as matriculas em disciplinas obrigadorias
matr_obrig = matr[matr.codigo.isin(obrig)]
group_ob = matr_obrig[['discente', 'codigo', 'descricao']].groupby('discente')

estados_ob = group_ob.agg(lambda x: ','.join(x))

In [127]:
estados_ob.groupby('codigo')['codigo'].count().sort_values(ascending=False).head()

codigo
ECT2104,ECT2105,ECT2106,ECT2101,ECT2102,ECT2103            465
ECT2302                                                     85
ECT2207,ECT2203,ECT2205,ECT2201,ECT2202,ECT2204,ECT2206     84
ECT2414                                                     55
ECT2401,ECT2413,ECT2402,ECT2412,ECT2403                     34
Name: codigo, dtype: int64

## Adicionando outros atributos

In [128]:
# Hash para disciplinas
estados_ob['hash'] = group_ob.codigo.agg(hash_disciplinas)

In [129]:
def periodo_ano(first):
    #first = df.iloc[0]
    return (str(first.ano) + str(first.periodo))

estados_ob['ano_periodo'] = periodo_ano(matr.iloc[0])

In [130]:
# Taxa de Aprovação
estados_ob['tx_aprovacao'] = group_ob.descricao.apply(lambda x: list(x).count('A')/len(list(x)))

# Exportando em csv

In [131]:
estados_ob.to_csv("data/outputs/estados_20162.csv", sep=";")

In [132]:
# estados_ob