#### Configurando módulos e funções compartilhadas no restante do código

In [1]:
# Utilities
from importlib import reload

# Import function to handle with paths
from os import path

# Local mongo
connection_string = "mongodb://ppcamp:DRrPaRrHqmaWo43D@localhost:27017/?authSource=admin"

----

# Análise sobre o perfil dos alunos formandos/formados do curso de Engenharia de Computação




## Obtendo a grade

Obtendo a grade do curso de computação 2015, com pré e có requisitos

In [2]:
# Módulo usado para obter a grade (do banco ou realiza raspagem)
from modules.grid import Grid

pre, co = Grid.get_grid(
    '0192015', 
    connection_string
)

## Obtêm os pesos das competências

In [3]:
from modules.skills import Skillset

# Faz a leitura dos arquivos csvs
_csvs = Skillset.read_csv("../assets/sheets")

# Realiza a média dos arquivos de competências
out = Skillset.merge_data(_csvs)

## Transformando a grade em uma relação de competências

- Cada competência gera um único _grafo_, assim, é necessário propagar os nós para todos os grafos e atribuir os vértices de acordo com a entrada dos alunos nos arquivos de *competências*

In [4]:
# Obtendo uma cópia do grafo de pré requisito (este grafo possui o período de cada disciplina)
nodes = pre.copy()

# Removendo os vértices (conexões, que nates eram os pré requisitos)
nodes.remove_edges_from(list(nodes.edges()))


# Obtêndo o nome de cada coluna (será utilizada no grafo novo)
competencias = out.columns.to_list()

# Removendo os nós que não constam naquela planilha
nos_para_remocao = [no for no in list(nodes.nodes()) if no not in out.index.to_list()]
nodes.remove_nodes_from(nos_para_remocao)

In [5]:
from typing import List

# Variável que irá iterar sobre os períodos
def get_periodo()->int:
    """
    Função que computa o período atual
    
    Returns:
        A value for every period
    """
    p = 0
    while p<10:
        p+= 1
        yield p
        
# --
def get_materias(periodo:int) -> List[str]:
    """
    Obtêm todas a lista de todas as siglas de matérias do período

    Args:
        periodo: número que indica o período atual entre [1,10]

    Returns:
        Uma lista contendo todas as siglas das matérias deste período
    """
    global nodes
    return [sigla for sigla,data in nodes.nodes(data=True) if data['period']==str(periodo)]


# --
def check_competencia(materias_atuais:List[str], competencia:str)->bool:
    """
    Verifica se tem algum valor para esta competência neste periodo

    Parameters
    ----------
    materias_atuais: lista de materias no periodo atual
    competencia: competencia a ser analizada

    Returns
    -------
    True para caso não tenha uma disciplina no período atual que possua esta competência
    """
    global out
    return sum([out.loc[i][competencia] for i in materias_atuais]) == 0



def get_peso_competencia(materias_atuais:List[str], competencia:str, materia:str)->float:
    """
    FIXME: Peso errado? Não, o peso das arestas é referente ao período do vértice de onde sai, se só tiver 1 matéria, irá ser peso 1 para qualquer aresta.

    Obtêm o peso da disciplina normalizado pelo peso de disciplinas no semestre, i.e., o máximo que uma competência pode ter no semestre é 1 ou 100%

    Parameters
    ----------
    materias_atuais: lista de materias no periodo atual
    competencia: competencia a ser analizada
    materia: materia que se deseja obter o peso da competencia para este periodo

    Returns
    -------
    Um float arredondado à duas casas decimais
    """
    global out
    total = sum([out.loc[i][competencia] for i in materias_atuais])

    # debug(f'get_peso_competencia({materia},  {materias_atuais}) -> Total {total}, Matéria {out.loc[materia][competencia]}\n')
    return round(out.loc[materia][competencia]/total, 2)

## Gerando os grafos de competências

In [6]:
# Instância que irá ter todos os objetos de grafos indexados pelas competências
grafos = {}

# Obtêm as matérias do período seguinte (ou do próximo) que tiver este requisito, gerando conexões entre essas disciplinas
for competencia in competencias:
    # Instancia um novo grafo (baseado no grafo que já possui os nós) para essa competência
    grafos[competencia] = nodes.copy()

     # Itera essa competência para os próximos períodos
    for periodo in get_periodo():
        # Obtêm a lista de todas as matérias do período atual
        materias_periodo_atual = get_materias(periodo)
        # Se maior igual à zero, nenhuma das matérias do período possui valor para essa competência
        if check_competencia(materias_periodo_atual,competencia):
            # portanto, pode pular esta disciplina
            continue

        # Lista para armazenar todos os nós de matérias que possuem o mesmo requisito nos próximos períodos
        materias_herdeiras = []

        # Itera sobre os próximos períodos
        prox_periodo = periodo
        while prox_periodo < 10:
            prox_periodo += 1
            # Obtêm a lista de todas as matérias do período atual
            materias_proximo_periodo = get_materias(prox_periodo)
            # Verifica se neste período possui alguma matéria que herda aquela competência
            if check_competencia(materias_proximo_periodo, competencia):
                continue
            else:
                # Caso encontre alguma matéria neste período coloca ela na lista de materias que irão herdar a competência
                for i in materias_proximo_periodo:
                    if out.loc[i][competencia] > 0:
                        materias_herdeiras.append(i)
                # Força a saída deste loop
                break

        # Para cada matéria atual que possui a competência e cada matéria futura que irá herdar, realiza a "junção"
        for materia_atual in materias_periodo_atual:
            # Verifica se a matéria possui esta competência
            if not out.loc[materia_atual][competencia]:
                continue
            for materia_herdeira in materias_herdeiras:
                peso = get_peso_competencia(materias_periodo_atual,competencia,materia_atual)
                grafos[competencia].add_edge(
                    materia_atual,
                    materia_herdeira, 
                    weight=peso
                )



## Obtendo a nota do aluno através do json

In [7]:
from modules.score import Score

student_grid = path.join('..','out','json','2016001942.json')
# get student score
student_grid = Score.read_json(student_grid)

### Obtendo apenas um dicionário relacionando nota e matérias

Também realiza a modificação dos dados para o cenário de reprovação

No caso de bomba, para não afetar a percepção de competência quanto ao que o aluno sabe, será propagado a maior nota, sendo esta, a que o aluno obteve êxito.

Uma vez que desejamos saber apenas a relação de competências, pressupõe-se que o aluno, ao ser aprovado, adiquiriu tais competências, desta forma, seu índice não deve ser penalizado pelas vezes que reprovou na disciplina

In [8]:
notas = {}

for periodo in student_grid:
    periodo_vetor = student_grid[periodo]
    
    # itera sobre as matérias
    for materia in periodo_vetor:
        score = periodo_vetor[materia]['scores']

        # se ainda está cursando a matéria, ignora
        if type(score) is str:
            continue
        
        score = float(score)

        # Verifica se o aluno já fez a matéria
        if materia in notas:
            # Coloca a maior nota do aluno, caso este já tenha repetido a matéria
            if notas[materia] < score:
                notas[materia] = score
        else:
            # Primeira vez que fez a matéria
            notas[materia] = score

---

## Andando no grafo e propagando os valores

$\forall$ Competência $\to$ verifica se existe a nota, caso exista, propaga

Informações sobre a biblioteca podem ser encontradas [aqui](https://networkx.org/documentation/stable//reference/classes/digraph.html#methods)


In [9]:
def get_nota(materia:str, peso:float, acumulado:float) -> float:
    # Nota do aluno
    global notas
    # Caso o aluno não tenha feito a matéria ainda, propaga o acumulado pelo peso
    if materia not in notas:
        return round(acumulado * peso, 3)
    # Caso já tenha feito a matéria, calcula pelo peso e retorna mais o acumulado
    return round((notas[materia]/10 + acumulado)*peso , 3)

In [10]:
import sys
# A função poderá ser chamada recursivamente 1000x (default)
sys.setrecursionlimit(1000)

# DFS
from networkx import DiGraph

def dfs_walk(grafo:DiGraph, materia:str, acumulado:int = 0) -> float:
    """
    A recursive walk
    """
    global notas
    total = 0

    # Anda sobre os filhos
    for filho in grafo.neighbors(materia):
        # Obtém o peso da aresta que manda para o filho
        peso = grafo[materia][filho]['weight']
        # Obtém a nota (acumulada) que será enviada para o filho
        acumulado = get_nota(materia, peso, acumulado)
        # Caminha para este filho
        total += dfs_walk(grafo, filho, acumulado)
    else:
        # Não possui filhos (última da grade com essa competência)
        total = get_nota(materia, 1, acumulado)
    
    # Retorna o valor acumulado (dos filhos e até ela)
    return total

In [11]:
import sys

def errprint(msg:str)->None:
    sys.stderr.write('Error: ' + msg)

In [12]:
# Dicionário que irá conter o valor sobre cada competência
comparacao_nota:dict = {}

# Itera sobre as competências
for competencia,grafo in grafos.items():
    # ∀ competência, encontra a primeira matéria que possui ela
    edges = list(grafo.edges())
    # Uma vez que o grafo foi montado em ordem cronológica, não há necessidade
    # de busca.
    if not edges:
        errprint('Não tem ligações')
        continue
    fst_materia = edges[0][0]
    # Em seguida, anda no seu grafo e obtêm o valor iterado sobre as notas
    resultado = dfs_walk(grafo, fst_materia)
    comparacao_nota[competencia] = resultado

Error: Não tem ligações

In [13]:
for competencia, resultado in comparacao_nota.items():
    print(competencia, resultado)

Matemática e física 0.937
Lógica, algoritmos, teoria da comp,  estruras de dados. 0.809
Linguagens e paradigmas. 1.8
PAA 1.89
Configurar plataformas para softwares e serviços. 1.8
Arquiteturas de computadores 2.49
Segurança de sis. de comp. 1.64
Engenharia de software 1.28
Inteligência artificial 1.56
Sistemas microprocessados 0.918
Redes de computadores 1.6
Software para sistemas de comunicação 0.417
Conhecimento em sistemas de automação  1.58
Gerenciar projetos e sistemas de computação 1.42
Engenharia-econômica 1.26
Compreender e resolver problemas 1.55
Autoaprendizado 0.876
Criatividade e Inovação 0.809
Comunicação oral e escrita 0.898
Língua inglesa 4.9
Empreender e exercer liderança 1.065
Trabalho em equipe 1.256


Normalizando a saída com base no maior valor

In [14]:
def normalize_vectors(vet):
    maior_valor = max(vet.values())

    for competencia, resultado in vet.items():
        vet[competencia] = round(resultado/maior_valor, 2)
    
    return vet

In [15]:
comparacao_nota_sem_normalizar = comparacao_nota.copy()
comparacao_nota = normalize_vectors(comparacao_nota)

In [16]:
# Valores normalizados
for competencia, resultado in comparacao_nota.items():
    print(competencia, resultado)

Matemática e física 0.19
Lógica, algoritmos, teoria da comp,  estruras de dados. 0.17
Linguagens e paradigmas. 0.37
PAA 0.39
Configurar plataformas para softwares e serviços. 0.37
Arquiteturas de computadores 0.51
Segurança de sis. de comp. 0.33
Engenharia de software 0.26
Inteligência artificial 0.32
Sistemas microprocessados 0.19
Redes de computadores 0.33
Software para sistemas de comunicação 0.09
Conhecimento em sistemas de automação  0.32
Gerenciar projetos e sistemas de computação 0.29
Engenharia-econômica 0.26
Compreender e resolver problemas 0.32
Autoaprendizado 0.18
Criatividade e Inovação 0.17
Comunicação oral e escrita 0.18
Língua inglesa 1.0
Empreender e exercer liderança 0.22
Trabalho em equipe 0.26


## Insere os valores do mercado

In [17]:
from modules.ahp import Database

ahp_form_responses = Database.AhpForm(connection_string)

# fetch all form datas 
ahp_form_responses = ahp_form_responses.getAll()

# import element wise median matrix calculation
from modules import util

In [18]:
matrices = {}

# get equivalent keys for matrices
matrices_ids = list(ahp_form_responses[0].getMatrices().keys())

for matrix in matrices_ids:
    matrices[matrix] = util.average(*[
        response.getMatrices()[matrix] for response in ahp_form_responses ])

In [19]:
# carrega o módulo que calcula o ahp
from modules.ahp import Ahp
import numpy as np
from pprint import pprint

secoes = {}

for matrix in matrices:
    # print(f"Matrix: {matrix}\n{'-'*100}")
    cr, priorityVec = 1, matrices[matrix]

    # se for uma matriz, calcula o ahp
    if matrix != 'q15':
        cr, priorityVec = Ahp.calculate(matrices[matrix])
        # arredonda o vetor de saída (resultante) para 2 casas decimais
        priorityVec = list(np.round(priorityVec, 2))
    
    # adiciona este dado no vetor de competências do mercado
    secoes[matrix] = priorityVec

    # print(f"CR: {cr}\n\tVetor de pesos:")
    pprint(priorityVec)
    # print("\n\n")

Matrix: q1
----------------------------------------------------------------------------------------------------
[0.17, 0.17, 0.17, 0.17, 0.17, 0.17]
Matrix: q12
----------------------------------------------------------------------------------------------------
[0.33, 0.33, 0.33]
Matrix: q13
----------------------------------------------------------------------------------------------------
[0.17, 0.17, 0.17, 0.17, 0.17, 0.17]
Matrix: q15
----------------------------------------------------------------------------------------------------
2
Matrix: q2
----------------------------------------------------------------------------------------------------
[0.2, 0.2, 0.2, 0.2, 0.2]
Matrix: q3
----------------------------------------------------------------------------------------------------
[0.25, 0.25, 0.25, 0.25]
Matrix: root
----------------------------------------------------------------------------------------------------
[0.33, 0.33, 0.33]


#### Mapeando as competências para o vetor do mercado

Tendo como base a entrada do ahp, temos que o vetor de prioridade, para cada matriz, fica:

- root:
    - [ ] Conhecimento técnico,
    - [ ] Competências, habilidades e atributos pessoais e profissionais: gerenciar projetos, compreender problemas e autoaprendizado
    - [ ] Competências e habilidades interpessoais: trabalho em equipe e comunicação

- q1:
    - [x] Matemática e física,
    - [ ] Conhecimento, métodos e ferramentas fundamentais de computação básica,
    - [ ] Conhecimento, métodos e ferramentas na área de sistemas de software,
    - [x] Conhecimento, métodos e ferramentas na área de sistemas microprocessados,
    - [ ] Conhecimentos básicos em sistemas de comunicação,
    - [x] Conhecimentos básicos em sistemas de automação

- q12:
    - [x] Lógica, algoritmos, teoria da computação e estrutura de dados
    - [x] Linguagens e paradigmas de programação específicos
    - [x] Projeto e análise de algoritmos

- q13:
    - [x] Configurar plataformas para aplicações de software e serviços
    - [x] Arquiteturas de computadores
    - [x] Segurança de sistemas de computação
    - [x] Engenharia de software e práticas no desenvolvimento de software e versionamento
    - [x] Inteligência artificial
    - [ ] Desenvolvimento Web e Mobile

- q15:
    - [x] Redes de computadores
    - [x] Software para sistemas de comunicação

- q2:
    - [x] Gerenciar projetos e sistemas de computação
    - [x] Realizar estudos de viabilidade técnico-econômica
    - [x] Compreender e resolver problemas
    - [x] Autoaprendizado
    - [x] Criatividade e Inovação

- q3:
    - [x] Comunicação oral e escrita
    - [x] Língua inglesa
    - [x] Empreender e exercer liderança
    - [x] Trabalho em equipe

In [20]:
# montando o vetor para situado na mesma posição (root ignorado)
visao_mercado = {
    "Matemática e física": secoes['q1'][0],
    "Lógica, algoritmos, teoria da computação e estrutura de dados": secoes['q12'][0],
    "Linguagens e paradigmas de programação específicos": secoes['q12'][1],
    "Projeto e análise de algoritmos": secoes['q12'][2],
    "Configurar plataformas para aplicações de software e serviços": secoes['q13'][0],
    "Arquiteturas de computadores": secoes['q13'][1],
    "Segurança de sistemas de computação": secoes['q13'][2],
    "Eng de software e práticas no dev. de soft. e versionamento": secoes['q13'][3],
    "IA": secoes['q13'][4],
    "Conhecimentos, métodos e ferramentas microprocesados": secoes['q1'][3],
    "Redes de computadores": secoes['q15'],
    "Software para sistemas de comunicação": 1/secoes['q15'],
    "Conhecimentos básicos sist automação": secoes['q1'][5],
    "Gerenciar projetos e sis de comp": secoes['q2'][0],
    "Realizar estudos de viabilidade técnico-econômica": secoes['q2'][1],
    "Compreender e resolver problemas": secoes['q2'][2],
    "Autoaprendizado": secoes['q2'][3],
    "Criatividade e Inovação": secoes['q2'][4],
    "Comunicação oral e escrita": secoes['q3'][0],
    "Língua inglesa": secoes['q3'][1],
    "Empreender e exercer liderança": secoes['q3'][2],
    "Trabalho em equipe": secoes['q3'][3],
}

In [21]:
for key, value in visao_mercado.items():
    print(key, " = ", value)

Matemática e física  =  0.17
Lógica, algoritmos, teoria da computação e estrutura de dados  =  0.33
Linguagens e paradigmas de programação específicos  =  0.33
Projeto e análise de algoritmos  =  0.33
Configurar plataformas para aplicações de software e serviços  =  0.17
Arquiteturas de computadores  =  0.17
Segurança de sistemas de computação  =  0.17
Eng de software e práticas no dev. de soft. e versionamento  =  0.17
IA  =  0.17
Conhecimentos, métodos e ferramentas microprocesados  =  0.17
Redes de computadores  =  2
Software para sistemas de comunicação  =  0.5
Conhecimentos básicos sist automação  =  0.17
Gerenciar projetos e sis de comp  =  0.2
Realizar estudos de viabilidade técnico-econômica  =  0.2
Compreender e resolver problemas  =  0.2
Autoaprendizado  =  0.2
Criatividade e Inovação  =  0.2
Comunicação oral e escrita  =  0.25
Língua inglesa  =  0.25
Empreender e exercer liderança  =  0.25
Trabalho em equipe  =  0.25


In [22]:
# o vetor precisa ter o mesmo tamanho
len(visao_mercado), len(comparacao_nota)

(22, 22)

In [23]:
# Normaliza a saída da comparacao do mercado
visao_mercado = normalize_vectors(visao_mercado)

In [24]:
# Converte para um vetor e faz o produto escalar com base nos valores do mercado
vetor_mercado = list(visao_mercado.values())
vetor_aluno = list(comparacao_nota.values())


## Calcula a proximidade

No espaço *Euclidiano*, um vetor possui magnitude e direção. A magnitude de dois vetores, também chamada de módulo, é dada por:
$$
||\vec{a}|| = \frac{1}{\sqrt{a_i^2}}
$$

O **produto interno/escalar** de dois vetores *Euclidianos*, $\vec{a}$ e $\vec{b}$ é definido como:
$$
\vec{a} \bullet \vec{b} = ||\vec{a}||\cdot||\vec{b}||\cdot\cos(\theta)
$$

<br/>

Portanto, o ângulo (em graus) entre eles é:
$$
\theta_\text{em graus} = \cos^{-1}(\theta) \equiv \cos^{-1}\underbrace{\left(\frac{\vec{a} \bullet \vec{b}}{||\vec{a}||\cdot||\vec{b}||}\right)}_\varphi
$$
[wikipedia](https://en.wikipedia.org/wiki/Dot_product#Geometric_definition)

<br/>

A proximidade entre os dois vetores será:

<pre>
90º -- 100 % (extramente diferentes)
ang -- x   % 
x' = 100*ang/90
x  = 100% - 100*ang/90
</pre>

$$
p_\text{%} = 100_\text{%} - 100_\text{%} \cdot \frac{\thetaº}{90º}
$$


In [25]:
# math library to calculate norm and dot
import numpy as np
# numpy linear algebra functions
from numpy import linalg as LAF
# to get arccos
import math

# calcula o produto escalar dos vetores do mercado e do aluno
produto_interno = np.dot(vetor_mercado,vetor_aluno)

# calcula a norma de cada vetor (é um escalar)
norma_vetor_mercado = LAF.norm(vetor_mercado)
norma_vetor_aluno = LAF.norm(vetor_aluno)

# calcula o valor de phi (varphi na fórmula acima)
phi = produto_interno / (norma_vetor_mercado * norma_vetor_aluno)

# calcula o ângulo entre eles (em graus)
angulo = round(
    # entrada e saída são em radianos, necessita a conversão para graus
    math.degrees(math.acos(phi)),
    2)

# exibe o ângulo entre eles
print(f"O ângulo entre os dois vetores é de {angulo}º")


# calcula a proximidade - em porcentagem:
proximidade = round(
    100-100*angulo/90, 
    2)

# Exibe a proximidade
print(f"Os vetores são, aproximidamente, {proximidade}% iguais.")

O ângulo entre os dois vetores é de 57.26º
Os vetores são, aproximidamente, 36.38% iguais.


## Realiza os plots de competências

In [135]:
# import plotly.express as px
import plotly.graph_objects as go

import pandas as pd

#### Visão do aluno

In [138]:

fig = go.Figure(data=go.Scatterpolar(
    r=list(comparacao_nota.values()),
    theta = list(comparacao_nota.keys()),
    fill='toself'
    ))

fig.update_layout(
  polar=dict(
    radialaxis=dict(
      visible=True
    ),
  ),
  showlegend=False
)

fig.show()

#### Visão do mercado e do aluno

In [141]:
categorias = list(comparacao_nota.keys())

fig = go.Figure()

fig.add_trace(go.Scatterpolar(
    r=list(comparacao_nota.values()),
    theta=categorias,
    fill='toself',
    name='Visão do aluno'
))

fig.add_trace(go.Scatterpolar(
    r=list(visao_mercado.values()),
    theta=categorias,
    fill='toself',
    name='Visão do mercado'
))

fig.update_layout(
  polar=dict(
    radialaxis=dict(
      visible=True,
      range=[0, 5]
    )),
  showlegend=False
)

fig.show()


<br/>
<br/>

---

# Outras funções métodos

### - Função usada para debug na geração dos grafos por base de competência

In [None]:
from typing import List
def debug(msg:str,*args:List[object])->None:
    """
    Print a debug message

    Parameters
    ----------
    msg: string
    """
    printString = msg
    if args:
        vec = list(map(lambda x: str(x), list(args)))
        vec = ', '.join(vec)
        printString += ': ' + vec
    print(f'[DEBUG] -> {printString}')

### - Função usada para o plot dos gráficos de competência

In [None]:
# Realiza o plot do grafo/grade
from modules.plot import Plot

# Itera sobre cada grafo de competencia
for competencia in grafos.keys():
    # Gera um plot para cada um com o peso saindo de cada matéria
    Plot.weighted_graph(
        grafos[competencia].nodes(),
        list(grafos[competencia].edges(data=True)),
        competencia.title().replace(' ','').replace('.',''),
        "../graphs"
    )


### - Buscando as notas através do bot de raspagem

Mandando o `spyder` rodar com os parâmetros abaixo:
```bash
curl -u 9a357fcfff6341378238837dcce40bdf: https://app.scrapinghub.com/api/run.json \
  -d project=460296 \
  -d spider=history \
  -d user='NUMERO_CPF' \
  -d pswd='SENHA_SIGAA' \
  -d course='NÃO_É_ÚTIL_AQUI' 
```

You can get the **Api key** [here](https://app.scrapinghub.com/account/apikey)

Os dados obtidos estão em um formato do tipo
```javascript
{
    "CourseName": "ENGENHARIA DE COMPUTAÇÃO/ICT - Itabira - BACHARELADO - MT",
    "CurrentYearPeriod": "2020.2",
    "StartYearPeriod": "2016.1",
    "RA": "2016001942",
    "Semester": {
      "2020.2": {
        "ECOI32.1": {
          "Name": "CIRCUITOS INTEGRADOS ANALÓGICOS",
          "Score": "6,7",
          "Fouls": "0",
          "Situation": "APROVADO",
          "Class": "01",
          "Hours": "32h"
        },
        ...
      },
      ...
    }
}
```

In [None]:
# Loads the credentials file
from json import load

# Load credentials json
credentials = None
with open('credentials.json') as file:
    credentials = load(file)
    
    
# Scrapping
from scrapinghub import ScrapinghubClient
from time import sleep as Wait

# Run job
apikey = '9a357fcfff6341378238837dcce40bdf'
client = ScrapinghubClient(apikey)
project = client.get_project(460296)
job = project.jobs.run('history', 
    job_args={
        'user': credentials['user.login'],
        'pswd': credentials['user.senha'],
        # 'course':'0192015'
})

# Check if job is running
job_state = 'running'
while job_state != 'finished':
    # Check for job state at each 1.5 min
    Wait(60*1.5)
    # Get job state from scrapyhub
    job_state = job.finish()

In [None]:
## Obtendo somente uma relação de notas para as matérias


periodos = {}
# Obtendo as notas
for items in job.items.iter():
    periodos = items[b'Semester']
    
# Threating the data
notas = {}
# Convertendo os dados
for periodo in periodos:
    periodoVetor = periodos[periodo]
    for materia in periodoVetor:
        materiaUtf8 = materia.decode('utf-8')
        # Se encontrar uma disciplina que tenha um ponto, trata-se de um bloco
        if materiaUtf8[-2] == '.':
            # Então ignora, pois ela já está contabilizada na disciplina final (sem o ponto)
            continue
        

        score = periodoVetor[materia][b'Score']
        # Ignora as matérias que ainda estão sendo feitas
        if b'--' in score:
            continue
        
        # Converte para float
        score = float(score.decode('utf-8').replace(',','.'))
        
        # Verifica se o aluno já fez a matéria
        if materiaUtf8 in notas:
            # Verifica se já repetiu mais de uma vez
            if type(notas[materiaUtf8]) is list:
                # Se já tiver repetido mais de uma vez, adiciona ao vetor
                notas[materiaUtf8].append(score)
            else:
                # Primeira vez que repetiu
                notas[materiaUtf8] = [notas[materiaUtf8], score]
        else:
            # Primeira vez que fez a matéria
            notas[materiaUtf8] = score


# Para cada elemento no dicionário de notas, verifica se repetiu, caso tenha, realiza média
for materia in notas:
    if type(notas[materia]) is list:
        total = sum(notas[materia])
        numero_elementos = len(notas[materia])
        notas[materia] = round(total/numero_elementos, 2)

### - Raspagem por pdf

Raspa e joga na pasta de json

In [None]:
from modules.score import Score

Score.parse_pdf('2016001942', path.join('..', 'assets', 'scores'))

### - Preenchimento no mongo

In [None]:
from modules.ahp.Types import FormData

# lRoot, q1s2, q1sec5, q3

new_response = FormData() \
.setName("") \
.setEmail("") \
.setDate("") \
.setMatrixRoot([
   [    1,              3,              5,      ],
   [    0.33,           1,              1,      ],
   [    0.2,            1,              1,      ],
]) \
.setMatrixQ1([
    [1,3,5,1,3,1],
    [0.33,1,3,1,0.33,0.33],
    [0.2,0.33,1,0.33,0.33,0.33],
    [1,1,3.03,1,1,1],
    [0.33,3.03,3.03,1,1,1],
    [1,3.03,3.03,1,1,1],
]) \
.setMatrixQ1sec2([
   [    1,              0.33,           0.33,   ],
   [    3.03,           1,              1,      ],
   [    3.03,           1,              1,      ],
]) \
.setMatrixQ1sec3([
    [1,0.33,0.33,1,1,3],
    [3.03,1,1,3,1,3],
    [3.03,1,1,3,1,3],
    [1,0.33,0.33,1,0.33,1],
    [1,1,1,3.03,1,3],
    [0.33,0.33,0.33,1,0.33,1],
]) \
.setMatrixQ1sec5(1) \
.setMatrixQ2([
    [1,1,1,1,1],
    [1,1,1,1,1],
    [1,1,1,1,1],
    [1,1,1,1,1],
    [1,1,1,1,1],
]) \
.setMatrixQ3([
   [    1,              0.2,            0.33,           1,      ],
   [    5,              1,              1,              3,      ],
   [    3.03,           1,              1,              3,      ],
   [    1,              0.33,           0.33,           1,      ],
])

# ahp.insert(new_response.toDict())