#### Configurando módulos e funções compartilhadas no restante do código

In [13]:
# Utilities
from importlib import reload

# Pretty print
from pprint import pprint

# Import function to handle with paths
from os import path

# Dataframe
import pandas as pd
# math library
import numpy as np

# typings
from typing import List,Dict, Tuple

# Local mongo
connection_string = "mongodb://ppcamp:DRrPaRrHqmaWo43D@localhost:27017/?authSource=admin"

----

# Análise sobre o perfil dos alunos formandos/formados do curso de Engenharia de Computação




## Obtendo a grade

Obtendo a grade do curso de computação 2015, com pré e có requisitos

In [2]:
# Módulo usado para obter a grade (do banco ou realiza raspagem)
from modules.grid import Grid

pre, co = Grid.get_grid(
    '0192015', 
    connection_string
)

## Obtêm os pesos das competências

In [3]:
from modules.skills import Skillset

# Faz a leitura dos arquivos csvs
_csvs:Skillset.DataFrames = Skillset.read_csv("../assets/sheets")

# Realiza a média dos arquivos de competências
out:pd.DataFrame = Skillset.merge_data(_csvs)

## Transformando a grade em uma relação de competências

- Cada competência gera um único _grafo_, assim, é necessário propagar os nós para todos os grafos e atribuir os vértices de acordo com a entrada dos alunos nos arquivos de *competências*

In [4]:
from networkx import DiGraph

# Obtendo uma cópia do grafo de pré requisito (este grafo possui o período de cada disciplina)
nodes:DiGraph = pre.copy()

# Removendo os vértices (conexões, que nates eram os pré requisitos)
nodes.remove_edges_from(list(nodes.edges()))


# Obtêndo o nome de cada coluna (será utilizada no grafo novo) ...
# ... Equivale às competências que foram encontradas (não zeradas nos csvs) ...
# ... Serão todas as competências dos alunos
competencias:List[str] = out.columns.to_list()

# Removendo os nós que não constam naquela planilha
nos_para_remocao:List[str] = [no for no in list(nodes.nodes()) if no not in out.index.to_list()]
nodes.remove_nodes_from(nos_para_remocao)

## Gerando os grafos de competências

In [5]:
from modules.grid import Common as GC

# Instância que irá ter todos os objetos de grafos indexados pelas competências
grafos:Dict[str,DiGraph] = {}

# Obtêm as matérias do período seguinte (ou do próximo) que tiver ...
# ... este requisito, gerando conexões entre essas disciplinas
for competencia in competencias:
    # Instancia um novo grafo (baseado no grafo que já possui os nós) ...
    # ... para essa competência
    grafos[competencia] = nodes.copy()

     # Itera essa competência para os próximos períodos
    for periodo in GC.get_periodo():
        # Obtêm a lista de todas as matérias do período atual
        materias_periodo_atual = GC.get_materias(nodes, periodo)

        # Se maior igual à zero, nenhuma das matérias do período ...
        # ...possui valor para essa competência
        if GC.check_competencia(out, materias_periodo_atual, competencia):
            # portanto, pode pular esta disciplina
            continue

        # Lista para armazenar todos os nós de matérias que possuem o ...
        # ... mesmo requisito nos próximos períodos
        materias_herdeiras = []

        # Itera sobre os próximos períodos
        prox_periodo:int = periodo
        while prox_periodo < 10:
            prox_periodo += 1
            # Obtêm a lista de todas as matérias do período atual
            materias_proximo_periodo = GC.get_materias(nodes, prox_periodo)

            # Verifica se neste período possui alguma matéria que herda aquela competência
            if GC.check_competencia(out, materias_proximo_periodo, competencia):
                continue
            else:
                # Caso encontre alguma matéria neste período coloca ela na ...
                # ... lista de materias que irão herdar a competência
                for i in materias_proximo_periodo:
                    if out.loc[i][competencia] > 0:
                        materias_herdeiras.append(i)
                # Força a saída deste loop
                break

        # Para cada matéria atual que possui a competência e cada ...
        # ... matéria futura que irá herdar, realiza a "junção"
        for materia_atual in materias_periodo_atual:
            # Verifica se a matéria possui esta competência
            if not out.loc[materia_atual][competencia]:
                continue
            for materia_herdeira in materias_herdeiras:
                peso:float = GC.get_peso_competencia(
                    out, materias_periodo_atual,
                    competencia,materia_atual)
                # adiciona a aresta
                grafos[competencia].add_edge(
                    materia_atual,
                    materia_herdeira, 
                    weight=peso
                )



## Obtendo a nota do aluno através do json

In [8]:
from modules.score import Score
import json

student_grid:str = path.join('..','out','json','2016001942.json')
# get student score
student_grid:json = Score.read_json(student_grid)

### Obtendo apenas um dicionário relacionando nota e matérias

Também realiza a modificação dos dados para o cenário de reprovação

No caso de bomba, para não afetar a percepção de competência quanto ao que o aluno sabe, será propagado a maior nota, sendo esta, a que o aluno obteve êxito.

Uma vez que desejamos saber apenas a relação de competências, pressupõe-se que o aluno, ao ser aprovado, adiquiriu tais competências, desta forma, seu índice não deve ser penalizado pelas vezes que reprovou na disciplina

In [15]:
# Dicionário que irá obter a maior nota para cada disciplina que o aluno fez
notas:Dict[str,float] = {}

# anda sobre os períodos
for periodo in student_grid:
    # obtêm as matérias do período
    periodo_vetor = student_grid[periodo]
    
    # itera sobre as matérias
    for materia in periodo_vetor:
        # obtém a nota de uma determinada matéria
        score = periodo_vetor[materia]['scores']

        # pode ser uma string ("--") se ainda está cursando a matéria, ignora
        if type(score) is str:
            continue
        score = float(score)

        # Verifica se o aluno já fez a matéria
        if materia in notas:
            # Coloca a maior nota do aluno, caso este já tenha repetido a matéria
            notas[materia]:float = max(notas[materia], score)
        else:
            # Primeira vez que fez a matéria
            notas[materia]:float = score

---

## Andando no grafo e propagando os valores

$\forall$ Competência $\to$ verifica se existe a nota, caso exista, propaga

Informações sobre a biblioteca podem ser encontradas [aqui](https://networkx.org/documentation/stable//reference/classes/digraph.html#methods)


In [19]:
# Dicionário que irá conter o valor sobre cada competência
comparacao_nota:Dict[str,float] = {}

# Itera sobre as competências
for competencia,grafo in grafos.items():
    # ∀ competência, encontra a primeira matéria que possui ela
    edges:List[Tuple[str,str]] = list(grafo.edges())

    # Uma vez que o grafo foi montado em ordem cronológica, ...
    # ... não há necessidade de busca por arestas.
    if not edges:
        GC.errprint(f'A competência: "{competencia}". Não tem ligações de arestas')
        continue
    fst_materia:str = edges[0][0]

    # Em seguida, anda no seu grafo e obtêm o valor iterado sobre as notas ...
    # ... ou seja, a "soma das notas"
    resultado:float = GC.dfs_walk(notas, grafo, fst_materia)

    # valor das notas iteradas sobre o grafo de uma competência "N"
    comparacao_nota[competencia] = resultado

Error: Não tem ligações de arestas

<pre>
for competencia, resultado in comparacao_nota.items():
    print(competencia, resultado)
</pre>

## Normalizando a saída com base no maior valor

Uma vez que pode haver duas arestas saindo do mesmo nó com o mesmo peso, isso irá implicar em uma saída "desbalanceada", uma forma de resolver este problema é normalizando a saia com base no maior valor obtido

In [20]:
# importa o módulo que realiza a média ponderada de matrizes e de escalares
from modules import util

comparacao_nota_sem_normalizar = comparacao_nota.copy()
comparacao_nota = util.normalize_vectors(comparacao_nota)

In [21]:
# Valores normalizados
for competencia, resultado in comparacao_nota.items():
    print(competencia, resultado)

Matemática e física 1.0
Lógica, algoritmos, teoria da comp,  estruras de dados. 0.79
Linguagens e paradigmas. 1.0
PAA 0.7
Configurar plataformas para softwares e serviços. 1.0
Arquiteturas de computadores 0.92
Segurança de sis. de comp. 0.91
Engenharia de software 0.71
Inteligência artificial 0.87
Sistemas microprocessados 0.67
Redes de computadores 0.89
Software para sistemas de comunicação 0.4
Conhecimento em sistemas de automação  0.88
Gerenciar projetos e sistemas de computação 0.79
Engenharia-econômica 0.93
Compreender e resolver problemas 1.0
Autoaprendizado 0.79
Criatividade e Inovação 0.79
Comunicação oral e escrita 0.79
Língua inglesa 0.78
Empreender e exercer liderança 0.79
Trabalho em equipe 0.79


## Insere os valores do mercado

In [23]:
# importa o módulo que carrega os dados do banco mongo
from modules.ahp import Database

# carrega o módulo que calcula o ahp
from modules.ahp import Ahp

### Carrega as respostas do banco

In [24]:
ahp_form_responses = Database.AhpForm(connection_string)

# obtém as respostas do mongo (respostas do site)
ahp_form_responses = ahp_form_responses.getAll()

<pre>
# vetor de labels
vetor_de_labels_de_visoes = [
    # root
    "Conhecimento técnico",
    "Competências, habilidades e atributos pessoais e profissionais: gerenciar projetos, compreender problemas e autoaprendizado",
    "Competências e habilidades interpessoais: trabalho em equipe e comunicação",

    # q1
    "Matemática e física",
    "Conhecimento, métodos e ferramentas fundamentais de computação básica",
    "Conhecimento, métodos e ferramentas na área de sistemas de software",
    "Sistemas microprocessados",
    "Conhecimentos básicos em sistemas de comunicação",
    "Conhecimento em sistemas de automação ",

    # q12
    "Lógica, algoritmos, teoria da comp,  estruras de dados.",
    "Linguagens e paradigmas.",
    "PAA",

    # q13
    "Configurar plataformas para softwares e serviços.",
    "Arquiteturas de computadores",
    "Segurança de sis. de comp.",
    "Engenharia de software",
    "Inteligência artificial",
    "Desenvolvimento Web e Mobile",

    # q15
    "Redes de computadores",
    "Software para sistemas de comunicação",

    # q2
    "Gerenciar projetos e sistemas de computação",
    "Engenharia-econômica",
    "Compreender e resolver problemas",
    "Autoaprendizado",
    "Criatividade e Inovação",

    # q3
    "Comunicação oral e escrita",
    "Língua inglesa",
    "Empreender e exercer liderança",
    "Trabalho em equipe",
]
</pre>

In [26]:
def mapping_competences(secoes:Dict[str,List or float]) -> Dict:
    """
    Mapping matrix positions to questions

    :Parameters:
        - `secoes`: A dictionary containing a list (or scalar), to every matrix. A matrix is defined as *root*, *q1*, *q12*, *q13*, *q15*, *q2*, *q3*
    
    :Returns:
        - It returns a dictionary mapping competences to an specific scalar.    
    """
    # montando o vetor para situado na mesma posição (root ignorado)
    return {
        "Conhecimento técnico": secoes['root'][0],
        "Competências, habilidades e atributos pessoais e profissionais: gerenciar projetos, compreender problemas e autoaprendizado": secoes['root'][1],
        "Competências e habilidades interpessoais: trabalho em equipe e comunicação": secoes['root'][2],

        "Conhecimento, métodos e ferramentas fundamentais de computação básica": secoes['q1'][1],
        "Conhecimento, métodos e ferramentas na área de sistemas de software": secoes['q1'][2],
        "Conhecimentos básicos em sistemas de comunicação": secoes['q1'][4],

        "Desenvolvimento Web e Mobile": secoes['q13'][5],


        "Matemática e física": secoes['q1'][0],
        "Lógica, algoritmos, teoria da comp,  estruras de dados.": secoes['q12'][0],
        "Linguagens e paradigmas.": secoes['q12'][1],
        "PAA": secoes['q12'][2],
        "Configurar plataformas para softwares e serviços.": secoes['q13'][0],
        "Arquiteturas de computadores": secoes['q13'][1],
        "Segurança de sis. de comp.": secoes['q13'][2],
        "Engenharia de software": secoes['q13'][3],
        "Inteligência artificial": secoes['q13'][4],
        "Sistemas microprocessados": secoes['q1'][3],
        "Redes de computadores": secoes['q15'],
        "Software para sistemas de comunicação": 1/secoes['q15'],
        "Conhecimento em sistemas de automação ": secoes['q1'][5],
        "Gerenciar projetos e sistemas de computação": secoes['q2'][0],
        "Engenharia-econômica": secoes['q2'][1],
        "Compreender e resolver problemas": secoes['q2'][2],
        "Autoaprendizado": secoes['q2'][3],
        "Criatividade e Inovação": secoes['q2'][4],
        "Comunicação oral e escrita": secoes['q3'][0],
        "Língua inglesa": secoes['q3'][1],
        "Empreender e exercer liderança": secoes['q3'][2],
        "Trabalho em equipe": secoes['q3'][3],
    }

### Obtêm uma relação de competências por resposta do banco

Obtêm as competências e seus valores. Atualmente **aceita** *CRs* **inválidos**, caso não queira aceitar mais, será necessário:
- Descartar toda a `resposta`
- Ou, colocar todas as competências da matriz cujo CR é inválido, como -1 ou 0

In [28]:
# cria um dataframe para armazenar a relação de respostas por competência
mongo_competences = pd.DataFrame(columns = [
    # root
    "Conhecimento técnico",
    "Competências, habilidades e atributos pessoais e profissionais: gerenciar projetos, compreender problemas e autoaprendizado",
    "Competências e habilidades interpessoais: trabalho em equipe e comunicação",

    # q1
    "Matemática e física",
    "Conhecimento, métodos e ferramentas fundamentais de computação básica",
    "Conhecimento, métodos e ferramentas na área de sistemas de software",
    "Sistemas microprocessados",
    "Conhecimentos básicos em sistemas de comunicação",
    "Conhecimento em sistemas de automação ",

    # q12
    "Lógica, algoritmos, teoria da comp,  estruras de dados.",
    "Linguagens e paradigmas.",
    "PAA",

    # q13
    "Configurar plataformas para softwares e serviços.",
    "Arquiteturas de computadores",
    "Segurança de sis. de comp.",
    "Engenharia de software",
    "Inteligência artificial",
    "Desenvolvimento Web e Mobile",

    # q15
    "Redes de computadores",
    "Software para sistemas de comunicação",

    # q2
    "Gerenciar projetos e sistemas de computação",
    "Engenharia-econômica",
    "Compreender e resolver problemas",
    "Autoaprendizado",
    "Criatividade e Inovação",

    # q3
    "Comunicação oral e escrita",
    "Língua inglesa",
    "Empreender e exercer liderança",
    "Trabalho em equipe",
])

# anda sobre os valores obtidos do site (mongo)
for response in ahp_form_responses:
    _secoes = {}
    # anda sobre as matrizes desta resposta
    _matrices = response.getMatrices()
    for k,v in _matrices.items():
        # verifica se é um escalar
        if k == "q15":
            priority_vec = v
        else:
            # calcula o ahp.
            _, priority_vec = Ahp.calculate(v)
            # NOTE que aceita AHP errados
        # adiciona as competências para cada matriz
        _secoes[k] = priority_vec
    # faz o mapping para essas competências
    _n = mapping_competences(_secoes)
    # adiciona ao dataframe, essas novas competências
    mongo_competences = mongo_competences.append(_n, ignore_index=True)

mongo_competences

Unnamed: 0,Conhecimento técnico,"Competências, habilidades e atributos pessoais e profissionais: gerenciar projetos, compreender problemas e autoaprendizado",Competências e habilidades interpessoais: trabalho em equipe e comunicação,Matemática e física,"Conhecimento, métodos e ferramentas fundamentais de computação básica","Conhecimento, métodos e ferramentas na área de sistemas de software",Sistemas microprocessados,Conhecimentos básicos em sistemas de comunicação,Conhecimento em sistemas de automação,"Lógica, algoritmos, teoria da comp, estruras de dados.",...,Software para sistemas de comunicação,Gerenciar projetos e sistemas de computação,Engenharia-econômica,Compreender e resolver problemas,Autoaprendizado,Criatividade e Inovação,Comunicação oral e escrita,Língua inglesa,Empreender e exercer liderança,Trabalho em equipe
0,0.280471,0.072874,0.646654,0.260368,0.031426,0.065533,0.097729,0.266555,0.278389,0.109965,...,0.333333,0.203847,0.203847,0.033425,0.033425,0.525457,0.038274,0.608953,0.176386,0.176386
1,0.141635,0.429183,0.429183,0.378278,0.050411,0.040457,0.245231,0.091248,0.194375,0.333333,...,1.0,0.452093,0.177469,0.213832,0.063049,0.093557,0.097191,0.482128,0.21034,0.21034
2,0.180473,0.748519,0.071008,0.092765,0.092765,0.189625,0.21761,0.189625,0.21761,0.157859,...,0.333333,0.206279,0.44092,0.111769,0.111769,0.129263,0.108952,0.524748,0.208449,0.157851
3,0.65596,0.186181,0.157859,0.275252,0.107851,0.053057,0.177787,0.178562,0.207491,0.141635,...,1.0,0.2,0.2,0.2,0.2,0.2,0.106953,0.411175,0.362073,0.119799
4,0.198803,0.198803,0.602394,0.277778,0.055556,0.055556,0.055556,0.277778,0.277778,0.333333,...,5.0,0.257856,0.436284,0.105911,0.094039,0.105911,0.16625,0.50125,0.16625,0.16625


### Realiza uma média ponderada sobre as respostas do banco

Itera sobre todas as respostas, criando novas matrizes, com base na média ponderada

In [29]:
matrices:Dict[str,List[List] or float] = {}

# obtem as possiveis keys do questionário (ids das matrizes)
matrices_ids:List[str] = list(ahp_form_responses[0].getMatrices().keys())

# calcula a média ponderada das matrizes
for matrix in matrices_ids:
    _mats = []

    # anda sobre uma determinada "matrix" sobre todas as respostas
    for response in ahp_form_responses:
        # obtêm a matriz
        _m:List[List] = response.getMatrices()[matrix]

        # verifica se é uma matriz com base na chave (q15 é um escalar)
        if matrix != 'q15':
            # verifica se a matriz atual é um AHP válido, se for, adiciona essa matriz válida ...
            # ... dessa forma, futuramente, ela será incluída no cálculo da média
            cr,_comp = Ahp.calculate(_m)
            if cr <= 0.1:
                _mats.append(_m)

        # caso contrário, somente adiciona o elemento a ser calculado a média ponderada
        else:
            _mats.append(_m)
    # calcula a média ponderada para as matrizes/elementos válidos
    matrices[matrix] = util.average(*_mats)

### Calcula o AHP sobre as novas matrizes

Calcula o AHP sobre as novas matrizes, formadas a partir da média ponderada das respostas

In [30]:
secoes:Dict[str,List or float] = {}

for matrix in matrices:
    # print(f"Matrix: {matrix}\n{'-'*100}")
    cr, priorityVec = 0, matrices[matrix]

    # se for uma matriz, calcula o ahp
    if matrix != 'q15':
        cr, priorityVec = Ahp.calculate(matrices[matrix])
        # arredonda o vetor de saída (resultante) para 2 casas decimais
        priorityVec = list(np.round(priorityVec, 2))
    
    # adiciona este dado no vetor de competências do mercado
    secoes[matrix] = priorityVec

    # print(f"CR: {cr}\n\tVetor de pesos:")
    # pprint(priorityVec)
    # print("\n\n")

#### Mapeando as competências para o vetor do mercado

**Legenda**:
- [x] $\rightarrow$ Existe até o momento, i.e, a coluna equivalente do **csv** (**sheets**), não zerou
- [-] $\rightarrow$ A coluna zerou e, portanto, foi descartada, então somente existe na visão do mercado/professores

<br/>

Tendo como base a entrada do ahp, temos que o vetor de prioridade, para cada matriz, fica:

- root:
    - [-] Conhecimento técnico,
    - [-] Competências, habilidades e atributos pessoais e profissionais: gerenciar projetos, compreender problemas e autoaprendizado
    - [-] Competências e habilidades interpessoais: trabalho em equipe e comunicação

- q1:
    - [x] Matemática e física,
    - [-] Conhecimento, métodos e ferramentas fundamentais de computação básica,
    - [-] Conhecimento, métodos e ferramentas na área de sistemas de software,
    - [x] Conhecimento, métodos e ferramentas na área de sistemas microprocessados,
    - [-] Conhecimentos básicos em sistemas de comunicação,
    - [x] Conhecimentos básicos em sistemas de automação

- q12:
    - [x] Lógica, algoritmos, teoria da computação e estrutura de dados
    - [x] Linguagens e paradigmas de programação específicos
    - [x] Projeto e análise de algoritmos

- q13:
    - [x] Configurar plataformas para aplicações de software e serviços
    - [x] Arquiteturas de computadores
    - [x] Segurança de sistemas de computação
    - [x] Engenharia de software e práticas no desenvolvimento de software e versionamento
    - [x] Inteligência artificial
    - [-] Desenvolvimento Web e Mobile

- q15:
    - [x] Redes de computadores
    - [x] Software para sistemas de comunicação

- q2:
    - [x] Gerenciar projetos e sistemas de computação
    - [x] Realizar estudos de viabilidade técnico-econômica
    - [x] Compreender e resolver problemas
    - [x] Autoaprendizado
    - [x] Criatividade e Inovação

- q3:
    - [x] Comunicação oral e escrita
    - [x] Língua inglesa
    - [x] Empreender e exercer liderança
    - [x] Trabalho em equipe

### Realiza o mapping de competências e remove as que não foram utilizadas

Competências cuja coluna foi vazia, foram descartadas de possíveis possibilidades de grafos

In [32]:
# montando o vetor para situado na mesma posição (root ignorado)
visao_mercado = mapping_competences(secoes)

# removendo as keys que não foram mapeadas pela planilha dos alunos (colunas vazias)
visao_mercado = {k: visao_mercado[k] for k in comparacao_nota.keys()}

In [33]:
print("Competência\t\t[Mercado;Alunos]")
for k in visao_mercado.keys():
    print("{key}  --> [{vm};{va}]".format(key=k, vm=visao_mercado[k], va=comparacao_nota[k]))

Competência		[Mercado;Alunos]
Matemática e física  --> [0.17;1.0]
Lógica, algoritmos, teoria da comp,  estruras de dados.  --> [0.33;0.79]
Linguagens e paradigmas.  --> [0.33;1.0]
PAA  --> [0.33;0.7]
Configurar plataformas para softwares e serviços.  --> [0.17;1.0]
Arquiteturas de computadores  --> [0.17;0.92]
Segurança de sis. de comp.  --> [0.17;0.91]
Engenharia de software  --> [0.17;0.71]
Inteligência artificial  --> [0.17;0.87]
Sistemas microprocessados  --> [0.17;0.67]
Redes de computadores  --> [1.64;0.89]
Software para sistemas de comunicação  --> [0.6097560975609756;0.4]
Conhecimento em sistemas de automação   --> [0.17;0.88]
Gerenciar projetos e sistemas de computação  --> [0.2;0.79]
Engenharia-econômica  --> [0.2;0.93]
Compreender e resolver problemas  --> [0.2;1.0]
Autoaprendizado  --> [0.2;0.79]
Criatividade e Inovação  --> [0.2;0.79]
Comunicação oral e escrita  --> [0.25;0.79]
Língua inglesa  --> [0.25;0.78]
Empreender e exercer liderança  --> [0.25;0.79]
Trabalho em equi

In [34]:
# verifica se as keys são iguais, caso não for, tem algum problema
for k,j in zip(visao_mercado.keys(), comparacao_nota.keys()):
    # print(f"Chave --> {k}, {j}")
    if k != j:
        print(f"Erro: {k}, {j}")
        raise Exception("MISMATCH DE KEYS. VERIFIQUE O CÓDIGO")

# o vetor precisa ter o mesmo tamanho
if len(visao_mercado) != len(comparacao_nota):
    raise Exception("VETORES DE TAMANHO DIFERENTE. VERIFIQUE O CÓDIGO")

### Normaliza o vetor da visão do mercado

Normaliza a saída de competências obtida através das matrizes de média.

In [36]:
# Normaliza a saída da comparacao do mercado
visao_mercado = util.normalize_vectors(visao_mercado)

## Converte os dicionários do aluno e do mercado para vetores de escalares

In [37]:
# Converte para um vetor
vetor_mercado = list(visao_mercado.values())
vetor_aluno = list(comparacao_nota.values())


## Calcula a proximidade

No espaço *Euclidiano*, um vetor possui magnitude e direção. A magnitude de dois vetores, também chamada de módulo, é dada por:
$$
||\vec{a}|| = \frac{1}{\sqrt{a_i^2}}
$$

O **produto interno/escalar** de dois vetores *Euclidianos*, $\vec{a}$ e $\vec{b}$ é definido como:
$$
\vec{a} \bullet \vec{b} = ||\vec{a}||\cdot||\vec{b}||\cdot\cos(\theta)
$$

<br/>

Portanto, o ângulo (em graus) entre eles é:
$$
\theta_\text{em graus} = \cos^{-1}(\theta) \equiv \cos^{-1}\underbrace{\left(\frac{\vec{a} \bullet \vec{b}}{||\vec{a}||\cdot||\vec{b}||}\right)}_\varphi
$$
[wikipedia](https://en.wikipedia.org/wiki/Dot_product#Geometric_definition)

<br/>

A proximidade entre os dois vetores será:

<pre>
90º -- 100 % (extramente diferentes)
ang -- x   % 
x' = 100*ang/90
x  = 100% - 100*ang/90
</pre>

$$
p_\text{%} = 100_\text{%} - 100_\text{%} \cdot \frac{\thetaº}{90º}
$$


In [39]:
# numpy linear algebra functions
from numpy import linalg as LAF
# to get arccos
import math

# calcula o produto escalar dos vetores do mercado e do aluno
produto_interno:float = np.dot(vetor_mercado,vetor_aluno)

# calcula a norma de cada vetor (é um escalar)
norma_vetor_mercado:float = LAF.norm(vetor_mercado)
norma_vetor_aluno:float = LAF.norm(vetor_aluno)

# calcula o valor de phi (varphi na fórmula acima)
phi:float = produto_interno / (norma_vetor_mercado * norma_vetor_aluno)

# calcula o ângulo entre eles (em graus)
angulo:float = round(
    # entrada e saída são em radianos, necessita a conversão para graus
    math.degrees(math.acos(phi)),
    2)

# exibe o ângulo entre eles
print(f"O ângulo entre os dois vetores é de {angulo}º")


# calcula a proximidade - em porcentagem:
proximidade:float = round(
    100-100*angulo/90, 
    2)

# Exibe a proximidade
print(f"Os vetores são, aproximidamente, {proximidade}% iguais.")

O ângulo entre os dois vetores é de 47.98º
Os vetores são, aproximidamente, 46.69% iguais.


## Realiza os plots de competências (radial/spyder plot)

In [40]:
from modules.plot import Common as CP

# Labels
categorias:List[str] = list(comparacao_nota.keys())

#### Visão do aluno

In [41]:
fig = CP.plot(
    categorias, 
    r1=list(comparacao_nota.values()), 
    r1_name="Visão do aluno")

#### Visão do mercado e do aluno

In [46]:
fig = CP.plot(
    categorias,
    r1=list(comparacao_nota.values()),
    r1_name='Visão do aluno',
    r2=list(visao_mercado.values()),
    r2_name="Visão do mercado")

# Realiza o plot das "visões" (pollarplot)

#### Obtêm o vetor de competências para cada respondente do site

TODO: Problema. Atualmente, estou pegando todas as competências, mesmo as que não foram mapeadas

In [223]:
teachers = mongo_competences[comparacao_nota.keys()].values.tolist()
student_1 = list(comparacao_nota.values())

In [242]:
cols:List = ["class_color", *list(comparacao_nota.keys())]
df = pd.DataFrame(columns=cols)

# add for teachers
for i,v in enumerate(teachers):
    nl = [2.5, *v]
    df = df.append(pd.DataFrame([nl], columns=cols), ignore_index=True)

# add for student
df = df.append( pd.DataFrame([[1.0, *student_1]], columns=cols), ignore_index=True)

In [243]:
def parallel_plot(s:int, e:int, df: pd.DataFrame)->None:
    # exibindo os 6 primeiros resultados
    import plotly.express as px

    # cria um novo dataframe usando somente o range estipulado
    _d = df[cols[s:e]]

    fig = px.parallel_coordinates(
        _d,
        color="class_color",
        width=1200, height=620,
        # color_continuous_scale=px.colors.diverging.Tealrose,
        color_continuous_midpoint=2,
        )
    # exibe a figura
    fig.show()

parallel_plot(0,6,df)
    

<br/>
<br/>

---

# Outras funções métodos

### - Função usada para debug na geração dos grafos por base de competência

In [None]:
from typing import List
def debug(msg:str,*args:List[object])->None:
    """
    Print a debug message

    Parameters
    ----------
    msg: string
    """
    printString = msg
    if args:
        vec = list(map(lambda x: str(x), list(args)))
        vec = ', '.join(vec)
        printString += ': ' + vec
    print(f'[DEBUG] -> {printString}')

### - Função usada para o plot dos gráficos de competência

In [None]:
# Realiza o plot do grafo/grade
from modules.plot import Plot

# Itera sobre cada grafo de competencia
for competencia in grafos.keys():
    # Gera um plot para cada um com o peso saindo de cada matéria
    Plot.weighted_graph(
        grafos[competencia].nodes(),
        list(grafos[competencia].edges(data=True)),
        competencia.title().replace(' ','').replace('.',''),
        "../graphs"
    )


### - Buscando as notas através do bot de raspagem

Mandando o `spyder` rodar com os parâmetros abaixo:
```bash
curl -u 9a357fcfff6341378238837dcce40bdf: https://app.scrapinghub.com/api/run.json \
  -d project=460296 \
  -d spider=history \
  -d user='NUMERO_CPF' \
  -d pswd='SENHA_SIGAA' \
  -d course='NÃO_É_ÚTIL_AQUI' 
```

You can get the **Api key** [here](https://app.scrapinghub.com/account/apikey)

Os dados obtidos estão em um formato do tipo
```javascript
{
    "CourseName": "ENGENHARIA DE COMPUTAÇÃO/ICT - Itabira - BACHARELADO - MT",
    "CurrentYearPeriod": "2020.2",
    "StartYearPeriod": "2016.1",
    "RA": "2016001942",
    "Semester": {
      "2020.2": {
        "ECOI32.1": {
          "Name": "CIRCUITOS INTEGRADOS ANALÓGICOS",
          "Score": "6,7",
          "Fouls": "0",
          "Situation": "APROVADO",
          "Class": "01",
          "Hours": "32h"
        },
        ...
      },
      ...
    }
}
```

In [None]:
# Loads the credentials file
from json import load

# Load credentials json
credentials = None
with open('credentials.json') as file:
    credentials = load(file)
    
    
# Scrapping
from scrapinghub import ScrapinghubClient
from time import sleep as Wait

# Run job
apikey = '9a357fcfff6341378238837dcce40bdf'
client = ScrapinghubClient(apikey)
project = client.get_project(460296)
job = project.jobs.run('history', 
    job_args={
        'user': credentials['user.login'],
        'pswd': credentials['user.senha'],
        # 'course':'0192015'
})

# Check if job is running
job_state = 'running'
while job_state != 'finished':
    # Check for job state at each 1.5 min
    Wait(60*1.5)
    # Get job state from scrapyhub
    job_state = job.finish()

In [None]:
## Obtendo somente uma relação de notas para as matérias


periodos = {}
# Obtendo as notas
for items in job.items.iter():
    periodos = items[b'Semester']
    
# Threating the data
notas = {}
# Convertendo os dados
for periodo in periodos:
    periodoVetor = periodos[periodo]
    for materia in periodoVetor:
        materiaUtf8 = materia.decode('utf-8')
        # Se encontrar uma disciplina que tenha um ponto, trata-se de um bloco
        if materiaUtf8[-2] == '.':
            # Então ignora, pois ela já está contabilizada na disciplina final (sem o ponto)
            continue
        

        score = periodoVetor[materia][b'Score']
        # Ignora as matérias que ainda estão sendo feitas
        if b'--' in score:
            continue
        
        # Converte para float
        score = float(score.decode('utf-8').replace(',','.'))
        
        # Verifica se o aluno já fez a matéria
        if materiaUtf8 in notas:
            # Verifica se já repetiu mais de uma vez
            if type(notas[materiaUtf8]) is list:
                # Se já tiver repetido mais de uma vez, adiciona ao vetor
                notas[materiaUtf8].append(score)
            else:
                # Primeira vez que repetiu
                notas[materiaUtf8] = [notas[materiaUtf8], score]
        else:
            # Primeira vez que fez a matéria
            notas[materiaUtf8] = score


# Para cada elemento no dicionário de notas, verifica se repetiu, caso tenha, realiza média
for materia in notas:
    if type(notas[materia]) is list:
        total = sum(notas[materia])
        numero_elementos = len(notas[materia])
        notas[materia] = round(total/numero_elementos, 2)

### - Raspagem por pdf

Raspa e joga na pasta de json

In [None]:
from modules.score import Score

Score.parse_pdf('2016001942', path.join('..', 'assets', 'scores'))

### - Preenchimento no mongo

In [None]:
from modules.ahp.Types import FormData
from modules.ahp import Database

ahp = Database.AhpForm(connection_string)

# lRoot, q1s2, q1sec5, q3

new_response = FormData() \
.setName("") \
.setEmail("") \
.setDate("") \
.setMatrixRoot([
    [1,1,0.33],
    [1,1,0.33],
    [3.03,3.03,1],
]) \
.setMatrixQ1([
    [1,5,5,5,1,1],
    [0.2,1,1,1,0.2,0.2],
    [0.2,1,1,1,0.2,0.2],
    [0.2,1,1,1,0.2,0.2],
    [1,5,5,5,1,1],
    [1,5,5,5,1,1],
]) \
.setMatrixQ1sec2([
    [1,1,1],
    [1,1,1],
    [1,1,1],
]) \
.setMatrixQ1sec3([
    [1,3,1,5,3,5],
    [0.33,1,0.33,5,1,3],
    [1,3.03,1,5,1,3],
    [0.2,0.2,0.2,1,0.2,0.33],
    [0.33,1,1,5,1,3],
    [0.2,0.33,0.33,3.03,0.33,1],
]) \
.setMatrixQ1sec5(0.2) \
.setMatrixQ2([
    [1,0.33,3,3,3],
    [3.03,1,3,5,3],
    [0.33,0.33,1,1,1],
    [0.33,0.2,1,1,1],
    [0.33,0.33,1,1,1],
]) \
.setMatrixQ3([
    [1,0.33,1,1],
    [3.03,1,3,3],
    [1,0.33,1,1],
    [1,0.33,1,1],
])

ahp.insert(new_response.toDict())