*Problemas:*

- Os arquivos `[DGroh,MRocha,ALeles]` estão faltando muitas linhas... vai gerar uma inconsistência muito forte, visto que só terão 2 arquivos "preenchidos"

- Os arquivos `[Viní16,LCoelho]` possuem muita inconsistência (valores acima de 10), o `Viní16` inclusive, possui linhas que **não** podem existir, vide "10" em na competência _segurança_ 

In [None]:
# Utilities
from importlib import reload

# Import function to handle with paths
from os import path

----

# Análise sobre o perfil dos alunos formandos/formados do curso de Engenharia de Computação




### Obtendo a grade

Obtendo a grade do curso de computação 2015, com pré e có requisitos

In [None]:
# Módulo usado para obter a grade (do banco ou realiza raspagem)
from modules.grid import Grid

pre, co = Grid.get_grid(
    '0192015', 
    'mongodb+srv://ppcamp:DRrPaRrHqmaWo43D@cluster0.tgt68.mongodb.net/'
)

### Obtêm os pesos das competências

In [None]:
from modules.skills import Skillset

# Faz a leitura dos arquivos csvs
_csvs = Skillset.read_csv("../assets/sheets")

# Realiza a média dos arquivos de competências
out = Skillset.merge_data(_csvs)

## Transformando a grade em uma relação de competências

- Cada competência gera um único _grafo_, assim, é necessário propagar os nós para todos os grafos e atribuir os vértices de acordo com a entrada dos alunos nos arquivos de *competências*

In [None]:
# Obtendo uma cópia do grafo de pré requisito (este grafo possui o período de cada disciplina)
nodes = pre.copy()

# Removendo os vértices (conexões, que nates eram os pré requisitos)
nodes.remove_edges_from(list(nodes.edges()))


# Obtêndo o nome de cada coluna (será utilizada no grafo novo)
competencias = out.columns.to_list()

# Removendo os nós que não constam naquela planilha
nos_para_remocao = [no for no in list(nodes.nodes()) if no not in out.index.to_list()]
nodes.remove_nodes_from(nos_para_remocao)

In [None]:
# Função usada apenas para o debug
from typing import List
def debug(msg:str,*args:List[object])->None:
    """
    Print a debug message

    Parameters
    ----------
    msg: string
    """
    printString = msg
    if args:
        vec = list(map(lambda x: str(x), list(args)))
        vec = ', '.join(vec)
        printString += ': ' + vec
    print(f'[DEBUG] -> {printString}')

In [None]:
# Variável que irá iterar sobre os períodos
def get_periodo()->int:
    """
    Função que computa o período atual
    
    Returns:
        A value for every period
    """
    p = 0
    while p<10:
        p+= 1
        yield p
        
# --
def get_materias(periodo:int) -> List[str]:
    """
    Obtêm todas a lista de todas as siglas de matérias do período

    Args:
        periodo: número que indica o período atual entre [1,10]

    Returns:
        Uma lista contendo todas as siglas das matérias deste período
    """
    global nodes
    return [sigla for sigla,data in nodes.nodes(data=True) if data['period']==str(periodo)]


# --
def check_competencia(materias_atuais:List[str], competencia:str)->bool:
    """
    Verifica se tem algum valor para esta competência neste periodo

    Parameters
    ----------
    materias_atuais: lista de materias no periodo atual
    competencia: competencia a ser analizada

    Returns
    -------
    True para caso não tenha uma disciplina no período atual que possua esta competência
    """
    global out
    return sum([out.loc[i][competencia] for i in materias_atuais]) == 0



def get_peso_competencia(materias_atuais:List[str], competencia:str, materia:str)->float:
    """
    FIXME: Peso errado? Não, o peso das arestas é referente ao período do vértice de onde sai, se só tiver 1 matéria, irá ser peso 1 para qualquer aresta.

    Obtêm o peso da disciplina normalizado pelo peso de disciplinas no semestre, i.e., o máximo que uma competência pode ter no semestre é 1 ou 100%

    Parameters
    ----------
    materias_atuais: lista de materias no periodo atual
    competencia: competencia a ser analizada
    materia: materia que se deseja obter o peso da competencia para este periodo

    Returns
    -------
    Um float arredondado à duas casas decimais
    """
    global out
    total = sum([out.loc[i][competencia] for i in materias_atuais])

    # debug(f'get_peso_competencia({materia},  {materias_atuais}) -> Total {total}, Matéria {out.loc[materia][competencia]}\n')
    return round(out.loc[materia][competencia]/total, 2)

## Gerando os grafos

In [None]:
# Instância que irá ter todos os objetos de grafos indexados pelas competências
grafos = {}

# Obtêm as matérias do período seguinte (ou do próximo) que tiver este requisito, gerando conexões entre essas disciplinas
for competencia in competencias:
    # Instancia um novo grafo (baseado no grafo que já possui os nós) para essa competência
    grafos[competencia] = nodes.copy()

     # Itera essa competência para os próximos períodos
    for periodo in get_periodo():
        # Obtêm a lista de todas as matérias do período atual
        materias_periodo_atual = get_materias(periodo)
        # Se maior igual à zero, nenhuma das matérias do período possui valor para essa competência
        if check_competencia(materias_periodo_atual,competencia):
            # portanto, pode pular esta disciplina
            continue

        # Lista para armazenar todos os nós de matérias que possuem o mesmo requisito nos próximos períodos
        materias_herdeiras = []

        # Itera sobre os próximos períodos
        prox_periodo = periodo
        while prox_periodo < 10:
            prox_periodo += 1
            # Obtêm a lista de todas as matérias do período atual
            materias_proximo_periodo = get_materias(prox_periodo)
            # Verifica se neste período possui alguma matéria que herda aquela competência
            if check_competencia(materias_proximo_periodo, competencia):
                continue
            else:
                # Caso encontre alguma matéria neste período coloca ela na lista de materias que irão herdar a competência
                for i in materias_proximo_periodo:
                    if out.loc[i][competencia] > 0:
                        materias_herdeiras.append(i)
                # Força a saída deste loop
                break

        # Para cada matéria atual que possui a competência e cada matéria futura que irá herdar, realiza a "junção"
        for materia_atual in materias_periodo_atual:
            # Verifica se a matéria possui esta competência
            if not out.loc[materia_atual][competencia]:
                continue
            for materia_herdeira in materias_herdeiras:
                peso = get_peso_competencia(materias_periodo_atual,competencia,materia_atual)
                grafos[competencia].add_edge(
                    materia_atual,
                    materia_herdeira, 
                    weight=peso
                )



## Plot dos grafos de competências

In [None]:
# Realiza o plot do grafo/grade
from modules.plot import Plot

# Itera sobre cada grafo de competencia
for competencia in grafos.keys():
    # Gera um plot para cada um com o peso saindo de cada matéria
    Plot.weighted_graph(
        grafos[competencia].nodes(),
        list(grafos[competencia].edges(data=True)),
        competencia.title().replace(' ','').replace('.',''),
        "../graphs"
    )


## Buscando as notas através do bot de raspagem

Mandando o `spyder` rodar com os parâmetros abaixo:
```bash
curl -u 9a357fcfff6341378238837dcce40bdf: https://app.scrapinghub.com/api/run.json \
  -d project=460296 \
  -d spider=history \
  -d user='NUMERO_CPF' \
  -d pswd='SENHA_SIGAA' \
  -d course='NÃO_É_ÚTIL_AQUI' 
```

You can get the **Api key** [here](https://app.scrapinghub.com/account/apikey)

Os dados obtidos estão em um formato do tipo
```javascript
{
    "CourseName": "ENGENHARIA DE COMPUTAÇÃO/ICT - Itabira - BACHARELADO - MT",
    "CurrentYearPeriod": "2020.2",
    "StartYearPeriod": "2016.1",
    "RA": "2016001942",
    "Semester": {
      "2020.2": {
        "ECOI32.1": {
          "Name": "CIRCUITOS INTEGRADOS ANALÓGICOS",
          "Score": "6,7",
          "Fouls": "0",
          "Situation": "APROVADO",
          "Class": "01",
          "Hours": "32h"
        },
        ...
      },
      ...
    }
}
```

#### Obtendo as credenciais do arquivo json

In [None]:
# Loads the credentials file
from json import load

# Load credentials json
credentials = None
with open('credentials.json') as file:
    credentials = load(file)
    
    
# Scrapping
from scrapinghub import ScrapinghubClient
from time import sleep as Wait

# Run job
apikey = '9a357fcfff6341378238837dcce40bdf'
client = ScrapinghubClient(apikey)
project = client.get_project(460296)
job = project.jobs.run('history', 
    job_args={
        'user': credentials['user.login'],
        'pswd': credentials['user.senha'],
        # 'course':'0192015'
})

# Check if job is running
job_state = 'running'
while job_state != 'finished':
    # Check for job state at each 1.5 min
    Wait(60*1.5)
    # Get job state from scrapyhub
    job_state = job.finish()

**Obtendo somente uma relação de notas para as matérias**

Realiza a média no cenário que há bomba.

In [None]:
periodos = {}
# Obtendo as notas
for items in job.items.iter():
    periodos = items[b'Semester']
    
# Threating the data
notas = {}
# Convertendo os dados
for periodo in periodos:
    periodoVetor = periodos[periodo]
    for materia in periodoVetor:
        materiaUtf8 = materia.decode('utf-8')
        # Se encontrar uma disciplina que tenha um ponto, trata-se de um bloco
        if materiaUtf8[-2] == '.':
            # Então ignora, pois ela já está contabilizada na disciplina final (sem o ponto)
            continue
        

        score = periodoVetor[materia][b'Score']
        # Ignora as matérias que ainda estão sendo feitas
        if b'--' in score:
            continue
        
        # Converte para float
        score = float(score.decode('utf-8').replace(',','.'))
        
        # Verifica se o aluno já fez a matéria
        if materiaUtf8 in notas:
            # Verifica se já repetiu mais de uma vez
            if type(notas[materiaUtf8]) is list:
                # Se já tiver repetido mais de uma vez, adiciona ao vetor
                notas[materiaUtf8].append(score)
            else:
                # Primeira vez que repetiu
                notas[materiaUtf8] = [notas[materiaUtf8], score]
        else:
            # Primeira vez que fez a matéria
            notas[materiaUtf8] = score


# Para cada elemento no dicionário de notas, verifica se repetiu, caso tenha, realiza média
for materia in notas:
    if type(notas[materia]) is list:
        total = sum(notas[materia])
        numero_elementos = len(notas[materia])
        notas[materia] = round(total/numero_elementos, 2)

### Usando a raspagem por pdf

In [None]:
from modules.score import Score

Score.parse_pdf('2016001942', path.join('..', 'assets', 'scores'))

### Andando no grafo e propagando os valores

$\forall$ Competência $\to$ verifica se existe a nota, caso exista, propaga

Informações sobre a biblioteca podem ser encontradas [aqui](https://networkx.org/documentation/stable//reference/classes/digraph.html#methods)


In [None]:
def get_nota(materia:str, peso:float, acumulado:float) -> float:
    # Nota do aluno
    global notas
    # Caso o aluno não tenha feito a matéria ainda, propaga o acumulado pelo peso
    if materia not in notas:
        return round(acumulado * peso, 3)
    # Caso já tenha feito a matéria, calcula pelo peso e retorna mais o acumulado
    return round((notas[materia]/10 + acumulado)*peso , 3)

In [None]:
import sys
# A função poderá ser chamada recursivamente 1000x (default)
sys.setrecursionlimit(1000)

# DFS
from networkx import DiGraph

def dfs_walk(grafo:DiGraph, materia:str, acumulado:int = 0) -> float:
    """
    A recursive walk
    """
    global notas
    total = 0

    # Anda sobre os filhos
    for filho in grafo.neighbors(materia):
        # Obtém o peso da aresta que manda para o filho
        peso = grafo[materia][filho]['weight']
        # Obtém a nota (acumulada) que será enviada para o filho
        acumulado = get_nota(materia, peso, acumulado)
        # Caminha para este filho
        total += dfs_walk(grafo, filho, acumulado)
    else:
        # Não possui filhos (última da grade com essa competência)
        total = get_nota(materia, 1, acumulado)
    
    # Retorna o valor acumulado (dos filhos e até ela)
    return total

In [None]:
import sys

def errprint(msg:str)->None:
    sys.stderr.write('Error: ' + msg)

In [None]:
# Dicionário que irá conter o valor sobre cada competência
comparacao_nota:dict = {}

# Itera sobre as competências
for competencia,grafo in grafos.items():
    # ∀ competência, encontra a primeira matéria que possui ela
    edges = list(grafo.edges())
    # Uma vez que o grafo foi montado em ordem cronológica, não há necessidade
    # de busca.
    if not edges:
        errprint('Não tem ligações')
        continue
    fst_materia = edges[0][0]
    # Em seguida, anda no seu grafo e obtêm o valor iterado sobre as notas
    resultado = dfs_walk(grafo, fst_materia)
    comparacao_nota[competencia] = resultado

In [None]:
for competencia, resultado in comparacao_nota.items():
    print(competencia, resultado)

Normalizando a saída com base no maior valor

In [None]:
comparacao_nota_sem_normalizar = comparacao_nota.copy()

maior_valor = max(comparacao_nota.values())

for competencia, resultado in comparacao_nota.items():
    comparacao_nota[competencia] = round(resultado/maior_valor, 2)

In [None]:
# Valores normalizados
for competencia, resultado in comparacao_nota.items():
    print(competencia, resultado)

## Insere os valores do mercado

In [None]:
from random import random

# Colocando valores randomicos
saida_mercado = comparacao_nota.copy()
for competencia, _ in saida_mercado.items():
    saida_mercado[competencia] = round(random(),2)
    print(competencia + '\t' + str(saida_mercado[competencia]))

Converte para um vetor e faz o produto escalar com base nos valores do mercado

In [None]:
vetor_mercado = list(saida_mercado.values())
vetor_aluno = list(comparacao_nota.values())


In [None]:
import numpy as np

proximidade = round(np.dot(vetor_mercado,vetor_aluno),2)

print(f'Os valores estão com uma proximidade de {proximidade}')

----

# ToDO:
- [x] Gerar uma visualização de grafo para cada competência (Próxima reunião)
- [x] Buscar notas e fazer as médias
- [x] Iterar sobre cada competência, gerando um valor relativo às notas
- [x] Juntar todos os valores relativo às competências e comparar com o outro vetor

--
- [x] Tentar comparar com um valor aleatório
- [x] Fazer uma tela para o framework no [Figma] ou indo diretamente para sua [view]
- [x] Tentar pegar mais algumas notas com algum aluno
- [ ] Tentar normalizar a saída das arestas
- [ ] Pegar o valor da última matéria
- [ ] Comparar com a resposta do mercado

--

<br/>

**To search for**:

- Redes siamesas
- Ominilog


[figma]: https://www.figma.com/file/6qlPm5NjjzjRyGJUYWntpv/Projeto-Artigo?node-id=0%3A1
[view]: https://www.figma.com/proto/6qlPm5NjjzjRyGJUYWntpv/Projeto-Artigo?node-id=18%3A43&scaling=min-zoom


----
> TODO: Tentando refazer o processo normalizando a planilha de competências

In [None]:
from modules.ahp import Ahp
import os

In [None]:
path2current_file = os.path.abspath('')
path2ahp_responses = path.join(path2current_file, "..", "assets", "ahp")

ahp_responses = os.listdir(path2ahp_responses)

# get ahp_responses with path
ahp_responses = list( map(lambda f: path.join(path2ahp_responses,f), ahp_responses) )

ahp_parsed_reponses = list()

### Realiza a transformada sobre os dados originais

In [None]:
from pprint import pprint

In [None]:
matrix = [
    [1,1,1,1,1],
    [1,1,1,1,1],
    [1,1,1,1,1],
    [1,1,1,1,1],
    [1,1,1,1,1],
]


ic = Ahp.getAHPindex(matrix, matrix)

print(f"IC: {round(ic,3)}")
pprint(matrix)
print("\n\nIs {}".format("inconsistent" if ic>=0.1 else "consistent"))


** JSONs até o momento**:

- 0f4163c63db145de8b95203ae17138d4
- 70c25acdb53c42999506c5693a78ff37
- 97e0c50e3e084c8d9b46e1d3f1243c6a
- 526bf3be5c264a1480f668e67e56f2a4