# Agoritmo de apresentação

Algoritmo que apresenta os grupos como um grafo por meio do algoritmo de geração de MST. Usando o algoritmo de geração de MST, o algoritmo transforma o grupos em MST's.

In [None]:
from graphviz import Graph
from textblob import TextBlob
import math
import ast
import numpy as np
import json

## Métodos e Funções

In [None]:
#Função que retorna o cosseno entre dois vetores de linha u e v
def cosseno(u, v):
    #return np.dot(u,v)/math.sqrt(np.dot(u,u)*np.dot(v,v))
    return np.dot(u, v)/(np.linalg.norm(u)*np.linalg.norm(v))

In [None]:
#Função que a retorna a similaridade em relação a matriz G
def simG(x, y, G, indices):
    i = indices[x]
    j = indices[y]
    return cosseno(G[i], G[j])

In [None]:
#Função que a retorna a similaridade em relação a matriz T
def simT(x, y, T, indices):
    i = indices[x]
    j = indices[y]
    return cosseno(T[i], T[j])

In [None]:
#Função que a retorna a similaridade em relação a matriz G e T (coocorrências de duas palavras)
def simGT(x, y, G, T, indices):
    i = indices[x]
    j = indices[y]
    return max(cosseno(G[i], T[j]), cosseno(T[i], G[j]))

In [None]:
#Função que retorna a similaridade entre duas palavras
def similarity(x, y, G, T, indices):
    wg = 0.2
    wt = 0.2
    wgt = 0.6
    v = (wg*simG(x, y, G, indices)) + (wt*simT(x, y, T, indices)) + (wgt*simGT(x, y, G, T, indices))
    return v

In [None]:
#Método que printa o grafo, cada nó e seus vizinhos
def printarGrafo(grafo,diretorio):
    g = Graph('Final',filename=diretorio,engine='fdp')
    graph = set()
    for no in sorted(grafo.keys()):
        g.node(no)
        for v in grafo[no]:
            if((v[0],no) not in graph):
                g.edge(no,v[0],label=str(v[1])[:4])
                graph.add((no,v[0]))
                #print(n, '->', grafo[n])
    g.view()

In [None]:
#Método que busca as arestas dos elementos que sobraram nos agrupamentos
#Dado um cluster, a função retorna as arestas daquele agrupamento (um grafo completo)
def buscar_arestas(cluster, diretorio, contexto):
    nodes = set()
    dir_similaridade = diretorio #Diretorio da similaridade
    arestas = {} #Variavel que guarda as arestas do grafo
    others = [] #Variavel que guarda as palavras que não serão usadas
    
    with open('../../datasets_processed/similaridades/' + dir_similaridade, 'r') as fp:
        data_sim = json.load(fp)
        
    with open('../../datasets_processed/contextos/' + contexto, 'r') as fp:
        data_ctx = json.load(fp)
        
    for index, key in enumerate(data_sim):
        for k, value in data_sim[key].items():
            npmi = data_ctx[key][k] # valor coontexto
            peso = 0.5*value + 0.5*npmi # valor do peso de uma aresta
            
            if( key not in others and k not in others):
                if(key in cluster and k in cluster):
                    if(peso not in arestas.keys()):
                        arestas[peso] = []
                        
                    if((key, k) not in arestas[peso] or (k, key) not in arestas[peso]):
                        arestas[peso].append((key, k))
                        
                    nodes.add(key)
                    nodes.add(k)
    return arestas, nodes

In [None]:
def get_arestas(cluster, G, T, indices):
    nodes = set()
    arestas = {} #Variavel que guarda as arestas do grafo
    others = [] #Variavel que guarda as palavras que não serão usadas
    
    for idx in range(len(cluster)):
        a = clustr[i]
        for j in range(i+1, len(cluster)):
            b = cluster[j]
            peso = similarity(a, b, G, T, indices)
            if(peso not in arestas.keys()):
                arestas[peso] = []
            if((a, b) not in arestas[peso] or (b, a) not in arestas[peso]):
                arestas[peso].append((a, b))
                
            nodes.append(a)
            nodes.append(b)
            
    return arestas, nodes

In [None]:
def MST(arestas, nos):
    mst = {} # O grafo gerado da MST
    mst_arestas = {} #Arestas da MST
    init(nos) # Inicializando o vetor pai[] do Union-Find
    
    # Ordenação das arestas em ordem decrescente
    maximais = sorted(arestas.keys(), reverse=True)
    
    for m in maximais:
        for ar in arestas[m]:
            x = ar[0]
            y = ar[1]
            if(join(x, y)):
                if(x not in mst.keys()):
                    mst[x] = []
                if(y not in mst.keys()):
                    mst[y] = []
                    
                mst[x].append((y, m))
                mst[y].append((x, m))
                
                if(m not in mst_arestas.keys()):
                    mst_arestas[m] = []
                mst_arestas[m].append((x, y))
                
    return mst, mst_arestas

In [None]:
def getMatriz(source):
    matriz = []
    with open('../../datasets_processed/matrizes/' + source, 'r') as fp:
        data = json.load(fp)
        
    for _, value in data.items():
        matriz.append(value)
    return matriz

In [None]:
# Método que retorna o elemento mais frequente em dado grupo de palavras baseado nas frequencias dos termos
def maisFrequente(lista,frequencias):
    maior_valor = 0
    rep = ''
    for l in lista:
        if(frequencias[l] > maior_valor):
            maior_valor = frequencias[l]
            rep = l
    return rep

## Unon Find

In [None]:
#Inicializando o vetor pai[]
def init(nos):
    global pai
    for n in sorted(nos):
        pai[n] = n

In [None]:
#Método que retorna o pai daquele vertice
def findPai(elemento):
    global pai
    if(pai[elemento] == elemento):
        return elemento
    pai[elemento] = findPai(pai[elemento])
    return pai[elemento]

In [None]:
#Método que junta dois vertices em uma componente conexa
def join(a, b):
    global pai
    a = findPai(a)
    b = findPai(b)
    if(a != b):
        pai[b] = a
        return True
    return False

## Constantes e variáveis utilizadas


In [None]:
clusteres_alternativo = ['agrupamentos-finais-camera-alternativo.json', 'agrupamentos-finais-cells-alternativo.json', 'agrupamentos-finais-dvds-alternativo.json', 'agrupamentos-finais-laptops-alternativo.json', 'agrupamentos-finais-routers-alternativo.json']

similaridades = ['similaridades-camera.json','similaridades-cells.json', 'similaridades-dvds.json', 'similaridades-laptops.json', 'similaridades-routers.json']

contextos = ['contexto-camera.json', 'contexto-cells.json', 'contexto-dvds.json', 'contexto-laptops.json', 'contexto-routers.json']

gabaritos = ['DadosCamera.txt', 'DadosCells.txt', 'DadosDvds.txt', 'DadosLaptops.txt', 'DadosRouters.txt']

caminhos_alternativo = ['grupos-camera-alternativo','grupos-cells-alternativo','grupos-dvds-alternativo','grupos-laptops-alternativo','grupos-routers-alternativo']
 
frequencias = ['frequencia-camera.json', 'frequencia-cells.josn', 'frequencia-dvds.json', 'frequencia-laptops.json', 'frequencia-routers.json']

caminhosG = ['similaridades-camera.json', 'similaridades-cells.json', 'similaridades-dvds.json', 'similaridades-laptops.json', 'similaridades-routers.json']

caminhosT = ['contextos-camera.json', 'contextos-cells.json', 'contextos-dvds.json', 'contextos-laptops.json', 'contextos-routers.json']

mst_save = ['mst-camera','mst-cells','mst-dvds','mst-laptops','mst-routers']

k = [9,10,6,12,10] #Numero de grupos por dominio

k1 = [7,8,4,10,8] #Numero de grupos por dominio

In [None]:
for idx, file in enumerate(frequencias):
    pai = {}  #Vetor de parentes(componentes conexas) do Union-Find
    visitados = {}  #Vetor de visitados
    grupos = []
    grupos_alternativo = []
    indices = {}
    frequencia_palavras = {}
    
    G = getMatriz(caminhosG[idx])
    T = getMatriz(caminhosT[idx])
    
    with open('../../datasets_processed/frequencias/' + file, 'r') as fp:
        data_freq = json.load(fp)
    
    #Mapeando as as palavras para seus indices, para ajudar nas matrizes
    for index, key in enumerate(sorted(data_freq)):
        frequencia_palavras[key] = data_freq[key]
        indices[key] = index
        
    #Obtendo os grupos gerados(alternativo)
    with open('../../resultados/agrupamentos/' + clusteres_alternativos[idx], 'r') as fp:
        data_clt_alt = json.load(fp)
        
    for key, value in data_clt_alt.items():
        grupos_alternativos.append(value)
        
    #------- Gerando a MST das palavras ------------
    palavras = sorted(indices.keys())
    
    nodes = set() #Nomes dos vertices (palavras)
    arestas, nodes = get_arestas(palavras, G, T, indices) #Obtendo o grafo completo das palavras
    
    mst, mst_arestas = MST(arestas, nodes) #Obtendo a MST do grafo
    
    prod = file.split('-')[1].replace('.json', '')
    printarGrafo(mst, '../../resultados/grupos/' + prod + '/' + mst_save[idx])
    
    #--------- Gerando as MST's dos grupos -----------
    cont = 0
    others = []
    possiveis_atributos = []
    for g in grupos:
        if(len(g) > 2):
            grau = {}
            nodes = set() # nomes dos vertices
            arestas, nodes = get_arestas(g, G, T, indices) #Obtendo o grafo completo do agrupamento
            mst, mst_arestas = MST(arestas, nodes) #Obtendo a MST do agrupamento
            
            for key in sorted(mst.keys()):
                count = len(mst[key])
                if(count not in graus.keys()):
                    graus[count] = []
                graus[count].append(key)
            maior = max(graus.keys())