# Algoritmo que está sendo utilizado atualmente

Este algoritmo é uma variação do algoritmo descrito no primeiro paper, que utiliza matrizes de similaridade e de contexto para realizar os agrupamentos. Este algoritmo utiliza a média ponderada do valor absoluto da similaridade com o valor do contexto entre as palavras.

In [27]:
from __future__ import division  # Biblioteca que torna a divisão decimal
from requests import get  # Biblioteca responsavel pelas requisições a Internet
import time
import math
from nltk.tokenize import sent_tokenize
from textblob import TextBlob
from nltk.corpus import stopwords
import numpy as np
import ast
import json

# As funções definidas e utilizadas no algoritmo

In [4]:
#Função que retorna o cosseno entre dois vetores de linha u e v
def cosseno(u, v):
    #return np.dot(u,v)/math.sqrt(np.dot(u,u)*np.dot(v,v))
    return np.dot(u, v)/(np.linalg.norm(u)*np.linalg.norm(v))

In [6]:
#Função que retorna a similaridade em relação a matriz G
def simG(x, y, G, indices):
    i = indices[x]
    j = indices[y]
    return cosseno(G[i], G[j])

In [7]:
#Função que retorna a similaridade em relação a matriz T
def simT(x, y, T, indices):
    i = indices[x]
    j = indices[y]
    return cosseno(T[i], T[j])

In [8]:
#Função que retorna a similaridade em relação a matriz G e T (coocorrências de duas palavras)
def simGT(x, y, G, T, indices):
    i = indices[x]
    j = indices[y]
    return max(cosseno(G[i], T[j]), cosseno(T[i], G[j]))

In [9]:
#Função que retorna a similaridade entre duas palavras
def sim(x, y, G, T, indices):
    wg = 0.2
    wt = 0.2
    wgt = 0.6
    v = (wg*simG(x, y, G, indices)) + (wt*simT(x, y, T, indices)) + (wgt*simGT(x, y, G, T, indices))
    return v

In [10]:
#Função que retorna a similaridade baseado nas matrizes de similaridade e contexto
def similarity(x,y,G,T,indices):
    wg = 0.5
    wt = 0.5
    p1 = indices[x] #Obtem-se o indice da palavra 1
    p2 = indices[y] #Obtem-se o indice da palavra 2
    v = (wg*G[p1][p2]) + (wt*T[p1][p2]) #Obtem-se a similaridade e o contexto das palavras
    return v

In [12]:
#Função que retorna a similaridade entre dois termos usando a ideia do paper maas como uma adaptação
def similarityAdaptada(x, y, G, T, indices):
    wg = 0.5
    wt = 0.5
    v = (wg*simG(x, y, G, indices)) + (wt*simT(x, y, T, indices))
    return v

In [13]:
#Função que retorna a distância média em relação a similaridade dos termos dos Clusteres
def distAvg(C1, C2, G, T, indices):
    tam1 = len(C1)
    tam2 = len(C2)
    soma = 0
    for el in C1:
        for val in C2:
            #soma += 1 - sim(el, val, G, T, indices) #Obtem-se a distancia entre as palavras
            soma += 1 - similarity(el,val,G,T,indices)
            #soma += 1 - similarityAdaptada(el, val, G, T, indices) #Obtem-se a distancia entre as palavras
    return soma/(tam1*tam2)

In [14]:
#Função que retorna a distância representativa entre os clusteres em função da
#similaridade dos representantes, os que possuem maior frequência
def distRep(C1, C2, G, T, indices):
    rep1 = C1[0]
    rep2 = C2[0]
    #ans = 1 - sim(rep1, rep2, G, T, indices) #Obtem-se a distancia entre os termos
    ans = 1 - similarity(rep1, rep2, G, T, indices)
    #ans = 1 - similarityAdaptada(rep1, rep2, G, T, indices) #Obtem-se a distancia entre os termos
    return ans

In [15]:
#Função que verifica se dois clusteres são mesclaveis
def checagem(C1,C2,mapeamentos):
    x = 0 #Variavel que guarda o numero de coocorrencias em um arquivo
    y = 0 #Variavel que guarda o numero de sentencas em que ambas nao ocorrem
    n = len(mapeamentos[C1[0]]) #Quantidade de documentos
    for el in C1:
        for val in C2:
            #Percorrendo cada documento
            for i in range(n):
                d1 = mapeamentos[el][i] #Obtendo as sentencas que 'el' aparece no documento atual
                d2 = mapeamentos[val][i] #Obtendo as sentencas que 'val' aparece no documento atual
                #Se ambos aparecem no documento, então
                if(len(d1) > 0 and len(d2) > 0):
                    inter = d1.intersection(d2) #Obtem-se as sentencas em comum a ambos
                    union = d1.union(d2) #Obtem-se a união de ambas
                    x += len(inter) #Quantidade de sentencas em comum
                    y += len(union - inter) #Quantidade de sentencas incomum
    return x > y

In [16]:
#Função que retorna se os clusteres devem ser juntados ou não
def violateConstraints(C1, C2, limiar, G, T, indices,mapeamentos):
    metrica3 = False
    #Executando a primeira condicao de mesclagem do artigo
    dm = distAvg(C1, C2, G, T, indices) #Distancia média entre os clusteres
    dr = distRep(C1, C2, G, T, indices) #Distancia entre os representantes dos clusteres
    distancia = max(dm, dr) #Distancia maxima
    metrica1 = (distancia >= limiar) #Verifica se viola a regra de distancia
    metrica2 = (not checagem(C1,C2,mapeamentos)) #Verifica se viola a metrica 3
    #Executando a segunda condicao de mesclagem do artigo
    for el in C1:
        if(' ' not in el):
            tupla = TextBlob(el).pos_tags[0]
            if("JJ" in tupla[1] or "VB" in tupla[1]):
                metrica3 = True
                break
    if(not metrica3):
        for val in C2:
            if(' ' not in val):
                tupla = TextBlob(val).pos_tags[0]
                if("JJ" in tupla[1] or "VB" in tupla[1]):
                    metrica3 = True
                    break
    return (metrica1 or metrica2 or metrica3)

In [40]:
def getMatriz(source):
    matriz = []
    with open('../../datasets_processed/matrizes/' + source, 'r') as fp:
        data = json.load(fp)
        
    for _, value in data.items():
        matriz.append(value)
    return matriz

In [18]:
#Função responsável por mesclar os clusteres - Etapa 1 do Algoritmo
def mesclar(groups, limiar, G, T, indices,mapeamentos):
    i = 0
    while(i < len(groups)):
        j = 0
        while(j < len(groups)):
            if(i != j):
                metrica1 = not violateConstraints(groups[i], groups[j], limiar, G, T, indices,mapeamentos)
                if(metrica1):
                    #Se os clusteres são mesclaveis
                    if(j > i):
                        groups[i].extend(groups[j]) #Unem-se os clusteres
                        groups.remove(groups[j]) #Remove um dos clusteres do geral
                    else:
                        groups[j].extend(groups[i])
                        groups.remove(groups[i])
                else:
                    #Caso contrario verifica-se o proximo
                    j += 1
            else:
                j += 1
        i += 1
    return groups

In [19]:
#Função responsável por adicionar os elementos restantes a um cluster ou o transformar em um
#novo cluster - Etapa 2 do Algoritmo
def mapear(elemento, groups, limiar, G, T, indices,mapeamentos):
    novo = True
    for i in range(len(groups)):
        metrica1 = not violateConstraints(groups[i], [elemento], limiar, G, T, indices,mapeamentos)
        if(metrica1):
            #Se os clusteres forem mesclaveis
            groups[i].extend([elemento]) #Une-se o elemento ao cluster
            novo = False
    if(novo):
        #Se o elemento não foi mesclado com ninguem
        groups.append([elemento]) #Assume-se que este elemento é um novo cluster
    return groups

In [20]:
#Função que retorna o numero de grupos desejado
def select(frequencias, groups):
    somatorio = {} #Mapa dos clusteres baseado no somatorio das frequencias
    somas = []
    resp = [] #Variavel com a resposta
    ind = 0
    #Mapeamento dos grupos baseado na soma das frequencias dos elementos
    for g in groups:
        soma = 0
        for v in g:
            soma += frequencias[v]
        if(soma not in somatorio.keys()):
            somatorio[soma] = []
        somatorio[soma].append(ind)
        ind += 1
    #Ordena-se os somatorios das frequencias em ordem decrescente
    for s in sorted(somatorio.keys(),reverse=True):
        index = somatorio[s]
        for i in index:
            #Armazena-se os grupos de maior frequencia na variavel de resposta
            resp.append(groups[i])
            somas.append(s)
    return resp,somas

In [21]:
frequencias = ['frequencia-camera.json', 'frequencia-cells.json', 'frequencia-dvds.json', 'frequencia-laptops.json', 'frequencia-routers.json']

agrupamentos = ['agrupamentos-finais-camera.json','agrupamentos-finais-cells.json', 'agrupamentos-finais-dvds.json', 'agrupamentos-finais-laptops.json', 'agrupamentos-finais-routers.json']

saves_gabarito = ['DadosCamera.txt', 'DadosCells.txt', 'DadosDvds.txt', 'DadosLaptops.txt','DadosRouters.txt']

similaridades = ['similaridades-camera.json', 'similaridades-cells.json', 'similaridades-dvds.json', 'similaridades-laptops.json', 'similaridades-routers.json']

contextos = ['contexto-camera.json','contexto-cells.json','contexto-dvds.json','contexto-laptops.json','contexto-routers.json']

contextualizacao = ['termo-documento-camera.json', 'termo-documento-cells.json', 'termo-documento-dvds.json', 'termo-documento-laptops.json', 'termo-documento-routers.json']

contexts = ['contextualizacao-camera.json', 'contextualizacao-cells.json', 'contextualizacao-dvds.json', 'contextualizacao-laptops.json', 'contextualizacao-routers.json']

k = [9,10,6,12,10] #Numero de grupos por dominio
k1 = [7,8,4,10,8] #NUmero de grupos sem 'General' e 'Others'
s = 25 #Numero de clusteres iniciais
limiar = 0.5 #Valor de limiar para as distancias

In [22]:
sementes = ['sementes-camera.json','sementes-cells.json','sementes-dvds.json','sementes-laptops.json','sementes-routers.json']

sementes_alternativo = ['sementes-camera-alternativo.json','sementes-cells-alternativo.json','sementes-dvds-alternativo.json','sementes-laptops-alternativo.json','sementes-routers-alternativo.json']

iniciais = ['clusteres-iniciais-camera.json', 'clusteres-iniciais-cells.json', 'clusteres-iniciais-dvds.json', 'clusteres-iniciais-laptops.json', 'clusteres-iniciais-routers.json']

iniciais_alternativo = ['clusteres-iniciais-camera-alternativo.json', 'clusteres-iniciais-cells-alternativo.json', 'clusteres-iniciais-dvds-alternativo.json', 'clusteres-iniciais-laptops-alternativo.json', 'clusteres-iniciais-routers-alternativo.json']

In [23]:
clusteres_finais = ['clusteres-finais-camera.json', 'clusteres-finais-cells.json', 'clusteres-finais-dvds.json', 'clusteres-finais-laptops.json', 'clusteres-finais-routers.json']

clusteres_finais_alternativo = ['clusteres-finais-camera-alternativo.json', 'clusteres-finais-cells-alternativo.json', 'clusteres-finais-dvds-alternativo.json', 'clusteres-finais-laptops-alternativo.json', 'clusteres-finais-routers-alternativo.json']

In [24]:
agrupamentos_alternativo = ['agrupamentos-finais-camera-alternativo.txt', 'agrupamentos-finais-cells-alternativo.txt', 'agrupamentos-finais-dvds-alternativo.txt', 'agrupamentos-finais-laptops-alternativo.txt', 'agrupamentos-finais-routers-alternativo.txt']

In [25]:
clusteres = ['clusteres-camera.json', 'clusteres-cells.json', 'clusteres-dvds.json', 'clusteres-laptops.json', 'clusteres-routers.json']

clusteres_alternativo = ['clusteres-camera-alternativo.json', 'clusteres-cells-alternativo.json', 'clusteres-dvds-alternativo.json', 'clusteres-laptops-alternativo.json', 'clusteres-routers-alternativo.json']

In [22]:
#

In [48]:
for idx, ctx in enumerate(contexts):
    freq_atribute = {} #variavel que mapeia atributo para frequencia
    freq_valor = {} #variavel que mapeia frequencias para atributos
    grupos = [] #Variavel que guardará os grupos formados
    resto = [] #palavras que restaram após a primeira etapa
    matrizG = [] #Matriz de similaridade
    matrizT = [] #Matriz de contexto
    indices = {} #Variavel que mapeia os atributos para os indices
    gabarito = {} #Variavel que guarda o gabarito especificado
    mapeamentos = {} #Variavel que guarda o mapeamento de palavras-sentencas
    
    #Inicializando as variaveis de acordo com o dominio especificado
    #saves_gabarito_atual = saves_gabarito[dominio]
    contexts_atual = contexts[idx]
    frequencias_atual = frequencias[idx]
    
    #Inicializando as variaveis de acordo com o dominio especificado
    similaridades_atual = similaridades[idx]
    contextos_atual = contextos[idx]
    contextualizacao_atual = contextualizacao[idx]
    
    #Inicializando as variaveis de acordo com o dominio especificado
    sementes_atual = sementes_alternativo[idx]
    iniciais_atual = iniciais_alternativo[idx]
    
    #Inicializando as variaveis de acordo com o dominio especificado
    clusteres_finais_atual = clusteres_finais_alternativo[idx]
    
    #Inicializando as variaveis de acordo com o dominio especificado
    agrupamentos_atual = agrupamentos_alternativo[idx]
    
    #Inicializando as variaveis de acordo com o dominio especificado
    clusteres_atual = clusteres_alternativo[idx]
    
    # obtendo os mapeamentos de term-document
    with open('../../datasets_processed/contextualizacao/' + contextualizacao[idx], 'r') as fp:
        data_ctx_a = json.load(fp)
        
    for key, value in data_ctx_a.items():
        mapeamentos[key] = [set(v) for v in value]
        
    with open('../../datasets_processed/frequencias/' + frequencias[idx], 'r') as fp:
        data_freq = json.load(fp)
        
    for key in sorted(data_freq):
        freq_atribute[key] = data_freq[key]
        
        if(data_freq[key] not in freq_valor.keys()):
            freq_valor[data_freq[key]] = []
        
        freq_valor[data_freq[key]].append(key)
        
    cont = 0
    for key in sorted(freq_atribute.keys()):
        indices[key] = cont
        cont += 1
        
    matrizG = getMatriz(similaridade_atual)
    matrizT = getMatriz(contextos_atual)
    
    # Primeira etapa do algoritmo
    for val in sorted(freq_valor.keys(), reverse=True):
        for item in sorted(freq_valor[val]):
            if(len(grupos) < s):
                grupos.append([item])
            else:
                # as palavras restantes são armazenadas em uma variavel
                resto.append(item)
                
    print(ctx.split('-')[1].replace(".json", "") + ">> Número de Clusteres:{}".format(len(grupos)))
    print(ctx.split('-')[1].replace(".json", "") + " Grupos: {}".format(grupos))
    print()
    
    with open('../../resultados/sementes/' + sementes_atual, 'w') as fp:
        data_sem_atual = {}
        for i, g in enumerate(grupos):
            data_sem_atual[i] = g
        
        json.dump(data_sem_atual, fp)
            
    # SEgunda Etapa do Algoritmo
    print('Mesclando os Clusteres iniciais...')
    
    #mesclagem dos s clusteres iniciais de maior frequencia
    grupos = mesclar(grupos, limiar, matrizG, matrizT, indices, mapeamentos)
    
    # salvando o resultado da primeira etapa em um arquivo
    with open('../../resultados/clusteres/' + iniciais_atual, 'w') as fp:
        data_ini_atual = {}
        for i, g in enumerate(grupos):
            data_ini_atual[i] = g
        
        json.dump(data_ini_atual, fp)
        
    print('Mesclando palavras restantes...')
    for palavra in resto:
        grupos = mapear(palavra, grupos, limiar, matrizG, matrizT, indices, mapeamentos)
        
    # salvando o resultado da segunda etapa em um arquivo
    with open('../../resultados/clusteres/' + clusteres_finais_atual, 'w') as fp:
        data_clt_final = {}
        for i, g in enumerate(grupos):
            data_clt_final[i] = g
        json.dump(data_clt_final, fp)   
    # Terceira Etapa do Algortimo
    resposta, sums = select(freq_atribute, grupos)
    
    print('Clusteres finais')
    
    # Armazenando os agrupamentos fianis em um arquivo
    with open('../../resultados/agrupamentos/' + agrupamentos_atual, 'w') as fp:
        data_agr_atual = {}
        for i, x in enumerate(resposta):
            data_agr_atual[i] = x
        json.dump(data_agr_atual, fp)
        
    #Etapa Incremental
    outros = []
    ans = []
    
    for g in resposta:
        if(len(g) > 2):
            ans.append(g)
        else:
            outros.append(g)
            
    print("Mesclando Outros")
    outros = mesclar(outros, limiar, matrizG, matrizT, indices, mapeamentos)
    
    resp = ans + outros
    resp = mesclar(resp, limiar, matrizG, matrizT, indices, mapeamentos)
    resp, sums = select(freq_atribute, resp)
    
    with open('../../resultados/clusteres/' + clusteres_atual, 'w') as fp:
        data_grp = {}
        for i, a in enumerate(ans):
            data_grp[i] = a
        json.dump(data_grp, fp)

FileNotFoundError: [Errno 2] No such file or directory: '../../datasets_processed/contextualizacao/termo-documento-camera.json'

In [47]:
for idx, ctx in enumerate(contexts):
    print(ctx.split('-')[1].replace(".json", ""))

camera
cells
dvds
laptops
routers
