Este é um programa que visa agrupar palavras de uma lista com relação ao seu significado. Ou seja, palavras como "screen" e "display", ou "processor" e "cpu" deverão estar próximas umas das outras, apesar de terem a escrita bastante diferente.

Para isso, será usada a técnica de embedding, que "traduz" strings para vetores n-dimensionais, de acordo com um treinamento prévio em textos. Porém, ao invés de treinar minha própria rede neural, decidi baixar uma base de dados com palavras já traduzidas em vetores por uma rede neural treinada anteriormente por terceiros. Acabei optando por esta escolha por não ter muita confiabilidade nas bases de treinamento que encontrei, e também porque, aparentemente, a diferença entre treinar sua própria rede neural para embeddings do zero não é tão melhor do que pegar um conjunto de vetores pré-treinados. (https://towardsdatascience.com/pre-trained-word-embeddings-or-embedding-layer-a-dilemma-8406959fd76c).

Reconheço que poderia alcançar um resultado mais preciso caso fizesse meu próprio treino, mas precisaria de uma base de dados própria, como as reviews de onde as palavras da lista original foram tiradas.

A base de dados utilizada foi baixada de https://nlp.stanford.edu/projects/glove/, e ela foi treinada com páginas da Wikipedia e Gigaword. Desta maneira, espero que os vetores consigam aproximar termos técnicos e termos coloquiais com a mesma facilidade. Créditos a Jeffrey Pennington, Richard Socher e Christopher D. Manning. 2014. GloVe: Global Vectors for Word Representation.

In [1]:
from numpy import array
from numpy import asarray
from numpy import zeros

dicio = dict()
file = open('glove.6B.300d.txt', encoding="utf8")
for i in file:
    aux = i.split()
    palavra = aux[0]
    vect = asarray(aux[1:], dtype='float32')
    dicio [palavra] = vect

file.close()

In [2]:
# Importando o arquivo .csv recebido
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
palavras = pd.read_csv('laptop_filtered_aspect_sample.csv', header=(0))


print(palavras.shape)
#Conferindo se a base foi corretamente exportada

(7335, 1)


In [3]:
#Alguns termos na pesquisa são compostos de duas palavras separadas. Achei melhor dividi-las na hora de configurar o algoritmo.
def quebraPalavras(data,header):
    auxHeader = [header]
    auxList = []
    for i in range(data.size):
        stringParaQuebrar = data.iloc[i][header]
        stringParaQuebrar = stringParaQuebrar.split()
        for i in range(len(stringParaQuebrar)):
            auxList.append(stringParaQuebrar[i])
    
    brokenData = pd.DataFrame(auxList) 
    #brokenData = brokenData.append(brokenData, auxList, ignore_index=True)    
    brokenData = brokenData.drop_duplicates()
    
    return brokenData

In [4]:
# Temos dois dataframes: o original (palavras) e um com termos compostos separados (palavrasSeparadas)

palavrasSeparadas = quebraPalavras(palavras,'aspect_name')

#verificando diferença entre os dois dataframes
print(palavrasSeparadas.shape)

(3493, 1)


In [5]:
def adicionaVec(data,header):
    auxListPalavras = []
    auxListVetores = []
    auxListOrphans = []
    for i in range(data.size):
        palavraPesquisada = data.iloc[i][header]
        
        if(palavraPesquisada in dicio):
            auxListPalavras.append(palavraPesquisada)
            auxVect = dicio[palavraPesquisada]
            auxListVetores.append(auxVect)
        else:
            auxListOrphans.append(palavraPesquisada)
            #print(palavraPesquisada, " Não foi encontrada.")

    listaPalavras = auxListPalavras
    listaVetores = np.array(auxListVetores)
    return listaPalavras,listaVetores,auxListOrphans

In [6]:
#formando a lista de palavras e a array de vetores. Por enquanto, palavras "órfãs", sem equivalência 
#na base baixada, serão deixadas de lado.
pal,vec,foo = adicionaVec(palavrasSeparadas,0)

print("Palavras encontradas:",len(pal))

print("Palavras não encontradas:",len(foo))

Palavras encontradas: 3285
Palavras não encontradas: 208


Agora, captamos os dados e já temos equivalências para a grande maioria das palavras da lista. Ao inspecionar o .csv, é possível perceber que muitas delas estão em português. Isso complica bastante a análise, já que o dicionário é da língua inglesa, e simplesmente baixar um dicionário em português não daria a mesma equivalência de vetores. Uma possibilidade seria usar um dicionário para traduzir as palavras, mas isso adiciona ainda mais distorção. Por enquanto, deixarei as 208 palavras sem equivalência de lado.

Agora, para procurar palavras com significados semelhantes, irei utilizar o algoritmo DBSCAN. Ele detecta aglomerados com base na densidade dos mesmos, e não dependem de quantidade de sementes. Isso será bastante útil, dado que não sabemos quantos "conjuntos sêmanticos" existem na base de dados.

In [7]:
from sklearn.metrics import silhouette_score
from sklearn.cluster import DBSCAN

aglomerador = DBSCAN(eps = 0.5, min_samples=2, metric = 'cosine')
aglomerador.fit(vec)

tipos = aglomerador.labels_[range(len(pal))]

print("Quantidade de aglomerados encontrados:" , len(np.unique(tipos)-1))
print("Quantidade de palavras sem aglomerado:" , np.count_nonzero(tipos == -1))

Quantidade de aglomerados encontrados: 136
Quantidade de palavras sem aglomerado: 868


O código acima foi criado para procurar por aglomerados relativamente pequenos, e ainda sim deixa várias palavras marcadas como "outliers". Vou analisar com quantidades diferentes de elementos mínimos para aglomerado.

In [8]:
def testaDBSCAN(vec):
    for i in range(10):
        aglomerador = DBSCAN(min_samples=i, metric = 'cosine')
        aglomerador.fit(vec)

        tipos = aglomerador.labels_[range(len(pal))]
        print("Clusters com um mínimo de ",i," elementos")
        print("Quantidade de aglomerados encontrados:" , len(np.unique(tipos)-1))
        print("Quantidade de palavras sem aglomerado:" , np.count_nonzero(tipos == -1))
        print("-"*20)
        
testaDBSCAN(vec)

Clusters com um mínimo de  0  elementos
Quantidade de aglomerados encontrados: 1003
Quantidade de palavras sem aglomerado: 0
--------------------
Clusters com um mínimo de  1  elementos
Quantidade de aglomerados encontrados: 1003
Quantidade de palavras sem aglomerado: 0
--------------------
Clusters com um mínimo de  2  elementos
Quantidade de aglomerados encontrados: 136
Quantidade de palavras sem aglomerado: 868
--------------------
Clusters com um mínimo de  3  elementos
Quantidade de aglomerados encontrados: 36
Quantidade de palavras sem aglomerado: 1068
--------------------
Clusters com um mínimo de  4  elementos
Quantidade de aglomerados encontrados: 15
Quantidade de palavras sem aglomerado: 1236
--------------------
Clusters com um mínimo de  5  elementos
Quantidade de aglomerados encontrados: 14
Quantidade de palavras sem aglomerado: 1378
--------------------
Clusters com um mínimo de  6  elementos
Quantidade de aglomerados encontrados: 9
Quantidade de palavras sem aglomerado: 

O número de aglomerados cai bastante conforme o número mínimo aumenta, mas a principal queda é de 2 para 3. Além disso, o número de palavras sem aglomerado não aumenta tanto, o que me leva a crer que as palavras "outliers" são bastante anormais, e nao aparecem muitas vezes. Vou analisar melhor os elementos sem aglomerado quando o cluster tem mínimo de 2 elementos.

In [9]:
aglomerador = DBSCAN(min_samples=2, metric = 'cosine')
aglomerador.fit(vec)

tipos = aglomerador.labels_[range(len(pal))]

indiceOutlier = 0
for i in range(len(tipos)):
    if(tipos[i]==-1): 
        print(indiceOutlier)
        print(pal[indiceOutlier])
    indiceOutlier = indiceOutlier+1
    

20
chromebook
35
promotion
42
gaming
75
keys
78
ssd
80
lightweight
99
specs
102
touchpad
107
chrome
121
charger
136
pro
137
entrega
151
trackpad
164
super
168
hdd
169
pen
174
sd
188
o
193
bottom
201
boot
234
brightness
245
friendly
265
heavy
272
tabs
295
portability
308
lid
315
notes
324
tela
333
stylus
334
startup
339
bateria
341
reset
360
responsive
366
dia
371
junk
382
webcam
383
hp
384
bloatware
388
netflix
400
breeze
403
slim
412
everyday
416
series
434
core
444
logo
447
middle
474
docs
498
jack
499
optical
500
buck
512
fps
514
penny
524
board
529
bells
533
bonus
550
bucks
555
ultra
557
valor
562
micro
569
sync
573
curve
574
default
581
sim
593
bang
597
macbooks
602
compra
603
x1
606
mais
620
extreme
631
schedule
637
scratch
639
yoga
640
dual
645
caps
649
enjoyed
653
retina
658
steal
660
multitasking
667
som
668
walmart
669
mousepad
672
flash
684
geral
699
notch
713
min
714
intuitive
724
yr
731
ecosystem
749
smooth
753
lightning
755
summary
773
chassis
781
back-lit
782
brainer
794

3087
wipe
3096
fingertip
3098
camel
3101
enemy
3110
bumps
3111
mines
3112
newbie
3113
introduction
3114
interruption
3118
branch
3121
witch
3123
número
3124
integrates
3126
bootable
3130
spills
3131
bom
3132
square
3133
formatting
3134
stack
3136
ops
3138
fotos
3139
wobbly
3143
wow
3144
strike
3147
binge
3149
optimization
3150
misrepresentation
3153
illumination
3154
bench
3155
idle
3157
accomplished
3160
tact
3163
:
3164
-
3165
tbm
3166
hyper
3167
threading
3168
techy
3171
thou
3176
baixo
3178
shabby
3179
top-notch
3184
nicks
3193
trim
3199
twins
3203
earphone
3204
uhd
3206
ultraportable
3207
unbearably
3210
non-apple
3211
grading
3213
adjustable
3214
vale
3215
appreciation
3217
anterior
3218
anomaly
3222
estrelas
3229
peeve
3231
dentro
3234
pinhole
3237
whim
3239
expedited
3241
shallow
3246
octane
3247
popups
3250
pos
3251
ddr3
3253
hungry
3254
hds
3255
occasional
3256
gym
3257
predator
3261
gut
3263
lows
3264
guest
3268
obsolescence
3269
unhelpful
3274
crafting
3275
airflow
3280
log

Ao analisar os "outliers", se percebe que há algumas palavras em português perdidas no meio, e algumas outras que um humano consideraria semelhante. Porém, várias outras usam termos pouco convencionais ou gírias, como "wow" e "sleekness". Treinar uma máquina para reconhecer exemplos dentro de um texto provavelmente teria sido capaz de agrupar esses dados, uma vez que essas gírias viriam junto de um contexto.

Irei refazer a análise com a lista original, sem separações, para verificar se existiam "outliers" com um contexto que foi perdido.

In [10]:
palNov,vecNov,fooNov = adicionaVec(palavras,'aspect_name')

print("Palavras encontradas:",len(palNov))

print("Palavras não encontradas:",len(fooNov))

Palavras encontradas: 2659
Palavras não encontradas: 4676


In [11]:
aglomerador = DBSCAN(min_samples=2, metric = 'cosine')
aglomerador.fit(vecNov)

tiposNovos = aglomerador.labels_[range(len(palNov))]

print("Quantidade de aglomerados encontrados:" , len(np.unique(tiposNovos)-1))
print("Quantidade de palavras sem aglomerado:" , np.count_nonzero(tiposNovos == -1))

Quantidade de aglomerados encontrados: 128
Quantidade de palavras sem aglomerado: 784


In [12]:
print("Taxa de outliers com palavras divididas:",np.count_nonzero(tipos == -1)/len(pal))
print("Taxa de outliers com palavras juntas (sem divisão):",np.count_nonzero(tiposNovos == -1)/len(palNov))

Taxa de outliers com palavras divididas: 0.26423135464231357
Taxa de outliers com palavras juntas (sem divisão): 0.2948476871004137


Dividir as palavras aumentou a taxa de reconhecimento do algoritmo, mas creio que uma IA treinada com uma base de comentários seria capaz de identificar melhor esses conjuntos.

Os códigos abaixo podem ser utilizados para buscar por palavras e conjuntos.

In [13]:
def conteudoDoCluster(numCluster):
    conteudos = []
    for i in range(len(pal)):
        if(tipos[i]==numCluster): 
            conteudos.append(pal[i])
    print("O aglomerado possui as palavras:",conteudos)
    print(len(conteudos))


def estaEmCluster(palavraPraChecar):
    for i in range(len(pal)):
        if(pal[i]==palavraPraChecar): 
            print("A palavra", pal[i], "está na posição", i, "da lista, e no cluster", tipos[i])
            if(tipos[i]!=-1): 
                conteudoDoCluster(tipos[i])
            else:
                print("A palavra foi considerada como outlier.")
            break
    print("Palavra não encontrada.")
        

In [14]:
estaEmCluster("life")

A palavra life está na posição 11 da lista, e no cluster 0
2063
Palavra não encontrada.


In [15]:
for i in range(130):
    conteudoDoCluster(i+1)

O aglomerado possui as palavras: ['battery', 'batteries', 'recharge', 'recharges']
4
O aglomerado possui as palavras: ['com', 'dot']
2
O aglomerado possui as palavras: ['touch', 'touches']
2
O aglomerado possui as palavras: ['speakers', 'speaker']
2
O aglomerado possui as palavras: ['warranty', 'warranties']
2
O aglomerado possui as palavras: ['gift', 'gifts']
2
O aglomerado possui as palavras: ['pros', 'cons']
2
O aglomerado possui as palavras: ['handle', 'handling', 'handles']
3
O aglomerado possui as palavras: ['replacement', 'replacements', 'replaced', 'replacing']
4
O aglomerado possui as palavras: ['monitor', 'monitors']
2
O aglomerado possui as palavras: ['pad', 'pads']
2
O aglomerado possui as palavras: ['antes', 'todas', 'todos', 'por', 'que', 'con', 'si', 'de', 'para', 'recursos', 'y', 'problemas', 'parte', 'problema', 'ano', 'apenas', 'anos', 'como', 'mas', 'principio']
20
O aglomerado possui as palavras: ['cover', 'covers']
2
O aglomerado possui as palavras: ['scratches', '

Ao fazer testes, vi que o DBSCAN fez alguns aglomerados interessantes, mas infelizmente juntou a grande maioria das palavras em um único aglomerado. Vou tentar com outro método, o aglomerativo.

In [40]:
from sklearn.cluster import AgglomerativeClustering
AgCl = AgglomerativeClustering(n_clusters=None, affinity="cosine", compute_full_tree=True, linkage="complete", distance_threshold=0.8)

AgCl.fit(vec)

tiposAg = AgCl.labels_[range(len(pal))]

print("Quantidade de aglomerados encontrados:" , len(np.unique(tiposAg)-1))
print("Quantidade de palavras sem aglomerado:" , np.count_nonzero(tiposAg == -1))

Quantidade de aglomerados encontrados: 704
Quantidade de palavras sem aglomerado: 0


In [33]:
def conteudoDoClusterAg(numCluster):
    conteudos = []
    for i in range(len(pal)):
        if(tiposAg[i]==numCluster): 
            conteudos.append(pal[i])
    print("O aglomerado possui as palavras:",conteudos)
    print(len(conteudos))


def estaEmClusterAg(palavraPraChecar):
    for i in range(len(pal)):
        if(pal[i]==palavraPraChecar): 
            print("A palavra", pal[i], "está na posição", i, "da lista, e no cluster", tiposAg[i])
            if(tipos[i]!=-1): 
                conteudoDoClusterAg(tiposAg[i])
            else:
                print("A palavra foi considerada como outlier.")
            return
    print("Palavra não encontrada.")

In [47]:
estaEmClusterAg("port")

A palavra port está na posição 142 da lista, e no cluster 272
O aglomerado possui as palavras: ['ports', 'port', 'shipping', 'dock', 'docks', 'freight']
6
