In [42]:
from gensim.models import KeyedVectors
from sklearn.metrics.pairwise import cosine_similarity
import nltk

Setting Up NLTK features

In [2]:
nltk.download('machado')
nltk.download('stopwords')

[nltk_data] Downloading package machado to
[nltk_data]     /home/subject17/nltk_data...
[nltk_data]   Package machado is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/subject17/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Setting up model

In [3]:
model = KeyedVectors.load_word2vec_format('../cbow_s50.txt')

In [4]:
machadoCorpus = nltk.corpus.machado
machadoRaw = machadoCorpus.words('contos/macn001.txt')
ptStopwords = nltk.corpus.stopwords.words('portuguese')

In [5]:
machadoRaw[:10]

['Conto',
 ',',
 'Contos',
 'Fluminenses',
 ',',
 '1870',
 'Contos',
 'Fluminenses',
 'Texto',
 '-']

In [6]:
ptStopwords += "," + "." + ":" + ";" + "!" + "?"
machadoWords = [emb for emb in machadoRaw if (emb not in ptStopwords) and (emb in model)]
machadoEmbeddings = [model[emb] for emb in machadoWords]

In [7]:
print (ptStopwords)

['de', 'a', 'o', 'que', 'e', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estivermos

In [8]:
from nltk.cluster import KMeansClusterer

NUM_CLUSTERS = 3
kclusterer = KMeansClusterer(NUM_CLUSTERS, distance=nltk.cluster.util.cosine_distance, avoid_empty_clusters=True, repeats=25)
assigned_clusters = kclusterer.cluster(machadoEmbeddings, assign_clusters=True)
# print (assigned_clusters)

In [9]:
for i, word in enumerate(machadoWords):  
    print (word + ":" + str(assigned_clusters[i]))

-:1
fonte:2
vol:2
originalmente:2
iii:2
iv:2
v:2
conveniente:2
romance:2
leitor:2
ficasse:0
tempo:2
saber:1
outro:2
lado:2
apresentação:2
autor:2
obrigado:2
longas:2
digressões:2
encheriam:0
papel:2
adiantar:1
ação:2
hesitação:2
possível:2
vou:0
apresentar:1
-:1
leitor:2
é:0
rapaz:2
dado:0
gênio:2
melancólico:2
imagina:0
é:0
inglesa:2
pálida:2
delgada:0
escassa:2
carnes:2
sangue:2
abrindo:0
flor:2
rosto:2
dois:2
grandes:2
olhos:2
azuis:2
sacudindo:0
vento:2
umas:2
longas:2
tranças:2
loiras:2
moça:2
questão:2
deve:0
ser:1
vaporosa:2
ideal:2
criação:2
deve:0
ser:1
contraste:2
roastbeef:2
britânico:0
alimenta:0
liberdade:2
tal:1
deve:0
ter:1
poeta:2
cor:2
ler:1
original:2
souber:0
português:2
deve:0
deliciar:1
-:1
leitura:2
sonetos:2
chá:2
leite:2
devem:0
ser:1
alimentação:2
semelhante:2
criatura:2
adicionando:0
-:1
-:1
alguns:2
confeitos:2
biscoitos:2
acudir:2
urgências:2
estômago:2
fala:0
deve:0
ser:1
murmúrio:2
harpa:2
eólia:2
amor:2
desmaio:2
vida:2
contemplação:2
morte:2
suspiro:2
fi

noivado:2
espírito:2
homem:2
vence:0
vencê:1
-:1
lo:1
tempo:2
cabe:0
final:2
razão:2
tempo:2
convenceu:0
suspeita:2
gratuita:2
coincidindo:2
coração:2
veio:0
tornar:1
-:1
efetivo:2
casamento:2
apenas:1
celebrado:2
ignorou:0
coisas:2
cada:1
vez:2
encontrava:0
chamava:0
-:1
amor:2
mania:2
todo:2
sujeito:2
idéias:2
ocorrem:0
trimestralmente:2
apenas:1
pilhada:2
alguma:1
jeito:2
repetia:0
-:1
saciedade:2
dois:2
esposos:2
ainda:1
noivos:2
prometem:0
sê:1
-:1
lo:1
morte:2
meteu:0
-:1
diplomacia:2
promete:0
ser:1
luzeiros:2
representação:2
internacional:0
continua:0
ser:1
bom:2
pândego:2
prepara:0
-:1
despedir:2
-:1
mundo:2
causa:2
indireta:2
todos:2
acontecimentos:2
saindo:2
dia:2
rua:2
pisada:2
carro:2
faleceu:0
pouco:2
pôde:0
reter:1
algumas:2
lágrimas:2
nobre:2
cadelinha:2
corpo:2
enterrado:2
chácara:2
sombra:2
laranjeira:2
cobre:0
sepultura:2
lápide:2
simples:2
inscrição:2
iii:2
iv:2
v:2
dia:2
noite:2
dizia:0
é:0
restaurar:1
império:2
natureza:2
corrigindo:0
obra:2
sociedade:2
calor:2
so

passe:2
nesse:1
caso:2
ofereço:0
-:1
lugar:2
coupé:2
:1
é:0
incômodo:2
...:0
:1
incômodo:2
prazer:2
deixá:1
-:1
lo:1
casa:2
mora:0
:1
nº:0
...:0
:1
suba:0
hesitou:0
pouco:2
podia:0
deixar:1
subir:1
ofender:1
digno:2
homem:2
tão:1
boa:2
vontade:2
fazia:0
obséquio:2
vez:2
mandar:1
cocheiro:2
deputado:2
gritou:0
:1
casa:2
entrou:0
olhou:0
admirado:2
:1
sei:0
disse:0
-:1
admira:0
-:1
ver:1
faltei:0
palavra:2
desejo:2
apenas:1
fique:0
conhecendo:0
casa:2
fim:2
lá:2
voltar:2
quanto:1
antes:2
coupé:2
rolava:0
rua:2
debaixo:2
chuva:2
torrencial:2
primeiro:2
rompeu:0
silêncio:2
alguns:2
minutos:2
dizendo:0
jovem:2
amigo:2
:1
romance:2
amizade:2
termine:0
primeiro:2
capítulo:2
reparara:0
maneiras:2
solícitas:2
deputado:2
ficou:0
inteiramente:2
pasmado:2
ouviu:0
falar:2
romance:2
amizade:2
razão:2
simples:2
amigo:2
havia:0
apresentado:0
disse:0
dia:2
seguinte:2
:1
é:0
misantropo:2
cético:2
crê:0
nada:2
estima:0
ninguém:2
política:2
sociedade:2
faz:0
papel:2
puramente:1
negativo:2
impressã

traduzo:2
sons:2
tremendos:2
rufos:2
marciais:2
enchendo:2
campos:2
assunto:2
inspira:0
canto:2
espada:2
dá:0
morte:2
campa:2
abraço:2
dá:0
vida:2
glória:2
havia:0
prometido:2
logo:2
procurar:1
deputado:2
vez:2
ir:1
direito:2
fim:2
quis:0
antes:2
sondá:1
-:1
lo:1
respeito:2
passado:2
primeira:2
vez:2
moço:2
tocava:0
tal:1
desconfiou:0
estranhou:0
tal:1
confiança:2
nele:2
recusou:0
nada:2
:1
imaginei:0
dissera:0
-:1
vida:2
drama:2
talvez:2
engano:2
verdade:2
é:0
ainda:1
perdi:0
idéia:2
:1
efeito:2
drama:2
drama:2
pateado:2
sorria:0
é:0
assim:2
supõe:0
então:2
:1
suponho:0
nada:2
...:0
:1
dramas:2
homem:2
político:2
:1
:1
digo:0
político:2
entrei:0
vida:2
pública:1
vocação:2
entrei:0
entra:0
sepultura:2
dormir:2
melhor:2
fiz:0
razão:2
é:0
drama:2
fala:0
:1
mulher:2
talvez:2
...:0
:1
mulher:2
:1
disse:0
procurando:0
sorrir:2
talvez:2
esposa:2
estremeceu:0
olhou:0
amigo:2
espantado:2
desconfiado:2
:1
lho:2
disse:0
:1
:1
esposa:2
sim:2
direi:0
nada:2
primeira:2
pessoa:2
ouve:0
t

circunstâncias:2
disse:0
devem:0
ser:1
bem:2
definidas:0
possa:0
compreender:1
bem:2
...:0
:1
opinião:2
:1
filha:2
:1
vezes:2
queres:0
to:1
diga:0
:1
amor:2
acima:0
todas:2
circunstâncias:2
:1
todas:2
salvo:2
entenderem:0
felicidade:2
:1
ser:1
francos:2
além:2
amigo:2
sempre:2
foste:0
és:0
agora:2
quase:1
filho:2
...:0
discrição:2
indiscreta:2
...:0
:1
dúvida:2
respondeu:0
:1
saber:1
negócios:2
param:0
mal:2
despesas:2
fiz:0
alteraram:0
profundamente:2
economia:2
vida:2
modo:2
minto:0
dizendo:0
pobre:2
reprimiu:0
careta:2
:1
continuou:0
fortuna:2
dote:2
é:0
apenas:1
mulher:2
dou:0
afianço:0
é:0
é:0
anjo:2
ser:1
excelente:2
esposa:2
calou:0
-:1
olhar:2
cravado:2
rapaz:2
parecia:0
querer:2
arrancar:1
-:1
feições:2
impressões:2
alma:2
devia:0
responder:1
durante:0
alguns:2
minutos:2
ambos:2
profundo:2
silêncio:2
pretendente:2
tomou:0
palavra:2
:1
disse:0
franqueza:2
usarei:0
franqueza:2
igual:2
:1
peço:0
outra:2
coisa:2
...:0
:1
certo:2
dinheiro:2
inspirou:0
amor:2
creio:0
far

assentada:2
pouco:2
noite:2
tempo:2
passasse:0
idílio:2
escrito:2
idílio:2
vivo:2
-:1
olhar:2
ti:2
olhou:0
disse:0
:1
começamos:0
lua:2
-:1
-:1
mel:2
:1
é:0
acrescentou:0
casamento:2
eternamente:2
poderia:0
ser:1
ligação:2
duas:2
existências:2
meditar:2
discretamente:2
melhor:2
maneira:2
comer:2
maxixe:2
repolho:2
amor:2
penso:0
casamento:2
deve:0
ser:1
namoro:2
eterno:2
pensas:0
:1
disse:0
:1
é:0
quanto:1
basta:0
:1
mulheres:2
sintam:0
é:0
natural:2
homens:2
...:0
:1
homens:2
homens:2
:1
mulheres:2
é:0
sentimento:2
homens:2
é:0
pieguice:2
desde:1
pequena:2
dizem:0
:1
-:1
desde:1
pequena:2
disse:0
rindo:2
:1
:1
verdade:2
desconfia:0
sempre:2
falam:0
homens:2
mulheres:2
perto:2
exemplo:2
fala:0
isenção:2
vezes:2
casou:0
aqui:2
duas:2
vinte:2
cinco:2
anos:2
melhor:2
calar:1
-:1
casar:2
-:1
menos:2
:1
nela:2
é:0
brincadeira:2
disse:0
:1
é:0
brincadeira:2
é:0
três:2
meses:2
casamento:2
parecem:0
-:1
três:2
minutos:2
...:0
:1
meses:2
exclamou:0
:1
foge:0
tempo:2
disse:0
:1
se

infelizmente:2
assim:2
trabalhar:2
vão:0
viúva:2
determinou:0
dar:1
golpe:2
decisivo:2
conversa:2
doçuras:2
casamento:2
lamentou:0
estado:2
viuvez:2
casal:2
tipo:2
perfeita:2
felicidade:2
conjugal:2
-:1
olhos:2
incentivo:2
queria:0
ser:1
venturoso:2
terra:2
tese:2
hipótese:2
nada:2
moveu:0
frieza:2
jogava:0
jogo:2
perigoso:2
preciso:2
decidir:1
desejos:2
vingar:2
sexo:2
conveniências:2
posição:2
caráter:2
imperioso:2
respeitava:0
princípios:2
moral:2
severa:2
acatava:0
modo:2
conveniências:2
sociedade:2
cercava:0
moral:2
vaidade:2
impunha:0
espírito:2
força:2
prodigiosa:2
bela:2
viúva:2
usando:0
todos:2
meios:2
lícito:0
empregar:1
fazer:1
apaixonar:1
apaixonado:2
faria:0
pergunta:2
é:0
ociosa:2
desde:1
pés:2
trataria:0
conservá:1
-:1
lo:1
aí:2
fazendo:0
parelha:2
velho:2
melhor:2
troféu:2
beleza:2
altiva:2
pode:0
ambicionar:1
manhã:2
oito:2
dias:2
cenas:2
referidas:0
capítulo:2
anterior:2
apareceu:0
casa:2
aí:2
acabado:2
almoçar:2
subira:0
gabinete:2
fim:2
aviar:2
alguma:1
correspondên

carta:2
muitas:2
falhas:2
quero:0
corrigir:1
exposição:2
ingênua:2
sincera:2
frade:2
sepultura:2
escolheu:0
convento:2
pai:2
agradecia:0
filha:2
conselheiro:2
daquele:1
dia:2
diante:2
pertencia:0
serviço:2
pai:2
ficou:0
maravilhado:2
suspeitou:0
filho:2
pudesse:0
vir:1
ter:1
semelhante:2
resolução:2
pressas:2
ver:1
desviava:0
idéia:2
pôde:0
conseguir:0
correspondente:2
tudo:2
embrulhava:0
cada:1
vez:2
deixou:0
rapaz:2
seguir:1
claustro:2
disposto:2
figurar:1
negócio:2
nada:2
realmente:1
sabia:0
obrigado:2
ir:1
província:2
natal:2
missão:2
religiosa:2
tempos:2
fatos:2
acabo:0
narrar:1
-:1
embarcou:0
missão:2
capital:2
interior:2
capital:2
pareceu:0
-:1
dever:2
ir:1
visitar:1
pais:2
mudados:2
física:2
moralmente:2
certeza:2
dor:2
remorso:2
terem:1
precipitado:2
filho:2
resolução:2
tomou:0
vendido:2
casa:2
comercial:2
viviam:0
rendas:2
filho:2
alvoroço:2
verdadeiro:2
amor:2
lágrimas:2
consolações:2
vieram:0
fim:2
viagem:2
:1
vens:0
filho:2
:1
cumprir:1
missão:2
sacerdócio:2
abracei:0
pr

Ref

http://ai.intelligentonlinetools.com/ml/text-clustering-word-embedding-machine-learning/

http://nilc.icmc.usp.br/embeddings

In [52]:
import numpy as np

def similar_cos(u, v):
    distance = 0.0

    # Compute the dot product between u and v (≈1 line)
    dot = np.dot(u, v)
    # Compute the L2 norm of u (≈1 line)
#     norm_u = np.sqrt(np.sum(u**2))
    norm_u = np.linalg.norm(u)
    
    # Compute the L2 norm of v (≈1 line)
#     norm_v = np.sqrt(np.sum(v**2))
    norm_v = np.linalg.norm(v)
    
    # Compute the cosine similarity defined by formula (1) (≈1 line)
    cosine_similarity = dot / (norm_u * norm_v)

    return cosine_similarity

def extract_relation(target, related):
    return target - related

def find_best_related_word(target, relation, model):
#     related = target + relation
    max_sim = 0.0
    best_word = None
    for word in model.vocab:
        sim = cosine_similarity(relation.reshape(1,-1),extract_relation(target, model.word_vec(word)).reshape(1,-1) )
#         sim = model.similarity(relation, )
        if(sim > max_sim):
            best_word = word
    
    return best_word;
    

In [32]:
def get_similar_relation_by_triad(u_word, v_word, t_word):
    if(u_word in model.vocab and v_word in model.vocab and t_word in model.vocab):

        u = model.word_vec(u_word)
        v = model.word_vec(v_word)
        t = model.word_vec(t_word)

        relation = extract_relation(u, v)
        best_word = find_best_related_word(t, relation, model)

        print (best_word)
    else:
        print ('palavra nao encontrada no modelo')

In [53]:
get_similar_relation_by_triad("rei", "homem", "rainha")

sentar-se-ia


In [24]:
get_similar_relation_by_triad("italia", "italiano", "espanha")

  from ipykernel import kernelapp as app


sentar-se-ia


In [41]:
!pip install sklearn

