Cada palavra é um vetor de N dimensões (geralmente N = 100 ou N = 300).

Os vetores têm sentido! É possível representar palavras com sentido contrário agora.

A melhor maneira de entender o sentido de uma palavra é analisando o seu contexto. No Word Embeddings nós faremos isso usando a técnica do Skip-Gram.

Exemplo: *The external scars tell only part of the story.*

Cada palavra vai ser representada num vetor de N dimensões (N = 100 nesse exemplo) com valores aleatórios pra cada uma das dimensões. A ideia do Skip-Gram é semelhante a de N-Grams, onde ele vai pegar a janela de contexto das palavras antes e depois da palavra atual, usando os vetores das mesmas. Por exemplo, uma janela de (1,1) começando em **external**, vai olhar para o vetor da palavra **The** e **scars** pra analisar o contexto de **external** e usar isso para atualizar o vetor com seus valores. E isso ocorre pra todas as palavras no documento, ou seja, quanto mais texto (que possua sentido) mais coerente serão os Embeddings.

O skip-gram pode mudar o tamanho da janela para bi-grams, por exemplo. E o mesmo procedimento será feito, só que a janela de contexto é aumentada para os vetores das **duas** palavras de antes e depois.

In [1]:
import pandas as pd
import numpy as np
from gensim.models import Word2Vec

In [2]:
exemplos = [
    "The external scars tell only part of the story.",
    "The book is on the table",
    "Today is a sunny day",
    "I'm happy to see you"
]

É necessário realizar a quebra das frases em palavras para esse modelo **Word2Vec**.

In [3]:
# Para cada exemplo dentro da lista de exemplos
for i in range(len(exemplos)):
    # O exemplo atual é uma frase e será splitado por ' '
    # tornando em uma lista de palavras separadas
    # e será atualizado na própria lista.
    exemplos[i] = exemplos[i].split(' ')
exemplos

[['The', 'external', 'scars', 'tell', 'only', 'part', 'of', 'the', 'story.'],
 ['The', 'book', 'is', 'on', 'the', 'table'],
 ['Today', 'is', 'a', 'sunny', 'day'],
 ["I'm", 'happy', 'to', 'see', 'you']]

In [21]:
model =  Word2Vec(exemplos, size=300, window=5, min_count=1, workers=2)

In [22]:
model['The']

  """Entry point for launching an IPython kernel.


array([-1.1935349e-03,  1.4984226e-03, -1.6355427e-03, -1.1101502e-03,
        2.2430083e-04,  9.0551417e-04,  6.7524292e-04, -8.2292693e-04,
       -9.5842563e-04, -1.2412198e-03,  1.1157120e-03, -1.3672208e-03,
       -2.4002213e-04, -2.0368701e-04,  1.0915842e-03,  2.9028434e-04,
       -7.0928567e-04,  1.5390419e-03, -1.1376572e-03,  1.5466325e-03,
       -1.6397645e-03,  9.0512179e-04,  6.7506783e-04, -3.4491844e-05,
        1.3932100e-03,  2.0501750e-05, -1.0453670e-03,  5.6158926e-04,
       -7.0034468e-04,  9.0289488e-04, -4.1511978e-04, -1.1471860e-03,
       -3.8170654e-04, -2.6539408e-04, -1.5094976e-03, -1.3892283e-03,
        1.3699837e-03, -3.2199299e-04, -1.2316778e-03, -1.0453312e-03,
       -1.0668490e-03,  7.5468014e-04,  1.3804679e-03,  1.3764604e-03,
       -9.2329463e-04,  7.4838579e-04,  1.1860004e-03,  1.1423572e-03,
       -3.3921801e-04, -9.0168708e-04,  4.6480581e-04, -3.4476968e-04,
       -9.0470130e-04,  1.0621877e-03,  5.3886604e-04, -8.1429796e-05,
      

Nós poderiamos ter feito toda a etapa de pré-processamento, porém nesse modelo de Embeddings, tirar stop-words, por exemplo, não é bom, pois perdemos contexto, sentido e etc, o que não ajudaria.

Para cada lista de palavras que foram transformadas em vetores, criaremos um documento.

In [12]:
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

In [13]:
documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(exemplos)]

In [14]:
documents

[TaggedDocument(words=['The', 'external', 'scars', 'tell', 'only', 'part', 'of', 'the', 'story.'], tags=[0]),
 TaggedDocument(words=['The', 'book', 'is', 'on', 'the', 'table'], tags=[1]),
 TaggedDocument(words=['Today', 'is', 'a', 'sunny', 'day'], tags=[2]),
 TaggedDocument(words=["I'm", 'happy', 'to', 'see', 'you'], tags=[3])]

In [26]:
model = Doc2Vec(documents, vector_size=5, window=2, min_count=1, workers=4)

In [28]:
model.infer_vector(['The', 'love'])

array([ 0.02526971, -0.02562221, -0.00999885, -0.03328141,  0.08449798],
      dtype=float32)