In [1]:
from keras.utils import np_utils
from keras.preprocessing import sequence
from nltk import word_tokenize

Using TensorFlow backend.


In [4]:
class Cbow:
    def __init__(self, text: str, context_window: int=1):
        self._text = text
        self._tokens = word_tokenize(text)
        self._len_tokens = len(self._tokens)
        self._context_window = context_window
        self.id2word = {
            _id: text 
            for _id, text in enumerate(set(self.tokens))
        }
        self.word2id = {v: k for k, v in self.id2word.items()}
        
    @property
    def text(self):
        return self._text
    
    @property
    def len_tokens(self):
        return self._len_tokens
    
    @property
    def tokens(self):
        return self._tokens
    
    @property
    def context_window(self):
        return self._context_window
    
    def get_context_words(self):
        for index, word in enumerate(self.tokens):
                        
            start = index - self.context_window
            end = index + self.context_window + 1
            
            if index - self.context_window < 0:
                continue
            elif index + self.context_window == self.len_tokens:
                break
                
            word_list = [
                self.tokens[i] for i in range(start, end)
                if i != index
            ]
            
            yield (self.tokens[index], [self.word2id[word] for word in word_list])

    
    def __repr__(self):
        return str(self.tokens)

In [5]:
cbow = Cbow("Palmeiras não tem mundial! Aceita que dói menos. Aceita que dói menos.", context_window=2)
cbow

['Palmeiras', 'não', 'tem', 'mundial', '!', 'Aceita', 'que', 'dói', 'menos', '.', 'Aceita', 'que', 'dói', 'menos', '.']

In [6]:
cbow.id2word

{0: 'mundial',
 1: 'tem',
 2: 'menos',
 3: 'Palmeiras',
 4: 'que',
 5: 'dói',
 6: '!',
 7: '.',
 8: 'Aceita',
 9: 'não'}

In [16]:
for target, context in cbow.get_context_words():
    print("Context_IDs: '{}' -> Context: {} -> Target: '{}' ".format(
        [_id for _id in context], [cbow.id2word[_id] for _id in context], target) 
    )

Context_IDs: '[3, 9, 0, 6]' -> Context: ['Palmeiras', 'não', 'mundial', '!'] -> Target: 'tem' 
Context_IDs: '[9, 1, 6, 8]' -> Context: ['não', 'tem', '!', 'Aceita'] -> Target: 'mundial' 
Context_IDs: '[1, 0, 8, 4]' -> Context: ['tem', 'mundial', 'Aceita', 'que'] -> Target: '!' 
Context_IDs: '[0, 6, 4, 5]' -> Context: ['mundial', '!', 'que', 'dói'] -> Target: 'Aceita' 
Context_IDs: '[6, 8, 5, 2]' -> Context: ['!', 'Aceita', 'dói', 'menos'] -> Target: 'que' 
Context_IDs: '[8, 4, 2, 7]' -> Context: ['Aceita', 'que', 'menos', '.'] -> Target: 'dói' 
Context_IDs: '[4, 5, 7, 8]' -> Context: ['que', 'dói', '.', 'Aceita'] -> Target: 'menos' 
Context_IDs: '[5, 2, 8, 4]' -> Context: ['dói', 'menos', 'Aceita', 'que'] -> Target: '.' 
Context_IDs: '[2, 7, 4, 5]' -> Context: ['menos', '.', 'que', 'dói'] -> Target: 'Aceita' 
Context_IDs: '[7, 8, 5, 2]' -> Context: ['.', 'Aceita', 'dói', 'menos'] -> Target: 'que' 
Context_IDs: '[8, 4, 2, 7]' -> Context: ['Aceita', 'que', 'menos', '.'] -> Target: 'dói' 

In [None]:
texto_dom_casmurro = "Publicado pela primeira vez em 1899, “Dom Casmurro” é uma das grandes obras de Machado de Assis e confirma o olhar certeiro e crítico que o autor estendia sobre toda a sociedade brasileira. Também a temática do ciúme, abordada com brilhantismo nesse livro, provoca polêmicas em torno do caráter de uma das principais personagens femininas da literatura brasileira: Capitu."

cbow = Cbow(texto_dom_casmurro, context_window=1)
for target, context in cbow.get_context_words():
    print("Context_IDs: '{}' -> Context: {} -> Target: '{}' ".format(
        [_id for _id in context], [cbow.id2word[_id] for _id in context], target) 
    )