# Generate Word2Vec embeddings for tokens

In [1]:
%load_ext dotenv
%dotenv
import os

base_dir = os.getenv("WORKING_DIR")
os.chdir(base_dir)

In [2]:
from src.data_loader_and_saver import JSONDataLoaderAndSaver

data_loader = JSONDataLoaderAndSaver(base_dir, input_data_dir="src/data")

In [3]:
from src.bi_lstm_crf.embeddings_saver import EmbeddingsSaver

embeddings_saver = EmbeddingsSaver("tokens", base_dir, "src/bi_lstm_crf/embeddings")

In [4]:
from gensim.models import Word2Vec

## All poems just 1 metre, no unknown metres

In [5]:
extension = "_one_metre_all_metres_recognized"

In [6]:
tokens = data_loader.load_data(f"train_tokens{extension}")
tokens[0]

train_tokens_one_metre_all_metres_recognized.json: loaded 40137 records.


[['teď', 'co', 'se', 'hrozny', 'zlatem', 'zaskvívají'],
 ['na', 'záhonech', 'se', 'astry', 'usmívají'],
 ['při', 'plné', 'číši', 'v', 'dobrém', 'rozmaru'],
 ['si', 'do', 'kola', 'druh', 's', 'druhem', 'zazpívají'],
 ['o', 'krásných', 'dívkách', 'které', 'koketně'],
 ['vějířem', 'ňader', 'vlnu', 'ukrývají'],
 ['o', 'zlatých', 'sladkých', 'časech', 'mladosti'],
 ['jež', 'nelítostně', 's', 'láskou', 'uplývají'],
 ['o', 'polibcích', 'jichž', 'stále', 'míň', 'a', 'míň'],
 ['jež', 'jako', 'první', 'sladké', 'nebývají'],
 ['o', 'rukavičkách', 'stužkách', 'kadeřích'],
 ['jež', 'v', 'skřínkách', 's', 'listy', 'lásky', 'setlívají'],
 ['o', 'vlasech', 'prořídlých', 'kdys', 'tmavých', 'teď'],
 ['jež', 'stříbrnou', 'se', 'vlnou', 'zachvívají'],
 ['o', 'písních', 'které', 'v', 'sklonu', 'mladosti'],
 ['tak', 'veselé', 'juž', 'noty', 'nemívají'],
 ['o', 'všem', 'co', 'vadne', 'lidských', 'losů', 'hrou'],
 ['nad', 'čím', 'se', 'oči', 'slzou', 'zatmívají'],
 ['však', 'nad', 'troskami', 'sladkých', 'hří

In [7]:
sentences = [line for poem in tokens for line in poem]
sentences[0]

['teď', 'co', 'se', 'hrozny', 'zlatem', 'zaskvívají']

In [8]:
len(sentences)

1323119

In [9]:
model = Word2Vec(sentences=sentences, vector_size=100, window=5, min_count=1, workers=4)

In [10]:
model.wv.most_similar("sladké", topn=10)

[('tajné', 0.8248113989830017),
 ('blahé', 0.8152564764022827),
 ('tklivé', 0.8093553185462952),
 ('tajemné', 0.8029077053070068),
 ('divné', 0.7993388772010803),
 ('jakés', 0.799054741859436),
 ('podivné', 0.7989625334739685),
 ('dětské', 0.7839382290840149),
 ('hořké', 0.7802180647850037),
 ('něžné', 0.7774688005447388)]

In [11]:
vocab = model.wv.index_to_key
vocab[:10]

['a', 'v', 'se', 'na', 'jak', 'z', 'k', 's', 'to', 'je']

In [12]:
len(vocab)

279392

In [13]:
embeddings_saver.save_embeddings(model, vocab, extension)

Embeddings saved to embeddings_tokens_one_metre_all_metres_recognized.gz


## All lines just 1 metre, no unknown metres

In [14]:
extension = "_one_metre_line_all_metres_recognized"

In [15]:
tokens = data_loader.load_data(f"train_tokens{extension}")
tokens[0]

train_tokens_one_metre_line_all_metres_recognized.json: loaded 41762 records.


[['můj', 'koníček', 'vraný'],
 ['jako', 'malovaný'],
 ['hopsa', 'hejsa', 'hej'],
 ['nožky', 'pěkné', 'zdvíhá'],
 ['ušima', 'si', 'stříhá'],
 ['hopsa', 'hejsa', 'hej'],
 ['dlouhá', 'černá', 'hříva'],
 ['po', 'větru', 'mu', 'splývá'],
 ['hopsa', 'hejsa', 'hej'],
 ['podkovky', 'mu', 'zvoní'],
 ['jiskra', 'jiskru', 'honí'],
 ['hopsa', 'hejsa', 'hej'],
 ['můj', 'koníčku', 'vraný'],
 ['jako', 'malovaný'],
 ['hopsa', 'hejsa', 'hej'],
 ['až', 'tě', 'osedláme'],
 ['kam', 'se', 'podíváme'],
 ['hopsa', 'hejsa', 'hej'],
 ['rozjedem', 'se', 'v', 'poli'],
 ['přes', 'hory', 'a', 'doly'],
 ['hopsa', 'hejsa', 'hej'],
 ['rozjedem', 'se', 'letem'],
 ['široširým', 'světem'],
 ['hopsa', 'hejsa', 'hej'],
 ['žeť', 'se', 'rozjedeme'],
 ['kam', 'se', 'rozjet', 'chceme'],
 ['hopsa', 'hejsa', 'hej'],
 ['tak', 'můj', 'vraný', 'koni'],
 ['ať', 'si', 'nás', 'kdo', 'honí'],
 ['hopsa', 'hejsa', 'hej']]

In [16]:
sentences = [line for poem in tokens for line in poem]
sentences[0]

['můj', 'koníček', 'vraný']

In [17]:
len(sentences)

1434187

In [18]:
model = Word2Vec(sentences=sentences, vector_size=100, window=5, min_count=1, workers=4)

In [19]:
model.wv.most_similar("nožky", topn=10)

[('vlásky', 0.9122986197471619),
 ('rtíky', 0.9043963551521301),
 ('prsty', 0.9016081094741821),
 ('čílko', 0.8914663195610046),
 ('tílko', 0.8904709219932556),
 ('ručky', 0.8901640176773071),
 ('zoubky', 0.8847008943557739),
 ('prsy', 0.8824279308319092),
 ('tvářičky', 0.8762239813804626),
 ('hlavičky', 0.8713076114654541)]

In [20]:
vocab = model.wv.index_to_key
vocab[:10]

['a', 'v', 'se', 'na', 'jak', 'z', 's', 'k', 'to', 'je']

In [21]:
len(vocab)

292659

In [22]:
embeddings_saver.save_embeddings(model, vocab, extension)

Embeddings saved to embeddings_tokens_one_metre_line_all_metres_recognized.gz
