In [1]:
import numpy as np
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
from nltk.corpus import stopwords
import nltk
nltk.download('stopwords')
stopwords = set(stopwords.words('english'))
import collections
from tqdm import tqdm
from datetime import datetime
import random
import pickle

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Himanshu\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
data_location = "E:/datasets/word2vec/text8/text8"
window_size = 4
tablesize = 1000000

In [3]:
data = open(data_location, "rb").read()
data = data.decode("utf8")

In [4]:
token_index = collections.OrderedDict()
token_counts = collections.OrderedDict()

j=1
tokens = data.split(" ")[: 50000]
tokens = [token for token in tokens if token not in stopwords]
for index, token in enumerate(tokens):
    if token in token_index:
        token_counts[token] += 1
    else:
        token_index[token] = j
        token_counts[token] = 1
        j += 1
token_index["UNK"] = 0

rev_token_index = {j: i for i, j in token_index.items()}
sampling_freq = np.zeros(len(token_index))
for i in range(len(token_index)):
    word = rev_token_index[i]
    if word in token_counts:
        freq = token_counts[word] ** 0.75
    else:
        freq = 0.0
    sampling_freq[i] = freq

sampling_freq /= np.sum(sampling_freq)
sampling_freq = np.cumsum(sampling_freq) * tablesize
j = 0
sampling_table = []
for i in range(tablesize):
    while i > sampling_freq[j]:
        j = j + 1
    sampling_table.append(j)

In [5]:
inputs = []
outputs = []
for i in range(len(tokens)):
    inputs.append(token_index[tokens[i]])
    window_start_index = i - window_size
    window_start_index = 0 if window_start_index < 0 else window_start_index
    window_end_index = i + window_size
    window_end_index = len(tokens) if window_end_index >= len(tokens) else window_end_index
    output = []
    for j in range(window_start_index, window_end_index):
        if j != i:
            output.append(token_index[tokens[j]])
    outputs.append(output)
outputs = np.array(outputs)

In [6]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

class Skipgram:
    def __init__(self, num_features, vocab_size, negative_sample_table):
        self.num_features = num_features
        self.w1 = np.random.uniform(0.0, 0.5, size=(vocab_size, self.num_features))
        self.w2 = np.random.uniform(0.0, 0.5, size=(vocab_size, self.num_features))
        self.vocab_size = vocab_size
        self.negative_sample_table = negative_sample_table
    
    def _forward_pass(self, model_input):
        self.h1 = np.dot(model_input, self.w1)
        self.h2 = np.dot(self.h1, self.w2.transpose())
    
    def _backward_pass(self, model_input, model_output, lr, num_negative_samples):
        negative_samples = self.get_negative_sample(num_negative_samples, model_output)
        sig_h2o = sigmoid(self.h2[model_output])
        sig_h2k = sigmoid(-1 * self.h2[negative_samples])
        delta_j_h2o = sig_h2o - 1
        delta_j_h2k = 1 - sig_h2k
        self.w1 -= np.dot(model_input, (sum(delta_j_h2o) + sum(delta_j_h2k)) * self.w2) * lr
        self.w2[model_output] -= delta_j_h2o.reshape(len(delta_j_h2o), 1) * self.h1 * lr
        self.w2[negative_samples] -= delta_j_h2k.reshape(len(delta_j_h2k), 1) * self.h1 * lr
        return sig_h2o, sig_h2k
    
    def get_negative_sample(self, num_samples, model_output):
        negative_samples = []
        while len(negative_samples) < num_samples:
            negative_sample = self.negative_sample_table[random.randint(0, tablesize - 1)]
            if negative_sample not in model_output:
                negative_samples.append(negative_sample)
        return negative_samples
    
    def fit(self, model_inputs, model_outputs, lr, epochs, num_negative_samples):
        for epoch in range(epochs):
            loss = 0.0
            sample_indices = np.arange(len(model_inputs) - 1)
            np.random.shuffle(sample_indices)
            for i in tqdm(sample_indices):
                model_input = np.zeros((self.vocab_size))
                model_input[model_inputs[i]] = 1.0
                self._forward_pass(model_input=model_input)
                sig_h2o, sig_h2k = self._backward_pass(model_input, model_outputs[i], lr, num_negative_samples)
                loss += -1 * sum(np.log(sig_h2o))
                loss += -1 * sum(np.log(sig_h2k))
            print("epochs: {0} loss: {1}".format(str(epoch+1), str(loss)))
            pickle.dump(self, open("skipgram_ns_epoch_{0}".format(str(epoch + 1)), "wb"))
    
    def most_similar(self, input_word, token_index):
        assert input_word in token_index
        word_vectors = (self.w1 + self.w2) / 2
        prediction = cosine_similarity(word_vectors[token_index[input_word]].reshape(1, -1), word_vectors)[0]
        sorted_index = np.argsort(prediction)[::-1].tolist()
        rev_token_index = {j: i for i, j in token_index.items()}
        for index in range(10):
            print(rev_token_index[sorted_index[index]])

In [7]:
model = Skipgram(100, len(token_index) + 1, sampling_table)
model.fit(inputs, outputs, 0.001, 300, 200)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:54<00:00, 86.24it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 1 loss: 958902.0838597687


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:53<00:00, 86.55it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 2 loss: 946957.8322672453


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:50<00:00, 87.26it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 3 loss: 943455.7496744418


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:47<00:00, 87.96it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 4 loss: 942111.4818046531


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:46<00:00, 88.24it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 5 loss: 940343.8637910577


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:48<00:00, 87.84it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 6 loss: 938152.9595656289


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:47<00:00, 88.03it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 7 loss: 935694.4380239783


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:47<00:00, 87.92it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 8 loss: 933905.9401422222


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:48<00:00, 87.70it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 9 loss: 932658.0165633704


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:49<00:00, 87.39it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 10 loss: 932613.7490624813


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:51<00:00, 86.91it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 11 loss: 931968.8183178395


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:49<00:00, 87.38it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 12 loss: 932018.9362433043


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:50<00:00, 87.35it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 13 loss: 932257.7614437649


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:49<00:00, 87.60it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 14 loss: 931862.7713091378


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [05:45<00:00, 88.58it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 15 loss: 932108.7802214787


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:08<00:00, 83.09it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 16 loss: 931786.2461805368


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:07<00:00, 83.18it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 17 loss: 931564.371014621


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:06<00:00, 83.52it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 18 loss: 931318.3827817264


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:06<00:00, 83.52it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 19 loss: 931213.806720526


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:06<00:00, 83.42it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 20 loss: 930999.9714537947


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:05<00:00, 83.73it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 21 loss: 930913.3885861249


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:05<00:00, 83.63it/s]


epochs: 22 loss: 931009.8175559986


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.97it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 23 loss: 930831.3088681777


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:02<00:00, 84.39it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 24 loss: 930991.7089282615


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.07it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 25 loss: 931203.8170627201


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.92it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 26 loss: 931013.2384228631


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:02<00:00, 84.27it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 27 loss: 931359.7424959275


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:02<00:00, 84.23it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 28 loss: 931406.8172103582


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.98it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 29 loss: 931673.8309439111


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:02<00:00, 84.38it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 30 loss: 931872.4732829523


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:02<00:00, 84.25it/s]


epochs: 31 loss: 932743.842937316


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 84.00it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 32 loss: 932839.6217343404


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:22<00:00, 79.88it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 33 loss: 933413.4183504848


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.17it/s]


epochs: 34 loss: 933917.4590411221


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:05<00:00, 83.74it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 35 loss: 934237.2482884018


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:05<00:00, 83.66it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 36 loss: 935007.4814466275


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:02<00:00, 84.23it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 37 loss: 935537.8110968118


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:02<00:00, 84.30it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 38 loss: 936531.7598688225


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:05<00:00, 83.77it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 39 loss: 936747.6516934503


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.90it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 40 loss: 937667.1626705304


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:02<00:00, 84.24it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 41 loss: 938786.7791527082


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:02<00:00, 84.24it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 42 loss: 939166.7351330591


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.14it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 43 loss: 939678.8149084472


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.16it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 44 loss: 940592.0760010383


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:02<00:00, 84.45it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 45 loss: 941469.6154297973


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.77it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 46 loss: 942107.6282134634


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.13it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 47 loss: 943431.4812641239


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.79it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 48 loss: 944298.8306057726


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.98it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 49 loss: 944920.6961391004


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.22it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 50 loss: 946382.38523313


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.21it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 51 loss: 947344.2734643585


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.94it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 52 loss: 948802.8111558104


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.19it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 53 loss: 949883.3362375185


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.93it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 54 loss: 950866.7878053059


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.19it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 55 loss: 952103.6488310695


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.87it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 56 loss: 953366.6219824164


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.16it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 57 loss: 954568.0432755129


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.97it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 58 loss: 955704.1319694984


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:05<00:00, 83.72it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 59 loss: 956797.0011445434


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.15it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 60 loss: 958448.3254184303


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.82it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 61 loss: 959757.6307333972


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.79it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 62 loss: 960682.0922692304


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.84it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 63 loss: 962270.8077322339


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.88it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 64 loss: 963781.7215412247


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:02<00:00, 84.36it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 65 loss: 965590.737666112


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:06<00:00, 83.48it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 66 loss: 966706.0359033962


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.04it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 67 loss: 968086.4833003506


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.01it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 68 loss: 969429.8199848583


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:05<00:00, 83.55it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 69 loss: 970358.0690021429


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.23it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 70 loss: 972815.8709196534


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.96it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 71 loss: 973619.7389048989


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.85it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 72 loss: 975704.5264159138


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.86it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 73 loss: 975940.2903028037


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.10it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 74 loss: 977561.700340425


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.13it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 75 loss: 979318.74898508


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:07<00:00, 83.25it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 76 loss: 980859.937136044


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.87it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 77 loss: 982720.382575027


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:02<00:00, 84.33it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 78 loss: 983573.7585143582


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.87it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 79 loss: 985088.8001649916


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.09it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 80 loss: 986931.2393539496


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.12it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 81 loss: 988474.9604199243


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.91it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 82 loss: 989318.5486798336


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:02<00:00, 84.27it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 83 loss: 991111.266873853


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.99it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 84 loss: 993292.9881790879


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.05it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 85 loss: 994127.7638110733


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:05<00:00, 83.57it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 86 loss: 995490.5179968962


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.90it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 87 loss: 996805.1375173223


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.05it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 88 loss: 998127.6402328938


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:05<00:00, 83.74it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 89 loss: 1000381.5980262776


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.05it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 90 loss: 1002004.591459822


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:05<00:00, 83.74it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 91 loss: 1003491.7289202318


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.89it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 92 loss: 1005355.6007747591


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.98it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 93 loss: 1006874.6056019841


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.88it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 94 loss: 1008450.3348468888


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.05it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 95 loss: 1009863.6793220915


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:06<00:00, 83.53it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 96 loss: 1011239.0977101822


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.92it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 97 loss: 1013059.1317026038


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.06it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 98 loss: 1014182.6367868412


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.85it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 99 loss: 1015998.9731388679


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.07it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 100 loss: 1017410.9422584964


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.78it/s]


epochs: 101 loss: 1019598.057395708


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:05<00:00, 83.60it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 102 loss: 1020659.1769813882


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.09it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 103 loss: 1021872.4971453879


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.07it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 104 loss: 1023455.5456489574


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.90it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 105 loss: 1025673.689188927


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.88it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 106 loss: 1026965.2028413309


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.98it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 107 loss: 1028980.0045603663


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:03<00:00, 84.04it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 108 loss: 1030480.0829437479


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.87it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 109 loss: 1033094.1686693822


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.82it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 110 loss: 1035108.5499915621


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.78it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 111 loss: 1037645.1024365922


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.84it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 112 loss: 1039506.786244422


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 84.00it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 113 loss: 1041783.4793056078


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:04<00:00, 83.96it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 114 loss: 1044343.0751420549


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:05<00:00, 83.73it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 115 loss: 1047014.5237040354


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30576/30576 [06:17<00:00, 81.07it/s]
  0%|                                                                                                                                      | 0/30576 [00:00<?, ?it/s]

epochs: 116 loss: 1050501.7644473643


 59%|███████████████████████████████████████████████████████████████████████▊                                                  | 17988/30576 [03:36<02:57, 71.10it/s]

KeyboardInterrupt: 

In [None]:
model.most_similar("coup", token_index)

In [None]:
token_index