In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
from sklearn.datasets import fetch_20newsgroups
import numpy as np
from tqdm import tqdm
import spacy
from gensim import corpora, models

import sys
sys.path.append('..')
from utils import preprocess, get_windows



In [4]:
MIN_COUNTS = 20
MAX_COUNTS = 1800
# words with count < MIN_COUNTS
# and count > MAX_COUNTS
# will be removed

MIN_LENGTH = 15
# minimum document length 
# (number of words)
# after preprocessing

# half the size of the context around a word
HALF_WINDOW_SIZE = 5
# it must be that 2*HALF_WINDOW_SIZE < MIN_LENGTH

# Load NLP model

In [6]:
nlp = spacy.load('en')

# Load dataset

In [7]:
dataset = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))
docs = dataset['data']

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


In [8]:
# number of documents
len(docs)

18846

In [9]:
# store an index with a document
docs = [(i, doc) for i, doc in enumerate(docs)]

# Preprocess dataset and create windows

In [11]:
encoded_docs, decoder, word_counts = preprocess(
    docs, nlp, MIN_LENGTH, MIN_COUNTS, MAX_COUNTS
)


  0%|                                                                                        | 0/18846 [00:00<?, ?it/s]
  0%|                                                                              | 1/18846 [00:01<7:11:52,  1.38s/it]
  0%|                                                                              | 2/18846 [00:01<3:53:05,  1.35it/s]
  0%|                                                                              | 3/18846 [00:02<3:31:00,  1.49it/s]
  0%|                                                                              | 4/18846 [00:02<2:50:30,  1.84it/s]
  0%|                                                                              | 5/18846 [00:02<2:27:11,  2.13it/s]
  0%|                                                                              | 6/18846 [00:02<2:09:12,  2.43it/s]
  0%|                                                                              | 8/18846 [00:02<1:48:32,  2.89it/s]
  0%|                                  

  2%|█▍                                                                            | 346/18846 [00:32<29:19, 10.51it/s]
  2%|█▍                                                                            | 347/18846 [00:33<29:19, 10.51it/s]
  2%|█▍                                                                            | 348/18846 [00:33<29:36, 10.41it/s]
  2%|█▍                                                                            | 350/18846 [00:33<29:32, 10.44it/s]
  2%|█▍                                                                            | 352/18846 [00:33<29:43, 10.37it/s]
  2%|█▍                                                                            | 353/18846 [00:34<29:44, 10.36it/s]
  2%|█▍                                                                            | 355/18846 [00:34<29:56, 10.29it/s]
  2%|█▍                                                                            | 356/18846 [00:34<29:59, 10.28it/s]
  2%|█▍                                 

  3%|██▍                                                                           | 584/18846 [01:10<36:51,  8.26it/s]
  3%|██▍                                                                           | 586/18846 [01:10<36:49,  8.26it/s]
  3%|██▍                                                                           | 588/18846 [01:11<36:47,  8.27it/s]
  3%|██▍                                                                           | 590/18846 [01:11<36:45,  8.28it/s]
  3%|██▍                                                                           | 592/18846 [01:11<36:43,  8.28it/s]
  3%|██▍                                                                           | 594/18846 [01:11<36:43,  8.28it/s]
  3%|██▍                                                                           | 595/18846 [01:11<36:46,  8.27it/s]
  3%|██▍                                                                           | 596/18846 [01:12<36:46,  8.27it/s]
  3%|██▍                                

  4%|███▍                                                                          | 842/18846 [01:56<41:24,  7.25it/s]
  4%|███▍                                                                          | 845/18846 [01:56<41:21,  7.26it/s]
  5%|███▌                                                                          | 850/18846 [01:56<41:08,  7.29it/s]
  5%|███▌                                                                          | 853/18846 [01:56<41:02,  7.31it/s]
  5%|███▌                                                                          | 856/18846 [01:57<41:05,  7.30it/s]
  5%|███▌                                                                          | 858/18846 [01:57<41:04,  7.30it/s]
  5%|███▌                                                                          | 860/18846 [01:57<41:01,  7.31it/s]
  5%|███▌                                                                          | 863/18846 [01:57<40:54,  7.33it/s]
  5%|███▌                               

  6%|████▊                                                                        | 1166/18846 [02:27<37:19,  7.89it/s]
  6%|████▊                                                                        | 1169/18846 [02:27<37:15,  7.91it/s]
  6%|████▊                                                                        | 1171/18846 [02:28<37:18,  7.89it/s]
  6%|████▊                                                                        | 1174/18846 [02:28<37:14,  7.91it/s]
  6%|████▊                                                                        | 1176/18846 [02:28<37:15,  7.90it/s]
  6%|████▊                                                                        | 1178/18846 [02:28<37:14,  7.91it/s]
  6%|████▊                                                                        | 1180/18846 [02:29<37:12,  7.91it/s]
  6%|████▊                                                                        | 1182/18846 [02:29<37:10,  7.92it/s]
  6%|████▊                              

  8%|██████▏                                                                      | 1522/18846 [03:04<34:56,  8.27it/s]
  8%|██████▏                                                                      | 1526/18846 [03:04<34:51,  8.28it/s]
  8%|██████▏                                                                      | 1529/18846 [03:04<34:48,  8.29it/s]
  8%|██████▎                                                                      | 1533/18846 [03:04<34:45,  8.30it/s]
  8%|██████▎                                                                      | 1536/18846 [03:04<34:44,  8.30it/s]
  8%|██████▎                                                                      | 1540/18846 [03:05<34:40,  8.32it/s]
  8%|██████▎                                                                      | 1544/18846 [03:05<34:36,  8.33it/s]
  8%|██████▎                                                                      | 1547/18846 [03:05<34:33,  8.34it/s]
  8%|██████▎                            

 10%|███████▋                                                                     | 1869/18846 [03:34<32:26,  8.72it/s]
 10%|███████▋                                                                     | 1871/18846 [03:34<32:25,  8.72it/s]
 10%|███████▋                                                                     | 1873/18846 [03:34<32:24,  8.73it/s]
 10%|███████▋                                                                     | 1875/18846 [03:34<32:23,  8.73it/s]
 10%|███████▋                                                                     | 1878/18846 [03:34<32:20,  8.74it/s]
 10%|███████▋                                                                     | 1882/18846 [03:34<32:17,  8.76it/s]
 10%|███████▋                                                                     | 1885/18846 [03:35<32:14,  8.77it/s]
 10%|███████▋                                                                     | 1888/18846 [03:35<32:12,  8.77it/s]
 10%|███████▋                           

 12%|█████████                                                                    | 2211/18846 [04:17<32:14,  8.60it/s]
 12%|█████████                                                                    | 2215/18846 [04:17<32:11,  8.61it/s]
 12%|█████████                                                                    | 2217/18846 [04:17<32:12,  8.61it/s]
 12%|█████████                                                                    | 2220/18846 [04:17<32:10,  8.61it/s]
 12%|█████████                                                                    | 2222/18846 [04:17<32:09,  8.62it/s]
 12%|█████████                                                                    | 2226/18846 [04:17<32:06,  8.63it/s]
 12%|█████████                                                                    | 2229/18846 [04:18<32:04,  8.64it/s]
 12%|█████████                                                                    | 2233/18846 [04:18<32:01,  8.64it/s]
 12%|█████████▏                         

 14%|██████████▍                                                                  | 2547/18846 [05:00<32:04,  8.47it/s]
 14%|██████████▍                                                                  | 2549/18846 [05:00<32:04,  8.47it/s]
 14%|██████████▍                                                                  | 2550/18846 [05:01<32:05,  8.46it/s]
 14%|██████████▍                                                                  | 2551/18846 [05:01<32:05,  8.46it/s]
 14%|██████████▍                                                                  | 2553/18846 [05:01<32:05,  8.46it/s]
 14%|██████████▍                                                                  | 2554/18846 [05:01<32:06,  8.46it/s]
 14%|██████████▍                                                                  | 2555/18846 [05:02<32:06,  8.45it/s]
 14%|██████████▍                                                                  | 2556/18846 [05:02<32:06,  8.45it/s]
 14%|██████████▍                        

 15%|███████████▍                                                                 | 2800/18846 [05:40<32:31,  8.22it/s]
 15%|███████████▍                                                                 | 2802/18846 [05:40<32:30,  8.23it/s]
 15%|███████████▍                                                                 | 2804/18846 [05:40<32:29,  8.23it/s]
 15%|███████████▍                                                                 | 2806/18846 [05:40<32:28,  8.23it/s]
 15%|███████████▍                                                                 | 2809/18846 [05:47<33:01,  8.09it/s]
 15%|███████████▍                                                                 | 2811/18846 [05:47<33:01,  8.09it/s]
 15%|███████████▍                                                                 | 2813/18846 [05:47<33:00,  8.09it/s]
 15%|███████████▌                                                                 | 2815/18846 [05:47<33:00,  8.10it/s]
 15%|███████████▌                       

 16%|████████████▋                                                                | 3104/18846 [06:28<32:49,  7.99it/s]
 16%|████████████▋                                                                | 3106/18846 [06:28<32:49,  7.99it/s]
 16%|████████████▋                                                                | 3108/18846 [06:28<32:48,  8.00it/s]
 17%|████████████▋                                                                | 3110/18846 [06:28<32:47,  8.00it/s]
 17%|████████████▋                                                                | 3112/18846 [06:29<32:46,  8.00it/s]
 17%|████████████▋                                                                | 3116/18846 [06:29<32:45,  8.00it/s]
 17%|████████████▋                                                                | 3118/18846 [06:29<32:44,  8.01it/s]
 17%|████████████▋                                                                | 3120/18846 [06:29<32:44,  8.01it/s]
 17%|████████████▊                      

 18%|██████████████▏                                                              | 3486/18846 [07:01<30:59,  8.26it/s]
 19%|██████████████▏                                                              | 3487/18846 [07:02<30:59,  8.26it/s]
 19%|██████████████▎                                                              | 3488/18846 [07:02<30:58,  8.26it/s]
 19%|██████████████▎                                                              | 3489/18846 [07:08<31:26,  8.14it/s]
 19%|██████████████▎                                                              | 3490/18846 [07:09<31:28,  8.13it/s]
 19%|██████████████▎                                                              | 3491/18846 [07:09<31:28,  8.13it/s]
 19%|██████████████▎                                                              | 3493/18846 [07:09<31:28,  8.13it/s]
 19%|██████████████▎                                                              | 3494/18846 [07:16<31:59,  8.00it/s]
 19%|██████████████▎                    

 20%|███████████████▍                                                             | 3793/18846 [07:53<31:20,  8.00it/s]
 20%|███████████████▌                                                             | 3796/18846 [07:54<31:20,  8.01it/s]
 20%|███████████████▌                                                             | 3798/18846 [07:54<31:19,  8.01it/s]
 20%|███████████████▌                                                             | 3800/18846 [07:54<31:18,  8.01it/s]
 20%|███████████████▌                                                             | 3802/18846 [07:54<31:18,  8.01it/s]
 20%|███████████████▌                                                             | 3807/18846 [07:54<31:15,  8.02it/s]
 20%|███████████████▌                                                             | 3810/18846 [07:54<31:14,  8.02it/s]
 20%|███████████████▌                                                             | 3813/18846 [07:55<31:13,  8.02it/s]
 20%|███████████████▌                   

 22%|████████████████▊                                                            | 4112/18846 [08:31<30:31,  8.05it/s]
 22%|████████████████▊                                                            | 4115/18846 [08:31<30:30,  8.05it/s]
 22%|████████████████▊                                                            | 4118/18846 [08:31<30:28,  8.05it/s]
 22%|████████████████▊                                                            | 4122/18846 [08:31<30:28,  8.05it/s]
 22%|████████████████▊                                                            | 4124/18846 [08:31<30:27,  8.06it/s]
 22%|████████████████▊                                                            | 4128/18846 [08:32<30:25,  8.06it/s]
 22%|████████████████▊                                                            | 4130/18846 [08:32<30:25,  8.06it/s]
 22%|████████████████▉                                                            | 4134/18846 [08:32<30:23,  8.07it/s]
 22%|████████████████▉                  

 24%|██████████████████▎                                                          | 4494/18846 [09:12<29:25,  8.13it/s]
 24%|██████████████████▎                                                          | 4497/18846 [09:13<29:24,  8.13it/s]
 24%|██████████████████▍                                                          | 4502/18846 [09:13<29:22,  8.14it/s]
 24%|██████████████████▍                                                          | 4505/18846 [09:13<29:21,  8.14it/s]
 24%|██████████████████▍                                                          | 4508/18846 [09:13<29:20,  8.15it/s]
 24%|██████████████████▍                                                          | 4511/18846 [09:13<29:19,  8.15it/s]
 24%|██████████████████▍                                                          | 4514/18846 [09:13<29:18,  8.15it/s]
 24%|██████████████████▍                                                          | 4516/18846 [09:14<29:18,  8.15it/s]
 24%|██████████████████▍                

 26%|███████████████████▊                                                         | 4836/18846 [10:04<29:12,  7.99it/s]
 26%|███████████████████▊                                                         | 4838/18846 [10:05<29:12,  7.99it/s]
 26%|███████████████████▊                                                         | 4840/18846 [10:05<29:12,  7.99it/s]
 26%|███████████████████▊                                                         | 4841/18846 [10:05<29:12,  7.99it/s]
 26%|███████████████████▊                                                         | 4845/18846 [10:05<29:10,  8.00it/s]
 26%|███████████████████▊                                                         | 4847/18846 [10:05<29:09,  8.00it/s]
 26%|███████████████████▊                                                         | 4849/18846 [10:06<29:09,  8.00it/s]
 26%|███████████████████▊                                                         | 4851/18846 [10:07<29:11,  7.99it/s]
 26%|███████████████████▊               

 27%|████████████████████▉                                                        | 5124/18846 [10:44<28:45,  7.95it/s]
 27%|████████████████████▉                                                        | 5127/18846 [10:44<28:44,  7.95it/s]
 27%|████████████████████▉                                                        | 5129/18846 [10:44<28:44,  7.96it/s]
 27%|████████████████████▉                                                        | 5132/18846 [10:44<28:43,  7.96it/s]
 27%|████████████████████▉                                                        | 5137/18846 [10:45<28:41,  7.96it/s]
 27%|█████████████████████                                                        | 5140/18846 [10:45<28:40,  7.97it/s]
 27%|█████████████████████                                                        | 5143/18846 [10:45<28:39,  7.97it/s]
 27%|█████████████████████                                                        | 5146/18846 [10:45<28:38,  7.97it/s]
 27%|█████████████████████              

 29%|██████████████████████▍                                                      | 5491/18846 [11:20<27:35,  8.07it/s]
 29%|██████████████████████▍                                                      | 5493/18846 [11:20<27:35,  8.07it/s]
 29%|██████████████████████▍                                                      | 5495/18846 [11:21<27:35,  8.07it/s]
 29%|██████████████████████▍                                                      | 5497/18846 [11:21<27:34,  8.07it/s]
 29%|██████████████████████▍                                                      | 5500/18846 [11:21<27:33,  8.07it/s]
 29%|██████████████████████▍                                                      | 5503/18846 [11:21<27:32,  8.07it/s]
 29%|██████████████████████▍                                                      | 5505/18846 [11:23<27:36,  8.05it/s]
 29%|██████████████████████▌                                                      | 5507/18846 [11:23<27:36,  8.05it/s]
 29%|██████████████████████▌            

 31%|███████████████████████▉                                                     | 5861/18846 [12:03<26:43,  8.10it/s]
 31%|███████████████████████▉                                                     | 5864/18846 [12:03<26:42,  8.10it/s]
 31%|███████████████████████▉                                                     | 5867/18846 [12:04<26:41,  8.10it/s]
 31%|███████████████████████▉                                                     | 5871/18846 [12:04<26:40,  8.11it/s]
 31%|███████████████████████▉                                                     | 5874/18846 [12:04<26:39,  8.11it/s]
 31%|████████████████████████                                                     | 5876/18846 [12:04<26:39,  8.11it/s]
 31%|████████████████████████                                                     | 5880/18846 [12:04<26:38,  8.11it/s]
 31%|████████████████████████                                                     | 5882/18846 [12:04<26:37,  8.11it/s]
 31%|████████████████████████           

 33%|█████████████████████████▎                                                   | 6201/18846 [12:50<26:12,  8.04it/s]
 33%|█████████████████████████▎                                                   | 6204/18846 [12:51<26:11,  8.04it/s]
 33%|█████████████████████████▎                                                   | 6207/18846 [12:51<26:10,  8.05it/s]
 33%|█████████████████████████▎                                                   | 6210/18846 [12:51<26:10,  8.05it/s]
 33%|█████████████████████████▍                                                   | 6212/18846 [12:51<26:09,  8.05it/s]
 33%|█████████████████████████▍                                                   | 6214/18846 [12:52<26:09,  8.05it/s]
 33%|█████████████████████████▍                                                   | 6217/18846 [12:52<26:08,  8.05it/s]
 33%|█████████████████████████▍                                                   | 6219/18846 [12:52<26:08,  8.05it/s]
 33%|█████████████████████████▍         

 35%|██████████████████████████▉                                                  | 6583/18846 [13:25<25:01,  8.17it/s]
 35%|██████████████████████████▉                                                  | 6586/18846 [13:26<25:00,  8.17it/s]
 35%|██████████████████████████▉                                                  | 6588/18846 [13:26<25:00,  8.17it/s]
 35%|██████████████████████████▉                                                  | 6591/18846 [13:26<24:59,  8.17it/s]
 35%|██████████████████████████▉                                                  | 6594/18846 [13:26<24:59,  8.17it/s]
 35%|██████████████████████████▉                                                  | 6598/18846 [13:27<24:58,  8.18it/s]
 35%|██████████████████████████▉                                                  | 6600/18846 [13:27<24:57,  8.18it/s]
 35%|██████████████████████████▉                                                  | 6605/18846 [13:27<24:56,  8.18it/s]
 35%|██████████████████████████▉        

 37%|████████████████████████████▏                                                | 6912/18846 [14:18<24:42,  8.05it/s]
 37%|████████████████████████████▏                                                | 6913/18846 [14:19<24:43,  8.05it/s]
 37%|████████████████████████████▎                                                | 6916/18846 [14:19<24:42,  8.05it/s]
 37%|████████████████████████████▎                                                | 6917/18846 [14:19<24:42,  8.05it/s]
 37%|████████████████████████████▎                                                | 6918/18846 [14:19<24:42,  8.05it/s]
 37%|████████████████████████████▎                                                | 6920/18846 [14:20<24:42,  8.05it/s]
 37%|████████████████████████████▎                                                | 6921/18846 [14:20<24:42,  8.05it/s]
 37%|████████████████████████████▎                                                | 6922/18846 [14:20<24:43,  8.04it/s]
 37%|████████████████████████████▎      

 38%|█████████████████████████████▍                                               | 7213/18846 [14:59<24:09,  8.02it/s]
 38%|█████████████████████████████▍                                               | 7216/18846 [14:59<24:09,  8.02it/s]
 38%|█████████████████████████████▍                                               | 7219/18846 [14:59<24:08,  8.03it/s]
 38%|█████████████████████████████▌                                               | 7224/18846 [14:59<24:07,  8.03it/s]
 38%|█████████████████████████████▌                                               | 7229/18846 [14:59<24:05,  8.04it/s]
 38%|█████████████████████████████▌                                               | 7232/18846 [14:59<24:05,  8.04it/s]
 38%|█████████████████████████████▌                                               | 7235/18846 [15:00<24:04,  8.04it/s]
 38%|█████████████████████████████▌                                               | 7238/18846 [15:00<24:04,  8.04it/s]
 38%|█████████████████████████████▌     

 41%|███████████████████████████████▏                                             | 7643/18846 [15:24<22:35,  8.26it/s]
 41%|███████████████████████████████▏                                             | 7645/18846 [15:25<22:35,  8.26it/s]
 41%|███████████████████████████████▏                                             | 7647/18846 [15:25<22:34,  8.27it/s]
 41%|███████████████████████████████▎                                             | 7649/18846 [15:25<22:34,  8.26it/s]
 41%|███████████████████████████████▎                                             | 7650/18846 [15:25<22:34,  8.26it/s]
 41%|███████████████████████████████▎                                             | 7651/18846 [15:25<22:34,  8.26it/s]
 41%|███████████████████████████████▎                                             | 7653/18846 [15:26<22:34,  8.26it/s]
 41%|███████████████████████████████▎                                             | 7654/18846 [15:26<22:34,  8.26it/s]
 41%|███████████████████████████████▎   

 42%|████████████████████████████████▋                                            | 7988/18846 [16:05<21:52,  8.27it/s]
 42%|████████████████████████████████▋                                            | 7991/18846 [16:06<21:52,  8.27it/s]
 42%|████████████████████████████████▋                                            | 7993/18846 [16:06<21:52,  8.27it/s]
 42%|████████████████████████████████▋                                            | 7996/18846 [16:06<21:51,  8.27it/s]
 42%|████████████████████████████████▋                                            | 7998/18846 [16:06<21:51,  8.27it/s]
 42%|████████████████████████████████▋                                            | 8000/18846 [16:07<21:51,  8.27it/s]
 42%|████████████████████████████████▋                                            | 8001/18846 [16:07<21:51,  8.27it/s]
 42%|████████████████████████████████▋                                            | 8003/18846 [16:07<21:51,  8.27it/s]
 42%|████████████████████████████████▋  

 44%|██████████████████████████████████▏                                          | 8355/18846 [16:43<21:00,  8.32it/s]
 44%|██████████████████████████████████▏                                          | 8356/18846 [16:44<21:00,  8.32it/s]
 44%|██████████████████████████████████▏                                          | 8358/18846 [16:44<21:00,  8.32it/s]
 44%|██████████████████████████████████▏                                          | 8360/18846 [16:44<20:59,  8.32it/s]
 44%|██████████████████████████████████▏                                          | 8362/18846 [16:44<20:59,  8.32it/s]
 44%|██████████████████████████████████▏                                          | 8365/18846 [16:44<20:58,  8.33it/s]
 44%|██████████████████████████████████▏                                          | 8367/18846 [16:45<20:59,  8.32it/s]
 44%|██████████████████████████████████▏                                          | 8369/18846 [16:45<20:59,  8.32it/s]
 44%|██████████████████████████████████▏

 46%|███████████████████████████████████▌                                         | 8714/18846 [17:22<20:12,  8.35it/s]
 46%|███████████████████████████████████▌                                         | 8716/18846 [17:25<20:15,  8.33it/s]
 46%|███████████████████████████████████▌                                         | 8718/18846 [17:26<20:15,  8.33it/s]
 46%|███████████████████████████████████▋                                         | 8720/18846 [17:26<20:14,  8.33it/s]
 46%|███████████████████████████████████▋                                         | 8721/18846 [17:26<20:15,  8.33it/s]
 46%|███████████████████████████████████▋                                         | 8722/18846 [17:27<20:15,  8.33it/s]
 46%|███████████████████████████████████▋                                         | 8724/18846 [17:27<20:15,  8.33it/s]
 46%|███████████████████████████████████▋                                         | 8725/18846 [17:28<20:15,  8.32it/s]
 46%|███████████████████████████████████

 48%|████████████████████████████████████▊                                        | 9009/18846 [18:01<19:40,  8.33it/s]
 48%|████████████████████████████████████▊                                        | 9011/18846 [18:01<19:40,  8.33it/s]
 48%|████████████████████████████████████▊                                        | 9013/18846 [18:01<19:40,  8.33it/s]
 48%|████████████████████████████████████▊                                        | 9015/18846 [18:02<19:40,  8.33it/s]
 48%|████████████████████████████████████▊                                        | 9016/18846 [18:02<19:40,  8.33it/s]
 48%|████████████████████████████████████▊                                        | 9018/18846 [18:02<19:39,  8.33it/s]
 48%|████████████████████████████████████▊                                        | 9021/18846 [18:02<19:39,  8.33it/s]
 48%|████████████████████████████████████▊                                        | 9023/18846 [18:02<19:38,  8.33it/s]
 48%|███████████████████████████████████

 50%|██████████████████████████████████████▏                                      | 9349/18846 [18:35<18:53,  8.38it/s]
 50%|██████████████████████████████████████▏                                      | 9352/18846 [18:35<18:52,  8.38it/s]
 50%|██████████████████████████████████████▏                                      | 9355/18846 [18:36<18:53,  8.38it/s]
 50%|██████████████████████████████████████▏                                      | 9357/18846 [18:37<18:53,  8.37it/s]
 50%|██████████████████████████████████████▏                                      | 9361/18846 [18:37<18:52,  8.38it/s]
 50%|██████████████████████████████████████▎                                      | 9364/18846 [18:37<18:51,  8.38it/s]
 50%|██████████████████████████████████████▎                                      | 9368/18846 [18:37<18:50,  8.38it/s]
 50%|██████████████████████████████████████▎                                      | 9370/18846 [18:38<18:50,  8.38it/s]
 50%|███████████████████████████████████

 52%|███████████████████████████████████████▋                                     | 9712/18846 [19:20<18:11,  8.37it/s]
 52%|███████████████████████████████████████▋                                     | 9714/18846 [19:20<18:10,  8.37it/s]
 52%|███████████████████████████████████████▋                                     | 9716/18846 [19:20<18:10,  8.37it/s]
 52%|███████████████████████████████████████▋                                     | 9718/18846 [19:20<18:10,  8.37it/s]
 52%|███████████████████████████████████████▋                                     | 9720/18846 [19:21<18:10,  8.37it/s]
 52%|███████████████████████████████████████▋                                     | 9721/18846 [19:21<18:10,  8.37it/s]
 52%|███████████████████████████████████████▋                                     | 9722/18846 [19:21<18:10,  8.37it/s]
 52%|███████████████████████████████████████▋                                     | 9723/18846 [19:21<18:09,  8.37it/s]
 52%|███████████████████████████████████

 53%|████████████████████████████████████████▌                                   | 10055/18846 [19:53<17:23,  8.43it/s]
 53%|████████████████████████████████████████▌                                   | 10059/18846 [19:53<17:22,  8.43it/s]
 53%|████████████████████████████████████████▌                                   | 10063/18846 [19:53<17:21,  8.43it/s]
 53%|████████████████████████████████████████▌                                   | 10066/18846 [19:54<17:21,  8.43it/s]
 53%|████████████████████████████████████████▌                                   | 10069/18846 [19:54<17:21,  8.43it/s]
 53%|████████████████████████████████████████▌                                   | 10071/18846 [19:54<17:20,  8.43it/s]
 53%|████████████████████████████████████████▋                                   | 10074/18846 [19:54<17:20,  8.43it/s]
 53%|████████████████████████████████████████▋                                   | 10076/18846 [19:54<17:19,  8.43it/s]
 53%|███████████████████████████████████

 55%|██████████████████████████████████████████                                  | 10422/18846 [20:39<16:41,  8.41it/s]
 55%|██████████████████████████████████████████                                  | 10425/18846 [20:39<16:41,  8.41it/s]
 55%|██████████████████████████████████████████                                  | 10427/18846 [20:39<16:40,  8.41it/s]
 55%|██████████████████████████████████████████                                  | 10431/18846 [20:39<16:39,  8.42it/s]
 55%|██████████████████████████████████████████                                  | 10435/18846 [20:39<16:39,  8.42it/s]
 55%|██████████████████████████████████████████                                  | 10438/18846 [20:39<16:38,  8.42it/s]
 55%|██████████████████████████████████████████                                  | 10441/18846 [20:39<16:38,  8.42it/s]
 55%|██████████████████████████████████████████                                  | 10444/18846 [20:40<16:37,  8.42it/s]
 55%|███████████████████████████████████

 57%|███████████████████████████████████████████▌                                | 10788/18846 [21:23<15:59,  8.40it/s]
 57%|███████████████████████████████████████████▌                                | 10793/18846 [21:24<15:58,  8.40it/s]
 57%|███████████████████████████████████████████▌                                | 10795/18846 [21:24<15:57,  8.41it/s]
 57%|███████████████████████████████████████████▌                                | 10797/18846 [21:24<15:57,  8.41it/s]
 57%|███████████████████████████████████████████▌                                | 10800/18846 [21:24<15:57,  8.41it/s]
 57%|███████████████████████████████████████████▌                                | 10802/18846 [21:24<15:56,  8.41it/s]
 57%|███████████████████████████████████████████▌                                | 10804/18846 [21:25<15:56,  8.41it/s]
 57%|███████████████████████████████████████████▌                                | 10808/18846 [21:25<15:55,  8.41it/s]
 57%|███████████████████████████████████

 60%|█████████████████████████████████████████████▏                              | 11219/18846 [21:52<14:52,  8.55it/s]
 60%|█████████████████████████████████████████████▎                              | 11222/18846 [21:53<14:52,  8.55it/s]
 60%|█████████████████████████████████████████████▎                              | 11226/18846 [21:53<14:51,  8.55it/s]
 60%|█████████████████████████████████████████████▎                              | 11229/18846 [21:53<14:50,  8.55it/s]
 60%|█████████████████████████████████████████████▎                              | 11232/18846 [21:53<14:50,  8.55it/s]
 60%|█████████████████████████████████████████████▎                              | 11234/18846 [21:53<14:50,  8.55it/s]
 60%|█████████████████████████████████████████████▎                              | 11238/18846 [21:54<14:49,  8.55it/s]
 60%|█████████████████████████████████████████████▎                              | 11241/18846 [21:54<14:49,  8.55it/s]
 60%|███████████████████████████████████

 61%|██████████████████████████████████████████████▋                             | 11571/18846 [22:24<14:05,  8.60it/s]
 61%|██████████████████████████████████████████████▋                             | 11574/18846 [22:24<14:05,  8.61it/s]
 61%|██████████████████████████████████████████████▋                             | 11577/18846 [22:25<14:04,  8.61it/s]
 61%|██████████████████████████████████████████████▋                             | 11580/18846 [22:25<14:04,  8.61it/s]
 61%|██████████████████████████████████████████████▋                             | 11582/18846 [22:26<14:04,  8.60it/s]
 61%|██████████████████████████████████████████████▋                             | 11584/18846 [22:26<14:04,  8.60it/s]
 61%|██████████████████████████████████████████████▋                             | 11586/18846 [22:26<14:04,  8.60it/s]
 61%|██████████████████████████████████████████████▋                             | 11589/18846 [22:27<14:03,  8.60it/s]
 62%|███████████████████████████████████

 64%|████████████████████████████████████████████████▍                           | 12014/18846 [22:56<13:02,  8.73it/s]
 64%|████████████████████████████████████████████████▍                           | 12017/18846 [22:57<13:02,  8.72it/s]
 64%|████████████████████████████████████████████████▍                           | 12021/18846 [22:57<13:02,  8.72it/s]
 64%|████████████████████████████████████████████████▍                           | 12023/18846 [22:57<13:01,  8.73it/s]
 64%|████████████████████████████████████████████████▍                           | 12026/18846 [22:58<13:01,  8.73it/s]
 64%|████████████████████████████████████████████████▌                           | 12028/18846 [22:58<13:01,  8.73it/s]
 64%|████████████████████████████████████████████████▌                           | 12032/18846 [22:58<13:00,  8.73it/s]
 64%|████████████████████████████████████████████████▌                           | 12034/18846 [22:58<13:00,  8.73it/s]
 64%|███████████████████████████████████

 66%|█████████████████████████████████████████████████▊                          | 12349/18846 [23:35<12:24,  8.72it/s]
 66%|█████████████████████████████████████████████████▊                          | 12353/18846 [23:35<12:24,  8.73it/s]
 66%|█████████████████████████████████████████████████▊                          | 12356/18846 [23:35<12:23,  8.73it/s]
 66%|█████████████████████████████████████████████████▊                          | 12359/18846 [23:37<12:24,  8.72it/s]
 66%|█████████████████████████████████████████████████▊                          | 12362/18846 [23:37<12:23,  8.72it/s]
 66%|█████████████████████████████████████████████████▊                          | 12365/18846 [23:37<12:23,  8.72it/s]
 66%|█████████████████████████████████████████████████▊                          | 12367/18846 [23:38<12:22,  8.72it/s]
 66%|█████████████████████████████████████████████████▉                          | 12369/18846 [23:38<12:22,  8.72it/s]
 66%|███████████████████████████████████

 68%|███████████████████████████████████████████████████▎                        | 12737/18846 [24:07<11:34,  8.80it/s]
 68%|███████████████████████████████████████████████████▍                        | 12741/18846 [24:08<11:33,  8.80it/s]
 68%|███████████████████████████████████████████████████▍                        | 12744/18846 [24:08<11:33,  8.80it/s]
 68%|███████████████████████████████████████████████████▍                        | 12746/18846 [24:08<11:33,  8.80it/s]
 68%|███████████████████████████████████████████████████▍                        | 12749/18846 [24:08<11:32,  8.80it/s]
 68%|███████████████████████████████████████████████████▍                        | 12751/18846 [24:09<11:32,  8.80it/s]
 68%|███████████████████████████████████████████████████▍                        | 12754/18846 [24:09<11:32,  8.80it/s]
 68%|███████████████████████████████████████████████████▍                        | 12758/18846 [24:09<11:31,  8.80it/s]
 68%|███████████████████████████████████

 70%|████████████████████████████████████████████████████▉                       | 13118/18846 [24:52<10:51,  8.79it/s]
 70%|████████████████████████████████████████████████████▉                       | 13120/18846 [24:52<10:51,  8.79it/s]
 70%|████████████████████████████████████████████████████▉                       | 13123/18846 [24:52<10:51,  8.79it/s]
 70%|████████████████████████████████████████████████████▉                       | 13127/18846 [24:53<10:50,  8.79it/s]
 70%|████████████████████████████████████████████████████▉                       | 13129/18846 [24:53<10:50,  8.79it/s]
 70%|████████████████████████████████████████████████████▉                       | 13132/18846 [24:53<10:49,  8.79it/s]
 70%|████████████████████████████████████████████████████▉                       | 13136/18846 [24:53<10:49,  8.79it/s]
 70%|████████████████████████████████████████████████████▉                       | 13139/18846 [24:53<10:48,  8.79it/s]
 70%|███████████████████████████████████

 72%|██████████████████████████████████████████████████████▍                     | 13496/18846 [25:33<10:08,  8.80it/s]
 72%|██████████████████████████████████████████████████████▍                     | 13498/18846 [25:34<10:08,  8.80it/s]
 72%|██████████████████████████████████████████████████████▍                     | 13500/18846 [25:34<10:07,  8.80it/s]
 72%|██████████████████████████████████████████████████████▍                     | 13502/18846 [25:34<10:07,  8.80it/s]
 72%|██████████████████████████████████████████████████████▍                     | 13504/18846 [25:35<10:07,  8.79it/s]
 72%|██████████████████████████████████████████████████████▍                     | 13506/18846 [25:35<10:07,  8.80it/s]
 72%|██████████████████████████████████████████████████████▍                     | 13509/18846 [25:35<10:06,  8.80it/s]
 72%|██████████████████████████████████████████████████████▍                     | 13511/18846 [25:35<10:06,  8.80it/s]
 72%|███████████████████████████████████

 74%|███████████████████████████████████████████████████████▉                    | 13861/18846 [26:01<09:21,  8.88it/s]
 74%|███████████████████████████████████████████████████████▉                    | 13863/18846 [26:02<09:21,  8.87it/s]
 74%|███████████████████████████████████████████████████████▉                    | 13865/18846 [26:02<09:21,  8.88it/s]
 74%|███████████████████████████████████████████████████████▉                    | 13869/18846 [26:02<09:20,  8.88it/s]
 74%|███████████████████████████████████████████████████████▉                    | 13872/18846 [26:02<09:20,  8.88it/s]
 74%|███████████████████████████████████████████████████████▉                    | 13874/18846 [26:02<09:20,  8.88it/s]
 74%|███████████████████████████████████████████████████████▉                    | 13876/18846 [26:02<09:19,  8.88it/s]
 74%|███████████████████████████████████████████████████████▉                    | 13879/18846 [26:03<09:19,  8.88it/s]
 74%|███████████████████████████████████

 75%|█████████████████████████████████████████████████████████▏                  | 14196/18846 [26:39<08:43,  8.88it/s]
 75%|█████████████████████████████████████████████████████████▎                  | 14198/18846 [26:39<08:43,  8.88it/s]
 75%|█████████████████████████████████████████████████████████▎                  | 14200/18846 [26:39<08:43,  8.88it/s]
 75%|█████████████████████████████████████████████████████████▎                  | 14202/18846 [26:40<08:43,  8.88it/s]
 75%|█████████████████████████████████████████████████████████▎                  | 14204/18846 [26:40<08:42,  8.88it/s]
 75%|█████████████████████████████████████████████████████████▎                  | 14206/18846 [26:40<08:42,  8.88it/s]
 75%|█████████████████████████████████████████████████████████▎                  | 14208/18846 [26:40<08:42,  8.88it/s]
 75%|█████████████████████████████████████████████████████████▎                  | 14210/18846 [26:40<08:42,  8.88it/s]
 75%|███████████████████████████████████

 77%|██████████████████████████████████████████████████████████▌                 | 14511/18846 [27:25<08:11,  8.82it/s]
 77%|██████████████████████████████████████████████████████████▌                 | 14514/18846 [27:25<08:11,  8.82it/s]
 77%|██████████████████████████████████████████████████████████▌                 | 14516/18846 [27:26<08:11,  8.82it/s]
 77%|██████████████████████████████████████████████████████████▌                 | 14518/18846 [27:26<08:10,  8.82it/s]
 77%|██████████████████████████████████████████████████████████▌                 | 14520/18846 [27:26<08:10,  8.82it/s]
 77%|██████████████████████████████████████████████████████████▌                 | 14522/18846 [27:26<08:10,  8.82it/s]
 77%|██████████████████████████████████████████████████████████▌                 | 14524/18846 [27:26<08:10,  8.82it/s]
 77%|██████████████████████████████████████████████████████████▌                 | 14526/18846 [27:26<08:09,  8.82it/s]
 77%|███████████████████████████████████

 79%|████████████████████████████████████████████████████████████                | 14884/18846 [27:56<07:26,  8.88it/s]
 79%|████████████████████████████████████████████████████████████                | 14887/18846 [27:57<07:26,  8.88it/s]
 79%|████████████████████████████████████████████████████████████                | 14892/18846 [27:57<07:25,  8.88it/s]
 79%|████████████████████████████████████████████████████████████                | 14895/18846 [27:57<07:24,  8.88it/s]
 79%|████████████████████████████████████████████████████████████                | 14899/18846 [27:57<07:24,  8.88it/s]
 79%|████████████████████████████████████████████████████████████                | 14902/18846 [27:57<07:24,  8.88it/s]
 79%|████████████████████████████████████████████████████████████                | 14906/18846 [27:58<07:23,  8.88it/s]
 79%|████████████████████████████████████████████████████████████                | 14909/18846 [27:58<07:23,  8.88it/s]
 79%|███████████████████████████████████

 81%|█████████████████████████████████████████████████████████████▎              | 15203/18846 [29:04<06:58,  8.71it/s]
 81%|█████████████████████████████████████████████████████████████▎              | 15207/18846 [29:05<06:57,  8.71it/s]
 81%|█████████████████████████████████████████████████████████████▎              | 15211/18846 [29:05<06:57,  8.72it/s]
 81%|█████████████████████████████████████████████████████████████▎              | 15214/18846 [29:05<06:56,  8.72it/s]
 81%|█████████████████████████████████████████████████████████████▎              | 15217/18846 [29:05<06:56,  8.72it/s]
 81%|█████████████████████████████████████████████████████████████▍              | 15220/18846 [29:05<06:55,  8.72it/s]
 81%|█████████████████████████████████████████████████████████████▍              | 15223/18846 [29:05<06:55,  8.72it/s]
 81%|█████████████████████████████████████████████████████████████▍              | 15226/18846 [29:05<06:55,  8.72it/s]
 81%|███████████████████████████████████

 82%|██████████████████████████████████████████████████████████████▋             | 15533/18846 [29:35<06:18,  8.75it/s]
 82%|██████████████████████████████████████████████████████████████▋             | 15537/18846 [29:35<06:18,  8.75it/s]
 82%|██████████████████████████████████████████████████████████████▋             | 15540/18846 [29:35<06:17,  8.75it/s]
 82%|██████████████████████████████████████████████████████████████▋             | 15544/18846 [29:35<06:17,  8.75it/s]
 82%|██████████████████████████████████████████████████████████████▋             | 15547/18846 [29:35<06:16,  8.75it/s]
 83%|██████████████████████████████████████████████████████████████▋             | 15550/18846 [29:36<06:16,  8.76it/s]
 83%|██████████████████████████████████████████████████████████████▋             | 15553/18846 [29:36<06:16,  8.76it/s]
 83%|██████████████████████████████████████████████████████████████▋             | 15556/18846 [29:36<06:15,  8.76it/s]
 83%|███████████████████████████████████

 84%|███████████████████████████████████████████████████████████████▉            | 15848/18846 [30:14<05:43,  8.73it/s]
 84%|███████████████████████████████████████████████████████████████▉            | 15850/18846 [30:14<05:43,  8.73it/s]
 84%|███████████████████████████████████████████████████████████████▉            | 15852/18846 [30:14<05:42,  8.73it/s]
 84%|███████████████████████████████████████████████████████████████▉            | 15854/18846 [30:14<05:42,  8.74it/s]
 84%|███████████████████████████████████████████████████████████████▉            | 15856/18846 [30:15<05:42,  8.74it/s]
 84%|███████████████████████████████████████████████████████████████▉            | 15858/18846 [30:15<05:42,  8.74it/s]
 84%|███████████████████████████████████████████████████████████████▉            | 15860/18846 [30:15<05:41,  8.74it/s]
 84%|███████████████████████████████████████████████████████████████▉            | 15862/18846 [30:15<05:41,  8.74it/s]
 84%|███████████████████████████████████

 86%|█████████████████████████████████████████████████████████████████▎          | 16195/18846 [30:43<05:01,  8.78it/s]
 86%|█████████████████████████████████████████████████████████████████▎          | 16197/18846 [30:44<05:01,  8.78it/s]
 86%|█████████████████████████████████████████████████████████████████▎          | 16198/18846 [30:44<05:01,  8.78it/s]
 86%|█████████████████████████████████████████████████████████████████▎          | 16199/18846 [30:44<05:01,  8.78it/s]
 86%|█████████████████████████████████████████████████████████████████▎          | 16201/18846 [30:44<05:01,  8.78it/s]
 86%|█████████████████████████████████████████████████████████████████▎          | 16202/18846 [30:44<05:01,  8.78it/s]
 86%|█████████████████████████████████████████████████████████████████▎          | 16204/18846 [30:44<05:00,  8.78it/s]
 86%|█████████████████████████████████████████████████████████████████▎          | 16205/18846 [30:45<05:00,  8.78it/s]
 86%|███████████████████████████████████

 87%|██████████████████████████████████████████████████████████████████▍         | 16487/18846 [31:38<04:31,  8.68it/s]
 87%|██████████████████████████████████████████████████████████████████▍         | 16489/18846 [31:39<04:31,  8.68it/s]
 88%|██████████████████████████████████████████████████████████████████▌         | 16492/18846 [31:39<04:31,  8.68it/s]
 88%|██████████████████████████████████████████████████████████████████▌         | 16494/18846 [31:39<04:30,  8.68it/s]
 88%|██████████████████████████████████████████████████████████████████▌         | 16497/18846 [31:40<04:30,  8.68it/s]
 88%|██████████████████████████████████████████████████████████████████▌         | 16499/18846 [31:40<04:30,  8.68it/s]
 88%|██████████████████████████████████████████████████████████████████▌         | 16501/18846 [31:40<04:30,  8.68it/s]
 88%|██████████████████████████████████████████████████████████████████▌         | 16503/18846 [31:41<04:29,  8.68it/s]
 88%|███████████████████████████████████

 89%|███████████████████████████████████████████████████████████████████▋        | 16777/18846 [32:13<03:58,  8.68it/s]
 89%|███████████████████████████████████████████████████████████████████▋        | 16779/18846 [32:13<03:58,  8.68it/s]
 89%|███████████████████████████████████████████████████████████████████▋        | 16781/18846 [32:13<03:57,  8.68it/s]
 89%|███████████████████████████████████████████████████████████████████▋        | 16783/18846 [32:13<03:57,  8.68it/s]
 89%|███████████████████████████████████████████████████████████████████▋        | 16785/18846 [32:13<03:57,  8.68it/s]
 89%|███████████████████████████████████████████████████████████████████▋        | 16787/18846 [32:13<03:57,  8.68it/s]
 89%|███████████████████████████████████████████████████████████████████▋        | 16789/18846 [32:14<03:56,  8.68it/s]
 89%|███████████████████████████████████████████████████████████████████▋        | 16792/18846 [32:14<03:56,  8.68it/s]
 89%|███████████████████████████████████

 90%|████████████████████████████████████████████████████████████████████▌       | 17013/18846 [33:13<03:34,  8.53it/s]
 90%|████████████████████████████████████████████████████████████████████▌       | 17015/18846 [33:24<03:35,  8.49it/s]
 90%|████████████████████████████████████████████████████████████████████▌       | 17016/18846 [33:25<03:35,  8.49it/s]
 90%|████████████████████████████████████████████████████████████████████▋       | 17018/18846 [33:25<03:35,  8.49it/s]
 90%|████████████████████████████████████████████████████████████████████▋       | 17019/18846 [33:25<03:35,  8.49it/s]
 90%|████████████████████████████████████████████████████████████████████▋       | 17020/18846 [33:25<03:35,  8.49it/s]
 90%|████████████████████████████████████████████████████████████████████▋       | 17021/18846 [33:25<03:35,  8.49it/s]
 90%|████████████████████████████████████████████████████████████████████▋       | 17023/18846 [33:26<03:34,  8.48it/s]
 90%|███████████████████████████████████

 91%|█████████████████████████████████████████████████████████████████████▌      | 17238/18846 [34:01<03:10,  8.44it/s]
 91%|█████████████████████████████████████████████████████████████████████▌      | 17239/18846 [34:01<03:10,  8.44it/s]
 91%|█████████████████████████████████████████████████████████████████████▌      | 17240/18846 [34:01<03:10,  8.44it/s]
 91%|█████████████████████████████████████████████████████████████████████▌      | 17241/18846 [34:01<03:10,  8.44it/s]
 91%|█████████████████████████████████████████████████████████████████████▌      | 17243/18846 [34:02<03:09,  8.44it/s]
 92%|█████████████████████████████████████████████████████████████████████▌      | 17245/18846 [34:02<03:09,  8.44it/s]
 92%|█████████████████████████████████████████████████████████████████████▌      | 17247/18846 [34:02<03:09,  8.44it/s]
 92%|█████████████████████████████████████████████████████████████████████▌      | 17249/18846 [34:03<03:09,  8.44it/s]
 92%|███████████████████████████████████

 93%|██████████████████████████████████████████████████████████████████████▋     | 17535/18846 [34:30<02:34,  8.47it/s]
 93%|██████████████████████████████████████████████████████████████████████▋     | 17537/18846 [34:30<02:34,  8.47it/s]
 93%|██████████████████████████████████████████████████████████████████████▋     | 17539/18846 [34:30<02:34,  8.47it/s]
 93%|██████████████████████████████████████████████████████████████████████▋     | 17541/18846 [34:31<02:34,  8.47it/s]
 93%|██████████████████████████████████████████████████████████████████████▋     | 17543/18846 [34:32<02:33,  8.47it/s]
 93%|██████████████████████████████████████████████████████████████████████▋     | 17544/18846 [34:32<02:33,  8.47it/s]
 93%|██████████████████████████████████████████████████████████████████████▊     | 17546/18846 [34:32<02:33,  8.47it/s]
 93%|██████████████████████████████████████████████████████████████████████▊     | 17547/18846 [34:32<02:33,  8.46it/s]
 93%|███████████████████████████████████

 94%|███████████████████████████████████████████████████████████████████████▋    | 17783/18846 [35:03<02:05,  8.45it/s]
 94%|███████████████████████████████████████████████████████████████████████▋    | 17785/18846 [35:03<02:05,  8.45it/s]
 94%|███████████████████████████████████████████████████████████████████████▋    | 17787/18846 [35:04<02:05,  8.45it/s]
 94%|███████████████████████████████████████████████████████████████████████▋    | 17789/18846 [35:04<02:05,  8.45it/s]
 94%|███████████████████████████████████████████████████████████████████████▋    | 17791/18846 [35:06<02:04,  8.45it/s]
 94%|███████████████████████████████████████████████████████████████████████▋    | 17792/18846 [35:06<02:04,  8.44it/s]
 94%|███████████████████████████████████████████████████████████████████████▊    | 17794/18846 [35:06<02:04,  8.45it/s]
 94%|███████████████████████████████████████████████████████████████████████▊    | 17796/18846 [35:07<02:04,  8.44it/s]
 94%|███████████████████████████████████

 96%|████████████████████████████████████████████████████████████████████████▋   | 18038/18846 [35:44<01:36,  8.41it/s]
 96%|████████████████████████████████████████████████████████████████████████▋   | 18040/18846 [35:44<01:35,  8.41it/s]
 96%|████████████████████████████████████████████████████████████████████████▊   | 18042/18846 [35:45<01:35,  8.41it/s]
 96%|████████████████████████████████████████████████████████████████████████▊   | 18044/18846 [35:45<01:35,  8.41it/s]
 96%|████████████████████████████████████████████████████████████████████████▊   | 18047/18846 [35:45<01:35,  8.41it/s]
 96%|████████████████████████████████████████████████████████████████████████▊   | 18049/18846 [35:46<01:34,  8.41it/s]
 96%|████████████████████████████████████████████████████████████████████████▊   | 18051/18846 [35:46<01:34,  8.41it/s]
 96%|████████████████████████████████████████████████████████████████████████▊   | 18054/18846 [35:46<01:34,  8.41it/s]
 96%|███████████████████████████████████

 98%|██████████████████████████████████████████████████████████████████████████▏ | 18386/18846 [36:30<00:54,  8.39it/s]
 98%|██████████████████████████████████████████████████████████████████████████▏ | 18389/18846 [36:30<00:54,  8.39it/s]
 98%|██████████████████████████████████████████████████████████████████████████▏ | 18393/18846 [36:31<00:53,  8.39it/s]
 98%|██████████████████████████████████████████████████████████████████████████▏ | 18396/18846 [36:31<00:53,  8.39it/s]
 98%|██████████████████████████████████████████████████████████████████████████▏ | 18400/18846 [36:31<00:53,  8.40it/s]
 98%|██████████████████████████████████████████████████████████████████████████▏ | 18404/18846 [36:31<00:52,  8.40it/s]
 98%|██████████████████████████████████████████████████████████████████████████▏ | 18407/18846 [36:31<00:52,  8.40it/s]
 98%|██████████████████████████████████████████████████████████████████████████▏ | 18411/18846 [36:32<00:51,  8.40it/s]
 98%|███████████████████████████████████

 99%|███████████████████████████████████████████████████████████████████████████▎| 18671/18846 [37:07<00:20,  8.38it/s]
 99%|███████████████████████████████████████████████████████████████████████████▎| 18674/18846 [37:07<00:20,  8.38it/s]
 99%|███████████████████████████████████████████████████████████████████████████▎| 18676/18846 [37:08<00:20,  8.38it/s]
 99%|███████████████████████████████████████████████████████████████████████████▎| 18678/18846 [37:08<00:20,  8.38it/s]
 99%|███████████████████████████████████████████████████████████████████████████▎| 18681/18846 [37:08<00:19,  8.38it/s]
 99%|███████████████████████████████████████████████████████████████████████████▎| 18683/18846 [37:09<00:19,  8.38it/s]
 99%|███████████████████████████████████████████████████████████████████████████▎| 18685/18846 [37:09<00:19,  8.38it/s]
 99%|███████████████████████████████████████████████████████████████████████████▎| 18687/18846 [37:09<00:18,  8.38it/s]
 99%|███████████████████████████████████

number of removed short documents: 3659
total number of tokens: 1541352
number of tokens to be removed: 453855
number of additionally removed short documents: 2078
total number of tokens: 1063444

minimum word count number: 14
this number can be less than MIN_COUNTS because of document removal


In [13]:
# new ids will be created for the documents.
# create a way of restoring initial ids:
doc_decoder = {i: doc_id for i, (doc_id, doc) in enumerate(encoded_docs)}



In [14]:
data = []
# new ids are created here
for index, (_, doc) in tqdm(enumerate(encoded_docs)):
    windows = get_windows(doc, HALF_WINDOW_SIZE)
    # index represents id of a document, 
    # windows is a list of (word, window around this word),
    # where word is in the document
    data += [[index, w[0]] + w[1] for w in windows]

data = np.array(data, dtype='int64')


0it [00:00, ?it/s]
264it [00:00, 2536.10it/s]
440it [00:00, 2113.24it/s]
681it [00:00, 2210.93it/s]
827it [00:00, 1442.10it/s]
959it [00:00, 1422.71it/s]
1200it [00:00, 1550.08it/s]
1371it [00:00, 1566.42it/s]
1560it [00:00, 1596.17it/s]
1728it [00:01, 1379.51it/s]
1954it [00:01, 1446.62it/s]
2117it [00:01, 1458.17it/s]
2353it [00:01, 1516.19it/s]
2538it [00:01, 1336.31it/s]
2765it [00:02, 1380.19it/s]
2933it [00:02, 1391.25it/s]
3122it [00:02, 1413.75it/s]
3311it [00:02, 1434.31it/s]
3489it [00:02, 1293.75it/s]
3662it [00:02, 1307.43it/s]
3837it [00:02, 1321.84it/s]
4015it [00:03, 1334.83it/s]
4176it [00:03, 1341.91it/s]
4380it [00:03, 1260.69it/s]
4592it [00:03, 1284.70it/s]
4795it [00:03, 1302.82it/s]
5033it [00:03, 1331.98it/s]
5338it [00:03, 1374.83it/s]
5563it [00:03, 1395.71it/s]
5786it [00:04, 1414.19it/s]
6002it [00:04, 1313.53it/s]
6206it [00:04, 1329.34it/s]
6392it [00:04, 1339.88it/s]
6609it [00:04, 1357.18it/s]
6800it [00:04, 1365.80it/s]
6987it [00:05, 1368.69it/s]
7165i

In [15]:
# a row in 'data' contains:
# id of a document, id of a word in this document, a window around this word
# 1 + 1 + 10
data.shape[1]

12

In [16]:
# number of windows (equals to the total number of tokens)
data.shape[0]

1063444

# Get unigram distribution

In [17]:
word_counts = np.array(word_counts)
unigram_distribution = word_counts/sum(word_counts)

# Prepare word vectors

In [18]:
%%time
vocab_size = len(decoder)
embedding_dim = 50

# train a skip-gram word2vec model
texts = [[str(j) for j in doc] for i, doc in encoded_docs]
model = models.Word2Vec(texts, size=embedding_dim, window=5, workers=4, sg=1, negative=15, iter=70)
model.init_sims(replace=True)

word_vectors = np.zeros((vocab_size, embedding_dim)).astype('float32')
for i in decoder:
    word_vectors[i] = model.wv[str(i)]



Wall time: 14min 17s


In [19]:
# number of unique words
vocab_size

7596



# Prepare initialization for document weights

In [20]:
texts = [[decoder[j] for j in doc] for i, doc in encoded_docs]
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]



In [21]:
%%time
n_topics = 25
lda = models.LdaModel(corpus, alpha=0.9, id2word=dictionary, num_topics=n_topics)
corpus_lda = lda[corpus]



Wall time: 26.2 s


In [22]:
for i, topics in lda.show_topics(n_topics, formatted=False):
    print('topic', i, ':', ' '.join([t for t, _ in topics]))

topic 0 : church jesus bible word christian christ sin life love faith
topic 1 : version user software message ftp ripem package application provide library
topic 2 : card disk software dos driver windows mac controller hard computer
topic 3 : buy sound insurance pay care channel private gay cost money
topic 4 : display font server widget window character build text entry code
topic 5 : woman child leave kill home live happen lord then old
topic 6 : car bike price buy sell engine turn ride road pay
topic 7 : armenian drug turkish armenians report child national health turkey states
topic 8 : hit clutch detector average cub player car radar well hitter
topic 9 : president stephanopoulos talk job myer decision general press white well
topic 10 : window application mouse manager button screen event server xterm client
topic 11 : pin input circuit switch output build supply voltage monitor current
topic 12 : gun chip encryption firearm public crime weapon clipper security phone
topic 13 : 



In [23]:
doc_weights_init = np.zeros((len(corpus_lda), n_topics))
for i in tqdm(range(len(corpus_lda))):
    topics = corpus_lda[i]
    for j, prob in topics:
        doc_weights_init[i, j] = prob


  0%|                                                                                        | 0/13109 [00:00<?, ?it/s]
  0%|                                                                              | 14/13109 [00:00<01:42, 127.99it/s]
  0%|▎                                                                             | 52/13109 [00:00<00:54, 237.71it/s]
  1%|▌                                                                             | 97/13109 [00:00<00:44, 295.62it/s]
  1%|▊                                                                            | 132/13109 [00:00<00:43, 301.71it/s]
  1%|█                                                                            | 180/13109 [00:00<00:39, 329.12it/s]
  2%|█▎                                                                           | 230/13109 [00:00<00:36, 350.47it/s]
  2%|█▌                                                                           | 266/13109 [00:00<00:36, 347.42it/s]
  2%|█▊                                

 40%|██████████████████████████████▌                                             | 5270/13109 [00:14<00:22, 352.43it/s]
 40%|██████████████████████████████▊                                             | 5305/13109 [00:15<00:22, 352.19it/s]
 41%|███████████████████████████████                                             | 5355/13109 [00:15<00:21, 352.95it/s]
 41%|███████████████████████████████▎                                            | 5404/13109 [00:15<00:21, 353.63it/s]
 42%|███████████████████████████████▌                                            | 5447/13109 [00:15<00:21, 353.91it/s]
 42%|███████████████████████████████▊                                            | 5492/13109 [00:15<00:21, 354.32it/s]
 42%|████████████████████████████████                                            | 5532/13109 [00:15<00:21, 354.40it/s]
 43%|████████████████████████████████▎                                           | 5581/13109 [00:15<00:21, 355.05it/s]
 43%|████████████████████████████████▋  

# Save data

In [24]:
np.save('data.npy', data)
np.save('word_vectors.npy', word_vectors)
np.save('unigram_distribution.npy', unigram_distribution)
np.save('decoder.npy', decoder)
np.save('doc_decoder.npy', doc_decoder)
np.save('doc_weights_init.npy', doc_weights_init)

