In [1]:
%load_ext autoreload
%autoreload 2

In [14]:
from sklearn.datasets import fetch_20newsgroups
import numpy as np
from tqdm import tqdm
import spacy
from gensim import corpora, models

import sys
sys.path.append('..')
from utils import preprocess, get_windows

In [15]:
MIN_COUNTS = 20
MAX_COUNTS = 1800
# words with count < MIN_COUNTS
# and count > MAX_COUNTS
# will be removed

MIN_LENGTH = 15
# minimum document length 
# (number of words)
# after preprocessing

# half the size of the context around a word
HALF_WINDOW_SIZE = 5
# it must be that 2*HALF_WINDOW_SIZE < MIN_LENGTH

# Load NLP model

In [16]:
nlp = spacy.load('en')

# Load dataset

In [17]:
dataset = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))
docs = dataset['data']

In [18]:
# number of documents
len(docs)

18846

In [19]:
# store an index with a document
docs = [(i, doc) for i, doc in enumerate(docs)]

# Preprocess dataset and create windows

In [20]:
encoded_docs, decoder, word_counts = preprocess(
    docs, nlp, MIN_LENGTH, MIN_COUNTS, MAX_COUNTS
)



  0%|                                                                                        | 0/18846 [00:00<?, ?it/s]

  0%|                                                                              | 1/18846 [00:00<2:24:48,  2.17it/s]

  0%|                                                                              | 3/18846 [00:00<1:51:56,  2.81it/s]

  0%|                                                                              | 5/18846 [00:00<1:24:57,  3.70it/s]

  0%|                                                                              | 8/18846 [00:01<1:05:49,  4.77it/s]

  0%|                                                                               | 10/18846 [00:01<52:00,  6.04it/s]

  0%|                                                                               | 13/18846 [00:01<53:11,  5.90it/s]

  0%|                                                                               | 16/18846 [00:01<42:01,  7.47it/s]

  0%|                         

  1%|▋                                                                             | 159/18846 [00:12<19:50, 15.70it/s]

  1%|▋                                                                             | 163/18846 [00:13<16:41, 18.66it/s]

  1%|▋                                                                             | 166/18846 [00:13<16:13, 19.19it/s]

  1%|▋                                                                             | 169/18846 [00:13<15:05, 20.63it/s]

  1%|▋                                                                             | 172/18846 [00:13<16:34, 18.79it/s]

  1%|▋                                                                             | 176/18846 [00:13<15:30, 20.05it/s]

  1%|▋                                                                             | 179/18846 [00:13<21:02, 14.79it/s]

  1%|▊                                                                             | 183/18846 [00:14<22:02, 14.11it/s]

  1%|▊                          

  2%|█▍                                                                            | 348/18846 [00:25<22:08, 13.92it/s]

  2%|█▍                                                                            | 352/18846 [00:26<19:54, 15.48it/s]

  2%|█▍                                                                            | 355/18846 [00:26<20:45, 14.85it/s]

  2%|█▍                                                                            | 357/18846 [00:26<20:15, 15.21it/s]

  2%|█▍                                                                            | 360/18846 [00:26<17:50, 17.27it/s]

  2%|█▍                                                                            | 362/18846 [00:26<20:09, 15.28it/s]

  2%|█▌                                                                            | 366/18846 [00:26<17:33, 17.55it/s]

  2%|█▌                                                                            | 368/18846 [00:26<18:45, 16.42it/s]

  2%|█▌                         

  3%|██                                                                            | 513/18846 [00:39<23:12, 13.17it/s]

  3%|██▏                                                                           | 515/18846 [00:39<26:33, 11.51it/s]

  3%|██▏                                                                           | 518/18846 [00:39<22:11, 13.77it/s]

  3%|██▏                                                                           | 521/18846 [00:39<20:52, 14.63it/s]

  3%|██▏                                                                           | 523/18846 [00:40<26:03, 11.72it/s]

  3%|██▏                                                                           | 526/18846 [00:40<22:45, 13.42it/s]

  3%|██▏                                                                           | 529/18846 [00:40<19:15, 15.85it/s]

  3%|██▏                                                                           | 531/18846 [00:40<18:17, 16.69it/s]

  3%|██▏                        

  4%|██▊                                                                           | 688/18846 [00:56<50:40,  5.97it/s]

  4%|██▊                                                                           | 693/18846 [00:56<38:26,  7.87it/s]

  4%|██▉                                                                           | 696/18846 [00:56<36:31,  8.28it/s]

  4%|██▉                                                                           | 699/18846 [00:56<28:55, 10.46it/s]

  4%|██▉                                                                           | 702/18846 [00:57<28:02, 10.78it/s]

  4%|██▉                                                                           | 704/18846 [00:57<24:26, 12.37it/s]

  4%|██▉                                                                           | 707/18846 [00:57<21:20, 14.17it/s]

  4%|██▉                                                                           | 710/18846 [00:57<19:00, 15.90it/s]

  4%|██▉                        

  5%|███▌                                                                          | 862/18846 [01:08<24:16, 12.34it/s]

  5%|███▌                                                                          | 866/18846 [01:09<20:56, 14.30it/s]

  5%|███▌                                                                          | 869/18846 [01:09<18:04, 16.57it/s]

  5%|███▌                                                                          | 872/18846 [01:09<28:30, 10.51it/s]

  5%|███▌                                                                          | 874/18846 [01:09<24:56, 12.01it/s]

  5%|███▋                                                                          | 877/18846 [01:10<33:10,  9.03it/s]

  5%|███▋                                                                          | 880/18846 [01:10<28:16, 10.59it/s]

  5%|███▋                                                                          | 883/18846 [01:10<22:54, 13.07it/s]

  5%|███▋                       

  6%|████▎                                                                        | 1044/18846 [01:20<19:25, 15.27it/s]

  6%|████▎                                                                        | 1047/18846 [01:21<16:55, 17.53it/s]

  6%|████▎                                                                        | 1050/18846 [01:21<22:45, 13.03it/s]

  6%|████▎                                                                        | 1053/18846 [01:21<21:15, 13.95it/s]

  6%|████▎                                                                        | 1055/18846 [01:21<22:34, 13.13it/s]

  6%|████▎                                                                        | 1058/18846 [01:22<23:07, 12.82it/s]

  6%|████▎                                                                        | 1060/18846 [01:22<21:20, 13.89it/s]

  6%|████▎                                                                        | 1062/18846 [01:22<20:43, 14.31it/s]

  6%|████▎                      

  6%|████▉                                                                        | 1215/18846 [01:33<27:15, 10.78it/s]

  6%|████▉                                                                        | 1217/18846 [01:33<27:47, 10.57it/s]

  6%|████▉                                                                        | 1220/18846 [01:33<22:58, 12.78it/s]

  6%|████▉                                                                        | 1222/18846 [01:33<22:36, 12.99it/s]

  6%|█████                                                                        | 1224/18846 [01:33<22:02, 13.33it/s]

  7%|█████                                                                        | 1226/18846 [01:34<20:24, 14.39it/s]

  7%|█████                                                                        | 1228/18846 [01:34<19:39, 14.94it/s]

  7%|█████                                                                        | 1230/18846 [01:34<47:34,  6.17it/s]

  7%|█████                      

  7%|█████▋                                                                       | 1399/18846 [01:50<26:05, 11.15it/s]

  7%|█████▋                                                                       | 1401/18846 [01:50<31:57,  9.10it/s]

  7%|█████▋                                                                       | 1403/18846 [01:50<27:38, 10.52it/s]

  7%|█████▋                                                                       | 1406/18846 [01:50<22:23, 12.98it/s]

  7%|█████▊                                                                       | 1408/18846 [01:50<22:18, 13.03it/s]

  7%|█████▊                                                                       | 1410/18846 [01:50<22:50, 12.72it/s]

  7%|█████▊                                                                       | 1412/18846 [01:51<20:54, 13.89it/s]

  8%|█████▊                                                                       | 1416/18846 [01:51<17:09, 16.92it/s]

  8%|█████▊                     

  8%|██████▍                                                                      | 1589/18846 [02:01<23:16, 12.36it/s]

  8%|██████▌                                                                      | 1592/18846 [02:02<22:12, 12.95it/s]

  8%|██████▌                                                                      | 1594/18846 [02:02<19:51, 14.48it/s]

  8%|██████▌                                                                      | 1596/18846 [02:02<19:58, 14.39it/s]

  8%|██████▌                                                                      | 1598/18846 [02:02<18:48, 15.28it/s]

  8%|██████▌                                                                      | 1600/18846 [02:02<21:29, 13.38it/s]

  9%|██████▌                                                                      | 1602/18846 [02:03<31:33,  9.11it/s]

  9%|██████▌                                                                      | 1604/18846 [02:03<37:25,  7.68it/s]

  9%|██████▌                    

  9%|███████▎                                                                     | 1778/18846 [02:14<15:12, 18.70it/s]

  9%|███████▎                                                                     | 1781/18846 [02:14<14:29, 19.63it/s]

  9%|███████▎                                                                     | 1784/18846 [02:14<17:50, 15.93it/s]

  9%|███████▎                                                                     | 1786/18846 [02:14<22:51, 12.44it/s]

  9%|███████▎                                                                     | 1789/18846 [02:14<21:13, 13.39it/s]

 10%|███████▎                                                                     | 1791/18846 [02:15<19:14, 14.77it/s]

 10%|███████▎                                                                     | 1794/18846 [02:15<16:41, 17.03it/s]

 10%|███████▎                                                                     | 1797/18846 [02:15<16:15, 17.48it/s]

 10%|███████▎                   

 10%|███████▉                                                                     | 1947/18846 [02:29<33:50,  8.32it/s]

 10%|███████▊                                                                   | 1949/18846 [02:32<2:34:53,  1.82it/s]

 10%|███████▊                                                                   | 1951/18846 [02:32<1:53:16,  2.49it/s]

 10%|███████▊                                                                   | 1954/18846 [02:32<1:22:34,  3.41it/s]

 10%|███████▊                                                                   | 1957/18846 [02:32<1:00:53,  4.62it/s]

 10%|████████                                                                     | 1960/18846 [02:32<45:47,  6.15it/s]

 10%|████████                                                                     | 1963/18846 [02:32<36:46,  7.65it/s]

 10%|████████                                                                     | 1967/18846 [02:33<29:28,  9.55it/s]

 10%|████████                   

 11%|████████▋                                                                    | 2140/18846 [02:47<17:27, 15.94it/s]

 11%|████████▊                                                                    | 2142/18846 [02:47<18:51, 14.76it/s]

 11%|████████▊                                                                    | 2144/18846 [02:48<18:25, 15.11it/s]

 11%|████████▊                                                                    | 2146/18846 [02:48<27:38, 10.07it/s]

 11%|████████▊                                                                    | 2149/18846 [02:48<22:40, 12.27it/s]

 11%|████████▊                                                                    | 2153/18846 [02:48<18:42, 14.87it/s]

 11%|████████▊                                                                    | 2156/18846 [02:48<16:32, 16.81it/s]

 11%|████████▊                                                                    | 2159/18846 [02:48<16:53, 16.47it/s]

 11%|████████▊                  

 12%|█████████▌                                                                   | 2330/18846 [03:03<24:31, 11.22it/s]

 12%|█████████▌                                                                   | 2332/18846 [03:03<25:57, 10.60it/s]

 12%|█████████▌                                                                   | 2339/18846 [03:04<19:32, 14.08it/s]

 12%|█████████▌                                                                   | 2342/18846 [03:05<40:19,  6.82it/s]

 12%|█████████▌                                                                   | 2345/18846 [03:05<33:28,  8.21it/s]

 12%|█████████▌                                                                   | 2348/18846 [03:05<27:18, 10.07it/s]

 12%|█████████▌                                                                   | 2350/18846 [03:05<30:24,  9.04it/s]

 12%|█████████▌                                                                   | 2352/18846 [03:05<32:25,  8.48it/s]

 12%|█████████▌                 

 13%|██████████▎                                                                  | 2522/18846 [03:16<16:15, 16.74it/s]

 13%|██████████▎                                                                  | 2525/18846 [03:17<19:10, 14.18it/s]

 13%|██████████▎                                                                  | 2528/18846 [03:17<16:11, 16.79it/s]

 13%|██████████                                                                 | 2531/18846 [03:20<1:41:17,  2.68it/s]

 13%|██████████                                                                 | 2534/18846 [03:20<1:13:46,  3.69it/s]

 13%|██████████                                                                 | 2536/18846 [03:21<1:00:41,  4.48it/s]

 13%|██████████▎                                                                  | 2538/18846 [03:21<46:38,  5.83it/s]

 13%|██████████▍                                                                  | 2541/18846 [03:21<36:05,  7.53it/s]

 13%|██████████▍                

 14%|███████████                                                                  | 2718/18846 [03:35<26:39, 10.09it/s]

 14%|███████████                                                                  | 2722/18846 [03:35<21:21, 12.59it/s]

 14%|███████████▏                                                                 | 2725/18846 [03:35<18:43, 14.34it/s]

 14%|███████████▏                                                                 | 2728/18846 [03:35<24:54, 10.79it/s]

 14%|███████████▏                                                                 | 2731/18846 [03:35<20:43, 12.95it/s]

 15%|███████████▏                                                                 | 2734/18846 [03:35<17:19, 15.50it/s]

 15%|███████████▏                                                                 | 2737/18846 [03:36<14:55, 17.99it/s]

 15%|███████████▏                                                                 | 2740/18846 [03:36<13:07, 20.45it/s]

 15%|███████████▏               

 15%|███████████▊                                                                 | 2901/18846 [03:52<12:26, 21.35it/s]

 15%|███████████▊                                                                 | 2904/18846 [03:52<13:36, 19.53it/s]

 15%|███████████▉                                                                 | 2907/18846 [03:52<13:52, 19.14it/s]

 15%|███████████▉                                                                 | 2909/18846 [03:52<16:41, 15.92it/s]

 15%|███████████▉                                                                 | 2912/18846 [03:53<14:31, 18.29it/s]

 15%|███████████▉                                                                 | 2915/18846 [03:53<30:10,  8.80it/s]

 15%|███████████▉                                                                 | 2918/18846 [03:53<23:46, 11.16it/s]

 15%|███████████▉                                                                 | 2921/18846 [03:53<19:27, 13.64it/s]

 16%|███████████▉               

 16%|████████████▌                                                                | 3079/18846 [04:07<20:28, 12.83it/s]

 16%|████████████▌                                                                | 3082/18846 [04:07<17:07, 15.35it/s]

 16%|████████████▌                                                                | 3084/18846 [04:08<18:21, 14.30it/s]

 16%|████████████▌                                                                | 3086/18846 [04:08<18:52, 13.91it/s]

 16%|████████████▌                                                                | 3090/18846 [04:08<18:14, 14.40it/s]

 16%|████████████▋                                                                | 3094/18846 [04:08<15:39, 16.77it/s]

 16%|████████████▋                                                                | 3098/18846 [04:08<13:55, 18.84it/s]

 16%|████████████▋                                                                | 3102/18846 [04:08<12:26, 21.09it/s]

 16%|████████████▋              

 17%|█████████████▍                                                               | 3278/18846 [04:19<16:22, 15.85it/s]

 17%|█████████████▍                                                               | 3281/18846 [04:19<14:17, 18.16it/s]

 17%|█████████████▍                                                               | 3284/18846 [04:19<14:04, 18.43it/s]

 17%|█████████████▍                                                               | 3287/18846 [04:19<14:20, 18.09it/s]

 17%|█████████████▍                                                               | 3290/18846 [04:19<12:42, 20.41it/s]

 17%|█████████████▍                                                               | 3293/18846 [04:20<16:07, 16.08it/s]

 17%|█████████████▍                                                               | 3295/18846 [04:20<22:47, 11.37it/s]

 17%|█████████████▍                                                               | 3297/18846 [04:20<20:32, 12.62it/s]

 18%|█████████████▍             

 18%|██████████████▏                                                              | 3460/18846 [04:32<17:51, 14.35it/s]

 18%|██████████████▏                                                              | 3463/18846 [04:32<15:54, 16.11it/s]

 18%|██████████████▏                                                              | 3465/18846 [04:33<18:17, 14.02it/s]

 18%|██████████████▏                                                              | 3467/18846 [04:33<18:22, 13.95it/s]

 18%|█████████████▊                                                             | 3469/18846 [04:36<2:32:38,  1.68it/s]

 18%|█████████████▊                                                             | 3471/18846 [04:36<1:52:33,  2.28it/s]

 18%|█████████████▊                                                             | 3475/18846 [04:37<1:20:56,  3.16it/s]

 18%|█████████████▊                                                             | 3477/18846 [04:37<1:00:43,  4.22it/s]

 18%|██████████████▏            

 19%|██████████████▉                                                              | 3644/18846 [04:54<16:44, 15.13it/s]

 19%|██████████████▉                                                              | 3646/18846 [04:54<15:31, 16.32it/s]

 19%|██████████████▌                                                            | 3648/18846 [04:57<1:52:46,  2.25it/s]

 19%|██████████████▌                                                            | 3651/18846 [04:57<1:21:36,  3.10it/s]

 19%|██████████████▌                                                            | 3654/18846 [04:57<1:00:33,  4.18it/s]

 19%|██████████████▉                                                              | 3657/18846 [04:57<45:22,  5.58it/s]

 19%|██████████████▉                                                              | 3660/18846 [04:57<35:31,  7.12it/s]

 19%|██████████████▉                                                              | 3663/18846 [04:57<27:29,  9.20it/s]

 19%|██████████████▉            

 20%|███████████████▋                                                             | 3833/18846 [05:08<10:35, 23.61it/s]

 20%|███████████████▋                                                             | 3836/18846 [05:08<13:44, 18.20it/s]

 20%|███████████████▋                                                             | 3839/18846 [05:08<14:38, 17.07it/s]

 20%|███████████████▋                                                             | 3841/18846 [05:08<15:14, 16.41it/s]

 20%|███████████████▋                                                             | 3845/18846 [05:08<13:14, 18.89it/s]

 20%|███████████████▋                                                             | 3848/18846 [05:08<12:51, 19.43it/s]

 20%|███████████████▋                                                             | 3851/18846 [05:09<14:16, 17.51it/s]

 20%|███████████████▊                                                             | 3855/18846 [05:09<12:13, 20.45it/s]

 20%|███████████████▊           

 21%|████████████████▍                                                            | 4009/18846 [05:24<19:58, 12.37it/s]

 21%|████████████████▍                                                            | 4011/18846 [05:24<18:30, 13.36it/s]

 21%|███████████████▉                                                           | 4013/18846 [05:25<1:11:17,  3.47it/s]

 21%|████████████████▍                                                            | 4017/18846 [05:25<52:03,  4.75it/s]

 21%|████████████████▍                                                            | 4019/18846 [05:26<41:28,  5.96it/s]

 21%|████████████████▍                                                            | 4023/18846 [05:26<31:43,  7.79it/s]

 21%|████████████████▍                                                            | 4026/18846 [05:26<24:49,  9.95it/s]

 21%|████████████████▍                                                            | 4029/18846 [05:26<22:01, 11.22it/s]

 21%|████████████████▍          

 22%|█████████████████▏                                                           | 4213/18846 [05:43<54:10,  4.50it/s]

 22%|█████████████████▏                                                           | 4216/18846 [05:43<41:47,  5.83it/s]

 22%|█████████████████▏                                                           | 4219/18846 [05:43<32:43,  7.45it/s]

 22%|█████████████████▎                                                           | 4224/18846 [05:43<25:12,  9.67it/s]

 22%|█████████████████▎                                                           | 4227/18846 [05:43<22:01, 11.06it/s]

 22%|█████████████████▎                                                           | 4230/18846 [05:44<19:21, 12.58it/s]

 22%|█████████████████▎                                                           | 4233/18846 [05:44<16:25, 14.83it/s]

 22%|█████████████████▎                                                           | 4236/18846 [05:44<14:01, 17.36it/s]

 22%|█████████████████▎         

 23%|█████████████████▉                                                           | 4394/18846 [06:00<24:42,  9.75it/s]

 23%|█████████████████▉                                                           | 4397/18846 [06:00<20:16, 11.87it/s]

 23%|█████████████████▉                                                           | 4399/18846 [06:00<27:44,  8.68it/s]

 23%|█████████████████▉                                                           | 4401/18846 [06:00<23:16, 10.34it/s]

 23%|█████████████████▉                                                           | 4403/18846 [06:01<23:20, 10.32it/s]

 23%|█████████████████▉                                                           | 4405/18846 [06:01<20:16, 11.88it/s]

 23%|██████████████████                                                           | 4409/18846 [06:01<16:53, 14.25it/s]

 23%|██████████████████                                                           | 4412/18846 [06:01<14:48, 16.25it/s]

 23%|██████████████████         

 24%|██████████████████▋                                                          | 4587/18846 [06:11<12:29, 19.03it/s]

 24%|██████████████████▊                                                          | 4590/18846 [06:11<12:15, 19.39it/s]

 24%|██████████████████▊                                                          | 4593/18846 [06:12<12:04, 19.68it/s]

 24%|██████████████████▊                                                          | 4597/18846 [06:12<11:42, 20.29it/s]

 24%|██████████████████▊                                                          | 4600/18846 [06:12<10:42, 22.17it/s]

 24%|██████████████████▊                                                          | 4604/18846 [06:12<10:03, 23.60it/s]

 24%|██████████████████▊                                                          | 4608/18846 [06:12<11:01, 21.52it/s]

 24%|██████████████████▊                                                          | 4611/18846 [06:13<21:28, 11.05it/s]

 24%|██████████████████▊        

 25%|███████████████████▍                                                         | 4771/18846 [06:29<21:03, 11.14it/s]

 25%|███████████████████▌                                                         | 4773/18846 [06:29<18:42, 12.53it/s]

 25%|███████████████████▌                                                         | 4775/18846 [06:29<16:43, 14.02it/s]

 25%|███████████████████▌                                                         | 4778/18846 [06:29<14:47, 15.84it/s]

 25%|███████████████████▌                                                         | 4780/18846 [06:30<14:45, 15.89it/s]

 25%|███████████████████▌                                                         | 4782/18846 [06:30<14:53, 15.74it/s]

 25%|███████████████████▌                                                         | 4786/18846 [06:30<13:12, 17.75it/s]

 25%|███████████████████▌                                                         | 4788/18846 [06:30<12:45, 18.37it/s]

 25%|███████████████████▌       

 26%|████████████████████▎                                                        | 4959/18846 [06:47<23:19,  9.92it/s]

 26%|████████████████████▎                                                        | 4963/18846 [06:47<18:22, 12.59it/s]

 26%|████████████████████▎                                                        | 4966/18846 [06:47<15:36, 14.82it/s]

 26%|████████████████████▎                                                        | 4970/18846 [06:48<12:43, 18.17it/s]

 26%|████████████████████▎                                                        | 4974/18846 [06:48<11:09, 20.71it/s]

 26%|████████████████████▎                                                        | 4977/18846 [06:48<11:05, 20.83it/s]

 26%|████████████████████▎                                                        | 4980/18846 [06:48<11:36, 19.92it/s]

 26%|████████████████████▎                                                        | 4983/18846 [06:48<11:43, 19.71it/s]

 26%|████████████████████▍      

 27%|█████████████████████                                                        | 5161/18846 [07:02<14:10, 16.10it/s]

 27%|█████████████████████                                                        | 5164/18846 [07:03<18:36, 12.26it/s]

 27%|█████████████████████                                                        | 5166/18846 [07:03<20:47, 10.97it/s]

 27%|█████████████████████                                                        | 5168/18846 [07:03<24:21,  9.36it/s]

 27%|█████████████████████                                                        | 5170/18846 [07:03<24:48,  9.19it/s]

 27%|█████████████████████▏                                                       | 5174/18846 [07:04<19:10, 11.88it/s]

 27%|█████████████████████▏                                                       | 5176/18846 [07:04<18:32, 12.28it/s]

 27%|█████████████████████▏                                                       | 5178/18846 [07:04<17:27, 13.05it/s]

 27%|█████████████████████▏     

 28%|█████████████████████▊                                                       | 5330/18846 [07:19<32:13,  6.99it/s]

 28%|█████████████████████▊                                                       | 5332/18846 [07:19<27:51,  8.08it/s]

 28%|█████████████████████▊                                                       | 5334/18846 [07:20<28:31,  7.90it/s]

 28%|█████████████████████▊                                                       | 5337/18846 [07:20<22:31, 10.00it/s]

 28%|█████████████████████▊                                                       | 5339/18846 [07:20<24:00,  9.38it/s]

 28%|█████████████████████▊                                                       | 5342/18846 [07:20<21:12, 10.61it/s]

 28%|█████████████████████▊                                                       | 5344/18846 [07:20<18:17, 12.30it/s]

 28%|█████████████████████▊                                                       | 5346/18846 [07:21<20:31, 10.96it/s]

 28%|█████████████████████▊     

 29%|██████████████████████▌                                                      | 5511/18846 [07:34<36:30,  6.09it/s]

 29%|██████████████████████▌                                                      | 5514/18846 [07:36<57:30,  3.86it/s]

 29%|██████████████████████▌                                                      | 5516/18846 [07:36<44:28,  5.00it/s]

 29%|██████████████████████▌                                                      | 5518/18846 [07:36<35:37,  6.23it/s]

 29%|██████████████████████▌                                                      | 5521/18846 [07:36<27:27,  8.09it/s]

 29%|██████████████████████▌                                                      | 5524/18846 [07:36<22:47,  9.74it/s]

 29%|██████████████████████▌                                                      | 5526/18846 [07:37<28:26,  7.80it/s]

 29%|██████████████████████▌                                                      | 5530/18846 [07:37<21:42, 10.23it/s]

 29%|██████████████████████▌    

 30%|███████████████████████▏                                                     | 5685/18846 [07:51<20:28, 10.71it/s]

 30%|███████████████████████▏                                                     | 5688/18846 [07:52<16:55, 12.96it/s]

 30%|███████████████████████▎                                                     | 5691/18846 [07:52<16:36, 13.21it/s]

 30%|███████████████████████▎                                                     | 5693/18846 [07:52<18:29, 11.85it/s]

 30%|███████████████████████▎                                                     | 5695/18846 [07:52<16:23, 13.37it/s]

 30%|███████████████████████▎                                                     | 5698/18846 [07:52<14:00, 15.63it/s]

 30%|███████████████████████▎                                                     | 5701/18846 [07:52<12:01, 18.22it/s]

 30%|███████████████████████▎                                                     | 5704/18846 [07:53<13:46, 15.90it/s]

 30%|███████████████████████▎   

 31%|███████████████████████▉                                                     | 5860/18846 [08:05<15:51, 13.65it/s]

 31%|███████████████████████▉                                                     | 5862/18846 [08:06<16:32, 13.08it/s]

 31%|███████████████████████▉                                                     | 5864/18846 [08:06<15:36, 13.86it/s]

 31%|███████████████████████▉                                                     | 5866/18846 [08:06<15:26, 14.02it/s]

 31%|███████████████████████▉                                                     | 5869/18846 [08:06<13:19, 16.22it/s]

 31%|███████████████████████▉                                                     | 5871/18846 [08:06<14:54, 14.50it/s]

 31%|███████████████████████▉                                                     | 5873/18846 [08:06<14:39, 14.76it/s]

 31%|████████████████████████                                                     | 5875/18846 [08:06<15:53, 13.60it/s]

 31%|████████████████████████   

 32%|████████████████████████▋                                                    | 6035/18846 [08:24<20:34, 10.38it/s]

 32%|████████████████████████▋                                                    | 6037/18846 [08:24<21:24,  9.97it/s]

 32%|████████████████████████▋                                                    | 6039/18846 [08:24<18:59, 11.24it/s]

 32%|████████████████████████▋                                                    | 6043/18846 [08:24<15:26, 13.81it/s]

 32%|████████████████████████▋                                                    | 6045/18846 [08:24<15:50, 13.47it/s]

 32%|████████████████████████▋                                                    | 6047/18846 [08:25<16:39, 12.81it/s]

 32%|████████████████████████▋                                                    | 6049/18846 [08:25<35:00,  6.09it/s]

 32%|████████████████████████▋                                                    | 6054/18846 [08:25<26:32,  8.03it/s]

 32%|████████████████████████▋  

 33%|█████████████████████████▎                                                   | 6207/18846 [08:37<15:03, 13.99it/s]

 33%|█████████████████████████▎                                                   | 6209/18846 [08:38<19:22, 10.87it/s]

 33%|█████████████████████████▍                                                   | 6211/18846 [08:38<17:45, 11.85it/s]

 33%|█████████████████████████▍                                                   | 6213/18846 [08:38<19:05, 11.02it/s]

 33%|█████████████████████████▍                                                   | 6215/18846 [08:38<21:34,  9.76it/s]

 33%|█████████████████████████▍                                                   | 6218/18846 [08:38<17:48, 11.81it/s]

 33%|█████████████████████████▍                                                   | 6220/18846 [08:39<19:30, 10.79it/s]

 33%|█████████████████████████▍                                                   | 6222/18846 [08:39<17:18, 12.15it/s]

 33%|█████████████████████████▍ 

 34%|██████████████████████████                                                   | 6386/18846 [08:49<09:49, 21.12it/s]

 34%|██████████████████████████                                                   | 6389/18846 [08:49<15:48, 13.13it/s]

 34%|██████████████████████████                                                   | 6391/18846 [08:49<14:38, 14.17it/s]

 34%|██████████████████████████▏                                                  | 6395/18846 [08:49<12:28, 16.64it/s]

 34%|██████████████████████████▏                                                  | 6398/18846 [08:50<14:56, 13.89it/s]

 34%|█████████████████████████▍                                                 | 6401/18846 [08:53<1:11:55,  2.88it/s]

 34%|██████████████████████████▏                                                  | 6404/18846 [08:53<53:51,  3.85it/s]

 34%|██████████████████████████▏                                                  | 6407/18846 [08:53<40:18,  5.14it/s]

 34%|██████████████████████████▏

 35%|██████████████████████████▊                                                  | 6575/18846 [09:04<10:16, 19.92it/s]

 35%|██████████████████████████▉                                                  | 6578/18846 [09:04<10:26, 19.59it/s]

 35%|██████████████████████████▉                                                  | 6581/18846 [09:05<10:50, 18.86it/s]

 35%|██████████████████████████▉                                                  | 6584/18846 [09:05<14:49, 13.79it/s]

 35%|██████████████████████████▉                                                  | 6587/18846 [09:05<12:34, 16.24it/s]

 35%|██████████████████████████▉                                                  | 6589/18846 [09:05<15:23, 13.27it/s]

 35%|██████████████████████████▉                                                  | 6591/18846 [09:05<14:54, 13.70it/s]

 35%|██████████████████████████▉                                                  | 6594/18846 [09:06<16:21, 12.48it/s]

 35%|██████████████████████████▉

 36%|███████████████████████████▋                                                 | 6766/18846 [09:22<12:46, 15.75it/s]

 36%|███████████████████████████▋                                                 | 6769/18846 [09:22<12:03, 16.68it/s]

 36%|███████████████████████████▋                                                 | 6772/18846 [09:22<11:33, 17.40it/s]

 36%|███████████████████████████▋                                                 | 6775/18846 [09:22<10:44, 18.72it/s]

 36%|███████████████████████████▋                                                 | 6778/18846 [09:23<14:40, 13.70it/s]

 36%|███████████████████████████▋                                                 | 6782/18846 [09:23<12:06, 16.60it/s]

 36%|███████████████████████████▋                                                 | 6785/18846 [09:23<12:39, 15.88it/s]

 36%|███████████████████████████▋                                                 | 6789/18846 [09:23<10:36, 18.95it/s]

 36%|███████████████████████████

 37%|████████████████████████████▍                                                | 6965/18846 [09:39<14:07, 14.01it/s]

 37%|████████████████████████████▍                                                | 6968/18846 [09:39<11:56, 16.57it/s]

 37%|████████████████████████████▍                                                | 6972/18846 [09:40<10:39, 18.56it/s]

 37%|████████████████████████████▍                                                | 6975/18846 [09:40<11:51, 16.69it/s]

 37%|████████████████████████████▌                                                | 6977/18846 [09:40<15:51, 12.47it/s]

 37%|████████████████████████████▌                                                | 6980/18846 [09:40<13:37, 14.51it/s]

 37%|████████████████████████████▌                                                | 6983/18846 [09:40<11:46, 16.79it/s]

 37%|████████████████████████████▌                                                | 6986/18846 [09:40<10:24, 18.98it/s]

 37%|███████████████████████████

 38%|█████████████████████████████▏                                               | 7158/18846 [09:52<11:52, 16.41it/s]

 38%|█████████████████████████████▎                                               | 7161/18846 [09:52<10:43, 18.17it/s]

 38%|█████████████████████████████▎                                               | 7164/18846 [09:52<10:18, 18.89it/s]

 38%|█████████████████████████████▎                                               | 7168/18846 [09:52<08:49, 22.07it/s]

 38%|█████████████████████████████▎                                               | 7171/18846 [09:52<08:33, 22.72it/s]

 38%|█████████████████████████████▎                                               | 7174/18846 [09:52<08:39, 22.47it/s]

 38%|█████████████████████████████▎                                               | 7178/18846 [09:52<08:13, 23.66it/s]

 38%|█████████████████████████████▎                                               | 7182/18846 [09:52<07:41, 25.28it/s]

 38%|███████████████████████████

 39%|██████████████████████████████                                               | 7365/18846 [10:03<10:54, 17.55it/s]

 39%|██████████████████████████████                                               | 7367/18846 [10:03<11:42, 16.34it/s]

 39%|██████████████████████████████                                               | 7369/18846 [10:03<11:24, 16.77it/s]

 39%|██████████████████████████████                                               | 7371/18846 [10:04<12:18, 15.53it/s]

 39%|██████████████████████████████▏                                              | 7374/18846 [10:04<10:39, 17.93it/s]

 39%|██████████████████████████████▏                                              | 7376/18846 [10:04<11:33, 16.53it/s]

 39%|██████████████████████████████▏                                              | 7378/18846 [10:04<12:40, 15.07it/s]

 39%|██████████████████████████████▏                                              | 7381/18846 [10:05<19:44,  9.68it/s]

 39%|███████████████████████████

 40%|██████████████████████████████▉                                              | 7559/18846 [10:16<15:58, 11.78it/s]

 40%|██████████████████████████████▉                                              | 7563/18846 [10:16<12:51, 14.63it/s]

 40%|██████████████████████████████▉                                              | 7566/18846 [10:16<16:27, 11.42it/s]

 40%|██████████████████████████████▉                                              | 7568/18846 [10:16<14:40, 12.81it/s]

 40%|██████████████████████████████▉                                              | 7570/18846 [10:16<13:52, 13.54it/s]

 40%|██████████████████████████████▉                                              | 7573/18846 [10:16<11:42, 16.05it/s]

 40%|██████████████████████████████▉                                              | 7576/18846 [10:17<10:14, 18.34it/s]

 40%|██████████████████████████████▉                                              | 7579/18846 [10:17<09:28, 19.82it/s]

 40%|███████████████████████████

 41%|███████████████████████████████▋                                             | 7762/18846 [10:28<13:00, 14.20it/s]

 41%|███████████████████████████████▋                                             | 7765/18846 [10:28<11:35, 15.93it/s]

 41%|███████████████████████████████▋                                             | 7768/18846 [10:28<10:56, 16.88it/s]

 41%|███████████████████████████████▊                                             | 7771/18846 [10:28<10:32, 17.52it/s]

 41%|███████████████████████████████▊                                             | 7773/18846 [10:28<12:42, 14.51it/s]

 41%|███████████████████████████████▊                                             | 7777/18846 [10:28<10:26, 17.68it/s]

 41%|███████████████████████████████▊                                             | 7780/18846 [10:29<14:49, 12.44it/s]

 41%|███████████████████████████████▊                                             | 7784/18846 [10:29<11:51, 15.55it/s]

 41%|███████████████████████████

 42%|████████████████████████████████▌                                            | 7962/18846 [10:43<18:20,  9.89it/s]

 42%|████████████████████████████████▌                                            | 7966/18846 [10:43<14:41, 12.34it/s]

 42%|████████████████████████████████▌                                            | 7969/18846 [10:43<15:08, 11.97it/s]

 42%|████████████████████████████████▌                                            | 7973/18846 [10:43<12:33, 14.42it/s]

 42%|████████████████████████████████▌                                            | 7977/18846 [10:43<10:21, 17.49it/s]

 42%|████████████████████████████████▌                                            | 7981/18846 [10:44<09:16, 19.54it/s]

 42%|████████████████████████████████▌                                            | 7984/18846 [10:44<08:20, 21.72it/s]

 42%|████████████████████████████████▋                                            | 7987/18846 [10:44<09:57, 18.17it/s]

 42%|███████████████████████████

 43%|█████████████████████████████████▍                                           | 8185/18846 [10:54<08:00, 22.17it/s]

 43%|█████████████████████████████████▍                                           | 8189/18846 [10:54<07:26, 23.85it/s]

 43%|█████████████████████████████████▍                                           | 8192/18846 [10:54<08:38, 20.56it/s]

 43%|█████████████████████████████████▍                                           | 8196/18846 [10:55<12:40, 14.00it/s]

 44%|█████████████████████████████████▍                                           | 8199/18846 [10:55<10:41, 16.59it/s]

 44%|█████████████████████████████████▌                                           | 8202/18846 [10:55<09:59, 17.76it/s]

 44%|█████████████████████████████████▌                                           | 8205/18846 [10:55<09:31, 18.62it/s]

 44%|█████████████████████████████████▌                                           | 8208/18846 [10:56<12:43, 13.93it/s]

 44%|███████████████████████████

 45%|██████████████████████████████████▎                                          | 8390/18846 [11:11<18:46,  9.28it/s]

 45%|██████████████████████████████████▎                                          | 8392/18846 [11:11<16:41, 10.44it/s]

 45%|██████████████████████████████████▎                                          | 8395/18846 [11:11<14:04, 12.38it/s]

 45%|██████████████████████████████████▎                                          | 8397/18846 [11:11<13:58, 12.46it/s]

 45%|██████████████████████████████████▎                                          | 8400/18846 [11:11<11:31, 15.11it/s]

 45%|██████████████████████████████████▎                                          | 8402/18846 [11:12<11:11, 15.55it/s]

 45%|██████████████████████████████████▎                                          | 8406/18846 [11:12<09:08, 19.04it/s]

 45%|██████████████████████████████████▎                                          | 8410/18846 [11:13<18:12,  9.55it/s]

 45%|███████████████████████████

 46%|███████████████████████████████████                                          | 8578/18846 [11:23<08:54, 19.20it/s]

 46%|███████████████████████████████████                                          | 8582/18846 [11:24<07:38, 22.37it/s]

 46%|███████████████████████████████████                                          | 8585/18846 [11:24<08:02, 21.28it/s]

 46%|███████████████████████████████████                                          | 8588/18846 [11:25<29:09,  5.86it/s]

 46%|███████████████████████████████████                                          | 8590/18846 [11:25<24:28,  6.98it/s]

 46%|███████████████████████████████████                                          | 8593/18846 [11:25<18:55,  9.03it/s]

 46%|███████████████████████████████████                                          | 8595/18846 [11:26<16:53, 10.12it/s]

 46%|███████████████████████████████████▏                                         | 8598/18846 [11:26<13:48, 12.36it/s]

 46%|███████████████████████████

 47%|███████████████████████████████████▊                                         | 8771/18846 [11:38<07:16, 23.09it/s]

 47%|███████████████████████████████████▊                                         | 8774/18846 [11:38<09:20, 17.98it/s]

 47%|███████████████████████████████████▊                                         | 8777/18846 [11:38<11:06, 15.10it/s]

 47%|███████████████████████████████████▊                                         | 8780/18846 [11:39<12:12, 13.74it/s]

 47%|███████████████████████████████████▉                                         | 8782/18846 [11:39<13:04, 12.83it/s]

 47%|███████████████████████████████████▉                                         | 8786/18846 [11:39<10:40, 15.70it/s]

 47%|███████████████████████████████████▉                                         | 8789/18846 [11:39<09:53, 16.95it/s]

 47%|███████████████████████████████████▉                                         | 8792/18846 [11:39<10:14, 16.37it/s]

 47%|███████████████████████████

 48%|████████████████████████████████████▋                                        | 8970/18846 [11:52<06:51, 24.00it/s]

 48%|████████████████████████████████████▋                                        | 8973/18846 [11:52<06:44, 24.41it/s]

 48%|████████████████████████████████████▋                                        | 8976/18846 [11:52<07:07, 23.11it/s]

 48%|████████████████████████████████████▋                                        | 8980/18846 [11:52<06:23, 25.74it/s]

 48%|████████████████████████████████████▋                                        | 8983/18846 [11:52<06:14, 26.32it/s]

 48%|████████████████████████████████████▋                                        | 8986/18846 [11:52<08:47, 18.69it/s]

 48%|████████████████████████████████████▋                                        | 8989/18846 [11:53<08:14, 19.94it/s]

 48%|████████████████████████████████████▋                                        | 8992/18846 [11:53<08:23, 19.57it/s]

 48%|███████████████████████████

 49%|█████████████████████████████████████▍                                       | 9171/18846 [12:06<06:53, 23.39it/s]

 49%|█████████████████████████████████████▍                                       | 9175/18846 [12:06<06:30, 24.78it/s]

 49%|█████████████████████████████████████▍                                       | 9178/18846 [12:06<11:30, 14.00it/s]

 49%|█████████████████████████████████████▌                                       | 9181/18846 [12:07<10:20, 15.57it/s]

 49%|█████████████████████████████████████▌                                       | 9184/18846 [12:07<09:57, 16.17it/s]

 49%|█████████████████████████████████████▌                                       | 9188/18846 [12:07<08:30, 18.93it/s]

 49%|█████████████████████████████████████▌                                       | 9191/18846 [12:07<08:17, 19.39it/s]

 49%|█████████████████████████████████████▌                                       | 9194/18846 [12:07<10:59, 14.64it/s]

 49%|███████████████████████████

 50%|██████████████████████████████████████▎                                      | 9371/18846 [12:20<13:51, 11.40it/s]

 50%|██████████████████████████████████████▎                                      | 9373/18846 [12:20<14:33, 10.85it/s]

 50%|██████████████████████████████████████▎                                      | 9375/18846 [12:21<12:33, 12.58it/s]

 50%|██████████████████████████████████████▎                                      | 9377/18846 [12:21<12:10, 12.97it/s]

 50%|██████████████████████████████████████▎                                      | 9381/18846 [12:21<10:00, 15.77it/s]

 50%|██████████████████████████████████████▎                                      | 9384/18846 [12:21<08:55, 17.67it/s]

 50%|██████████████████████████████████████▎                                      | 9387/18846 [12:21<09:49, 16.05it/s]

 50%|██████████████████████████████████████▎                                      | 9389/18846 [12:21<10:16, 15.33it/s]

 50%|███████████████████████████

 51%|███████████████████████████████████████                                      | 9567/18846 [12:34<09:25, 16.41it/s]

 51%|███████████████████████████████████████                                      | 9570/18846 [12:34<08:49, 17.53it/s]

 51%|███████████████████████████████████████                                      | 9573/18846 [12:35<07:54, 19.56it/s]

 51%|███████████████████████████████████████▏                                     | 9576/18846 [12:35<07:46, 19.88it/s]

 51%|███████████████████████████████████████▏                                     | 9579/18846 [12:35<13:54, 11.11it/s]

 51%|███████████████████████████████████████▏                                     | 9582/18846 [12:35<11:23, 13.55it/s]

 51%|███████████████████████████████████████▏                                     | 9586/18846 [12:35<09:24, 16.40it/s]

 51%|███████████████████████████████████████▏                                     | 9589/18846 [12:36<08:07, 18.98it/s]

 51%|███████████████████████████

 52%|███████████████████████████████████████▉                                     | 9760/18846 [12:51<08:35, 17.63it/s]

 52%|███████████████████████████████████████▉                                     | 9762/18846 [12:51<11:08, 13.58it/s]

 52%|███████████████████████████████████████▉                                     | 9764/18846 [12:52<15:50,  9.56it/s]

 52%|███████████████████████████████████████▉                                     | 9767/18846 [12:52<12:43, 11.88it/s]

 52%|███████████████████████████████████████▉                                     | 9772/18846 [12:52<09:55, 15.24it/s]

 52%|███████████████████████████████████████▉                                     | 9775/18846 [12:52<08:38, 17.50it/s]

 52%|███████████████████████████████████████▉                                     | 9778/18846 [12:52<07:47, 19.38it/s]

 52%|███████████████████████████████████████▉                                     | 9781/18846 [12:52<07:32, 20.03it/s]

 52%|███████████████████████████

 53%|████████████████████████████████████████▋                                    | 9945/18846 [13:06<10:27, 14.18it/s]

 53%|████████████████████████████████████████▋                                    | 9951/18846 [13:06<08:05, 18.31it/s]

 53%|████████████████████████████████████████▋                                    | 9955/18846 [13:07<07:27, 19.85it/s]

 53%|████████████████████████████████████████▋                                    | 9958/18846 [13:07<07:08, 20.76it/s]

 53%|████████████████████████████████████████▋                                    | 9961/18846 [13:07<06:32, 22.67it/s]

 53%|████████████████████████████████████████▋                                    | 9964/18846 [13:07<06:20, 23.32it/s]

 53%|████████████████████████████████████████▋                                    | 9967/18846 [13:07<07:35, 19.49it/s]

 53%|████████████████████████████████████████▋                                    | 9971/18846 [13:07<07:31, 19.67it/s]

 53%|███████████████████████████

 54%|████████████████████████████████████████▉                                   | 10158/18846 [13:22<15:50,  9.14it/s]

 54%|████████████████████████████████████████▉                                   | 10160/18846 [13:22<15:45,  9.19it/s]

 54%|████████████████████████████████████████▉                                   | 10164/18846 [13:22<12:16, 11.79it/s]

 54%|█████████████████████████████████████████                                   | 10167/18846 [13:23<10:14, 14.11it/s]

 54%|█████████████████████████████████████████                                   | 10170/18846 [13:23<09:49, 14.73it/s]

 54%|█████████████████████████████████████████                                   | 10173/18846 [13:23<08:56, 16.17it/s]

 54%|█████████████████████████████████████████                                   | 10175/18846 [13:23<10:04, 14.35it/s]

 54%|█████████████████████████████████████████                                   | 10177/18846 [13:23<10:08, 14.24it/s]

 54%|███████████████████████████

 55%|█████████████████████████████████████████▊                                  | 10355/18846 [13:35<21:59,  6.43it/s]

 55%|█████████████████████████████████████████▊                                  | 10358/18846 [13:35<16:49,  8.41it/s]

 55%|█████████████████████████████████████████▊                                  | 10361/18846 [13:35<13:26, 10.52it/s]

 55%|█████████████████████████████████████████▊                                  | 10364/18846 [13:35<11:02, 12.80it/s]

 55%|█████████████████████████████████████████▊                                  | 10367/18846 [13:36<12:11, 11.59it/s]

 55%|█████████████████████████████████████████▊                                  | 10369/18846 [13:36<12:55, 10.93it/s]

 55%|█████████████████████████████████████████▊                                  | 10371/18846 [13:36<11:17, 12.51it/s]

 55%|█████████████████████████████████████████▊                                  | 10374/18846 [13:39<54:41,  2.58it/s]

 55%|███████████████████████████

 56%|██████████████████████████████████████████▌                                 | 10553/18846 [13:53<16:28,  8.39it/s]

 56%|██████████████████████████████████████████▌                                 | 10555/18846 [13:53<17:13,  8.02it/s]

 56%|██████████████████████████████████████████▌                                 | 10558/18846 [13:53<13:51,  9.96it/s]

 56%|██████████████████████████████████████████▌                                 | 10561/18846 [13:54<11:06, 12.43it/s]

 56%|██████████████████████████████████████████▌                                 | 10564/18846 [13:54<09:45, 14.14it/s]

 56%|██████████████████████████████████████████▌                                 | 10568/18846 [13:54<11:31, 11.97it/s]

 56%|██████████████████████████████████████████▋                                 | 10570/18846 [13:54<13:24, 10.29it/s]

 56%|██████████████████████████████████████████▋                                 | 10572/18846 [13:55<21:04,  6.55it/s]

 56%|███████████████████████████

 57%|███████████████████████████████████████████▎                                | 10739/18846 [14:12<17:36,  7.67it/s]

 57%|███████████████████████████████████████████▎                                | 10743/18846 [14:12<13:29, 10.00it/s]

 57%|███████████████████████████████████████████▎                                | 10746/18846 [14:13<11:28, 11.77it/s]

 57%|███████████████████████████████████████████▎                                | 10749/18846 [14:13<10:11, 13.25it/s]

 57%|███████████████████████████████████████████▎                                | 10752/18846 [14:13<08:47, 15.35it/s]

 57%|███████████████████████████████████████████▎                                | 10755/18846 [14:13<12:55, 10.43it/s]

 57%|███████████████████████████████████████████▍                                | 10758/18846 [14:14<13:37,  9.89it/s]

 57%|███████████████████████████████████████████▍                                | 10761/18846 [14:14<11:27, 11.77it/s]

 57%|███████████████████████████

 58%|████████████████████████████████████████████▏                               | 10946/18846 [14:25<06:29, 20.29it/s]

 58%|████████████████████████████████████████████▏                               | 10949/18846 [14:25<06:05, 21.60it/s]

 58%|████████████████████████████████████████████▏                               | 10952/18846 [14:25<06:32, 20.12it/s]

 58%|████████████████████████████████████████████▏                               | 10955/18846 [14:25<06:17, 20.92it/s]

 58%|████████████████████████████████████████████▏                               | 10958/18846 [14:25<05:47, 22.70it/s]

 58%|████████████████████████████████████████████▏                               | 10961/18846 [14:26<06:54, 19.03it/s]

 58%|████████████████████████████████████████████▏                               | 10964/18846 [14:26<06:42, 19.58it/s]

 58%|████████████████████████████████████████████▏                               | 10968/18846 [14:26<06:27, 20.33it/s]

 58%|███████████████████████████

 59%|█████████████████████████████████████████████                               | 11159/18846 [14:38<06:57, 18.41it/s]

 59%|█████████████████████████████████████████████                               | 11162/18846 [14:38<06:23, 20.03it/s]

 59%|█████████████████████████████████████████████                               | 11165/18846 [14:38<05:49, 21.96it/s]

 59%|█████████████████████████████████████████████                               | 11168/18846 [14:40<27:32,  4.65it/s]

 59%|█████████████████████████████████████████████                               | 11170/18846 [14:40<21:29,  5.95it/s]

 59%|█████████████████████████████████████████████                               | 11174/18846 [14:40<16:59,  7.52it/s]

 59%|█████████████████████████████████████████████                               | 11176/18846 [14:41<15:44,  8.12it/s]

 59%|█████████████████████████████████████████████                               | 11179/18846 [14:41<12:43, 10.04it/s]

 59%|███████████████████████████

 60%|█████████████████████████████████████████████▊                              | 11361/18846 [14:55<11:04, 11.26it/s]

 60%|█████████████████████████████████████████████▊                              | 11364/18846 [14:55<09:38, 12.94it/s]

 60%|█████████████████████████████████████████████▊                              | 11366/18846 [14:55<14:34,  8.55it/s]

 60%|█████████████████████████████████████████████▊                              | 11369/18846 [14:55<11:37, 10.72it/s]

 60%|█████████████████████████████████████████████▊                              | 11371/18846 [14:56<10:16, 12.12it/s]

 60%|█████████████████████████████████████████████▊                              | 11373/18846 [14:56<12:02, 10.35it/s]

 60%|█████████████████████████████████████████████▉                              | 11376/18846 [14:56<09:57, 12.49it/s]

 60%|█████████████████████████████████████████████▉                              | 11378/18846 [14:56<09:02, 13.76it/s]

 60%|███████████████████████████

 61%|██████████████████████████████████████████████▌                             | 11539/18846 [15:06<08:15, 14.75it/s]

 61%|██████████████████████████████████████████████▌                             | 11543/18846 [15:06<06:54, 17.61it/s]

 61%|██████████████████████████████████████████████▌                             | 11546/18846 [15:07<15:36,  7.79it/s]

 61%|██████████████████████████████████████████████▌                             | 11549/18846 [15:07<12:18,  9.88it/s]

 61%|██████████████████████████████████████████████▌                             | 11552/18846 [15:08<10:11, 11.92it/s]

 61%|██████████████████████████████████████████████▌                             | 11556/18846 [15:08<08:11, 14.83it/s]

 61%|██████████████████████████████████████████████▌                             | 11559/18846 [15:08<07:49, 15.53it/s]

 61%|██████████████████████████████████████████████▋                             | 11562/18846 [15:08<07:12, 16.84it/s]

 61%|███████████████████████████

 62%|███████████████████████████████████████████████▍                            | 11755/18846 [15:20<06:07, 19.29it/s]

 62%|███████████████████████████████████████████████▍                            | 11758/18846 [15:20<13:54,  8.50it/s]

 62%|███████████████████████████████████████████████▍                            | 11762/18846 [15:20<11:03, 10.67it/s]

 62%|███████████████████████████████████████████████▍                            | 11765/18846 [15:21<09:36, 12.28it/s]

 62%|███████████████████████████████████████████████▍                            | 11768/18846 [15:21<08:10, 14.43it/s]

 62%|███████████████████████████████████████████████▍                            | 11771/18846 [15:21<07:27, 15.80it/s]

 62%|███████████████████████████████████████████████▍                            | 11774/18846 [15:21<06:28, 18.21it/s]

 62%|███████████████████████████████████████████████▍                            | 11777/18846 [15:21<05:50, 20.15it/s]

 63%|███████████████████████████

 63%|████████████████████████████████████████████████▏                           | 11960/18846 [15:35<12:10,  9.43it/s]

 63%|████████████████████████████████████████████████▏                           | 11963/18846 [15:36<10:14, 11.21it/s]

 63%|████████████████████████████████████████████████▎                           | 11965/18846 [15:36<10:36, 10.81it/s]

 63%|████████████████████████████████████████████████▎                           | 11967/18846 [15:36<17:22,  6.60it/s]

 64%|████████████████████████████████████████████████▎                           | 11972/18846 [15:36<12:57,  8.84it/s]

 64%|████████████████████████████████████████████████▎                           | 11975/18846 [15:37<11:33,  9.91it/s]

 64%|████████████████████████████████████████████████▎                           | 11977/18846 [15:37<09:57, 11.50it/s]

 64%|████████████████████████████████████████████████▎                           | 11981/18846 [15:37<08:15, 13.86it/s]

 64%|███████████████████████████

 65%|█████████████████████████████████████████████████                           | 12163/18846 [15:50<07:04, 15.74it/s]

 65%|█████████████████████████████████████████████████                           | 12165/18846 [15:51<07:19, 15.20it/s]

 65%|█████████████████████████████████████████████████                           | 12167/18846 [15:51<06:54, 16.10it/s]

 65%|█████████████████████████████████████████████████                           | 12171/18846 [15:51<05:51, 19.00it/s]

 65%|█████████████████████████████████████████████████                           | 12176/18846 [15:51<05:06, 21.73it/s]

 65%|█████████████████████████████████████████████████                           | 12179/18846 [15:51<05:06, 21.73it/s]

 65%|█████████████████████████████████████████████████▏                          | 12182/18846 [15:51<06:32, 16.98it/s]

 65%|█████████████████████████████████████████████████▏                          | 12185/18846 [15:52<08:35, 12.93it/s]

 65%|███████████████████████████

 66%|█████████████████████████████████████████████████▉                          | 12372/18846 [16:05<08:37, 12.52it/s]

 66%|█████████████████████████████████████████████████▉                          | 12374/18846 [16:05<11:51,  9.10it/s]

 66%|█████████████████████████████████████████████████▉                          | 12378/18846 [16:05<09:08, 11.79it/s]

 66%|█████████████████████████████████████████████████▉                          | 12381/18846 [16:06<08:31, 12.63it/s]

 66%|█████████████████████████████████████████████████▉                          | 12383/18846 [16:06<09:44, 11.07it/s]

 66%|█████████████████████████████████████████████████▉                          | 12388/18846 [16:06<07:48, 13.79it/s]

 66%|█████████████████████████████████████████████████▉                          | 12391/18846 [16:06<07:16, 14.78it/s]

 66%|█████████████████████████████████████████████████▉                          | 12395/18846 [16:06<05:55, 18.15it/s]

 66%|███████████████████████████

 67%|██████████████████████████████████████████████████▋                         | 12583/18846 [16:17<07:17, 14.33it/s]

 67%|██████████████████████████████████████████████████▊                         | 12588/18846 [16:17<05:53, 17.73it/s]

 67%|██████████████████████████████████████████████████▊                         | 12591/18846 [16:18<06:29, 16.05it/s]

 67%|██████████████████████████████████████████████████▊                         | 12594/18846 [16:18<06:00, 17.36it/s]

 67%|██████████████████████████████████████████████████▊                         | 12597/18846 [16:18<06:28, 16.10it/s]

 67%|██████████████████████████████████████████████████▊                         | 12599/18846 [16:18<06:11, 16.84it/s]

 67%|██████████████████████████████████████████████████▊                         | 12601/18846 [16:18<05:57, 17.45it/s]

 67%|██████████████████████████████████████████████████▊                         | 12603/18846 [16:18<06:04, 17.12it/s]

 67%|███████████████████████████

 68%|███████████████████████████████████████████████████▌                        | 12787/18846 [16:31<06:49, 14.78it/s]

 68%|███████████████████████████████████████████████████▌                        | 12791/18846 [16:31<05:36, 17.98it/s]

 68%|███████████████████████████████████████████████████▌                        | 12794/18846 [16:31<05:01, 20.07it/s]

 68%|███████████████████████████████████████████████████▌                        | 12797/18846 [16:31<04:45, 21.15it/s]

 68%|███████████████████████████████████████████████████▌                        | 12801/18846 [16:31<04:12, 23.97it/s]

 68%|███████████████████████████████████████████████████▋                        | 12804/18846 [16:31<05:21, 18.80it/s]

 68%|███████████████████████████████████████████████████▋                        | 12807/18846 [16:31<04:58, 20.22it/s]

 68%|███████████████████████████████████████████████████▋                        | 12810/18846 [16:32<07:22, 13.64it/s]

 68%|███████████████████████████

 69%|████████████████████████████████████████████████████▍                       | 12998/18846 [16:43<05:48, 16.78it/s]

 69%|████████████████████████████████████████████████████▍                       | 13001/18846 [16:44<06:30, 14.99it/s]

 69%|████████████████████████████████████████████████████▍                       | 13005/18846 [16:44<05:35, 17.43it/s]

 69%|████████████████████████████████████████████████████▍                       | 13009/18846 [16:44<04:45, 20.44it/s]

 69%|████████████████████████████████████████████████████▍                       | 13012/18846 [16:44<05:10, 18.78it/s]

 69%|████████████████████████████████████████████████████▍                       | 13015/18846 [16:44<04:36, 21.06it/s]

 69%|████████████████████████████████████████████████████▍                       | 13018/18846 [16:44<04:13, 23.02it/s]

 69%|████████████████████████████████████████████████████▌                       | 13021/18846 [16:44<04:46, 20.32it/s]

 69%|███████████████████████████

 70%|█████████████████████████████████████████████████████▏                      | 13200/18846 [17:01<05:40, 16.60it/s]

 70%|█████████████████████████████████████████████████████▏                      | 13203/18846 [17:01<05:52, 16.00it/s]

 70%|█████████████████████████████████████████████████████▎                      | 13206/18846 [17:01<05:43, 16.44it/s]

 70%|█████████████████████████████████████████████████████▎                      | 13208/18846 [17:01<05:25, 17.32it/s]

 70%|█████████████████████████████████████████████████████▎                      | 13211/18846 [17:01<05:25, 17.33it/s]

 70%|█████████████████████████████████████████████████████▎                      | 13213/18846 [17:02<06:48, 13.79it/s]

 70%|█████████████████████████████████████████████████████▎                      | 13215/18846 [17:02<06:41, 14.02it/s]

 70%|█████████████████████████████████████████████████████▎                      | 13217/18846 [17:02<10:46,  8.71it/s]

 70%|███████████████████████████

 71%|██████████████████████████████████████████████████████                      | 13396/18846 [17:17<04:40, 19.45it/s]

 71%|██████████████████████████████████████████████████████                      | 13399/18846 [17:17<08:18, 10.92it/s]

 71%|██████████████████████████████████████████████████████                      | 13401/18846 [17:17<08:12, 11.05it/s]

 71%|██████████████████████████████████████████████████████                      | 13403/18846 [17:17<08:03, 11.25it/s]

 71%|██████████████████████████████████████████████████████                      | 13406/18846 [17:18<06:42, 13.51it/s]

 71%|██████████████████████████████████████████████████████                      | 13408/18846 [17:18<06:27, 14.02it/s]

 71%|██████████████████████████████████████████████████████                      | 13410/18846 [17:18<07:29, 12.10it/s]

 71%|██████████████████████████████████████████████████████                      | 13412/18846 [17:18<08:47, 10.31it/s]

 71%|███████████████████████████

 72%|██████████████████████████████████████████████████████▊                     | 13602/18846 [17:31<04:45, 18.36it/s]

 72%|██████████████████████████████████████████████████████▊                     | 13607/18846 [17:32<04:03, 21.55it/s]

 72%|██████████████████████████████████████████████████████▉                     | 13610/18846 [17:32<04:06, 21.24it/s]

 72%|██████████████████████████████████████████████████████▉                     | 13613/18846 [17:32<06:06, 14.27it/s]

 72%|██████████████████████████████████████████████████████▉                     | 13615/18846 [17:32<06:01, 14.46it/s]

 72%|██████████████████████████████████████████████████████▉                     | 13619/18846 [17:32<05:38, 15.46it/s]

 72%|██████████████████████████████████████████████████████▉                     | 13622/18846 [17:33<06:05, 14.29it/s]

 72%|██████████████████████████████████████████████████████▉                     | 13624/18846 [17:33<05:59, 14.51it/s]

 72%|███████████████████████████

 73%|███████████████████████████████████████████████████████▋                    | 13802/18846 [17:44<05:20, 15.73it/s]

 73%|███████████████████████████████████████████████████████▋                    | 13804/18846 [17:44<05:10, 16.23it/s]

 73%|███████████████████████████████████████████████████████▋                    | 13807/18846 [17:44<04:33, 18.41it/s]

 73%|███████████████████████████████████████████████████████▋                    | 13810/18846 [17:44<05:39, 14.83it/s]

 73%|███████████████████████████████████████████████████████▋                    | 13813/18846 [17:44<04:48, 17.45it/s]

 73%|███████████████████████████████████████████████████████▋                    | 13816/18846 [17:45<05:51, 14.30it/s]

 73%|███████████████████████████████████████████████████████▋                    | 13819/18846 [17:45<05:00, 16.71it/s]

 73%|███████████████████████████████████████████████████████▋                    | 13822/18846 [17:45<05:11, 16.11it/s]

 73%|███████████████████████████

 74%|████████████████████████████████████████████████████████▍                   | 14005/18846 [18:00<30:35,  2.64it/s]

 74%|████████████████████████████████████████████████████████▍                   | 14008/18846 [18:00<22:22,  3.60it/s]

 74%|████████████████████████████████████████████████████████▍                   | 14010/18846 [18:00<17:38,  4.57it/s]

 74%|████████████████████████████████████████████████████████▌                   | 14012/18846 [18:01<14:19,  5.63it/s]

 74%|████████████████████████████████████████████████████████▌                   | 14014/18846 [18:01<11:49,  6.81it/s]

 74%|████████████████████████████████████████████████████████▌                   | 14016/18846 [18:01<10:57,  7.34it/s]

 74%|████████████████████████████████████████████████████████▌                   | 14020/18846 [18:01<08:37,  9.33it/s]

 74%|████████████████████████████████████████████████████████▌                   | 14022/18846 [18:01<07:29, 10.73it/s]

 74%|███████████████████████████

 75%|█████████████████████████████████████████████████████████▎                  | 14217/18846 [18:11<03:39, 21.13it/s]

 75%|█████████████████████████████████████████████████████████▎                  | 14221/18846 [18:12<03:32, 21.80it/s]

 75%|█████████████████████████████████████████████████████████▎                  | 14224/18846 [18:12<03:57, 19.45it/s]

 75%|█████████████████████████████████████████████████████████▎                  | 14227/18846 [18:12<04:48, 16.00it/s]

 76%|█████████████████████████████████████████████████████████▍                  | 14230/18846 [18:12<04:11, 18.33it/s]

 76%|█████████████████████████████████████████████████████████▍                  | 14233/18846 [18:12<03:42, 20.75it/s]

 76%|█████████████████████████████████████████████████████████▍                  | 14237/18846 [18:12<03:12, 23.95it/s]

 76%|█████████████████████████████████████████████████████████▍                  | 14240/18846 [18:13<04:15, 18.01it/s]

 76%|███████████████████████████

 77%|██████████████████████████████████████████████████████████▏                 | 14429/18846 [18:26<05:27, 13.50it/s]

 77%|██████████████████████████████████████████████████████████▏                 | 14434/18846 [18:26<04:20, 16.92it/s]

 77%|██████████████████████████████████████████████████████████▏                 | 14437/18846 [18:26<04:37, 15.90it/s]

 77%|██████████████████████████████████████████████████████████▏                 | 14440/18846 [18:26<04:04, 18.05it/s]

 77%|██████████████████████████████████████████████████████████▏                 | 14444/18846 [18:26<04:16, 17.13it/s]

 77%|██████████████████████████████████████████████████████████▎                 | 14447/18846 [18:27<04:32, 16.14it/s]

 77%|██████████████████████████████████████████████████████████▎                 | 14450/18846 [18:27<03:55, 18.63it/s]

 77%|██████████████████████████████████████████████████████████▎                 | 14453/18846 [18:27<05:27, 13.41it/s]

 77%|███████████████████████████

 78%|██████████████████████████████████████████████████████████▉                 | 14627/18846 [18:41<06:18, 11.14it/s]

 78%|███████████████████████████████████████████████████████████                 | 14632/18846 [18:41<04:53, 14.36it/s]

 78%|███████████████████████████████████████████████████████████                 | 14635/18846 [18:41<04:23, 15.96it/s]

 78%|███████████████████████████████████████████████████████████                 | 14638/18846 [18:41<03:47, 18.46it/s]

 78%|███████████████████████████████████████████████████████████                 | 14644/18846 [18:41<03:09, 22.17it/s]

 78%|███████████████████████████████████████████████████████████                 | 14647/18846 [18:41<03:00, 23.21it/s]

 78%|███████████████████████████████████████████████████████████                 | 14650/18846 [18:41<02:54, 24.01it/s]

 78%|███████████████████████████████████████████████████████████                 | 14654/18846 [18:41<03:05, 22.65it/s]

 78%|███████████████████████████

 79%|███████████████████████████████████████████████████████████▊                | 14840/18846 [18:55<04:12, 15.84it/s]

 79%|███████████████████████████████████████████████████████████▊                | 14843/18846 [18:56<06:45,  9.88it/s]

 79%|███████████████████████████████████████████████████████████▊                | 14845/18846 [18:56<05:48, 11.49it/s]

 79%|███████████████████████████████████████████████████████████▉                | 14848/18846 [18:56<04:47, 13.90it/s]

 79%|███████████████████████████████████████████████████████████▉                | 14851/18846 [18:56<05:20, 12.48it/s]

 79%|███████████████████████████████████████████████████████████▉                | 14853/18846 [18:56<04:58, 13.36it/s]

 79%|███████████████████████████████████████████████████████████▉                | 14855/18846 [18:57<05:21, 12.43it/s]

 79%|███████████████████████████████████████████████████████████▉                | 14857/18846 [18:57<04:51, 13.70it/s]

 79%|███████████████████████████

 80%|████████████████████████████████████████████████████████████▋               | 15047/18846 [19:07<04:00, 15.82it/s]

 80%|████████████████████████████████████████████████████████████▋               | 15049/18846 [19:07<03:59, 15.88it/s]

 80%|████████████████████████████████████████████████████████████▋               | 15052/18846 [19:08<03:49, 16.50it/s]

 80%|████████████████████████████████████████████████████████████▋               | 15055/18846 [19:08<03:35, 17.57it/s]

 80%|████████████████████████████████████████████████████████████▋               | 15057/18846 [19:08<05:17, 11.93it/s]

 80%|████████████████████████████████████████████████████████████▋               | 15061/18846 [19:08<04:17, 14.68it/s]

 80%|████████████████████████████████████████████████████████████▋               | 15064/18846 [19:08<03:48, 16.56it/s]

 80%|████████████████████████████████████████████████████████████▊               | 15067/18846 [19:08<03:27, 18.19it/s]

 80%|███████████████████████████

 81%|█████████████████████████████████████████████████████████████▍              | 15241/18846 [19:29<04:26, 13.54it/s]

 81%|█████████████████████████████████████████████████████████████▍              | 15243/18846 [19:29<05:35, 10.74it/s]

 81%|█████████████████████████████████████████████████████████████▍              | 15245/18846 [19:29<05:10, 11.58it/s]

 81%|█████████████████████████████████████████████████████████████▍              | 15247/18846 [19:30<07:54,  7.59it/s]

 81%|█████████████████████████████████████████████████████████████▍              | 15249/18846 [19:30<06:39,  9.01it/s]

 81%|█████████████████████████████████████████████████████████████▌              | 15252/18846 [19:30<05:21, 11.17it/s]

 81%|█████████████████████████████████████████████████████████████▌              | 15255/18846 [19:30<04:46, 12.55it/s]

 81%|█████████████████████████████████████████████████████████████▌              | 15258/18846 [19:30<04:12, 14.23it/s]

 81%|███████████████████████████

 82%|██████████████████████████████████████████████████████████████▎             | 15464/18846 [19:42<03:31, 16.03it/s]

 82%|██████████████████████████████████████████████████████████████▎             | 15467/18846 [19:42<03:27, 16.29it/s]

 82%|██████████████████████████████████████████████████████████████▍             | 15470/18846 [19:42<03:20, 16.87it/s]

 82%|██████████████████████████████████████████████████████████████▍             | 15473/18846 [19:43<02:58, 18.94it/s]

 82%|██████████████████████████████████████████████████████████████▍             | 15476/18846 [19:43<02:53, 19.47it/s]

 82%|██████████████████████████████████████████████████████████████▍             | 15480/18846 [19:43<02:29, 22.59it/s]

 82%|██████████████████████████████████████████████████████████████▍             | 15483/18846 [19:43<02:50, 19.69it/s]

 82%|██████████████████████████████████████████████████████████████▍             | 15486/18846 [19:43<02:35, 21.62it/s]

 82%|███████████████████████████

 83%|███████████████████████████████████████████████████████████████▏            | 15676/18846 [19:57<02:39, 19.82it/s]

 83%|███████████████████████████████████████████████████████████████▏            | 15679/18846 [19:58<02:58, 17.76it/s]

 83%|███████████████████████████████████████████████████████████████▏            | 15682/18846 [19:58<02:49, 18.65it/s]

 83%|███████████████████████████████████████████████████████████████▎            | 15685/18846 [19:58<02:36, 20.23it/s]

 83%|███████████████████████████████████████████████████████████████▎            | 15688/18846 [19:58<02:45, 19.08it/s]

 83%|███████████████████████████████████████████████████████████████▎            | 15691/18846 [19:58<03:05, 17.01it/s]

 83%|███████████████████████████████████████████████████████████████▎            | 15694/18846 [19:59<03:01, 17.41it/s]

 83%|███████████████████████████████████████████████████████████████▎            | 15699/18846 [19:59<02:27, 21.36it/s]

 83%|███████████████████████████

 84%|███████████████████████████████████████████████████████████████▉            | 15862/18846 [20:10<02:33, 19.46it/s]

 84%|███████████████████████████████████████████████████████████████▉            | 15865/18846 [20:10<03:16, 15.18it/s]

 84%|███████████████████████████████████████████████████████████████▉            | 15867/18846 [20:10<03:03, 16.24it/s]

 84%|████████████████████████████████████████████████████████████████            | 15871/18846 [20:10<02:44, 18.10it/s]

 84%|████████████████████████████████████████████████████████████████            | 15874/18846 [20:11<03:16, 15.11it/s]

 84%|████████████████████████████████████████████████████████████████            | 15876/18846 [20:11<03:02, 16.31it/s]

 84%|████████████████████████████████████████████████████████████████            | 15878/18846 [20:11<03:29, 14.15it/s]

 84%|████████████████████████████████████████████████████████████████            | 15881/18846 [20:11<03:01, 16.35it/s]

 84%|███████████████████████████

 85%|████████████████████████████████████████████████████████████████▊           | 16064/18846 [20:22<03:16, 14.19it/s]

 85%|████████████████████████████████████████████████████████████████▊           | 16066/18846 [20:22<06:42,  6.91it/s]

 85%|████████████████████████████████████████████████████████████████▊           | 16068/18846 [20:22<06:24,  7.23it/s]

 85%|████████████████████████████████████████████████████████████████▊           | 16072/18846 [20:23<04:55,  9.39it/s]

 85%|████████████████████████████████████████████████████████████████▊           | 16076/18846 [20:23<04:02, 11.43it/s]

 85%|████████████████████████████████████████████████████████████████▊           | 16079/18846 [20:23<03:24, 13.52it/s]

 85%|████████████████████████████████████████████████████████████████▊           | 16082/18846 [20:23<03:20, 13.76it/s]

 85%|████████████████████████████████████████████████████████████████▊           | 16085/18846 [20:23<03:13, 14.29it/s]

 85%|███████████████████████████

 86%|█████████████████████████████████████████████████████████████████▋          | 16280/18846 [20:39<03:03, 13.98it/s]

 86%|█████████████████████████████████████████████████████████████████▋          | 16283/18846 [20:39<02:35, 16.43it/s]

 86%|█████████████████████████████████████████████████████████████████▋          | 16286/18846 [20:39<02:31, 16.89it/s]

 86%|█████████████████████████████████████████████████████████████████▋          | 16289/18846 [20:39<02:34, 16.52it/s]

 86%|█████████████████████████████████████████████████████████████████▋          | 16292/18846 [20:39<02:35, 16.40it/s]

 86%|█████████████████████████████████████████████████████████████████▋          | 16296/18846 [20:39<02:15, 18.88it/s]

 86%|█████████████████████████████████████████████████████████████████▋          | 16300/18846 [20:40<02:08, 19.77it/s]

 87%|█████████████████████████████████████████████████████████████████▋          | 16303/18846 [20:40<02:20, 18.11it/s]

 87%|███████████████████████████

 88%|██████████████████████████████████████████████████████████████████▌         | 16496/18846 [20:53<02:05, 18.68it/s]

 88%|██████████████████████████████████████████████████████████████████▌         | 16499/18846 [20:54<02:04, 18.81it/s]

 88%|██████████████████████████████████████████████████████████████████▌         | 16502/18846 [20:54<02:53, 13.55it/s]

 88%|██████████████████████████████████████████████████████████████████▌         | 16504/18846 [20:54<02:41, 14.51it/s]

 88%|██████████████████████████████████████████████████████████████████▌         | 16507/18846 [20:54<02:16, 17.14it/s]

 88%|██████████████████████████████████████████████████████████████████▌         | 16510/18846 [20:55<03:49, 10.20it/s]

 88%|██████████████████████████████████████████████████████████████████▌         | 16512/18846 [20:55<03:32, 10.97it/s]

 88%|██████████████████████████████████████████████████████████████████▌         | 16516/18846 [20:55<02:50, 13.68it/s]

 88%|███████████████████████████

 89%|███████████████████████████████████████████████████████████████████▎        | 16693/18846 [21:07<03:03, 11.73it/s]

 89%|███████████████████████████████████████████████████████████████████▎        | 16698/18846 [21:07<02:23, 15.01it/s]

 89%|███████████████████████████████████████████████████████████████████▎        | 16701/18846 [21:07<02:02, 17.56it/s]

 89%|███████████████████████████████████████████████████████████████████▎        | 16704/18846 [21:08<01:49, 19.62it/s]

 89%|███████████████████████████████████████████████████████████████████▍        | 16708/18846 [21:08<01:49, 19.50it/s]

 89%|███████████████████████████████████████████████████████████████████▍        | 16711/18846 [21:08<01:40, 21.15it/s]

 89%|███████████████████████████████████████████████████████████████████▍        | 16714/18846 [21:08<01:33, 22.88it/s]

 89%|███████████████████████████████████████████████████████████████████▍        | 16717/18846 [21:08<01:37, 21.74it/s]

 89%|███████████████████████████

 90%|████████████████████████████████████████████████████████████████████▏       | 16913/18846 [21:24<02:18, 13.91it/s]

 90%|████████████████████████████████████████████████████████████████████▏       | 16915/18846 [21:24<02:20, 13.79it/s]

 90%|████████████████████████████████████████████████████████████████████▏       | 16917/18846 [21:24<02:25, 13.22it/s]

 90%|████████████████████████████████████████████████████████████████████▏       | 16919/18846 [21:24<02:34, 12.51it/s]

 90%|████████████████████████████████████████████████████████████████████▏       | 16922/18846 [21:25<02:59, 10.70it/s]

 90%|████████████████████████████████████████████████████████████████████▎       | 16925/18846 [21:25<02:36, 12.26it/s]

 90%|████████████████████████████████████████████████████████████████████▎       | 16928/18846 [21:26<05:13,  6.12it/s]

 90%|████████████████████████████████████████████████████████████████████▎       | 16931/18846 [21:26<04:14,  7.51it/s]

 90%|███████████████████████████

 91%|█████████████████████████████████████████████████████████████████████       | 17132/18846 [21:42<01:18, 21.75it/s]

 91%|█████████████████████████████████████████████████████████████████████       | 17135/18846 [21:43<02:20, 12.15it/s]

 91%|█████████████████████████████████████████████████████████████████████       | 17138/18846 [21:43<02:35, 10.95it/s]

 91%|█████████████████████████████████████████████████████████████████████       | 17141/18846 [21:43<02:11, 12.98it/s]

 91%|█████████████████████████████████████████████████████████████████████▏      | 17144/18846 [21:44<02:19, 12.21it/s]

 91%|█████████████████████████████████████████████████████████████████████▏      | 17146/18846 [21:44<03:41,  7.68it/s]

 91%|█████████████████████████████████████████████████████████████████████▏      | 17150/18846 [21:44<02:48, 10.09it/s]

 91%|█████████████████████████████████████████████████████████████████████▏      | 17154/18846 [21:44<02:13, 12.72it/s]

 91%|███████████████████████████

 92%|█████████████████████████████████████████████████████████████████████▊      | 17326/18846 [21:55<01:45, 14.45it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17328/18846 [21:55<01:36, 15.76it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17330/18846 [21:55<01:30, 16.74it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17332/18846 [21:56<02:29, 10.11it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17334/18846 [21:56<02:14, 11.23it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17337/18846 [21:56<01:49, 13.76it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17339/18846 [21:56<01:46, 14.15it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17341/18846 [21:56<01:38, 15.33it/s]

 92%|███████████████████████████

 93%|██████████████████████████████████████████████████████████████████████▋     | 17522/18846 [22:06<01:34, 14.07it/s]

 93%|██████████████████████████████████████████████████████████████████████▋     | 17524/18846 [22:06<02:18,  9.55it/s]

 93%|██████████████████████████████████████████████████████████████████████▋     | 17527/18846 [22:06<01:50, 11.94it/s]

 93%|██████████████████████████████████████████████████████████████████████▋     | 17529/18846 [22:07<04:27,  4.92it/s]

 93%|██████████████████████████████████████████████████████████████████████▋     | 17533/18846 [22:08<03:20,  6.55it/s]

 93%|██████████████████████████████████████████████████████████████████████▋     | 17535/18846 [22:08<02:53,  7.55it/s]

 93%|██████████████████████████████████████████████████████████████████████▋     | 17537/18846 [22:08<02:26,  8.93it/s]

 93%|██████████████████████████████████████████████████████████████████████▋     | 17540/18846 [22:08<01:55, 11.29it/s]

 93%|███████████████████████████

 94%|███████████████████████████████████████████████████████████████████████▎    | 17694/18846 [22:19<01:45, 10.91it/s]

 94%|███████████████████████████████████████████████████████████████████████▎    | 17698/18846 [22:19<01:22, 13.90it/s]

 94%|███████████████████████████████████████████████████████████████████████▍    | 17701/18846 [22:19<01:47, 10.69it/s]

 94%|███████████████████████████████████████████████████████████████████████▍    | 17703/18846 [22:20<02:08,  8.90it/s]

 94%|███████████████████████████████████████████████████████████████████████▍    | 17705/18846 [22:20<01:49, 10.40it/s]

 94%|███████████████████████████████████████████████████████████████████████▍    | 17708/18846 [22:20<01:32, 12.30it/s]

 94%|███████████████████████████████████████████████████████████████████████▍    | 17710/18846 [22:20<01:35, 11.94it/s]

 94%|███████████████████████████████████████████████████████████████████████▍    | 17713/18846 [22:20<01:20, 14.16it/s]

 94%|███████████████████████████

 95%|████████████████████████████████████████████████████████████████████████    | 17877/18846 [22:33<01:31, 10.55it/s]

 95%|████████████████████████████████████████████████████████████████████████    | 17880/18846 [22:33<01:14, 13.05it/s]

 95%|████████████████████████████████████████████████████████████████████████    | 17883/18846 [22:33<01:08, 14.04it/s]

 95%|████████████████████████████████████████████████████████████████████████▏   | 17886/18846 [22:33<01:04, 14.78it/s]

 95%|████████████████████████████████████████████████████████████████████████▏   | 17888/18846 [22:33<01:03, 15.12it/s]

 95%|████████████████████████████████████████████████████████████████████████▏   | 17890/18846 [22:33<01:02, 15.34it/s]

 95%|████████████████████████████████████████████████████████████████████████▏   | 17892/18846 [22:34<01:01, 15.61it/s]

 95%|████████████████████████████████████████████████████████████████████████▏   | 17894/18846 [22:34<01:01, 15.36it/s]

 95%|███████████████████████████

 96%|████████████████████████████████████████████████████████████████████████▊   | 18055/18846 [22:46<01:16, 10.38it/s]

 96%|████████████████████████████████████████████████████████████████████████▊   | 18058/18846 [22:46<01:08, 11.58it/s]

 96%|████████████████████████████████████████████████████████████████████████▊   | 18061/18846 [22:46<00:58, 13.45it/s]

 96%|████████████████████████████████████████████████████████████████████████▊   | 18063/18846 [22:47<01:11, 10.93it/s]

 96%|████████████████████████████████████████████████████████████████████████▊   | 18065/18846 [22:47<01:02, 12.51it/s]

 96%|████████████████████████████████████████████████████████████████████████▊   | 18068/18846 [22:47<00:55, 14.13it/s]

 96%|████████████████████████████████████████████████████████████████████████▊   | 18070/18846 [22:47<00:50, 15.50it/s]

 96%|████████████████████████████████████████████████████████████████████████▉   | 18073/18846 [22:47<00:43, 17.93it/s]

 96%|███████████████████████████

 97%|█████████████████████████████████████████████████████████████████████████▌  | 18257/18846 [23:02<00:52, 11.16it/s]

 97%|█████████████████████████████████████████████████████████████████████████▋  | 18260/18846 [23:02<00:43, 13.47it/s]

 97%|█████████████████████████████████████████████████████████████████████████▋  | 18262/18846 [23:02<01:10,  8.29it/s]

 97%|█████████████████████████████████████████████████████████████████████████▋  | 18265/18846 [23:02<00:56, 10.26it/s]

 97%|█████████████████████████████████████████████████████████████████████████▋  | 18269/18846 [23:02<00:44, 13.04it/s]

 97%|█████████████████████████████████████████████████████████████████████████▋  | 18273/18846 [23:02<00:36, 15.74it/s]

 97%|█████████████████████████████████████████████████████████████████████████▋  | 18276/18846 [23:03<00:32, 17.53it/s]

 97%|█████████████████████████████████████████████████████████████████████████▋  | 18279/18846 [23:03<00:30, 18.71it/s]

 97%|███████████████████████████

 98%|██████████████████████████████████████████████████████████████████████████▍ | 18468/18846 [23:19<01:00,  6.23it/s]

 98%|██████████████████████████████████████████████████████████████████████████▍ | 18470/18846 [23:19<00:52,  7.11it/s]

 98%|██████████████████████████████████████████████████████████████████████████▍ | 18472/18846 [23:19<00:42,  8.74it/s]

 98%|██████████████████████████████████████████████████████████████████████████▍ | 18474/18846 [23:19<00:37, 10.02it/s]

 98%|██████████████████████████████████████████████████████████████████████████▌ | 18478/18846 [23:19<00:29, 12.45it/s]

 98%|██████████████████████████████████████████████████████████████████████████▌ | 18481/18846 [23:20<00:30, 12.10it/s]

 98%|██████████████████████████████████████████████████████████████████████████▌ | 18483/18846 [23:20<00:26, 13.56it/s]

 98%|██████████████████████████████████████████████████████████████████████████▌ | 18485/18846 [23:20<00:28, 12.53it/s]

 98%|███████████████████████████

 99%|███████████████████████████████████████████████████████████████████████████▏| 18650/18846 [23:30<00:11, 16.92it/s]

 99%|███████████████████████████████████████████████████████████████████████████▏| 18653/18846 [23:30<00:10, 17.99it/s]

 99%|███████████████████████████████████████████████████████████████████████████▏| 18656/18846 [23:31<00:10, 17.86it/s]

 99%|███████████████████████████████████████████████████████████████████████████▏| 18659/18846 [23:31<00:10, 18.35it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18661/18846 [23:31<00:11, 16.53it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18665/18846 [23:31<00:09, 19.64it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18668/18846 [23:31<00:10, 17.14it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18671/18846 [23:31<00:09, 18.93it/s]

 99%|███████████████████████████

100%|███████████████████████████████████████████████████████████████████████████▉| 18841/18846 [23:43<00:00, 11.01it/s]

100%|███████████████████████████████████████████████████████████████████████████▉| 18843/18846 [23:43<00:00, 11.60it/s]

100%|████████████████████████████████████████████████████████████████████████████| 18846/18846 [23:44<00:00, 13.23it/s]


number of removed short documents: 3975
total number of tokens: 1442896
number of tokens to be removed: 412625
number of additionally removed short documents: 2172
total number of tokens: 1005435

minimum word count number: 13
this number can be less than MIN_COUNTS because of document removal


In [21]:
# new ids will be created for the documents.
# create a way of restoring initial ids:
doc_decoder = {i: doc_id for i, (doc_id, doc) in enumerate(encoded_docs)}

In [22]:
data = []
# new ids are created here
for index, (_, doc) in tqdm(enumerate(encoded_docs)):
    windows = get_windows(doc, HALF_WINDOW_SIZE)
    # index represents id of a document, 
    # windows is a list of (word, window around this word),
    # where word is in the document
    data += [[index, w[0]] + w[1] for w in windows]

data = np.array(data, dtype='int64')



0it [00:00, ?it/s]

723it [00:00, 7229.59it/s]

940it [00:00, 3443.72it/s]

1592it [00:00, 4011.49it/s]

1927it [00:00, 2597.68it/s]

2439it [00:00, 3048.15it/s]

2787it [00:00, 2592.75it/s]

3295it [00:00, 3028.25it/s]

3655it [00:01, 2497.92it/s]

4229it [00:01, 3007.51it/s]

4756it [00:01, 2478.08it/s]

5328it [00:01, 2985.72it/s]

5742it [00:01, 3258.21it/s]

6277it [00:01, 3691.13it/s]

6720it [00:02, 2791.14it/s]

7249it [00:02, 3228.14it/s]

7938it [00:02, 3840.43it/s]

8490it [00:02, 2951.58it/s]

9128it [00:02, 3507.22it/s]

9772it [00:02, 4062.15it/s]

10294it [00:02, 4351.67it/s]

10816it [00:03, 4095.07it/s]

11290it [00:03, 2568.69it/s]

11663it [00:03, 2751.77it/s]

12699it [00:03, 3448.74it/s]


In [24]:
# a row in 'data' contains:
# id of a document, id of a word in this document, a window around this word
# 1 + 1 + 10
data.shape[1]

12

In [25]:
# number of windows (equals to the total number of tokens)
data.shape[0]

1005435

# Get unigram distribution

In [26]:
word_counts = np.array(word_counts)
unigram_distribution = word_counts/sum(word_counts)

# Prepare word vectors

In [27]:
%%time
vocab_size = len(decoder)
embedding_dim = 50

# train a skip-gram word2vec model
texts = [[str(j) for j in doc] for i, doc in encoded_docs]
model = models.Word2Vec(texts, size=embedding_dim, window=5, workers=4, sg=1, negative=15, iter=70)
model.init_sims(replace=True)

word_vectors = np.zeros((vocab_size, embedding_dim)).astype('float32')
for i in decoder:
    word_vectors[i] = model.wv[str(i)]

  "C extension not loaded, training will be slow. "


KeyboardInterrupt: 

In [28]:
# number of unique words
vocab_size

NameError: name 'vocab_size' is not defined

# Prepare initialization for document weights

In [None]:
texts = [[decoder[j] for j in doc] for i, doc in encoded_docs]
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

In [None]:
%%time
n_topics = 25
lda = models.LdaModel(corpus, alpha=0.9, id2word=dictionary, num_topics=n_topics)
corpus_lda = lda[corpus]

In [None]:
for i, topics in lda.show_topics(n_topics, formatted=False):
    print('topic', i, ':', ' '.join([t for t, _ in topics]))

In [None]:
doc_weights_init = np.zeros((len(corpus_lda), n_topics))
for i in tqdm(range(len(corpus_lda))):
    topics = corpus_lda[i]
    for j, prob in topics:
        doc_weights_init[i, j] = prob

# Save data

In [20]:
np.save('data.npy', data)
np.save('word_vectors.npy', word_vectors)
np.save('unigram_distribution.npy', unigram_distribution)
np.save('decoder.npy', decoder)
np.save('doc_decoder.npy', doc_decoder)
np.save('doc_weights_init.npy', doc_weights_init)