In [1]:
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
import string
import spacy
from spacy.lang.de.stop_words import STOP_WORDS
import pandas as pd
from tqdm import tqdm

In [2]:
sc = SparkContext('local')
spark = SparkSession(sc)

In [3]:
# Load parquet file into spark dataframe
parquetFile = spark.read.parquet(
    "../data/customer_feedbacks/part-00000-985ad763-a6d6-4ead-a6dd-c02279e9eeba-c000.snappy.parquet")
parquetFile.createOrReplaceTempView("parquetFile")
parquetFile2 = spark.read.parquet(
    "../data/customer_feedbacks_cat/part-00000-4820af87-4b19-4958-a7a6-7ed03b76f1b1-c000.snappy.parquet")
parquetFile2.createOrReplaceTempView("parquetFile2")

In [4]:
# Select columns which are needed
df = spark.sql("""
SELECT
    /* T0.KATEGORIE_2     AS CATEGORY_2,
    T0.KATEGORIE_1     AS CATEGORY_1,
    T1.ERGEBNISSATZ_ID AS RESPONSE_ID,
    T0.STIMMUNG          AS SENTIMENT,
    T1.DATUM_ID        AS DATE, */
    T1.ANTWORT_WERT    AS TEXT
FROM
    parquetFile2 T0,
    parquetFile T1
WHERE
    T0.KATEGORIE_1_ID = T1.KATEGORIE_1_ID
    AND T0.KATEGORIE_2_ID = T1.KATEGORIE_2_ID
    AND T0.STIMMUNG_ID = T1.STIMMUNG_ID
    AND (NOT T1.ANTWORT_WERT IS NULL
        AND (T1.UMFRAGE_KATEGORIE_ID = 1
            AND (T1.GRUPPE_ID = 170
                OR T1.GRUPPE_ID = 171)))
""")

In [5]:
df.show()

+--------------------+
|                TEXT|
+--------------------+
|Habe bis heute me...|
|Habe bis heute me...|
|  Bin stinke sauer! |
|Teuer, aber gut. ...|
|Teuer, aber gut. ...|
|Bisher war ich mi...|
|Bisher war ich mi...|
|Bisher damit sehr...|
|                   -|
|Ich habe gute Erf...|
|da es super gewor...|
|gute Qualität, sc...|
|gute Qualität, sc...|
|Es ist einfach mi...|
|Es ist einfach mi...|
|Ich habe vor läng...|
|Ich habe vor läng...|
|Schnelle Bearbeit...|
|Schnelle Bearbeit...|
|wir waren super z...|
+--------------------+
only showing top 20 rows



In [11]:
%%time
# Convert Spark dataframe to Pandas dataframe
df_pd = df.dropDuplicates().toPandas()[:0]

Wall time: 27.7 s


In [15]:
floor(-0.1)

NameError: name 'floor' is not defined

In [27]:
# Prepare data for Gensim LDA
stopwords = list(STOP_WORDS)
nlp = spacy.load('de')
def text_preproc(sentence):
    mytokens = nlp.tokenizer(sentence)
    mytokens = [word.lemma_.lower().strip() for word in mytokens]
    mytokens = [word for word in mytokens if word not in stopwords and word not in string.punctuation]
    return mytokens

In [28]:
tqdm.pandas()
data = df_pd['TEXT'].progress_apply(text_preproc)





  0%|                                                                                    | 0/896683 [00:00<?, ?it/s]



  0%|                                                                        | 116/896683 [00:00<12:53, 1159.48it/s]



  0%|                                                                        | 300/896683 [00:00<11:28, 1301.41it/s]



  0%|                                                                        | 490/896683 [00:00<10:24, 1434.04it/s]



  0%|                                                                        | 690/896683 [00:00<09:31, 1567.03it/s]



  0%|                                                                        | 924/896683 [00:00<08:36, 1735.70it/s]



  0%|                                                                       | 1138/896683 [00:00<08:06, 1839.79it/s]



  0%|                                                                       | 1375/896683 [00:00<07:33, 1972.14it/s]



  0%|▏                              

  4%|██▉                                                                   | 37723/896683 [00:14<05:14, 2734.27it/s]



  4%|██▉                                                                   | 37998/896683 [00:14<05:17, 2706.63it/s]



  4%|██▉                                                                   | 38297/896683 [00:14<05:08, 2785.82it/s]



  4%|███                                                                   | 38584/896683 [00:14<05:06, 2802.69it/s]



  4%|███                                                                   | 38870/896683 [00:14<05:04, 2819.24it/s]



  4%|███                                                                   | 39178/896683 [00:14<04:57, 2884.63it/s]



  4%|███                                                                   | 39468/896683 [00:14<05:01, 2846.69it/s]



  4%|███                                                                   | 39785/896683 [00:14<04:52, 2928.49it/s]



  4%|███▏                               

  9%|██████                                                                | 77014/896683 [00:28<05:14, 2605.15it/s]



  9%|██████                                                                | 77278/896683 [00:28<05:26, 2510.76it/s]



  9%|██████                                                                | 77532/896683 [00:28<05:31, 2468.06it/s]



  9%|██████                                                                | 77814/896683 [00:28<05:19, 2564.05it/s]



  9%|██████                                                                | 78073/896683 [00:28<05:22, 2541.46it/s]



  9%|██████                                                                | 78331/896683 [00:28<05:21, 2545.34it/s]



  9%|██████▏                                                               | 78587/896683 [00:28<05:23, 2527.13it/s]



  9%|██████▏                                                               | 78848/896683 [00:28<05:20, 2551.38it/s]



  9%|██████▏                            

 13%|████████▊                                                            | 114396/896683 [00:42<04:58, 2623.50it/s]



 13%|████████▊                                                            | 114690/896683 [00:42<04:49, 2703.88it/s]



 13%|████████▊                                                            | 114962/896683 [00:42<04:50, 2692.30it/s]



 13%|████████▊                                                            | 115243/896683 [00:42<04:46, 2726.56it/s]



 13%|████████▉                                                            | 115518/896683 [00:42<04:45, 2733.55it/s]



 13%|████████▉                                                            | 115818/896683 [00:42<04:38, 2800.51it/s]



 13%|████████▉                                                            | 116135/896683 [00:42<04:29, 2894.12it/s]



 13%|████████▉                                                            | 116426/896683 [00:42<04:29, 2898.79it/s]



 13%|████████▉                          

 17%|███████████▋                                                         | 152590/896683 [00:56<04:20, 2855.99it/s]



 17%|███████████▊                                                         | 152878/896683 [00:56<04:28, 2772.19it/s]



 17%|███████████▊                                                         | 153157/896683 [00:56<04:47, 2584.52it/s]



 17%|███████████▊                                                         | 153420/896683 [00:56<04:50, 2560.08it/s]



 17%|███████████▊                                                         | 153717/896683 [00:56<04:38, 2663.49it/s]



 17%|███████████▊                                                         | 153987/896683 [00:56<04:40, 2643.25it/s]



 17%|███████████▊                                                         | 154271/896683 [00:56<04:35, 2699.04it/s]



 17%|███████████▉                                                         | 154543/896683 [00:57<04:48, 2574.68it/s]



 17%|███████████▉                       

 21%|██████████████▌                                                      | 189753/896683 [01:10<05:03, 2331.55it/s]



 21%|██████████████▌                                                      | 190028/896683 [01:10<04:49, 2442.82it/s]



 21%|██████████████▋                                                      | 190308/896683 [01:10<04:38, 2533.18it/s]



 21%|██████████████▋                                                      | 190582/896683 [01:10<04:32, 2591.81it/s]



 21%|██████████████▋                                                      | 190877/896683 [01:10<04:23, 2682.46it/s]



 21%|██████████████▋                                                      | 191182/896683 [01:11<04:14, 2775.47it/s]



 21%|██████████████▋                                                      | 191465/896683 [01:11<04:13, 2783.46it/s]



 21%|██████████████▊                                                      | 191757/896683 [01:11<04:09, 2822.99it/s]



 21%|██████████████▊                    

 25%|█████████████████▎                                                   | 225694/896683 [01:24<05:11, 2155.22it/s]



 25%|█████████████████▍                                                   | 225912/896683 [01:24<05:31, 2024.08it/s]



 25%|█████████████████▍                                                   | 226132/896683 [01:24<05:23, 2073.61it/s]



 25%|█████████████████▍                                                   | 226365/896683 [01:25<05:13, 2138.51it/s]



 25%|█████████████████▍                                                   | 226581/896683 [01:25<05:25, 2059.04it/s]



 25%|█████████████████▍                                                   | 226818/896683 [01:25<05:13, 2137.78it/s]



 25%|█████████████████▍                                                   | 227035/896683 [01:25<05:21, 2085.26it/s]



 25%|█████████████████▍                                                   | 227246/896683 [01:25<05:20, 2086.42it/s]



 25%|█████████████████▌                 

 29%|████████████████████                                                 | 260011/896683 [01:39<03:54, 2712.53it/s]



 29%|████████████████████                                                 | 260284/896683 [01:39<03:55, 2701.62it/s]



 29%|████████████████████                                                 | 260555/896683 [01:39<04:00, 2648.92it/s]



 29%|████████████████████                                                 | 260821/896683 [01:39<04:06, 2582.48it/s]



 29%|████████████████████                                                 | 261092/896683 [01:39<04:03, 2611.90it/s]



 29%|████████████████████                                                 | 261354/896683 [01:39<04:06, 2575.70it/s]



 29%|████████████████████▏                                                | 261613/896683 [01:39<04:11, 2527.18it/s]



 29%|████████████████████▏                                                | 261876/896683 [01:39<04:08, 2557.11it/s]



 29%|████████████████████▏              

 33%|██████████████████████▊                                              | 296950/896683 [01:53<03:57, 2524.16it/s]



 33%|██████████████████████▊                                              | 297210/896683 [01:53<03:55, 2546.39it/s]



 33%|██████████████████████▉                                              | 297467/896683 [01:53<03:55, 2545.81it/s]



 33%|██████████████████████▉                                              | 297725/896683 [01:53<03:55, 2548.41it/s]



 33%|██████████████████████▉                                              | 297981/896683 [01:53<03:55, 2544.33it/s]



 33%|██████████████████████▉                                              | 298260/896683 [01:53<03:48, 2613.31it/s]



 33%|██████████████████████▉                                              | 298535/896683 [01:53<03:46, 2645.19it/s]



 33%|██████████████████████▉                                              | 298837/896683 [01:54<03:38, 2740.04it/s]



 33%|███████████████████████            

 37%|█████████████████████████▋                                           | 334459/896683 [02:07<03:27, 2714.10it/s]



 37%|█████████████████████████▊                                           | 334751/896683 [02:07<03:23, 2764.88it/s]



 37%|█████████████████████████▊                                           | 335030/896683 [02:07<03:23, 2756.30it/s]



 37%|█████████████████████████▊                                           | 335319/896683 [02:07<03:20, 2794.69it/s]



 37%|█████████████████████████▊                                           | 335615/896683 [02:07<03:17, 2834.29it/s]



 37%|█████████████████████████▊                                           | 335900/896683 [02:08<03:18, 2822.03it/s]



 37%|█████████████████████████▊                                           | 336190/896683 [02:08<03:17, 2836.71it/s]



 38%|█████████████████████████▉                                           | 336475/896683 [02:08<03:18, 2815.32it/s]



 38%|█████████████████████████▉         

 42%|████████████████████████████▋                                        | 372501/896683 [02:21<03:36, 2420.92it/s]



 42%|████████████████████████████▋                                        | 372745/896683 [02:21<03:39, 2390.94it/s]



 42%|████████████████████████████▋                                        | 372986/896683 [02:21<03:46, 2313.77it/s]



 42%|████████████████████████████▋                                        | 373255/896683 [02:21<03:37, 2408.94it/s]



 42%|████████████████████████████▋                                        | 373522/896683 [02:22<03:30, 2481.43it/s]



 42%|████████████████████████████▊                                        | 373773/896683 [02:22<03:32, 2460.70it/s]



 42%|████████████████████████████▊                                        | 374059/896683 [02:22<03:23, 2568.22it/s]



 42%|████████████████████████████▊                                        | 374333/896683 [02:22<03:20, 2610.03it/s]



 42%|████████████████████████████▊      

 46%|███████████████████████████████▌                                     | 410289/896683 [02:35<03:06, 2605.41it/s]



 46%|███████████████████████████████▌                                     | 410569/896683 [02:35<03:02, 2660.81it/s]



 46%|███████████████████████████████▌                                     | 410872/896683 [02:35<02:56, 2754.29it/s]



 46%|███████████████████████████████▋                                     | 411151/896683 [02:36<02:55, 2764.87it/s]



 46%|███████████████████████████████▋                                     | 411429/896683 [02:36<02:55, 2761.17it/s]



 46%|███████████████████████████████▋                                     | 411711/896683 [02:36<02:55, 2770.38it/s]



 46%|███████████████████████████████▋                                     | 411996/896683 [02:36<02:53, 2785.97it/s]



 46%|███████████████████████████████▋                                     | 412290/896683 [02:36<02:51, 2830.09it/s]



 46%|███████████████████████████████▋   

 50%|██████████████████████████████████▌                                  | 448774/896683 [02:49<02:54, 2563.52it/s]



 50%|██████████████████████████████████▌                                  | 449032/896683 [02:49<02:54, 2560.72it/s]



 50%|██████████████████████████████████▌                                  | 449302/896683 [02:49<02:52, 2593.55it/s]



 50%|██████████████████████████████████▌                                  | 449564/896683 [02:50<02:51, 2601.43it/s]



 50%|██████████████████████████████████▌                                  | 449828/896683 [02:50<02:51, 2612.86it/s]



 50%|██████████████████████████████████▋                                  | 450109/896683 [02:50<02:47, 2668.99it/s]



 50%|██████████████████████████████████▋                                  | 450381/896683 [02:50<02:46, 2676.24it/s]



 50%|██████████████████████████████████▋                                  | 450662/896683 [02:50<02:44, 2714.98it/s]



 50%|██████████████████████████████████▋

 54%|█████████████████████████████████████▍                               | 486849/896683 [03:03<02:33, 2662.12it/s]



 54%|█████████████████████████████████████▍                               | 487126/896683 [03:04<02:32, 2685.85it/s]



 54%|█████████████████████████████████████▌                               | 487415/896683 [03:04<02:29, 2743.93it/s]



 54%|█████████████████████████████████████▌                               | 487691/896683 [03:04<02:29, 2740.53it/s]



 54%|█████████████████████████████████████▌                               | 487977/896683 [03:04<02:27, 2767.27it/s]



 54%|█████████████████████████████████████▌                               | 488264/896683 [03:04<02:26, 2789.23it/s]



 54%|█████████████████████████████████████▌                               | 488563/896683 [03:04<02:23, 2846.50it/s]



 55%|█████████████████████████████████████▌                               | 488849/896683 [03:04<02:28, 2743.95it/s]



 55%|███████████████████████████████████

 59%|████████████████████████████████████████▍                            | 525091/896683 [03:18<02:21, 2617.31it/s]



 59%|████████████████████████████████████████▍                            | 525375/896683 [03:18<02:18, 2672.83it/s]



 59%|████████████████████████████████████████▍                            | 525651/896683 [03:18<02:17, 2690.54it/s]



 59%|████████████████████████████████████████▍                            | 525921/896683 [03:18<02:18, 2685.37it/s]



 59%|████████████████████████████████████████▍                            | 526210/896683 [03:18<02:15, 2736.13it/s]



 59%|████████████████████████████████████████▌                            | 526486/896683 [03:18<02:14, 2742.90it/s]



 59%|████████████████████████████████████████▌                            | 526761/896683 [03:18<02:17, 2680.81it/s]



 59%|████████████████████████████████████████▌                            | 527040/896683 [03:18<02:16, 2712.65it/s]



 59%|███████████████████████████████████

 63%|███████████████████████████████████████████▎                         | 562895/896683 [03:32<02:12, 2518.78it/s]



 63%|███████████████████████████████████████████▎                         | 563151/896683 [03:32<02:22, 2336.95it/s]



 63%|███████████████████████████████████████████▎                         | 563390/896683 [03:32<02:32, 2178.89it/s]



 63%|███████████████████████████████████████████▎                         | 563614/896683 [03:32<02:38, 2104.01it/s]



 63%|███████████████████████████████████████████▍                         | 563830/896683 [03:32<02:42, 2042.32it/s]



 63%|███████████████████████████████████████████▍                         | 564062/896683 [03:32<02:37, 2118.16it/s]



 63%|███████████████████████████████████████████▍                         | 564322/896683 [03:32<02:28, 2242.83it/s]



 63%|███████████████████████████████████████████▍                         | 564575/896683 [03:32<02:23, 2315.56it/s]



 63%|███████████████████████████████████

 67%|██████████████████████████████████████████████▏                      | 599663/896683 [03:46<02:10, 2275.62it/s]



 67%|██████████████████████████████████████████████▏                      | 599897/896683 [03:46<02:14, 2210.03it/s]



 67%|██████████████████████████████████████████████▏                      | 600159/896683 [03:46<02:08, 2312.77it/s]



 67%|██████████████████████████████████████████████▏                      | 600395/896683 [03:46<02:11, 2253.37it/s]



 67%|██████████████████████████████████████████████▏                      | 600624/896683 [03:46<02:13, 2224.66it/s]



 67%|██████████████████████████████████████████████▏                      | 600855/896683 [03:46<02:11, 2249.58it/s]



 67%|██████████████████████████████████████████████▎                      | 601114/896683 [03:47<02:06, 2335.65it/s]



 67%|██████████████████████████████████████████████▎                      | 601376/896683 [03:47<02:02, 2414.21it/s]



 67%|███████████████████████████████████

 71%|████████████████████████████████████████████████▊                    | 634144/896683 [04:00<01:41, 2581.47it/s]



 71%|████████████████████████████████████████████████▊                    | 634433/896683 [04:00<01:38, 2666.86it/s]



 71%|████████████████████████████████████████████████▊                    | 634709/896683 [04:00<01:37, 2686.28it/s]



 71%|████████████████████████████████████████████████▊                    | 634999/896683 [04:00<01:35, 2739.54it/s]



 71%|████████████████████████████████████████████████▉                    | 635274/896683 [04:01<01:37, 2678.58it/s]



 71%|████████████████████████████████████████████████▉                    | 635544/896683 [04:01<01:37, 2684.69it/s]



 71%|████████████████████████████████████████████████▉                    | 635826/896683 [04:01<01:35, 2723.84it/s]



 71%|████████████████████████████████████████████████▉                    | 636101/896683 [04:01<01:35, 2723.59it/s]



 71%|███████████████████████████████████

 75%|███████████████████████████████████████████████████▋                 | 671010/896683 [04:15<01:41, 2213.54it/s]



 75%|███████████████████████████████████████████████████▋                 | 671250/896683 [04:15<01:39, 2266.30it/s]



 75%|███████████████████████████████████████████████████▋                 | 671478/896683 [04:15<01:39, 2263.92it/s]



 75%|███████████████████████████████████████████████████▋                 | 671705/896683 [04:15<01:41, 2225.52it/s]



 75%|███████████████████████████████████████████████████▋                 | 671935/896683 [04:15<01:40, 2241.05it/s]



 75%|███████████████████████████████████████████████████▋                 | 672160/896683 [04:15<01:43, 2165.75it/s]



 75%|███████████████████████████████████████████████████▋                 | 672378/896683 [04:15<01:45, 2119.36it/s]



 75%|███████████████████████████████████████████████████▊                 | 672591/896683 [04:15<01:47, 2085.37it/s]



 75%|███████████████████████████████████

 79%|██████████████████████████████████████████████████████▏              | 704738/896683 [04:29<01:32, 2069.81it/s]



 79%|██████████████████████████████████████████████████████▏              | 704972/896683 [04:29<01:29, 2144.00it/s]



 79%|██████████████████████████████████████████████████████▎              | 705200/896683 [04:29<01:27, 2176.87it/s]



 79%|██████████████████████████████████████████████████████▎              | 705419/896683 [04:29<01:28, 2161.38it/s]



 79%|██████████████████████████████████████████████████████▎              | 705644/896683 [04:29<01:27, 2187.21it/s]



 79%|██████████████████████████████████████████████████████▎              | 705880/896683 [04:29<01:25, 2230.05it/s]



 79%|██████████████████████████████████████████████████████▎              | 706104/896683 [04:29<01:27, 2187.47it/s]



 79%|██████████████████████████████████████████████████████▎              | 706324/896683 [04:29<01:26, 2191.19it/s]



 79%|███████████████████████████████████

 82%|████████████████████████████████████████████████████████▌            | 735106/896683 [04:43<01:23, 1946.48it/s]



 82%|████████████████████████████████████████████████████████▌            | 735344/896683 [04:43<01:18, 2058.98it/s]



 82%|████████████████████████████████████████████████████████▌            | 735579/896683 [04:43<01:15, 2138.42it/s]



 82%|████████████████████████████████████████████████████████▌            | 735814/896683 [04:43<01:13, 2191.65it/s]



 82%|████████████████████████████████████████████████████████▋            | 736065/896683 [04:43<01:10, 2272.20it/s]



 82%|████████████████████████████████████████████████████████▋            | 736303/896683 [04:44<01:09, 2296.84it/s]



 82%|████████████████████████████████████████████████████████▋            | 736580/896683 [04:44<01:06, 2420.85it/s]



 82%|████████████████████████████████████████████████████████▋            | 736843/896683 [04:44<01:04, 2473.31it/s]



 82%|███████████████████████████████████

 86%|███████████████████████████████████████████████████████████▍         | 773207/896683 [04:57<00:49, 2478.83it/s]



 86%|███████████████████████████████████████████████████████████▌         | 773478/896683 [04:57<00:48, 2536.83it/s]



 86%|███████████████████████████████████████████████████████████▌         | 773759/896683 [04:57<00:47, 2606.04it/s]



 86%|███████████████████████████████████████████████████████████▌         | 774030/896683 [04:58<00:46, 2636.14it/s]



 86%|███████████████████████████████████████████████████████████▌         | 774296/896683 [04:58<00:46, 2643.24it/s]



 86%|███████████████████████████████████████████████████████████▌         | 774574/896683 [04:58<00:45, 2682.79it/s]



 86%|███████████████████████████████████████████████████████████▌         | 774844/896683 [04:58<00:48, 2516.41it/s]



 86%|███████████████████████████████████████████████████████████▋         | 775099/896683 [04:58<00:49, 2474.89it/s]



 86%|███████████████████████████████████

 90%|██████████████████████████████████████████████████████████████▍      | 810953/896683 [05:12<00:29, 2932.57it/s]



 90%|██████████████████████████████████████████████████████████████▍      | 811267/896683 [05:12<00:28, 2991.85it/s]



 91%|██████████████████████████████████████████████████████████████▍      | 811567/896683 [05:12<00:29, 2915.71it/s]



 91%|██████████████████████████████████████████████████████████████▍      | 811860/896683 [05:12<00:30, 2763.02it/s]



 91%|██████████████████████████████████████████████████████████████▍      | 812139/896683 [05:12<00:31, 2701.82it/s]



 91%|██████████████████████████████████████████████████████████████▌      | 812414/896683 [05:12<00:31, 2708.10it/s]



 91%|██████████████████████████████████████████████████████████████▌      | 812698/896683 [05:12<00:30, 2738.50it/s]



 91%|██████████████████████████████████████████████████████████████▌      | 812974/896683 [05:12<00:30, 2744.91it/s]



 91%|███████████████████████████████████

 94%|█████████████████████████████████████████████████████████████████    | 845146/896683 [05:26<00:20, 2538.11it/s]



 94%|█████████████████████████████████████████████████████████████████    | 845444/896683 [05:26<00:19, 2656.24it/s]



 94%|█████████████████████████████████████████████████████████████████    | 845712/896683 [05:26<00:19, 2601.61it/s]



 94%|█████████████████████████████████████████████████████████████████    | 845987/896683 [05:26<00:19, 2644.09it/s]



 94%|█████████████████████████████████████████████████████████████████    | 846266/896683 [05:26<00:18, 2678.53it/s]



 94%|█████████████████████████████████████████████████████████████████▏   | 846555/896683 [05:26<00:18, 2730.81it/s]



 94%|█████████████████████████████████████████████████████████████████▏   | 846838/896683 [05:26<00:18, 2751.89it/s]



 94%|█████████████████████████████████████████████████████████████████▏   | 847114/896683 [05:26<00:18, 2737.86it/s]



 95%|███████████████████████████████████

 98%|███████████████████████████████████████████████████████████████████▊ | 880866/896683 [05:40<00:07, 2127.89it/s]



 98%|███████████████████████████████████████████████████████████████████▊ | 881085/896683 [05:40<00:07, 2084.88it/s]



 98%|███████████████████████████████████████████████████████████████████▊ | 881321/896683 [05:41<00:07, 2160.20it/s]



 98%|███████████████████████████████████████████████████████████████████▊ | 881567/896683 [05:41<00:06, 2236.11it/s]



 98%|███████████████████████████████████████████████████████████████████▊ | 881823/896683 [05:41<00:06, 2324.00it/s]



 98%|███████████████████████████████████████████████████████████████████▉ | 882091/896683 [05:41<00:06, 2413.93it/s]



 98%|███████████████████████████████████████████████████████████████████▉ | 882359/896683 [05:41<00:05, 2487.97it/s]



 98%|███████████████████████████████████████████████████████████████████▉ | 882650/896683 [05:41<00:05, 2594.26it/s]



 98%|███████████████████████████████████