# Data Filter
### The purpose of this notebook is four-fold:
1) Filter data to only the relevant rows

2) Delete the unnecessary columns

3) Suitably edit the text to allow for topic modeling

4) Create new variables to assist with demographic comparisons of topics


### Note: 
URL: https://github.com/rudeboybert/JSE_OkCupid

At 141 MB (unzipped) and 53 MB (zipped), this is too large to be uploaded onto Github.
This notebook is only required to convert the original data to a manageable size. 
If you already have access to the filtered data, 'compressed_okcupid.csv', then you may proceed to the next steps in the notebooks

In [7]:
!pip install pyspellchecker

Collecting pyspellchecker
  Downloading https://files.pythonhosted.org/packages/93/24/9a570f49dfefc16e9ce1f483bb2d5bff701b95094e051db502e3c11f5092/pyspellchecker-0.5.3-py2.py3-none-any.whl (1.9MB)
Installing collected packages: pyspellchecker
Successfully installed pyspellchecker-0.5.3


In [3]:
#!pip install pyenchant==1.6.6
!pip install compound-word-splitter
!pip install pyspellchecker
!pip install wordninja



In [23]:
#General Purpose Imports
import numpy as np
import pandas as pd
import warning
import re
from spellchecker import SpellChecker
warnings.filterwarnings('ignore')
from tqdm import tqdm
tqdm.pandas()
import wordninja

In [9]:
spell = SpellChecker(distance=2)
lolly = ['I', 'love', 'cantilever', 'pecocks']
spell.correction('greatbutt')

'greatbutt'

In [None]:
import re
corrections ={r"won\'t": "will not",
              r"can\'t": "can not",
              r"n\'t": " not",
              r"\'re": " are",
              r"\'s": " is",
              r"\'d": " would",
              r"\'ll": " will",
              r"\'t": " not",
              r"\'ve": " have",
              r"\'m": " am"}

def decontracted(phrase):  
    # Taken from:
    # https://stackoverflow.com/questions/19790188/expanding-english-language-contractions-in-python
    # specific
    for k,v in corrections.items():
        phrase = re.sub(k, v, phrase)
    return phrase

def split_word(compound_word):
    '''
    Takes in compound word
    Splits it into individual words
    Returns string with spaced words
    '''
    sep_words = wordninja.split(compound_word)
    print('The separated words are {}'.format(sep_words))
    cleaned = ' '.join(sep_words)
    print(cleaned)
    return cleaned

def decide_split(word):
    spellcheck = SpellChecker()
    if not spellcheck[word]:
        nearest = spellcheck.correction(word)
        #When there is no valid word, the nearest word
        #is the same as the original
        if word == nearest:
            #print('The compound word is {}'.format(word))
            return split_word(word)
        else:
            #print('The accepted word is {}'.format(word))            
            #print(nearest)
            return nearest
    else:
        return word

def split_incorrect(text, punctuation=True):
    '''
    Takes in a long string
    The punctuation parameter checks if punctuation marks are to
    be preserved
    Splits into component words, checks for incorrect spellings
    For incorrect spellings, checks if is possibly compound
    If not, then looks for the closest one word in the dictionary
    Returns the entire text with all words corrected
    '''
    #if punctuation:

    cleaned_words = []
    words= re.split('\.+', text)
    #print(words)
    for word in words:
        word = decontracted(word)
        checked_word = decide_split(word)
        print('The checked word is {}'.format(checked_word))
        cleaned_words.append(checked_word)
    final = " ".join(cleaned_words)
    print("done!")
    return final
    
test_text = 'John had a big cock, it crowedatsunrise every morning'
real_text = 'i really like meeting new people. small-world networks fascinateme.beer is important. without beer, there would be nocivilization.somehow i can only sing spanish, but not speak it. i suppose musicis the universal language?coffee enthusiast.why am i the only one singing when riding my bike around themission?'
real_text_2 = "i'm an adventurer first, i take calculatedrisks whenever it seems fun, and i always take care of those aroundme.i'm a writer, astory teller, a photographer and those things arebasically the same thing to me. i love playing with lights, sound,and really any machine that has locomotion or pretty blinky thingson it. love driving, racing, flying, sailing, sky diving, and adrenaline issacred. that said, i so appreciate a night at home with a goodbook, bottle of wine, or if i have company, a movie andconversation. not at the same time, though, i like to hear themovie, then focus on you:) more later..."
#print(split_incorrect(test_text))


In [None]:
%timeit print(split_incorrect(test_text))

In [20]:
import wordninja
#wordninja.split('hammerandtongs')

def split_word(compound_word):
    '''
    Takes in compound word
    Splits it into individual words
    Returns string with spaced words
    '''
    sep_words = wordninja.split(compound_word)
    cleaned = ' '.join(sep_words)
    return cleaned

split_word('guzzlpetrl')
    
    

'gu zz l petr l'

In [6]:
#Imports for Text Analytics
from bs4 import BeautifulSoup
import spacy
import textacy
nlp = spacy.load('en_core_web_sm')
en = textacy.load_spacy_lang("en_core_web_sm")
from textacy import TextStats

In [20]:
df = pd.read_csv('D:\Dropbox\Repositories\persp-research_S19\okcupid\data\profiles.csv')
must_haves = ['body_type', 'height', 'education', 'ethnicity', 'sex', 'essay0', 'essay9']
df = df.dropna(subset= must_haves)
df = df[(df['sex']=="m")&(df['orientation']=="straight")]
df = df.drop(columns=['essay1', 'essay2', 'essay3','essay4','essay5','essay6','essay7',
                      'essay8', 'essay9', 'income','job','last_online','location','offspring',
                      'orientation','pets','religion','sex','sign','smokes','speaks','status',
                      'diet', 'drinks', 'drugs'])

### CREATING NEW COLUMNS


Many of the sections here are taken directly from the following link, with specific modifications
Taken directly from:
https://github.com/UM-CSS/CSSLabs-NLP/blob/master/1_Data_munging.ipynb

In [18]:
def recode(text, dictionary, default=np.nan):
    '''Function for recoding categories in a column based on exact matches'''
    out = default
    text = str(text)
    
    for x in dictionary.keys():
        for y in dictionary[x]:
            if y == text: #exact match
                out = x
                return out
    return out

def recode_fuzzy(text, dictionary, default=np.nan):
    '''Function for recoding categories in a column based on partial matches'''
    out = default
    text = str(text)
    
    for x in dictionary.keys():
        for y in dictionary[x]:
            if y in text: #partial match
                out = x
                return out
    return out

In [19]:
ed_levels = {'High School or less': ['dropped out of high school', 'working on high school','graduated from high school', 'working on college/university', 
                    'two-year college', 'dropped out of college/university', 
                    'high school'], 
             'More than High School': ['graduated from college/university', 
                    'working on masters program', 'working on ph.d program', 
                    'college/university', 'working on law school', 
                    'dropped out of masters program', 
                    'dropped out of ph.d program', 'dropped out of law school', 
                    'dropped out of med school',
                    'graduated from masters program',
                    'graduated from ph.d program',                           
                    'graduated from law school', 
                    'graduated from med school', 'masters program', 
                    'ph.d program', 'law school', 'med school']}

#body type
bodies = {'fit': ['fit', 'athletic', 'jacked'], 
          'not_fit': ['average', 'thin', 'skinny','curvey', 'a little extra', 
                      'full figured', 'overweight', 'rather not say', 'used up']
         }

In [20]:
df['edu'] = df.education.apply(recode, dictionary=ed_levels, 
                                            default='unknown')
df['fit'] = df.body_type.apply(recode, dictionary=bodies, 
                                            default='unknown')

In [21]:
# race/ethnicity for exact matching
ethn = {'White': ['white', 'middle eastern', 'middle eastern, white'], 
        'Asian': ['asian', 'indian', 'asian, pacific islander'], 
        'Black': ['black']       }   

# race/ethnicityfor fuzzy matching
ethn2 = {'Latinx': ['latin'], 'multiple': [','], np.nan: ['nan']}

In [22]:
def census_2010_ethnicity(t):
    text = str(t)
    e = recode(text, ethn, default='other')
    if 'other' == e:
        e = recode_fuzzy(text, ethn2, default='other')
    return e

df['race_ethnicity'] = df.ethnicity.apply(census_2010_ethnicity)

In [23]:
def height_check(inches):
    h = 'not_short'
    if inches <= 69:
        h = 'short'
    return h
df['height'] = pd.to_numeric(df['height'])
df['height_group'] = df.height.apply(height_check)

## TEXT EDITING

In [24]:
# Some of the essays have just a link in the text. BeautifulSoup sees that and gets 
# the wrong idea. This line hides those warnings.
warnings.filterwarnings("ignore", category=UserWarning, module='bs4')
def clean(text):
    if pd.isnull(text):
        t = np.nan
    else:
        t = BeautifulSoup(text, 'lxml').get_text()
        t = t.lower()
        t = t.strip().replace('\n','').replace("\r", " ").replace('\t', '')
        bad_words = ['http', 'www', '\nnan']

        for b in bad_words:
            t = t.replace(b, '')
    if t == '':
        t = np.nan
    
    return t

In [25]:
#Clearing out all HTML and unnecessary characters
df['essay0'] =df['essay0'].progress_apply(clean)
df['essay9'] =df['essay9'].progress_apply(clean)


  0%|                                                                                        | 0/18831 [00:00<?, ?it/s]
  1%|▊                                                                           | 212/18831 [00:00<00:08, 2099.26it/s]
  3%|██▏                                                                         | 551/18831 [00:00<00:07, 2365.20it/s]
  4%|███                                                                         | 767/18831 [00:00<00:07, 2299.24it/s]
  5%|███▊                                                                        | 934/18831 [00:00<00:09, 1798.84it/s]
  7%|████▉                                                                      | 1230/18831 [00:00<00:08, 2034.73it/s]
  8%|█████▉                                                                     | 1502/18831 [00:00<00:07, 2195.78it/s]
  9%|██████▉                                                                    | 1730/18831 [00:00<00:07, 2220.16it/s]
 11%|███████▉                          

In [33]:
#These functions help assess the level of complexity
def get_flesch(text):    
    doc = textacy.make_spacy_doc(text, lang=en)
    ts = TextStats(doc)
    try:
        return ts.flesch_kincaid_grade_level
    except ZeroDivisionError:
        return (11.8 * ts.n_syllables) + (0.39 * ts.n_words) - 15.59

def get_npoly(text):
    doc = textacy.make_spacy_doc(text, lang=en)
    ts = TextStats(doc)
    return ts.n_polysyllable_words

In [28]:
df['long_words'] = df['essay0'].progress_apply(get_npoly)



  0%|                                                                                        | 0/18831 [00:00<?, ?it/s]

  0%|                                                                                | 4/18831 [00:00<08:04, 38.84it/s]
 12%|█████████▍                                                                   | 2305/18831 [01:19<07:17, 37.80it/s]

  0%|                                                                                | 7/18831 [00:00<09:53, 31.72it/s]

  0%|                                                                               | 11/18831 [00:00<09:46, 32.11it/s]

  0%|                                                                               | 15/18831 [00:00<09:21, 33.53it/s]

  0%|                                                                               | 19/18831 [00:00<08:58, 34.96it/s]

  0%|                                                                               | 23/18831 [00:00<08:43, 35.94it/s]

  0%|                          

  3%|██▌                                                                           | 625/18831 [00:17<11:27, 26.49it/s]

  3%|██▌                                                                           | 629/18831 [00:17<10:57, 27.70it/s]

  3%|██▌                                                                           | 632/18831 [00:17<11:58, 25.34it/s]

  3%|██▋                                                                           | 635/18831 [00:17<11:39, 26.02it/s]

  3%|██▋                                                                           | 640/18831 [00:18<10:10, 29.80it/s]

  3%|██▋                                                                           | 644/18831 [00:18<09:39, 31.36it/s]

  3%|██▋                                                                           | 648/18831 [00:18<09:18, 32.55it/s]

  3%|██▋                                                                           | 652/18831 [00:18<09:09, 33.10it/s]

  3%|██▋                        

  7%|█████                                                                        | 1237/18831 [00:35<10:22, 28.28it/s]

  7%|█████                                                                        | 1241/18831 [00:35<10:06, 28.98it/s]

  7%|█████                                                                        | 1245/18831 [00:35<09:21, 31.29it/s]

  7%|█████                                                                        | 1250/18831 [00:35<09:17, 31.52it/s]

  7%|█████▏                                                                       | 1257/18831 [00:36<07:53, 37.14it/s]

  7%|█████▏                                                                       | 1264/18831 [00:36<07:01, 41.69it/s]

  7%|█████▏                                                                       | 1269/18831 [00:36<06:49, 42.86it/s]

  7%|█████▏                                                                       | 1274/18831 [00:36<07:23, 39.57it/s]

  7%|█████▏                     

 10%|███████▊                                                                     | 1906/18831 [00:53<08:16, 34.08it/s]

 10%|███████▊                                                                     | 1910/18831 [00:53<08:23, 33.59it/s]

 10%|███████▊                                                                     | 1914/18831 [00:53<08:08, 34.65it/s]

 10%|███████▊                                                                     | 1920/18831 [00:53<07:18, 38.53it/s]

 10%|███████▉                                                                     | 1927/18831 [00:53<06:22, 44.20it/s]

 10%|███████▉                                                                     | 1932/18831 [00:53<06:40, 42.20it/s]

 10%|███████▉                                                                     | 1937/18831 [00:54<06:50, 41.11it/s]

 10%|███████▉                                                                     | 1942/18831 [00:54<06:44, 41.79it/s]

 10%|███████▉                   

 14%|██████████▍                                                                  | 2548/18831 [01:11<07:31, 36.07it/s]

 14%|██████████▍                                                                  | 2552/18831 [01:11<07:19, 37.06it/s]

 14%|██████████▍                                                                  | 2556/18831 [01:11<08:04, 33.60it/s]

 14%|██████████▍                                                                  | 2560/18831 [01:11<08:20, 32.54it/s]

 14%|██████████▍                                                                  | 2565/18831 [01:11<07:54, 34.25it/s]

 14%|██████████▌                                                                  | 2570/18831 [01:11<07:16, 37.23it/s]

 14%|██████████▌                                                                  | 2578/18831 [01:11<06:10, 43.91it/s]

 14%|██████████▌                                                                  | 2583/18831 [01:11<06:38, 40.78it/s]

 14%|██████████▌                

 17%|█████████████                                                                | 3192/18831 [01:29<07:49, 33.32it/s]

 17%|█████████████                                                                | 3196/18831 [01:29<09:27, 27.54it/s]

 17%|█████████████                                                                | 3200/18831 [01:29<08:59, 28.99it/s]

 17%|█████████████                                                                | 3205/18831 [01:29<08:08, 31.97it/s]

 17%|█████████████                                                                | 3209/18831 [01:29<07:49, 33.25it/s]

 17%|█████████████▏                                                               | 3213/18831 [01:30<07:31, 34.57it/s]

 17%|█████████████▏                                                               | 3217/18831 [01:30<07:14, 35.94it/s]

 17%|█████████████▏                                                               | 3221/18831 [01:30<07:18, 35.59it/s]

 17%|█████████████▏             

 20%|███████████████▋                                                             | 3844/18831 [01:47<05:49, 42.85it/s]

 20%|███████████████▋                                                             | 3849/18831 [01:47<06:06, 40.92it/s]

 20%|███████████████▊                                                             | 3854/18831 [01:47<06:05, 40.94it/s]

 20%|███████████████▊                                                             | 3859/18831 [01:47<06:18, 39.59it/s]

 21%|███████████████▊                                                             | 3865/18831 [01:47<05:46, 43.23it/s]

 21%|███████████████▊                                                             | 3871/18831 [01:47<05:23, 46.21it/s]

 21%|███████████████▊                                                             | 3876/18831 [01:47<05:48, 42.90it/s]

 21%|███████████████▊                                                             | 3881/18831 [01:47<06:15, 39.78it/s]

 21%|███████████████▉           

 24%|██████████████████▌                                                          | 4536/18831 [02:05<06:25, 37.12it/s]

 24%|██████████████████▌                                                          | 4540/18831 [02:05<06:53, 34.59it/s]

 24%|██████████████████▌                                                          | 4546/18831 [02:05<06:34, 36.25it/s]

 24%|██████████████████▌                                                          | 4550/18831 [02:05<07:43, 30.83it/s]

 24%|██████████████████▋                                                          | 4556/18831 [02:05<06:56, 34.24it/s]

 24%|██████████████████▋                                                          | 4560/18831 [02:05<07:23, 32.16it/s]

 24%|██████████████████▋                                                          | 4564/18831 [02:05<08:18, 28.60it/s]

 24%|██████████████████▋                                                          | 4568/18831 [02:06<07:53, 30.14it/s]

 24%|██████████████████▋        

 27%|████████████████████▉                                                        | 5129/18831 [02:23<06:28, 35.25it/s]

 27%|████████████████████▉                                                        | 5133/18831 [02:23<07:38, 29.84it/s]

 27%|█████████████████████                                                        | 5139/18831 [02:24<06:31, 34.96it/s]

 27%|█████████████████████                                                        | 5144/18831 [02:24<06:29, 35.11it/s]

 27%|█████████████████████                                                        | 5151/18831 [02:24<05:34, 40.85it/s]

 27%|█████████████████████                                                        | 5157/18831 [02:24<05:07, 44.47it/s]

 27%|█████████████████████                                                        | 5162/18831 [02:24<06:02, 37.68it/s]

 27%|█████████████████████▏                                                       | 5167/18831 [02:24<06:49, 33.36it/s]

 27%|█████████████████████▏     

 31%|███████████████████████▌                                                     | 5763/18831 [02:41<06:46, 32.12it/s]

 31%|███████████████████████▌                                                     | 5768/18831 [02:41<06:10, 35.22it/s]

 31%|███████████████████████▌                                                     | 5772/18831 [02:41<06:50, 31.82it/s]

 31%|███████████████████████▌                                                     | 5776/18831 [02:42<06:31, 33.31it/s]

 31%|███████████████████████▋                                                     | 5782/18831 [02:42<05:46, 37.64it/s]

 31%|███████████████████████▋                                                     | 5787/18831 [02:42<06:10, 35.24it/s]

 31%|███████████████████████▋                                                     | 5791/18831 [02:42<06:29, 33.51it/s]

 31%|███████████████████████▋                                                     | 5798/18831 [02:42<05:34, 38.93it/s]

 31%|███████████████████████▋   

 33%|█████████████████████████▊                                                   | 6298/18831 [03:01<05:53, 35.47it/s]

 33%|█████████████████████████▊                                                   | 6303/18831 [03:01<05:51, 35.62it/s]

 33%|█████████████████████████▊                                                   | 6307/18831 [03:02<05:46, 36.13it/s]

 34%|█████████████████████████▊                                                   | 6312/18831 [03:02<05:21, 38.95it/s]

 34%|█████████████████████████▊                                                   | 6317/18831 [03:02<05:21, 38.98it/s]

 34%|█████████████████████████▊                                                   | 6323/18831 [03:02<04:58, 41.92it/s]

 34%|█████████████████████████▉                                                   | 6328/18831 [03:02<05:01, 41.42it/s]

 34%|█████████████████████████▉                                                   | 6334/18831 [03:02<04:38, 44.85it/s]

 34%|█████████████████████████▉ 

 37%|████████████████████████████▍                                                | 6963/18831 [03:20<06:16, 31.50it/s]

 37%|████████████████████████████▍                                                | 6967/18831 [03:20<06:08, 32.19it/s]

 37%|████████████████████████████▌                                                | 6971/18831 [03:20<05:53, 33.59it/s]

 37%|████████████████████████████▌                                                | 6975/18831 [03:20<06:00, 32.93it/s]

 37%|████████████████████████████▌                                                | 6979/18831 [03:20<06:53, 28.65it/s]

 37%|████████████████████████████▌                                                | 6983/18831 [03:20<06:49, 28.94it/s]

 37%|████████████████████████████▌                                                | 6987/18831 [03:20<06:26, 30.61it/s]

 37%|████████████████████████████▌                                                | 6991/18831 [03:21<06:46, 29.12it/s]

 37%|███████████████████████████

 40%|██████████████████████████████▉                                              | 7579/18831 [03:38<04:57, 37.84it/s]

 40%|███████████████████████████████                                              | 7584/18831 [03:38<04:40, 40.03it/s]

 40%|███████████████████████████████                                              | 7590/18831 [03:38<04:47, 39.16it/s]

 40%|███████████████████████████████                                              | 7595/18831 [03:38<04:39, 40.17it/s]

 40%|███████████████████████████████                                              | 7600/18831 [03:38<04:39, 40.22it/s]

 40%|███████████████████████████████                                              | 7605/18831 [03:39<05:15, 35.53it/s]

 40%|███████████████████████████████                                              | 7611/18831 [03:39<04:46, 39.21it/s]

 40%|███████████████████████████████▏                                             | 7616/18831 [03:39<04:54, 38.09it/s]

 40%|███████████████████████████

 44%|█████████████████████████████████▋                                           | 8226/18831 [03:56<05:35, 31.63it/s]

 44%|█████████████████████████████████▋                                           | 8230/18831 [03:56<06:14, 28.30it/s]

 44%|█████████████████████████████████▋                                           | 8235/18831 [03:56<05:42, 30.97it/s]

 44%|█████████████████████████████████▋                                           | 8239/18831 [03:56<06:04, 29.09it/s]

 44%|█████████████████████████████████▋                                           | 8243/18831 [03:57<05:50, 30.24it/s]

 44%|█████████████████████████████████▋                                           | 8247/18831 [03:57<08:49, 19.97it/s]

 44%|█████████████████████████████████▋                                           | 8252/18831 [03:57<08:11, 21.53it/s]

 44%|█████████████████████████████████▊                                           | 8255/18831 [03:57<08:26, 20.87it/s]

 44%|███████████████████████████

 47%|████████████████████████████████████                                         | 8833/18831 [04:14<04:04, 40.93it/s]

 47%|████████████████████████████████████▏                                        | 8838/18831 [04:14<03:56, 42.19it/s]

 47%|████████████████████████████████████▏                                        | 8844/18831 [04:15<03:41, 45.16it/s]

 47%|████████████████████████████████████▏                                        | 8849/18831 [04:15<03:48, 43.59it/s]

 47%|████████████████████████████████████▏                                        | 8854/18831 [04:15<03:44, 44.37it/s]

 47%|████████████████████████████████████▏                                        | 8859/18831 [04:15<04:02, 41.16it/s]

 47%|████████████████████████████████████▏                                        | 8864/18831 [04:15<04:28, 37.08it/s]

 47%|████████████████████████████████████▎                                        | 8868/18831 [04:15<04:28, 37.07it/s]

 47%|███████████████████████████

 50%|██████████████████████████████████████▊                                      | 9484/18831 [04:32<03:34, 43.63it/s]

 50%|██████████████████████████████████████▊                                      | 9489/18831 [04:32<03:54, 39.84it/s]

 50%|██████████████████████████████████████▊                                      | 9495/18831 [04:32<03:35, 43.25it/s]

 50%|██████████████████████████████████████▊                                      | 9500/18831 [04:32<03:45, 41.38it/s]

 50%|██████████████████████████████████████▊                                      | 9505/18831 [04:32<04:06, 37.88it/s]

 51%|██████████████████████████████████████▉                                      | 9510/18831 [04:32<03:56, 39.41it/s]

 51%|██████████████████████████████████████▉                                      | 9515/18831 [04:33<04:53, 31.74it/s]

 51%|██████████████████████████████████████▉                                      | 9521/18831 [04:33<04:13, 36.69it/s]

 51%|███████████████████████████

 54%|████████████████████████████████████████▉                                   | 10142/18831 [04:50<04:11, 34.51it/s]

 54%|████████████████████████████████████████▉                                   | 10148/18831 [04:50<03:39, 39.47it/s]

 54%|████████████████████████████████████████▉                                   | 10153/18831 [04:50<03:29, 41.40it/s]

 54%|████████████████████████████████████████▉                                   | 10158/18831 [04:50<03:20, 43.31it/s]

 54%|█████████████████████████████████████████                                   | 10163/18831 [04:50<03:27, 41.73it/s]

 54%|█████████████████████████████████████████                                   | 10168/18831 [04:50<03:50, 37.57it/s]

 54%|█████████████████████████████████████████                                   | 10173/18831 [04:50<03:56, 36.59it/s]

 54%|█████████████████████████████████████████                                   | 10178/18831 [04:50<03:45, 38.42it/s]

 54%|███████████████████████████

 57%|███████████████████████████████████████████▍                                | 10769/18831 [05:08<03:15, 41.22it/s]

 57%|███████████████████████████████████████████▍                                | 10774/18831 [05:09<03:10, 42.20it/s]

 57%|███████████████████████████████████████████▌                                | 10781/18831 [05:09<02:59, 44.95it/s]

 57%|███████████████████████████████████████████▌                                | 10786/18831 [05:09<03:23, 39.63it/s]

 57%|███████████████████████████████████████████▌                                | 10791/18831 [05:09<03:21, 39.83it/s]

 57%|███████████████████████████████████████████▌                                | 10796/18831 [05:09<04:48, 27.88it/s]

 57%|███████████████████████████████████████████▌                                | 10802/18831 [05:09<04:03, 32.99it/s]

 57%|███████████████████████████████████████████▌                                | 10807/18831 [05:09<03:40, 36.42it/s]

 57%|███████████████████████████

 61%|██████████████████████████████████████████████                              | 11413/18831 [05:27<03:19, 37.20it/s]

 61%|██████████████████████████████████████████████                              | 11417/18831 [05:27<03:53, 31.75it/s]

 61%|██████████████████████████████████████████████                              | 11421/18831 [05:27<04:06, 30.10it/s]

 61%|██████████████████████████████████████████████                              | 11425/18831 [05:27<03:58, 31.01it/s]

 61%|██████████████████████████████████████████████▏                             | 11429/18831 [05:27<03:49, 32.21it/s]

 61%|██████████████████████████████████████████████▏                             | 11433/18831 [05:28<05:47, 21.31it/s]

 61%|██████████████████████████████████████████████▏                             | 11436/18831 [05:28<05:36, 21.95it/s]

 61%|██████████████████████████████████████████████▏                             | 11441/18831 [05:28<04:49, 25.54it/s]

 61%|███████████████████████████

 64%|████████████████████████████████████████████████▌                           | 12026/18831 [05:45<02:57, 38.30it/s]

 64%|████████████████████████████████████████████████▌                           | 12031/18831 [05:45<03:07, 36.34it/s]

 64%|████████████████████████████████████████████████▌                           | 12035/18831 [05:46<03:10, 35.67it/s]

 64%|████████████████████████████████████████████████▌                           | 12040/18831 [05:46<03:00, 37.70it/s]

 64%|████████████████████████████████████████████████▌                           | 12044/18831 [05:46<03:16, 34.49it/s]

 64%|████████████████████████████████████████████████▌                           | 12048/18831 [05:46<03:19, 34.05it/s]

 64%|████████████████████████████████████████████████▋                           | 12053/18831 [05:46<03:10, 35.63it/s]

 64%|████████████████████████████████████████████████▋                           | 12057/18831 [05:46<03:11, 35.38it/s]

 64%|███████████████████████████

 67%|███████████████████████████████████████████████████▎                        | 12703/18831 [06:03<03:16, 31.24it/s]

 67%|███████████████████████████████████████████████████▎                        | 12708/18831 [06:03<03:06, 32.84it/s]

 68%|███████████████████████████████████████████████████▎                        | 12712/18831 [06:03<03:12, 31.73it/s]

 68%|███████████████████████████████████████████████████▎                        | 12716/18831 [06:04<03:09, 32.27it/s]

 68%|███████████████████████████████████████████████████▎                        | 12720/18831 [06:04<03:03, 33.24it/s]

 68%|███████████████████████████████████████████████████▎                        | 12724/18831 [06:04<03:04, 33.18it/s]

 68%|███████████████████████████████████████████████████▎                        | 12729/18831 [06:04<02:52, 35.34it/s]

 68%|███████████████████████████████████████████████████▍                        | 12733/18831 [06:04<03:18, 30.79it/s]

 68%|███████████████████████████

 71%|██████████████████████████████████████████████████████                      | 13383/18831 [06:21<02:55, 31.11it/s]

 71%|██████████████████████████████████████████████████████                      | 13388/18831 [06:21<02:38, 34.29it/s]

 71%|██████████████████████████████████████████████████████                      | 13394/18831 [06:21<02:24, 37.58it/s]

 71%|██████████████████████████████████████████████████████                      | 13399/18831 [06:21<02:34, 35.13it/s]

 71%|██████████████████████████████████████████████████████                      | 13405/18831 [06:21<02:20, 38.49it/s]

 71%|██████████████████████████████████████████████████████                      | 13410/18831 [06:21<02:24, 37.53it/s]

 71%|██████████████████████████████████████████████████████▏                     | 13416/18831 [06:21<02:09, 41.75it/s]

 71%|██████████████████████████████████████████████████████▏                     | 13421/18831 [06:22<02:19, 38.81it/s]

 71%|███████████████████████████

 74%|████████████████████████████████████████████████████████▌                   | 14019/18831 [06:38<02:22, 33.68it/s]

 74%|████████████████████████████████████████████████████████▌                   | 14025/18831 [06:38<02:04, 38.48it/s]

 75%|████████████████████████████████████████████████████████▌                   | 14030/18831 [06:39<02:24, 33.12it/s]

 75%|████████████████████████████████████████████████████████▋                   | 14034/18831 [06:39<02:30, 31.92it/s]

 75%|████████████████████████████████████████████████████████▋                   | 14040/18831 [06:39<02:12, 36.26it/s]

 75%|████████████████████████████████████████████████████████▋                   | 14045/18831 [06:39<02:20, 33.96it/s]

 75%|████████████████████████████████████████████████████████▋                   | 14050/18831 [06:39<02:10, 36.59it/s]

 75%|████████████████████████████████████████████████████████▋                   | 14054/18831 [06:39<02:26, 32.51it/s]

 75%|███████████████████████████

 78%|███████████████████████████████████████████████████████████▎                | 14709/18831 [06:56<01:52, 36.51it/s]

 78%|███████████████████████████████████████████████████████████▍                | 14715/18831 [06:56<01:41, 40.70it/s]

 78%|███████████████████████████████████████████████████████████▍                | 14720/18831 [06:56<01:36, 42.44it/s]

 78%|███████████████████████████████████████████████████████████▍                | 14725/18831 [06:56<01:39, 41.16it/s]

 78%|███████████████████████████████████████████████████████████▍                | 14730/18831 [06:56<01:43, 39.74it/s]

 78%|███████████████████████████████████████████████████████████▍                | 14735/18831 [06:56<01:46, 38.62it/s]

 78%|███████████████████████████████████████████████████████████▍                | 14739/18831 [06:56<01:52, 36.46it/s]

 78%|███████████████████████████████████████████████████████████▌                | 14745/18831 [06:57<01:43, 39.61it/s]

 78%|███████████████████████████

 82%|██████████████████████████████████████████████████████████████▏             | 15402/18831 [07:13<01:20, 42.41it/s]

 82%|██████████████████████████████████████████████████████████████▏             | 15409/18831 [07:13<01:12, 46.94it/s]

 82%|██████████████████████████████████████████████████████████████▏             | 15414/18831 [07:13<01:22, 41.20it/s]

 82%|██████████████████████████████████████████████████████████████▏             | 15419/18831 [07:14<01:26, 39.38it/s]

 82%|██████████████████████████████████████████████████████████████▏             | 15424/18831 [07:14<01:39, 34.20it/s]

 82%|██████████████████████████████████████████████████████████████▎             | 15428/18831 [07:14<01:39, 34.29it/s]

 82%|██████████████████████████████████████████████████████████████▎             | 15433/18831 [07:14<01:39, 34.07it/s]

 82%|██████████████████████████████████████████████████████████████▎             | 15437/18831 [07:14<02:10, 25.99it/s]

 82%|███████████████████████████

 85%|████████████████████████████████████████████████████████████████▋           | 16022/18831 [07:32<01:04, 43.67it/s]

 85%|████████████████████████████████████████████████████████████████▋           | 16027/18831 [07:32<01:08, 40.84it/s]

 85%|████████████████████████████████████████████████████████████████▋           | 16032/18831 [07:32<01:11, 39.15it/s]

 85%|████████████████████████████████████████████████████████████████▋           | 16036/18831 [07:32<01:12, 38.39it/s]

 85%|████████████████████████████████████████████████████████████████▋           | 16041/18831 [07:32<01:08, 40.85it/s]

 85%|████████████████████████████████████████████████████████████████▊           | 16046/18831 [07:32<01:22, 33.77it/s]

 85%|████████████████████████████████████████████████████████████████▊           | 16052/18831 [07:33<01:15, 36.93it/s]

 85%|████████████████████████████████████████████████████████████████▊           | 16057/18831 [07:33<01:10, 39.60it/s]

 85%|███████████████████████████

 88%|███████████████████████████████████████████████████████████████████▏        | 16633/18831 [07:50<00:54, 40.20it/s]

 88%|███████████████████████████████████████████████████████████████████▏        | 16638/18831 [07:50<00:55, 39.76it/s]

 88%|███████████████████████████████████████████████████████████████████▏        | 16644/18831 [07:50<00:50, 43.28it/s]

 88%|███████████████████████████████████████████████████████████████████▏        | 16649/18831 [07:50<00:56, 38.44it/s]

 88%|███████████████████████████████████████████████████████████████████▏        | 16654/18831 [07:50<00:56, 38.36it/s]

 88%|███████████████████████████████████████████████████████████████████▏        | 16659/18831 [07:50<00:54, 40.15it/s]

 88%|███████████████████████████████████████████████████████████████████▎        | 16664/18831 [07:51<00:53, 40.69it/s]

 89%|███████████████████████████████████████████████████████████████████▎        | 16671/18831 [07:51<00:46, 46.44it/s]

 89%|███████████████████████████

 92%|█████████████████████████████████████████████████████████████████████▊      | 17308/18831 [08:08<00:40, 37.24it/s]

 92%|█████████████████████████████████████████████████████████████████████▊      | 17313/18831 [08:08<00:39, 38.12it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17319/18831 [08:08<00:38, 39.73it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17324/18831 [08:08<00:37, 39.91it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17329/18831 [08:08<00:38, 38.55it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17333/18831 [08:08<00:42, 35.64it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17337/18831 [08:09<00:51, 28.81it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17342/18831 [08:09<00:45, 32.49it/s]

 92%|███████████████████████████

 95%|████████████████████████████████████████████████████████████████████████▍   | 17963/18831 [08:26<00:20, 41.62it/s]

 95%|████████████████████████████████████████████████████████████████████████▌   | 17968/18831 [08:26<00:35, 24.61it/s]

 95%|████████████████████████████████████████████████████████████████████████▌   | 17973/18831 [08:26<00:31, 27.27it/s]

 95%|████████████████████████████████████████████████████████████████████████▌   | 17977/18831 [08:27<00:29, 29.23it/s]

 95%|████████████████████████████████████████████████████████████████████████▌   | 17982/18831 [08:27<00:26, 32.10it/s]

 96%|████████████████████████████████████████████████████████████████████████▌   | 17987/18831 [08:27<00:24, 35.06it/s]

 96%|████████████████████████████████████████████████████████████████████████▌   | 17993/18831 [08:27<00:22, 37.78it/s]

 96%|████████████████████████████████████████████████████████████████████████▋   | 17998/18831 [08:27<00:23, 35.94it/s]

 96%|███████████████████████████

 99%|███████████████████████████████████████████████████████████████████████████▏| 18641/18831 [08:44<00:07, 26.51it/s]

 99%|███████████████████████████████████████████████████████████████████████████▏| 18644/18831 [08:44<00:07, 25.44it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18649/18831 [08:44<00:06, 28.27it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18653/18831 [08:45<00:06, 28.66it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18658/18831 [08:45<00:05, 30.58it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18662/18831 [08:45<00:05, 30.99it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18667/18831 [08:45<00:04, 34.26it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18671/18831 [08:45<00:05, 29.60it/s]

 99%|███████████████████████████

  2%|█▋                                                                            | 405/18831 [00:11<09:17, 33.07it/s]

  2%|█▋                                                                            | 409/18831 [00:11<09:13, 33.31it/s]

  2%|█▋                                                                            | 413/18831 [00:11<09:30, 32.27it/s]

  2%|█▋                                                                            | 417/18831 [00:11<09:08, 33.56it/s]

  2%|█▋                                                                            | 421/18831 [00:12<09:04, 33.83it/s]

  2%|█▊                                                                            | 427/18831 [00:12<08:07, 37.75it/s]

  2%|█▊                                                                            | 431/18831 [00:12<08:36, 35.63it/s]

  2%|█▊                                                                            | 435/18831 [00:12<09:18, 32.92it/s]

  2%|█▊                         

ZeroDivisionError: float division by zero



  4%|██▋                                                                           | 663/18831 [00:29<09:43, 31.14it/s]

In [30]:
df['flesch'] = df['essay0'].progress_apply(get_flesch)




  0%|                                                                                        | 0/18831 [00:00<?, ?it/s]


  0%|                                                                                | 4/18831 [00:00<07:50, 40.00it/s]


  0%|                                                                                | 7/18831 [00:00<09:51, 31.84it/s]


  0%|                                                                               | 11/18831 [00:00<09:24, 33.32it/s]


  0%|                                                                               | 14/18831 [00:00<10:09, 30.86it/s]


  0%|                                                                               | 18/18831 [00:00<09:34, 32.72it/s]


  0%|                                                                               | 22/18831 [00:00<09:04, 34.52it/s]


  0%|                                                                               | 27/18831 [00:00<08:14, 38.06it/s]


  0%|▏               

  3%|██▌                                                                           | 610/18831 [00:17<09:51, 30.79it/s]


  3%|██▌                                                                           | 614/18831 [00:17<09:38, 31.51it/s]


  3%|██▌                                                                           | 618/18831 [00:18<09:20, 32.51it/s]


  3%|██▌                                                                           | 622/18831 [00:18<08:51, 34.26it/s]


  3%|██▌                                                                           | 626/18831 [00:18<10:50, 27.99it/s]


  3%|██▌                                                                           | 630/18831 [00:18<10:23, 29.21it/s]


  3%|██▋                                                                           | 634/18831 [00:18<10:16, 29.53it/s]


  3%|██▋                                                                           | 638/18831 [00:18<10:34, 28.67it/s]


  3%|██▋                

  7%|█████▏                                                                       | 1262/18831 [00:35<06:52, 42.56it/s]


  7%|█████▏                                                                       | 1267/18831 [00:35<06:34, 44.55it/s]


  7%|█████▏                                                                       | 1272/18831 [00:36<07:11, 40.67it/s]


  7%|█████▏                                                                       | 1277/18831 [00:36<07:56, 36.80it/s]


  7%|█████▏                                                                       | 1281/18831 [00:36<09:16, 31.55it/s]


  7%|█████▎                                                                       | 1285/18831 [00:36<10:49, 27.00it/s]


  7%|█████▎                                                                       | 1288/18831 [00:36<11:07, 26.30it/s]


  7%|█████▎                                                                       | 1294/18831 [00:36<09:15, 31.58it/s]


  7%|█████▎             

 10%|███████▊                                                                     | 1907/18831 [00:53<07:32, 37.41it/s]


 10%|███████▊                                                                     | 1911/18831 [00:54<08:14, 34.23it/s]


 10%|███████▊                                                                     | 1916/18831 [00:54<07:35, 37.14it/s]


 10%|███████▊                                                                     | 1923/18831 [00:54<06:32, 43.06it/s]


 10%|███████▉                                                                     | 1930/18831 [00:54<06:00, 46.83it/s]


 10%|███████▉                                                                     | 1936/18831 [00:54<06:43, 41.84it/s]


 10%|███████▉                                                                     | 1941/18831 [00:54<06:34, 42.86it/s]


 10%|███████▉                                                                     | 1946/18831 [00:54<06:24, 43.96it/s]


 10%|███████▉           

 14%|██████████▍                                                                  | 2561/18831 [01:12<07:47, 34.84it/s]


 14%|██████████▍                                                                  | 2565/18831 [01:12<07:28, 36.24it/s]


 14%|██████████▌                                                                  | 2570/18831 [01:12<06:53, 39.31it/s]


 14%|██████████▌                                                                  | 2578/18831 [01:12<05:50, 46.31it/s]


 14%|██████████▌                                                                  | 2584/18831 [01:12<06:10, 43.83it/s]


 14%|██████████▌                                                                  | 2589/18831 [01:13<06:27, 41.86it/s]


 14%|██████████▌                                                                  | 2594/18831 [01:13<06:51, 39.43it/s]


 14%|██████████▋                                                                  | 2599/18831 [01:13<07:32, 35.85it/s]


 14%|██████████▋        

 17%|█████████████                                                                | 3190/18831 [01:30<10:03, 25.91it/s]


 17%|█████████████                                                                | 3195/18831 [01:30<09:27, 27.54it/s]


 17%|█████████████                                                                | 3198/18831 [01:30<10:11, 25.56it/s]


 17%|█████████████                                                                | 3201/18831 [01:30<09:44, 26.75it/s]


 17%|█████████████                                                                | 3205/18831 [01:31<08:57, 29.05it/s]


 17%|█████████████                                                                | 3209/18831 [01:31<08:47, 29.61it/s]


 17%|█████████████▏                                                               | 3213/18831 [01:31<08:19, 31.29it/s]


 17%|█████████████▏                                                               | 3217/18831 [01:31<07:51, 33.14it/s]


 17%|█████████████▏     

 20%|███████████████▍                                                             | 3775/18831 [01:49<10:44, 23.37it/s]


 20%|███████████████▍                                                             | 3778/18831 [01:49<11:40, 21.48it/s]


 20%|███████████████▍                                                             | 3781/18831 [01:49<12:44, 19.69it/s]


 20%|███████████████▍                                                             | 3785/18831 [01:50<11:55, 21.03it/s]


 20%|███████████████▍                                                             | 3788/18831 [01:50<11:18, 22.18it/s]


 20%|███████████████▌                                                             | 3791/18831 [01:50<11:22, 22.05it/s]


 20%|███████████████▌                                                             | 3796/18831 [01:50<09:53, 25.32it/s]


 20%|███████████████▌                                                             | 3799/18831 [01:50<09:34, 26.15it/s]


 20%|███████████████▌   

 23%|█████████████████▉                                                           | 4381/18831 [02:08<07:18, 32.95it/s]


 23%|█████████████████▉                                                           | 4386/18831 [02:08<06:36, 36.47it/s]


 23%|█████████████████▉                                                           | 4390/18831 [02:08<06:35, 36.54it/s]


 23%|█████████████████▉                                                           | 4396/18831 [02:08<06:01, 39.90it/s]


 23%|█████████████████▉                                                           | 4401/18831 [02:08<05:50, 41.22it/s]


 23%|██████████████████                                                           | 4407/18831 [02:08<05:27, 44.09it/s]


 23%|██████████████████                                                           | 4412/18831 [02:08<06:03, 39.62it/s]


 23%|██████████████████                                                           | 4417/18831 [02:08<06:05, 39.45it/s]


 23%|██████████████████ 

 27%|████████████████████▌                                                        | 5034/18831 [02:26<05:35, 41.10it/s]


 27%|████████████████████▌                                                        | 5039/18831 [02:26<06:07, 37.54it/s]


 27%|████████████████████▌                                                        | 5044/18831 [02:26<06:04, 37.82it/s]


 27%|████████████████████▋                                                        | 5051/18831 [02:26<05:18, 43.22it/s]


 27%|████████████████████▋                                                        | 5056/18831 [02:26<05:26, 42.20it/s]


 27%|████████████████████▋                                                        | 5062/18831 [02:26<04:59, 45.90it/s]


 27%|████████████████████▋                                                        | 5067/18831 [02:27<05:02, 45.51it/s]


 27%|████████████████████▋                                                        | 5072/18831 [02:27<07:22, 31.08it/s]


 27%|███████████████████

 30%|███████████████████████▎                                                     | 5690/18831 [02:44<06:41, 32.72it/s]


 30%|███████████████████████▎                                                     | 5695/18831 [02:44<06:12, 35.27it/s]


 30%|███████████████████████▎                                                     | 5700/18831 [02:44<05:43, 38.24it/s]


 30%|███████████████████████▎                                                     | 5704/18831 [02:44<06:27, 33.92it/s]


 30%|███████████████████████▎                                                     | 5709/18831 [02:44<05:51, 37.37it/s]


 30%|███████████████████████▎                                                     | 5714/18831 [02:44<05:30, 39.67it/s]


 30%|███████████████████████▍                                                     | 5719/18831 [02:44<05:43, 38.22it/s]


 30%|███████████████████████▍                                                     | 5723/18831 [02:45<06:04, 35.92it/s]


 30%|███████████████████

 34%|█████████████████████████▉                                                   | 6351/18831 [03:02<04:55, 42.29it/s]


 34%|█████████████████████████▉                                                   | 6356/18831 [03:02<05:10, 40.17it/s]


 34%|██████████████████████████                                                   | 6361/18831 [03:02<05:16, 39.36it/s]


 34%|██████████████████████████                                                   | 6365/18831 [03:02<05:51, 35.45it/s]


 34%|██████████████████████████                                                   | 6369/18831 [03:02<06:12, 33.48it/s]


 34%|██████████████████████████                                                   | 6376/18831 [03:02<05:19, 38.96it/s]


 34%|██████████████████████████                                                   | 6381/18831 [03:02<05:20, 38.90it/s]


 34%|██████████████████████████                                                   | 6386/18831 [03:03<05:42, 36.32it/s]


 34%|███████████████████

 37%|████████████████████████████▋                                                | 7031/18831 [03:19<04:56, 39.79it/s]


 37%|████████████████████████████▊                                                | 7036/18831 [03:20<05:37, 35.00it/s]


 37%|████████████████████████████▊                                                | 7040/18831 [03:20<05:51, 33.53it/s]


 37%|████████████████████████████▊                                                | 7044/18831 [03:20<05:55, 33.13it/s]


 37%|████████████████████████████▊                                                | 7050/18831 [03:20<05:14, 37.49it/s]


 37%|████████████████████████████▊                                                | 7055/18831 [03:20<05:18, 37.02it/s]


 37%|████████████████████████████▊                                                | 7059/18831 [03:20<05:32, 35.45it/s]


 38%|████████████████████████████▉                                                | 7063/18831 [03:20<06:08, 31.95it/s]


 38%|███████████████████

 41%|███████████████████████████████▎                                             | 7644/18831 [03:38<06:11, 30.08it/s]


 41%|███████████████████████████████▎                                             | 7648/18831 [03:38<05:44, 32.50it/s]


 41%|███████████████████████████████▎                                             | 7652/18831 [03:38<06:44, 27.65it/s]


 41%|███████████████████████████████▎                                             | 7658/18831 [03:38<05:56, 31.38it/s]


 41%|███████████████████████████████▎                                             | 7662/18831 [03:38<05:40, 32.81it/s]


 41%|███████████████████████████████▎                                             | 7666/18831 [03:38<05:24, 34.41it/s]


 41%|███████████████████████████████▎                                             | 7670/18831 [03:38<05:42, 32.58it/s]


 41%|███████████████████████████████▍                                             | 7674/18831 [03:39<07:50, 23.71it/s]


 41%|███████████████████

 44%|█████████████████████████████████▊                                           | 8266/18831 [03:56<05:09, 34.09it/s]


 44%|█████████████████████████████████▊                                           | 8274/18831 [03:56<04:23, 40.13it/s]


 44%|█████████████████████████████████▊                                           | 8280/18831 [03:56<04:18, 40.82it/s]


 44%|█████████████████████████████████▉                                           | 8285/18831 [03:56<04:51, 36.17it/s]


 44%|█████████████████████████████████▉                                           | 8290/18831 [03:56<05:53, 29.79it/s]


 44%|█████████████████████████████████▉                                           | 8294/18831 [03:57<06:59, 25.09it/s]


 44%|█████████████████████████████████▉                                           | 8297/18831 [03:57<07:20, 23.93it/s]


 44%|█████████████████████████████████▉                                           | 8300/18831 [03:57<07:47, 22.54it/s]


 44%|███████████████████

 47%|████████████████████████████████████▌                                        | 8934/18831 [04:13<03:37, 45.51it/s]


 47%|████████████████████████████████████▌                                        | 8939/18831 [04:14<03:35, 45.87it/s]


 47%|████████████████████████████████████▌                                        | 8944/18831 [04:14<04:24, 37.43it/s]


 48%|████████████████████████████████████▌                                        | 8949/18831 [04:14<04:53, 33.69it/s]


 48%|████████████████████████████████████▌                                        | 8953/18831 [04:14<04:49, 34.09it/s]


 48%|████████████████████████████████████▋                                        | 8957/18831 [04:14<05:05, 32.30it/s]


 48%|████████████████████████████████████▋                                        | 8961/18831 [04:14<05:06, 32.21it/s]


 48%|████████████████████████████████████▋                                        | 8965/18831 [04:14<04:50, 33.95it/s]


 48%|███████████████████

 51%|███████████████████████████████████████▏                                     | 9589/18831 [04:31<04:11, 36.76it/s]


 51%|███████████████████████████████████████▏                                     | 9595/18831 [04:31<03:49, 40.17it/s]


 51%|███████████████████████████████████████▎                                     | 9600/18831 [04:31<03:47, 40.51it/s]


 51%|███████████████████████████████████████▎                                     | 9605/18831 [04:32<03:45, 40.95it/s]


 51%|███████████████████████████████████████▎                                     | 9611/18831 [04:32<03:33, 43.15it/s]


 51%|███████████████████████████████████████▎                                     | 9616/18831 [04:32<03:38, 42.15it/s]


 51%|███████████████████████████████████████▎                                     | 9621/18831 [04:32<04:16, 35.86it/s]


 51%|███████████████████████████████████████▎                                     | 9625/18831 [04:32<04:18, 35.62it/s]


 51%|███████████████████

 54%|█████████████████████████████████████████▍                                  | 10255/18831 [04:49<04:08, 34.47it/s]


 54%|█████████████████████████████████████████▍                                  | 10259/18831 [04:49<04:15, 33.60it/s]


 55%|█████████████████████████████████████████▍                                  | 10263/18831 [04:49<04:06, 34.75it/s]


 55%|█████████████████████████████████████████▍                                  | 10267/18831 [04:49<04:23, 32.47it/s]


 55%|█████████████████████████████████████████▍                                  | 10272/18831 [04:49<04:02, 35.36it/s]


 55%|█████████████████████████████████████████▍                                  | 10276/18831 [04:49<03:59, 35.66it/s]


 55%|█████████████████████████████████████████▍                                  | 10280/18831 [04:49<04:05, 34.83it/s]


 55%|█████████████████████████████████████████▌                                  | 10284/18831 [04:50<04:13, 33.76it/s]


 55%|███████████████████

 58%|███████████████████████████████████████████▉                                | 10890/18831 [05:06<04:34, 28.97it/s]


 58%|███████████████████████████████████████████▉                                | 10894/18831 [05:07<04:13, 31.36it/s]


 58%|███████████████████████████████████████████▉                                | 10900/18831 [05:07<03:50, 34.46it/s]


 58%|████████████████████████████████████████████                                | 10904/18831 [05:07<03:57, 33.34it/s]


 58%|████████████████████████████████████████████                                | 10909/18831 [05:07<03:45, 35.09it/s]


 58%|████████████████████████████████████████████                                | 10915/18831 [05:07<03:29, 37.81it/s]


 58%|████████████████████████████████████████████                                | 10919/18831 [05:07<03:36, 36.55it/s]


 58%|████████████████████████████████████████████                                | 10924/18831 [05:07<03:20, 39.47it/s]


 58%|███████████████████

 61%|██████████████████████████████████████████████▌                             | 11533/18831 [05:25<03:18, 36.78it/s]


 61%|██████████████████████████████████████████████▌                             | 11537/18831 [05:25<03:33, 34.21it/s]


 61%|██████████████████████████████████████████████▌                             | 11541/18831 [05:25<04:02, 30.04it/s]


 61%|██████████████████████████████████████████████▌                             | 11545/18831 [05:25<04:28, 27.17it/s]


 61%|██████████████████████████████████████████████▌                             | 11551/18831 [05:25<03:50, 31.59it/s]


 61%|██████████████████████████████████████████████▋                             | 11555/18831 [05:25<03:37, 33.46it/s]


 61%|██████████████████████████████████████████████▋                             | 11559/18831 [05:25<04:11, 28.86it/s]


 61%|██████████████████████████████████████████████▋                             | 11564/18831 [05:26<03:42, 32.73it/s]


 61%|███████████████████

 64%|████████████████████████████████████████████████▉                           | 12137/18831 [05:43<03:35, 31.08it/s]


 64%|████████████████████████████████████████████████▉                           | 12141/18831 [05:43<03:36, 30.92it/s]


 64%|█████████████████████████████████████████████████                           | 12145/18831 [05:43<03:39, 30.52it/s]


 65%|█████████████████████████████████████████████████                           | 12149/18831 [05:43<03:47, 29.38it/s]


 65%|█████████████████████████████████████████████████                           | 12153/18831 [05:43<03:29, 31.92it/s]


 65%|█████████████████████████████████████████████████                           | 12159/18831 [05:44<03:17, 33.87it/s]


 65%|█████████████████████████████████████████████████                           | 12165/18831 [05:44<02:59, 37.22it/s]


 65%|█████████████████████████████████████████████████                           | 12169/18831 [05:44<03:15, 34.12it/s]


 65%|███████████████████

 68%|███████████████████████████████████████████████████▌                        | 12772/18831 [06:01<02:48, 35.93it/s]


 68%|███████████████████████████████████████████████████▌                        | 12776/18831 [06:01<02:52, 35.20it/s]


 68%|███████████████████████████████████████████████████▌                        | 12781/18831 [06:01<02:37, 38.36it/s]


 68%|███████████████████████████████████████████████████▌                        | 12785/18831 [06:01<02:46, 36.40it/s]


 68%|███████████████████████████████████████████████████▌                        | 12789/18831 [06:02<03:13, 31.20it/s]


 68%|███████████████████████████████████████████████████▋                        | 12794/18831 [06:02<02:54, 34.65it/s]


 68%|███████████████████████████████████████████████████▋                        | 12798/18831 [06:02<02:55, 34.34it/s]


 68%|███████████████████████████████████████████████████▋                        | 12804/18831 [06:02<02:38, 38.12it/s]


 68%|███████████████████

 71%|██████████████████████████████████████████████████████                      | 13397/18831 [06:19<02:40, 33.89it/s]


 71%|██████████████████████████████████████████████████████                      | 13401/18831 [06:19<02:36, 34.59it/s]


 71%|██████████████████████████████████████████████████████                      | 13407/18831 [06:19<02:23, 37.83it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13412/18831 [06:20<02:22, 37.93it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13418/18831 [06:20<02:10, 41.40it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13423/18831 [06:20<02:16, 39.51it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13428/18831 [06:20<02:10, 41.33it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13433/18831 [06:20<02:21, 38.20it/s]


 71%|███████████████████

 74%|████████████████████████████████████████████████████████▏                   | 13936/18831 [06:38<02:41, 30.29it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13941/18831 [06:38<02:22, 34.28it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13945/18831 [06:38<02:19, 34.97it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13951/18831 [06:39<02:22, 34.17it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13955/18831 [06:39<02:46, 29.23it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13959/18831 [06:39<02:59, 27.19it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13962/18831 [06:39<03:21, 24.13it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13965/18831 [06:39<04:19, 18.72it/s]


 74%|███████████████████

 77%|██████████████████████████████████████████████████████████▍                 | 14488/18831 [06:57<01:59, 36.47it/s]


 77%|██████████████████████████████████████████████████████████▍                 | 14494/18831 [06:57<01:45, 41.24it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14499/18831 [06:57<01:59, 36.25it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14504/18831 [06:57<01:52, 38.59it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14509/18831 [06:57<01:56, 37.01it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14513/18831 [06:58<02:04, 34.80it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14518/18831 [06:58<01:54, 37.77it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14523/18831 [06:58<01:47, 40.17it/s]


 77%|███████████████████

 80%|█████████████████████████████████████████████████████████████▏              | 15153/18831 [07:14<01:39, 36.92it/s]


 81%|█████████████████████████████████████████████████████████████▏              | 15159/18831 [07:14<01:28, 41.30it/s]


 81%|█████████████████████████████████████████████████████████████▏              | 15164/18831 [07:15<01:24, 43.35it/s]


 81%|█████████████████████████████████████████████████████████████▏              | 15169/18831 [07:15<01:32, 39.77it/s]


 81%|█████████████████████████████████████████████████████████████▏              | 15174/18831 [07:15<01:33, 39.27it/s]


 81%|█████████████████████████████████████████████████████████████▎              | 15179/18831 [07:15<01:32, 39.68it/s]


 81%|█████████████████████████████████████████████████████████████▎              | 15184/18831 [07:15<01:31, 39.96it/s]


 81%|█████████████████████████████████████████████████████████████▎              | 15190/18831 [07:15<01:24, 42.89it/s]


 81%|███████████████████

 83%|███████████████████████████████████████████████████████████████▎            | 15680/18831 [07:34<02:49, 18.55it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15683/18831 [07:34<03:19, 15.76it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15685/18831 [07:34<03:18, 15.87it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15688/18831 [07:34<03:02, 17.18it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15693/18831 [07:35<02:37, 19.86it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15696/18831 [07:35<02:30, 20.82it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15699/18831 [07:35<02:29, 21.00it/s]


 83%|███████████████████████████████████████████████████████████████▍            | 15705/18831 [07:35<02:06, 24.73it/s]


 83%|███████████████████

 86%|█████████████████████████████████████████████████████████████████▌          | 16243/18831 [07:54<01:16, 33.82it/s]


 86%|█████████████████████████████████████████████████████████████████▌          | 16247/18831 [07:54<01:18, 32.93it/s]


 86%|█████████████████████████████████████████████████████████████████▌          | 16251/18831 [07:54<01:17, 33.30it/s]


 86%|█████████████████████████████████████████████████████████████████▌          | 16255/18831 [07:54<01:14, 34.42it/s]


 86%|█████████████████████████████████████████████████████████████████▌          | 16259/18831 [07:54<01:14, 34.44it/s]


 86%|█████████████████████████████████████████████████████████████████▋          | 16263/18831 [07:54<01:24, 30.24it/s]


 86%|█████████████████████████████████████████████████████████████████▋          | 16267/18831 [07:54<01:21, 31.32it/s]


 86%|█████████████████████████████████████████████████████████████████▋          | 16272/18831 [07:54<01:18, 32.78it/s]


 86%|███████████████████

 89%|███████████████████████████████████████████████████████████████████▉        | 16847/18831 [08:12<01:01, 32.51it/s]


 89%|████████████████████████████████████████████████████████████████████        | 16852/18831 [08:12<00:59, 33.01it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16856/18831 [08:12<00:58, 33.69it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16862/18831 [08:12<00:55, 35.43it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16866/18831 [08:13<00:53, 36.59it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16870/18831 [08:13<00:58, 33.75it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16874/18831 [08:13<01:02, 31.33it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16878/18831 [08:13<01:03, 30.52it/s]


 90%|███████████████████

 93%|██████████████████████████████████████████████████████████████████████▌     | 17492/18831 [08:30<00:37, 35.28it/s]


 93%|██████████████████████████████████████████████████████████████████████▌     | 17497/18831 [08:30<00:36, 36.89it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17501/18831 [08:30<00:35, 37.45it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17506/18831 [08:30<00:33, 39.93it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17511/18831 [08:30<00:31, 42.39it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17516/18831 [08:30<00:31, 41.74it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17523/18831 [08:31<00:28, 46.46it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17528/18831 [08:31<00:29, 44.08it/s]


 93%|███████████████████

 96%|█████████████████████████████████████████████████████████████████████████▏  | 18130/18831 [08:48<00:19, 35.65it/s]


 96%|█████████████████████████████████████████████████████████████████████████▏  | 18135/18831 [08:48<00:18, 38.11it/s]


 96%|█████████████████████████████████████████████████████████████████████████▏  | 18140/18831 [08:48<00:22, 31.21it/s]


 96%|█████████████████████████████████████████████████████████████████████████▏  | 18144/18831 [08:48<00:21, 32.51it/s]


 96%|█████████████████████████████████████████████████████████████████████████▏  | 18149/18831 [08:48<00:19, 35.17it/s]


 96%|█████████████████████████████████████████████████████████████████████████▎  | 18155/18831 [08:49<00:19, 34.90it/s]


 96%|█████████████████████████████████████████████████████████████████████████▎  | 18159/18831 [08:49<00:18, 36.00it/s]


 96%|█████████████████████████████████████████████████████████████████████████▎  | 18163/18831 [08:49<00:19, 34.34it/s]


 96%|███████████████████

100%|███████████████████████████████████████████████████████████████████████████▊| 18797/18831 [09:06<00:00, 39.87it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18802/18831 [09:06<00:00, 39.72it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18807/18831 [09:06<00:00, 39.24it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18811/18831 [09:06<00:00, 36.74it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18815/18831 [09:06<00:00, 35.46it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18821/18831 [09:06<00:00, 39.08it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18827/18831 [09:06<00:00, 42.17it/s]


100%|████████████████████████████████████████████████████████████████████████████| 18831/18831 [09:07<00:00, 34.42it/s]

In [38]:
df['long_words'].describe()

count    18831.000000
mean        11.322819
std         13.282247
min          0.000000
25%          3.000000
50%          8.000000
75%         15.000000
max        446.000000
Name: long_words, dtype: float64

In [39]:
df['flesch'].describe()

count    18831.000000
mean         7.282738
std          4.784808
min        -15.590000
25%          4.853526
50%          6.726154
75%          8.955000
max        268.000000
Name: flesch, dtype: float64

In [None]:
df['words_split'] = df['essay0'].progress_apply(split_incorrect)


  0%|                                                                                        | 0/18831 [00:00<?, ?it/s]
  0%|                                                                             | 1/18831 [00:03<17:25:48,  3.33s/it]
  0%|                                                                             | 2/18831 [00:27<50:31:25,  9.66s/it]
  0%|                                                                             | 3/18831 [00:28<37:10:54,  7.11s/it]
  0%|                                                                             | 4/18831 [00:59<73:21:26, 14.03s/it]
  0%|                                                                            | 5/18831 [02:24<185:38:39, 35.50s/it]
  0%|                                                                            | 6/18831 [02:53<175:52:09, 33.63s/it]
  0%|                                                                            | 7/18831 [03:17<159:18:09, 30.47s/it]
  0%|                                  

  1%|▌                                                                          | 136/18831 [44:21<27:01:21,  5.20s/it]
  1%|▌                                                                          | 137/18831 [44:22<20:36:18,  3.97s/it]
  1%|▌                                                                          | 138/18831 [44:23<15:04:39,  2.90s/it]
  1%|▌                                                                          | 139/18831 [44:26<15:38:12,  3.01s/it]
  1%|▌                                                                          | 140/18831 [44:26<11:28:07,  2.21s/it]
  1%|▌                                                                          | 141/18831 [44:43<34:49:14,  6.71s/it]
  1%|▌                                                                          | 142/18831 [44:59<48:19:07,  9.31s/it]
  1%|▌                                                                         | 143/18831 [46:01<131:14:46, 25.28s/it]
  1%|▌                                  

  1%|█                                                                        | 272/18831 [1:07:19<11:50:46,  2.30s/it]
  1%|█                                                                         | 273/18831 [1:07:20<9:20:37,  1.81s/it]
  1%|█                                                                         | 274/18831 [1:07:21<7:49:19,  1.52s/it]
  1%|█                                                                        | 275/18831 [1:07:31<21:19:15,  4.14s/it]
  1%|█                                                                        | 276/18831 [1:07:54<49:54:01,  9.68s/it]
  1%|█                                                                        | 277/18831 [1:08:08<56:17:51, 10.92s/it]
  1%|█                                                                        | 278/18831 [1:08:27<69:39:02, 13.51s/it]
  1%|█                                                                        | 279/18831 [1:08:39<66:59:59, 13.00s/it]
  1%|█                                  

  2%|█▌                                                                       | 408/18831 [1:31:35<46:14:34,  9.04s/it]
  2%|█▌                                                                       | 409/18831 [1:31:36<34:09:32,  6.68s/it]
  2%|█▌                                                                       | 410/18831 [1:31:49<43:13:14,  8.45s/it]
  2%|█▌                                                                       | 411/18831 [1:32:07<59:09:39, 11.56s/it]
  2%|█▌                                                                       | 412/18831 [1:32:19<59:08:48, 11.56s/it]
  2%|█▌                                                                       | 413/18831 [1:32:20<42:35:52,  8.33s/it]
  2%|█▌                                                                       | 414/18831 [1:32:42<63:24:06, 12.39s/it]
  2%|█▌                                                                       | 415/18831 [1:32:56<65:46:35, 12.86s/it]
  2%|█▌                                 

  3%|██                                                                       | 544/18831 [1:48:59<39:00:35,  7.68s/it]
  3%|██                                                                      | 545/18831 [1:50:14<141:29:55, 27.86s/it]
  3%|██                                                                      | 546/18831 [1:50:43<142:48:21, 28.12s/it]
  3%|██                                                                      | 547/18831 [1:50:52<112:55:25, 22.23s/it]
  3%|██                                                                      | 548/18831 [1:51:14<113:39:48, 22.38s/it]
  3%|██                                                                      | 549/18831 [1:51:32<107:10:47, 21.11s/it]
  3%|██▏                                                                      | 550/18831 [1:51:34<77:42:13, 15.30s/it]
  3%|██▏                                                                      | 551/18831 [1:51:48<75:09:40, 14.80s/it]
  3%|██▏                                

  4%|██▋                                                                      | 680/18831 [2:16:04<21:27:08,  4.25s/it]
  4%|██▋                                                                      | 681/18831 [2:16:05<16:25:20,  3.26s/it]
  4%|██▋                                                                      | 682/18831 [2:16:07<13:42:54,  2.72s/it]
  4%|██▋                                                                      | 683/18831 [2:16:17<24:59:48,  4.96s/it]
  4%|██▋                                                                      | 684/18831 [2:16:38<49:02:09,  9.73s/it]
  4%|██▋                                                                      | 685/18831 [2:16:45<45:42:33,  9.07s/it]
  4%|██▋                                                                      | 686/18831 [2:16:46<32:59:15,  6.54s/it]
  4%|██▋                                                                      | 687/18831 [2:17:02<46:51:53,  9.30s/it]
  4%|██▋                                

  4%|███▏                                                                     | 816/18831 [2:43:32<47:03:34,  9.40s/it]
  4%|███▏                                                                     | 817/18831 [2:43:46<53:34:05, 10.71s/it]
  4%|███▏                                                                     | 818/18831 [2:43:56<51:48:15, 10.35s/it]
  4%|███▏                                                                     | 819/18831 [2:43:56<36:36:29,  7.32s/it]
  4%|███▏                                                                     | 820/18831 [2:43:56<26:33:29,  5.31s/it]
  4%|███▏                                                                     | 821/18831 [2:44:05<31:29:22,  6.29s/it]
  4%|███▏                                                                     | 822/18831 [2:44:05<22:48:40,  4.56s/it]
  4%|███▏                                                                     | 823/18831 [2:44:07<17:33:42,  3.51s/it]
  4%|███▏                               

  5%|███▋                                                                     | 952/18831 [3:02:11<38:44:40,  7.80s/it]
  5%|███▋                                                                     | 953/18831 [3:02:19<39:28:00,  7.95s/it]
  5%|███▋                                                                     | 954/18831 [3:02:20<28:48:15,  5.80s/it]
  5%|███▋                                                                     | 955/18831 [3:02:20<20:33:20,  4.14s/it]
  5%|███▋                                                                     | 956/18831 [3:03:14<94:37:32, 19.06s/it]
  5%|███▋                                                                     | 957/18831 [3:03:25<82:50:17, 16.68s/it]
  5%|███▋                                                                     | 958/18831 [3:03:36<74:08:36, 14.93s/it]
  5%|███▋                                                                     | 959/18831 [3:03:46<66:01:28, 13.30s/it]
  5%|███▋                               

  6%|████▏                                                                   | 1088/18831 [3:22:06<38:59:57,  7.91s/it]
  6%|████▏                                                                   | 1089/18831 [3:22:07<28:37:50,  5.81s/it]
  6%|████▏                                                                   | 1090/18831 [3:22:23<42:48:52,  8.69s/it]
  6%|████▏                                                                   | 1091/18831 [3:22:23<30:23:11,  6.17s/it]
  6%|████▏                                                                   | 1092/18831 [3:22:36<40:51:24,  8.29s/it]
  6%|████▏                                                                   | 1093/18831 [3:23:00<63:08:39, 12.82s/it]
  6%|████                                                                   | 1094/18831 [3:25:37<277:25:51, 56.31s/it]
  6%|████▏                                                                  | 1095/18831 [3:25:38<195:09:55, 39.61s/it]
  6%|████▏                              

  6%|████▋                                                                   | 1224/18831 [3:45:13<66:38:03, 13.62s/it]
  7%|████▋                                                                   | 1225/18831 [3:45:32<74:42:51, 15.28s/it]
  7%|████▋                                                                   | 1226/18831 [3:45:33<53:16:39, 10.89s/it]
  7%|████▋                                                                   | 1227/18831 [3:45:56<72:01:09, 14.73s/it]
  7%|████▋                                                                   | 1228/18831 [3:45:57<51:50:44, 10.60s/it]
  7%|████▋                                                                   | 1229/18831 [3:46:11<55:59:05, 11.45s/it]
  7%|████▋                                                                   | 1230/18831 [3:46:11<39:57:56,  8.17s/it]
  7%|████▋                                                                   | 1231/18831 [3:46:12<28:32:35,  5.84s/it]
  7%|████▋                              

  7%|█████▏                                                                  | 1360/18831 [4:07:50<56:11:48, 11.58s/it]
  7%|█████▏                                                                  | 1361/18831 [4:07:50<39:58:06,  8.24s/it]
  7%|█████▏                                                                  | 1362/18831 [4:07:52<31:19:43,  6.46s/it]
  7%|█████▏                                                                  | 1363/18831 [4:08:20<62:33:04, 12.89s/it]
  7%|█████▏                                                                  | 1364/18831 [4:08:21<44:47:28,  9.23s/it]
  7%|█████▏                                                                  | 1365/18831 [4:08:35<51:42:32, 10.66s/it]
  7%|█████▏                                                                  | 1366/18831 [4:08:35<36:35:40,  7.54s/it]
  7%|█████▏                                                                  | 1367/18831 [4:08:42<35:52:08,  7.39s/it]
  7%|█████▏                             

  8%|█████▋                                                                  | 1496/18831 [4:34:06<79:14:43, 16.46s/it]
  8%|█████▋                                                                  | 1497/18831 [4:34:06<55:52:31, 11.60s/it]
  8%|█████▋                                                                  | 1498/18831 [4:34:15<51:37:32, 10.72s/it]
  8%|█████▋                                                                  | 1499/18831 [4:34:15<36:31:10,  7.59s/it]
  8%|█████▋                                                                  | 1500/18831 [4:34:22<35:26:51,  7.36s/it]
  8%|█████▋                                                                  | 1501/18831 [4:34:22<25:25:14,  5.28s/it]
  8%|█████▋                                                                  | 1502/18831 [4:34:39<42:48:05,  8.89s/it]
  8%|█████▋                                                                  | 1503/18831 [4:35:07<69:23:35, 14.42s/it]
  8%|█████▊                             

  9%|██████▏                                                                | 1632/18831 [5:01:41<127:24:46, 26.67s/it]
  9%|██████▏                                                                | 1633/18831 [5:02:13<135:34:09, 28.38s/it]
  9%|██████▏                                                                 | 1634/18831 [5:02:14<96:09:56, 20.13s/it]
  9%|██████▏                                                                | 1635/18831 [5:02:53<123:14:47, 25.80s/it]
  9%|██████▎                                                                 | 1636/18831 [5:02:54<86:51:54, 18.19s/it]
  9%|██████▏                                                                | 1637/18831 [5:03:26<106:55:44, 22.39s/it]
  9%|██████▏                                                                | 1638/18831 [5:03:48<106:33:49, 22.31s/it]
  9%|██████▎                                                                 | 1639/18831 [5:03:59<90:43:34, 19.00s/it]
  9%|██████▎                            

  9%|██████▊                                                                 | 1768/18831 [5:26:20<54:27:30, 11.49s/it]
  9%|██████▊                                                                 | 1769/18831 [5:26:21<38:52:11,  8.20s/it]
  9%|██████▊                                                                 | 1770/18831 [5:26:45<61:32:21, 12.99s/it]
  9%|██████▊                                                                 | 1771/18831 [5:26:46<44:20:55,  9.36s/it]
  9%|██████▊                                                                 | 1772/18831 [5:26:46<31:25:33,  6.63s/it]
  9%|██████▊                                                                 | 1773/18831 [5:26:52<29:57:38,  6.32s/it]
  9%|██████▊                                                                 | 1774/18831 [5:26:53<22:05:06,  4.66s/it]
  9%|██████▋                                                                | 1775/18831 [5:29:12<213:06:36, 44.98s/it]
  9%|██████▋                            

 10%|███████▎                                                                | 1904/18831 [5:48:52<48:36:50, 10.34s/it]
 10%|███████▎                                                                | 1905/18831 [5:48:53<34:55:37,  7.43s/it]
 10%|███████▎                                                                | 1906/18831 [5:49:00<34:10:16,  7.27s/it]
 10%|███████▎                                                                | 1907/18831 [5:49:20<52:49:12, 11.24s/it]
 10%|███████▎                                                                | 1908/18831 [5:49:26<45:25:24,  9.66s/it]
 10%|███████▎                                                                | 1909/18831 [5:49:36<44:54:10,  9.55s/it]
 10%|███████▎                                                                | 1910/18831 [5:49:40<37:23:04,  7.95s/it]
 10%|███████▎                                                                | 1911/18831 [5:50:00<55:14:56, 11.76s/it]
 10%|███████▎                           

 11%|███████▊                                                                | 2040/18831 [6:13:26<50:17:31, 10.78s/it]
 11%|███████▊                                                                | 2041/18831 [6:13:26<35:25:05,  7.59s/it]
 11%|███████▊                                                                | 2042/18831 [6:13:27<27:03:41,  5.80s/it]
 11%|███████▊                                                                | 2043/18831 [6:13:41<37:56:07,  8.13s/it]
 11%|███████▊                                                                | 2044/18831 [6:13:44<30:28:33,  6.54s/it]
 11%|███████▊                                                                | 2045/18831 [6:13:44<21:41:11,  4.65s/it]
 11%|███████▊                                                                | 2046/18831 [6:13:44<15:22:34,  3.30s/it]
 11%|███████▊                                                                | 2047/18831 [6:13:48<15:46:46,  3.38s/it]
 11%|███████▊                           

 12%|████████▎                                                               | 2176/18831 [6:34:37<21:14:59,  4.59s/it]
 12%|████████▎                                                               | 2177/18831 [6:35:10<60:28:55, 13.07s/it]
 12%|████████▎                                                               | 2178/18831 [6:35:19<54:47:55, 11.85s/it]
 12%|████████▎                                                               | 2179/18831 [6:35:20<39:11:39,  8.47s/it]
 12%|████████▎                                                               | 2180/18831 [6:36:02<86:23:31, 18.68s/it]
 12%|████████▎                                                               | 2181/18831 [6:36:03<62:20:22, 13.48s/it]
 12%|████████▎                                                               | 2182/18831 [6:36:15<59:21:29, 12.83s/it]
 12%|████████▎                                                               | 2183/18831 [6:36:26<57:32:50, 12.44s/it]
 12%|████████▎                          

 12%|████████▋                                                              | 2312/18831 [7:03:00<346:52:34, 75.60s/it]
 12%|████████▋                                                              | 2313/18831 [7:03:15<263:55:13, 57.52s/it]
 12%|████████▋                                                              | 2314/18831 [7:03:43<223:26:37, 48.70s/it]
 12%|████████▋                                                              | 2315/18831 [7:03:58<177:32:14, 38.70s/it]
 12%|████████▋                                                              | 2316/18831 [7:04:00<126:03:10, 27.48s/it]
 12%|████████▊                                                               | 2317/18831 [7:04:02<91:15:10, 19.89s/it]
 12%|████████▊                                                               | 2318/18831 [7:04:10<74:52:24, 16.32s/it]
 12%|████████▊                                                               | 2319/18831 [7:04:22<68:37:20, 14.96s/it]
 12%|████████▊                          

 13%|█████████▎                                                              | 2448/18831 [7:30:59<40:02:16,  8.80s/it]
 13%|█████████▎                                                              | 2449/18831 [7:31:27<67:10:19, 14.76s/it]
 13%|█████████▎                                                              | 2450/18831 [7:31:57<87:02:58, 19.13s/it]
 13%|█████████▎                                                              | 2451/18831 [7:31:58<62:21:04, 13.70s/it]
 13%|█████████▍                                                              | 2452/18831 [7:31:58<44:09:47,  9.71s/it]
 13%|█████████▏                                                             | 2453/18831 [7:33:10<129:08:07, 28.38s/it]
 13%|█████████▍                                                              | 2454/18831 [7:33:10<90:46:44, 19.96s/it]
 13%|█████████▍                                                              | 2455/18831 [7:33:27<85:46:28, 18.86s/it]
 13%|█████████▍                         

 14%|█████████▉                                                              | 2584/18831 [7:58:05<51:05:34, 11.32s/it]
 14%|█████████▉                                                              | 2585/18831 [7:58:06<36:07:20,  8.00s/it]
 14%|█████████▉                                                              | 2586/18831 [7:58:08<27:43:30,  6.14s/it]
 14%|█████████▉                                                              | 2587/18831 [7:58:08<20:07:10,  4.46s/it]
 14%|█████████▉                                                              | 2588/18831 [7:58:09<14:41:43,  3.26s/it]
 14%|█████████▉                                                              | 2589/18831 [7:58:24<31:01:16,  6.88s/it]
 14%|█████████▉                                                              | 2590/18831 [7:58:25<23:37:39,  5.24s/it]
 14%|█████████▉                                                              | 2591/18831 [7:58:49<48:28:09, 10.74s/it]
 14%|█████████▉                         

 14%|██████████▎                                                            | 2720/18831 [8:29:52<118:41:03, 26.52s/it]
 14%|██████████▍                                                             | 2721/18831 [8:29:53<84:27:04, 18.87s/it]
 14%|██████████▍                                                             | 2722/18831 [8:29:59<67:59:55, 15.20s/it]
 14%|██████████▍                                                             | 2723/18831 [8:30:00<48:20:29, 10.80s/it]
 14%|██████████▍                                                             | 2724/18831 [8:30:02<36:44:21,  8.21s/it]
 14%|██████████▍                                                             | 2725/18831 [8:30:05<30:09:29,  6.74s/it]
 14%|██████████▍                                                             | 2726/18831 [8:30:26<48:53:00, 10.93s/it]
 14%|██████████▍                                                             | 2727/18831 [8:30:37<48:42:46, 10.89s/it]
 14%|██████████▍                        

 15%|██████████▊                                                            | 2856/18831 [8:59:11<131:17:43, 29.59s/it]
 15%|██████████▉                                                             | 2857/18831 [8:59:11<92:45:00, 20.90s/it]
 15%|██████████▉                                                             | 2858/18831 [8:59:30<90:12:39, 20.33s/it]
 15%|██████████▉                                                             | 2859/18831 [8:59:49<88:38:05, 19.98s/it]
 15%|██████████▉                                                             | 2860/18831 [9:00:02<78:38:14, 17.73s/it]
 15%|██████████▉                                                             | 2861/18831 [9:00:06<60:39:52, 13.68s/it]
 15%|██████████▉                                                             | 2862/18831 [9:00:07<43:17:10,  9.76s/it]
 15%|██████████▉                                                             | 2863/18831 [9:00:19<47:08:52, 10.63s/it]
 15%|██████████▉                        

 16%|███████████▍                                                            | 2992/18831 [9:24:12<97:29:29, 22.16s/it]
 16%|███████████▍                                                            | 2993/18831 [9:24:31<92:41:11, 21.07s/it]
 16%|███████████▍                                                            | 2994/18831 [9:24:31<65:52:08, 14.97s/it]
 16%|███████████▍                                                            | 2995/18831 [9:24:43<61:41:24, 14.02s/it]
 16%|███████████▍                                                            | 2996/18831 [9:24:53<55:48:50, 12.69s/it]
 16%|███████████▍                                                            | 2997/18831 [9:25:26<83:06:54, 18.90s/it]
 16%|███████████▍                                                            | 2998/18831 [9:25:26<58:22:25, 13.27s/it]
 16%|███████████▍                                                            | 2999/18831 [9:25:46<66:45:44, 15.18s/it]
 16%|███████████▍                       

 17%|███████████▉                                                            | 3128/18831 [9:44:41<35:24:27,  8.12s/it]
 17%|███████████▉                                                            | 3129/18831 [9:44:57<44:35:57, 10.23s/it]
 17%|███████████▉                                                            | 3130/18831 [9:44:57<31:43:43,  7.27s/it]
 17%|███████████▉                                                            | 3131/18831 [9:45:22<54:50:06, 12.57s/it]
 17%|███████████▉                                                            | 3132/18831 [9:45:22<38:47:13,  8.89s/it]
 17%|███████████▉                                                            | 3133/18831 [9:45:28<34:14:43,  7.85s/it]
 17%|███████████▉                                                            | 3134/18831 [9:45:45<46:58:03, 10.77s/it]
 17%|███████████▉                                                            | 3135/18831 [9:45:46<33:27:43,  7.67s/it]
 17%|███████████▉                       

 17%|████████████▎                                                          | 3264/18831 [10:13:58<53:06:14, 12.28s/it]
 17%|████████████▎                                                          | 3265/18831 [10:14:04<44:00:27, 10.18s/it]
 17%|████████████▎                                                          | 3266/18831 [10:14:11<39:54:06,  9.23s/it]
 17%|████████████▎                                                          | 3267/18831 [10:14:32<54:59:09, 12.72s/it]
 17%|████████████▎                                                          | 3268/18831 [10:14:48<59:57:05, 13.87s/it]
 17%|████████████▎                                                          | 3269/18831 [10:15:16<78:39:32, 18.20s/it]
 17%|████████████▎                                                          | 3270/18831 [10:15:30<72:25:29, 16.76s/it]
 17%|████████████▎                                                          | 3271/18831 [10:15:30<51:05:43, 11.82s/it]
 17%|████████████▎                      

 18%|████████████▊                                                          | 3400/18831 [10:48:48<27:58:48,  6.53s/it]
 18%|████████████▊                                                          | 3401/18831 [10:48:49<20:26:00,  4.77s/it]
 18%|████████████▊                                                          | 3402/18831 [10:48:49<14:58:13,  3.49s/it]
 18%|████████████▊                                                          | 3403/18831 [10:48:53<15:57:45,  3.72s/it]
 18%|████████████▊                                                          | 3404/18831 [10:48:58<16:45:59,  3.91s/it]
 18%|████████████▊                                                          | 3405/18831 [10:49:18<37:34:00,  8.77s/it]
 18%|████████████▊                                                          | 3406/18831 [10:49:18<26:36:42,  6.21s/it]
 18%|████████████▊                                                          | 3407/18831 [10:49:19<19:28:14,  4.54s/it]
 18%|████████████▊                      

 19%|█████████████▎                                                         | 3536/18831 [11:16:14<17:04:49,  4.02s/it]
 19%|█████████████▎                                                         | 3537/18831 [11:16:14<12:27:59,  2.93s/it]
 19%|█████████████▎                                                         | 3538/18831 [11:16:20<16:06:51,  3.79s/it]
 19%|█████████████▎                                                         | 3539/18831 [11:16:21<13:26:44,  3.17s/it]
 19%|█████████████▎                                                         | 3540/18831 [11:16:30<20:26:17,  4.81s/it]
 19%|█████████████▎                                                         | 3541/18831 [11:16:40<26:41:36,  6.28s/it]
 19%|█████████████▎                                                         | 3542/18831 [11:16:48<29:03:46,  6.84s/it]
 19%|█████████████▎                                                         | 3543/18831 [11:17:01<37:09:07,  8.75s/it]
 19%|█████████████▎                     

 19%|█████████████▊                                                         | 3672/18831 [11:40:13<20:26:16,  4.85s/it]
 20%|█████████████▊                                                         | 3673/18831 [11:40:18<20:28:05,  4.86s/it]
 20%|█████████████▊                                                         | 3674/18831 [11:41:24<98:50:24, 23.48s/it]
 20%|█████████████▊                                                         | 3675/18831 [11:41:25<70:17:05, 16.69s/it]
 20%|█████████████▊                                                         | 3676/18831 [11:41:35<61:21:54, 14.58s/it]
 20%|█████████████▊                                                         | 3677/18831 [11:41:50<62:19:36, 14.81s/it]
 20%|█████████████▋                                                        | 3678/18831 [11:42:49<117:13:09, 27.85s/it]
 20%|█████████████▊                                                         | 3679/18831 [11:42:57<92:21:08, 21.94s/it]
 20%|█████████████▋                     

 20%|██████████████▎                                                        | 3808/18831 [12:08:55<41:58:28, 10.06s/it]
 20%|██████████████▎                                                        | 3809/18831 [12:09:36<80:23:33, 19.27s/it]
 20%|██████████████▎                                                        | 3810/18831 [12:09:37<57:34:53, 13.80s/it]
 20%|██████████████▎                                                        | 3811/18831 [12:09:40<44:36:53, 10.69s/it]
 20%|██████████████▎                                                        | 3812/18831 [12:10:04<60:29:45, 14.50s/it]
 20%|██████████████▍                                                        | 3813/18831 [12:10:04<42:53:42, 10.28s/it]
 20%|██████████████▍                                                        | 3814/18831 [12:10:04<30:22:58,  7.28s/it]
 20%|██████████████▍                                                        | 3815/18831 [12:10:14<33:44:41,  8.09s/it]
 20%|██████████████▍                    

 21%|██████████████▊                                                        | 3944/18831 [12:29:58<44:44:50, 10.82s/it]
 21%|██████████████▊                                                        | 3945/18831 [12:30:25<65:41:24, 15.89s/it]
 21%|██████████████▉                                                        | 3946/18831 [12:30:34<56:26:54, 13.65s/it]
 21%|██████████████▉                                                        | 3947/18831 [12:30:40<46:52:49, 11.34s/it]
 21%|██████████████▉                                                        | 3948/18831 [12:30:55<51:41:44, 12.50s/it]
 21%|██████████████▉                                                        | 3949/18831 [12:30:55<36:20:10,  8.79s/it]
 21%|██████████████▉                                                        | 3950/18831 [12:30:57<27:31:33,  6.66s/it]
 21%|██████████████▉                                                        | 3951/18831 [12:31:00<22:52:14,  5.53s/it]
 21%|██████████████▉                    

 22%|███████████████▍                                                       | 4080/18831 [12:51:37<13:13:17,  3.23s/it]
 22%|███████████████▍                                                       | 4081/18831 [12:52:05<42:29:08, 10.37s/it]
 22%|███████████████▏                                                      | 4082/18831 [12:53:02<100:19:01, 24.49s/it]
 22%|███████████████▍                                                       | 4083/18831 [12:53:13<84:20:39, 20.59s/it]
 22%|███████████████▍                                                       | 4084/18831 [12:53:27<75:10:44, 18.35s/it]
 22%|███████████████▍                                                       | 4085/18831 [12:53:41<69:48:55, 17.04s/it]
 22%|███████████████▍                                                       | 4086/18831 [12:53:41<49:11:12, 12.01s/it]
 22%|███████████████▍                                                       | 4087/18831 [12:53:54<50:27:54, 12.32s/it]
 22%|███████████████▍                   

 22%|███████████████▉                                                       | 4216/18831 [13:18:17<39:29:40,  9.73s/it]
 22%|███████████████▉                                                       | 4217/18831 [13:18:18<29:31:16,  7.27s/it]
 22%|███████████████▉                                                       | 4218/18831 [13:18:19<21:07:55,  5.21s/it]
 22%|███████████████▉                                                       | 4219/18831 [13:18:19<15:15:05,  3.76s/it]
 22%|███████████████▉                                                       | 4220/18831 [13:18:21<12:31:10,  3.08s/it]
 22%|████████████████▏                                                       | 4221/18831 [13:18:21<9:33:58,  2.36s/it]
 22%|███████████████▉                                                       | 4222/18831 [13:18:34<22:04:02,  5.44s/it]
 22%|███████████████▉                                                       | 4223/18831 [13:18:34<15:45:01,  3.88s/it]
 22%|███████████████▉                   

 23%|████████████████▍                                                      | 4352/18831 [13:41:37<86:50:32, 21.59s/it]
 23%|████████████████▍                                                      | 4353/18831 [13:41:47<73:19:19, 18.23s/it]
 23%|████████████████▏                                                     | 4354/18831 [13:42:28<100:44:30, 25.05s/it]
 23%|████████████████▍                                                      | 4355/18831 [13:42:39<83:30:13, 20.77s/it]
 23%|████████████████▍                                                      | 4356/18831 [13:42:56<79:17:37, 19.72s/it]
 23%|████████████████▍                                                      | 4357/18831 [13:43:11<73:46:12, 18.35s/it]
 23%|████████████████▍                                                      | 4358/18831 [13:43:13<53:27:08, 13.30s/it]
 23%|████████████████▍                                                      | 4359/18831 [13:43:37<66:19:30, 16.50s/it]
 23%|████████████████▍                  

 24%|████████████████▉                                                      | 4488/18831 [13:59:29<44:34:51, 11.19s/it]
 24%|████████████████▉                                                      | 4489/18831 [13:59:29<31:23:15,  7.88s/it]
 24%|████████████████▉                                                      | 4490/18831 [13:59:49<45:49:16, 11.50s/it]
 24%|████████████████▉                                                      | 4491/18831 [14:00:21<70:10:31, 17.62s/it]
 24%|████████████████▉                                                      | 4492/18831 [14:00:22<50:10:34, 12.60s/it]
 24%|████████████████▉                                                      | 4493/18831 [14:00:36<52:33:14, 13.20s/it]
 24%|████████████████▉                                                      | 4494/18831 [14:00:51<53:59:29, 13.56s/it]
 24%|████████████████▉                                                      | 4495/18831 [14:00:51<38:33:03,  9.68s/it]
 24%|████████████████▉                  

 25%|█████████████████▍                                                     | 4624/18831 [14:22:50<19:55:57,  5.05s/it]
 25%|█████████████████▍                                                     | 4625/18831 [14:22:56<20:45:02,  5.26s/it]
 25%|█████████████████▍                                                     | 4626/18831 [14:22:56<14:40:20,  3.72s/it]
 25%|█████████████████▍                                                     | 4627/18831 [14:22:57<11:26:53,  2.90s/it]
 25%|█████████████████▍                                                     | 4628/18831 [14:23:00<11:23:55,  2.89s/it]
 25%|█████████████████▍                                                     | 4629/18831 [14:23:02<10:31:53,  2.67s/it]
 25%|█████████████████▍                                                     | 4630/18831 [14:23:17<25:37:20,  6.50s/it]
 25%|█████████████████▍                                                     | 4631/18831 [14:23:31<33:57:24,  8.61s/it]
 25%|█████████████████▍                 

 25%|█████████████████▋                                                    | 4760/18831 [14:53:45<116:11:25, 29.73s/it]
 25%|█████████████████▉                                                     | 4761/18831 [14:53:45<81:57:04, 20.97s/it]
 25%|█████████████████▉                                                     | 4762/18831 [14:54:05<80:00:27, 20.47s/it]
 25%|█████████████████▉                                                     | 4763/18831 [14:54:34<90:37:19, 23.19s/it]
 25%|█████████████████▉                                                     | 4764/18831 [14:54:44<74:32:41, 19.08s/it]
 25%|█████████████████▉                                                     | 4765/18831 [14:55:09<81:38:37, 20.90s/it]
 25%|█████████████████▉                                                     | 4766/18831 [14:55:10<58:40:33, 15.02s/it]
 25%|█████████████████▉                                                     | 4767/18831 [14:55:44<80:58:01, 20.73s/it]
 25%|█████████████████▉                 

 26%|██████████████████▍                                                    | 4896/18831 [15:26:59<79:12:16, 20.46s/it]
 26%|██████████████████▍                                                    | 4897/18831 [15:27:01<57:14:02, 14.79s/it]
 26%|██████████████████▍                                                    | 4898/18831 [15:27:31<74:58:00, 19.37s/it]
 26%|██████████████████▏                                                   | 4899/18831 [15:28:23<112:24:26, 29.05s/it]
 26%|██████████████████▍                                                    | 4900/18831 [15:28:24<80:00:43, 20.68s/it]
 26%|██████████████████▍                                                    | 4901/18831 [15:28:54<90:36:26, 23.42s/it]
 26%|██████████████████▍                                                    | 4902/18831 [15:29:08<80:48:43, 20.89s/it]
 26%|██████████████████▏                                                   | 4903/18831 [15:30:06<123:25:29, 31.90s/it]
 26%|██████████████████▏                

 27%|██████████████████▋                                                   | 5032/18831 [16:13:22<100:31:35, 26.23s/it]
 27%|██████████████████▉                                                    | 5033/18831 [16:13:22<71:05:59, 18.55s/it]
 27%|██████████████████▉                                                    | 5034/18831 [16:13:27<55:11:46, 14.40s/it]
 27%|██████████████████▋                                                   | 5035/18831 [16:16:33<252:15:14, 65.82s/it]
 27%|██████████████████▋                                                   | 5036/18831 [16:17:28<239:47:20, 62.58s/it]
 27%|██████████████████▋                                                   | 5037/18831 [16:17:30<169:39:44, 44.28s/it]
 27%|██████████████████▋                                                   | 5038/18831 [16:17:32<121:34:06, 31.73s/it]
 27%|██████████████████▉                                                    | 5039/18831 [16:17:34<86:51:28, 22.67s/it]
 27%|██████████████████▋                

 27%|███████████████████▍                                                   | 5168/18831 [17:10:53<78:53:46, 20.79s/it]
 27%|███████████████████▍                                                   | 5169/18831 [17:11:04<67:33:26, 17.80s/it]
 27%|███████████████████▍                                                   | 5170/18831 [17:11:04<48:05:26, 12.67s/it]
 27%|███████████████████▍                                                   | 5171/18831 [17:11:06<35:11:12,  9.27s/it]
 27%|███████████████████▌                                                   | 5172/18831 [17:11:06<24:52:19,  6.56s/it]
 27%|███████████████████▌                                                   | 5173/18831 [17:11:20<34:01:34,  8.97s/it]
 27%|███████████████████▌                                                   | 5174/18831 [17:11:21<24:01:42,  6.33s/it]
 27%|███████████████████▌                                                   | 5175/18831 [17:11:36<34:48:51,  9.18s/it]
 27%|███████████████████▌               

 28%|███████████████████▉                                                   | 5304/18831 [17:59:43<15:50:19,  4.22s/it]
 28%|████████████████████                                                   | 5305/18831 [17:59:44<12:20:12,  3.28s/it]
 28%|████████████████████                                                   | 5306/18831 [18:00:05<32:31:45,  8.66s/it]
 28%|████████████████████                                                   | 5307/18831 [18:00:06<23:34:09,  6.27s/it]
 28%|████████████████████                                                   | 5308/18831 [18:00:52<68:16:04, 18.17s/it]
 28%|████████████████████                                                   | 5309/18831 [18:01:23<82:52:41, 22.06s/it]
 28%|████████████████████                                                   | 5310/18831 [18:01:24<58:55:47, 15.69s/it]
 28%|████████████████████                                                   | 5311/18831 [18:01:33<51:13:13, 13.64s/it]
 28%|████████████████████               

 29%|████████████████████▌                                                  | 5440/18831 [28:21:07<22:49:06,  6.13s/it]
 29%|████████████████████▌                                                  | 5441/18831 [28:21:08<16:22:24,  4.40s/it]
 29%|████████████████████▌                                                  | 5442/18831 [28:21:19<24:36:15,  6.62s/it]
 29%|████████████████████▌                                                  | 5443/18831 [28:21:31<29:57:20,  8.06s/it]
 29%|████████████████████▌                                                  | 5444/18831 [28:21:32<22:45:04,  6.12s/it]
 29%|████████████████████▌                                                  | 5445/18831 [28:21:42<27:11:30,  7.31s/it]
 29%|████████████████████▌                                                  | 5446/18831 [28:21:44<20:13:36,  5.44s/it]
 29%|████████████████████▌                                                  | 5447/18831 [28:21:44<14:22:09,  3.87s/it]
 29%|████████████████████▌              

 30%|█████████████████████                                                  | 5576/18831 [28:49:24<36:49:42, 10.00s/it]
 30%|█████████████████████                                                  | 5577/18831 [28:50:25<92:40:50, 25.17s/it]
 30%|█████████████████████                                                  | 5578/18831 [28:50:25<65:13:15, 17.72s/it]
 30%|█████████████████████                                                  | 5579/18831 [28:50:37<59:00:55, 16.03s/it]
 30%|█████████████████████                                                  | 5580/18831 [28:50:47<52:07:16, 14.16s/it]
 30%|█████████████████████                                                  | 5581/18831 [28:51:02<53:06:27, 14.43s/it]
 30%|█████████████████████                                                  | 5582/18831 [28:51:20<57:29:30, 15.62s/it]
 30%|█████████████████████                                                  | 5583/18831 [28:51:39<60:32:58, 16.45s/it]
 30%|█████████████████████              

 30%|█████████████████████▌                                                 | 5712/18831 [29:17:26<64:50:36, 17.79s/it]
 30%|█████████████████████▌                                                 | 5713/18831 [29:17:27<47:14:03, 12.96s/it]
 30%|█████████████████████▌                                                 | 5714/18831 [29:18:05<74:16:54, 20.39s/it]
 30%|█████████████████████▌                                                 | 5715/18831 [29:18:11<58:03:06, 15.93s/it]
 30%|█████████████████████▌                                                 | 5716/18831 [29:18:13<43:20:38, 11.90s/it]
 30%|█████████████████████▌                                                 | 5717/18831 [29:18:29<47:19:44, 12.99s/it]
 30%|█████████████████████▌                                                 | 5718/18831 [29:19:00<67:19:50, 18.48s/it]
 30%|█████████████████████▌                                                 | 5719/18831 [29:19:00<47:49:13, 13.13s/it]
 30%|█████████████████████▌             

 31%|██████████████████████                                                 | 5848/18831 [29:41:24<75:29:42, 20.93s/it]
 31%|██████████████████████                                                 | 5849/18831 [29:41:25<53:33:19, 14.85s/it]
 31%|██████████████████████                                                 | 5850/18831 [29:41:36<49:49:31, 13.82s/it]
 31%|██████████████████████                                                 | 5851/18831 [29:41:36<35:01:36,  9.71s/it]
 31%|██████████████████████                                                 | 5852/18831 [29:41:50<38:46:32, 10.76s/it]
 31%|██████████████████████                                                 | 5853/18831 [29:42:17<56:24:48, 15.65s/it]
 31%|██████████████████████                                                 | 5854/18831 [29:42:31<54:42:06, 15.18s/it]
 31%|██████████████████████                                                 | 5855/18831 [29:42:39<47:23:03, 13.15s/it]
 31%|██████████████████████             

 32%|██████████████████████▏                                               | 5984/18831 [30:18:58<100:45:31, 28.23s/it]
 32%|██████████████████████▌                                                | 5985/18831 [30:19:18<91:24:07, 25.61s/it]
 32%|██████████████████████▌                                                | 5986/18831 [30:19:18<64:40:18, 18.13s/it]
 32%|██████████████████████▌                                                | 5987/18831 [30:19:48<77:32:12, 21.73s/it]
 32%|██████████████████████▌                                                | 5988/18831 [30:20:05<72:34:22, 20.34s/it]
 32%|██████████████████████▌                                                | 5989/18831 [30:20:36<83:24:16, 23.38s/it]
 32%|██████████████████████▌                                                | 5990/18831 [30:20:38<60:47:35, 17.04s/it]
 32%|██████████████████████▌                                                | 5991/18831 [30:20:43<48:10:11, 13.51s/it]
 32%|██████████████████████▌            

 32%|██████████████████████▋                                               | 6120/18831 [30:50:44<165:37:24, 46.91s/it]
 33%|██████████████████████▊                                               | 6121/18831 [30:50:44<116:12:21, 32.91s/it]
 33%|██████████████████████▊                                               | 6122/18831 [30:51:46<146:52:53, 41.61s/it]
 33%|██████████████████████▊                                               | 6123/18831 [30:51:47<103:54:12, 29.43s/it]
 33%|███████████████████████                                                | 6124/18831 [30:51:58<84:16:07, 23.87s/it]
 33%|███████████████████████                                                | 6125/18831 [30:52:06<67:44:47, 19.19s/it]
 33%|███████████████████████                                                | 6126/18831 [30:52:15<57:32:01, 16.30s/it]
 33%|███████████████████████                                                | 6127/18831 [30:52:31<56:57:56, 16.14s/it]
 33%|███████████████████████            

 33%|███████████████████████▌                                               | 6256/18831 [31:25:20<43:59:20, 12.59s/it]
 33%|███████████████████████▌                                               | 6257/18831 [31:25:23<33:44:10,  9.66s/it]
 33%|███████████████████████▌                                               | 6258/18831 [31:25:26<26:11:17,  7.50s/it]
 33%|███████████████████████▌                                               | 6259/18831 [31:25:48<41:52:43, 11.99s/it]
 33%|███████████████████████▌                                               | 6260/18831 [31:26:47<90:41:05, 25.97s/it]
 33%|███████████████████████▌                                               | 6261/18831 [31:26:48<64:18:40, 18.42s/it]
 33%|███████████████████████▌                                               | 6262/18831 [31:26:49<47:03:36, 13.48s/it]
 33%|███████████████████████▌                                               | 6263/18831 [31:27:19<64:11:11, 18.39s/it]
 33%|███████████████████████▌           

 34%|███████████████████████▊                                              | 6392/18831 [32:13:39<155:18:35, 44.95s/it]
 34%|███████████████████████▊                                              | 6393/18831 [32:13:41<110:43:10, 32.05s/it]
 34%|████████████████████████                                               | 6394/18831 [32:13:42<78:29:12, 22.72s/it]
 34%|████████████████████████                                               | 6395/18831 [32:13:45<58:18:51, 16.88s/it]
 34%|███████████████████████▊                                              | 6396/18831 [32:16:14<195:09:51, 56.50s/it]
 34%|███████████████████████▊                                              | 6397/18831 [32:16:26<149:13:40, 43.21s/it]
 34%|███████████████████████▊                                              | 6398/18831 [32:16:45<124:18:49, 36.00s/it]
 34%|███████████████████████▊                                              | 6399/18831 [32:17:06<108:00:12, 31.28s/it]
 34%|████████████████████████▏          

 35%|████████████████████████▌                                              | 6528/18831 [33:03:34<68:00:25, 19.90s/it]
 35%|████████████████████████▌                                              | 6529/18831 [33:03:48<61:15:59, 17.93s/it]
 35%|████████████████████████▌                                              | 6530/18831 [33:03:49<44:23:01, 12.99s/it]
 35%|████████████████████████▌                                              | 6531/18831 [33:03:53<35:18:20, 10.33s/it]
 35%|████████████████████████▋                                              | 6532/18831 [33:03:55<26:19:30,  7.71s/it]
 35%|████████████████████████▋                                              | 6533/18831 [33:04:23<46:44:53, 13.68s/it]
 35%|████████████████████████▋                                              | 6534/18831 [33:04:23<32:51:52,  9.62s/it]
 35%|████████████████████████▋                                              | 6535/18831 [33:04:34<34:21:37, 10.06s/it]
 35%|████████████████████████▋          

 35%|█████████████████████████▍                                              | 6664/18831 [33:28:51<9:05:37,  2.69s/it]
 35%|█████████████████████████▏                                             | 6665/18831 [33:29:29<45:15:58, 13.39s/it]
 35%|█████████████████████████▏                                             | 6666/18831 [33:29:30<32:06:34,  9.50s/it]
 35%|█████████████████████████▏                                             | 6667/18831 [33:29:30<23:22:51,  6.92s/it]
 35%|█████████████████████████▏                                             | 6668/18831 [33:29:31<17:17:16,  5.12s/it]
 35%|█████████████████████████▏                                             | 6669/18831 [33:29:33<13:23:00,  3.96s/it]
 35%|█████████████████████████▌                                              | 6670/18831 [33:29:33<9:40:17,  2.86s/it]
 35%|█████████████████████████▏                                             | 6671/18831 [33:29:41<15:05:56,  4.47s/it]
 35%|█████████████████████████▏         

 36%|█████████████████████████▋                                             | 6800/18831 [33:51:12<14:06:24,  4.22s/it]
 36%|█████████████████████████▋                                             | 6801/18831 [33:51:35<33:08:25,  9.92s/it]
 36%|█████████████████████████▋                                             | 6802/18831 [33:51:48<35:54:13, 10.75s/it]
 36%|█████████████████████████▎                                            | 6803/18831 [33:53:07<104:05:05, 31.15s/it]
 36%|█████████████████████████▋                                             | 6804/18831 [33:53:11<76:58:57, 23.04s/it]
 36%|█████████████████████████▋                                             | 6805/18831 [33:53:37<79:56:44, 23.93s/it]
 36%|█████████████████████████▋                                             | 6806/18831 [33:54:09<88:03:11, 26.36s/it]
 36%|█████████████████████████▋                                             | 6807/18831 [33:54:16<68:14:07, 20.43s/it]
 36%|█████████████████████████▋         

 37%|██████████████████████████▏                                            | 6936/18831 [34:19:43<57:12:54, 17.32s/it]
 37%|██████████████████████████▏                                            | 6937/18831 [34:19:56<53:19:32, 16.14s/it]
 37%|██████████████████████████▏                                            | 6938/18831 [34:19:57<37:55:01, 11.48s/it]
 37%|██████████████████████████▏                                            | 6939/18831 [34:19:57<26:48:19,  8.11s/it]
 37%|██████████████████████████▏                                            | 6940/18831 [34:19:59<20:11:04,  6.11s/it]
 37%|██████████████████████████▏                                            | 6941/18831 [34:20:46<60:30:30, 18.32s/it]
 37%|██████████████████████████▏                                            | 6942/18831 [34:20:46<43:01:21, 13.03s/it]
 37%|██████████████████████████▏                                            | 6943/18831 [34:20:47<31:18:08,  9.48s/it]
 37%|██████████████████████████▏        

 38%|██████████████████████████▋                                            | 7072/18831 [34:47:48<14:17:39,  4.38s/it]
 38%|██████████████████████████▋                                            | 7073/18831 [34:48:01<22:53:54,  7.01s/it]
 38%|██████████████████████████▋                                            | 7074/18831 [34:48:07<21:22:40,  6.55s/it]
 38%|██████████████████████████▋                                            | 7075/18831 [34:48:08<16:14:27,  4.97s/it]
 38%|██████████████████████████▋                                            | 7076/18831 [34:48:08<11:49:27,  3.62s/it]
 38%|███████████████████████████                                             | 7077/18831 [34:48:09<8:33:06,  2.62s/it]
 38%|██████████████████████████▋                                            | 7078/18831 [34:48:36<33:00:13, 10.11s/it]
 38%|██████████████████████████▋                                            | 7079/18831 [34:48:37<23:14:18,  7.12s/it]
 38%|██████████████████████████▋        

 38%|███████████████████████████▏                                           | 7208/18831 [35:12:15<17:43:30,  5.49s/it]
 38%|███████████████████████████▏                                           | 7209/18831 [35:12:17<14:21:09,  4.45s/it]
 38%|███████████████████████████▏                                           | 7210/18831 [35:12:18<11:27:12,  3.55s/it]
 38%|███████████████████████████▏                                           | 7211/18831 [35:12:32<21:54:39,  6.79s/it]
 38%|███████████████████████████▏                                           | 7212/18831 [35:12:35<17:21:28,  5.38s/it]
 38%|███████████████████████████▏                                           | 7213/18831 [35:12:35<12:40:01,  3.93s/it]
 38%|███████████████████████████▏                                           | 7214/18831 [35:12:47<20:32:03,  6.36s/it]
 38%|███████████████████████████▏                                           | 7215/18831 [35:12:48<14:59:23,  4.65s/it]
 38%|███████████████████████████▏       

 39%|███████████████████████████▋                                           | 7344/18831 [35:41:25<74:58:32, 23.50s/it]
 39%|███████████████████████████▋                                           | 7345/18831 [35:41:25<52:58:51, 16.61s/it]
 39%|███████████████████████████▋                                           | 7346/18831 [35:41:50<60:45:00, 19.04s/it]
 39%|███████████████████████████▋                                           | 7347/18831 [35:41:53<44:57:09, 14.09s/it]
 39%|███████████████████████████▋                                           | 7348/18831 [35:41:53<31:44:51,  9.95s/it]
 39%|███████████████████████████▋                                           | 7349/18831 [35:41:54<22:58:06,  7.20s/it]
 39%|███████████████████████████▋                                           | 7350/18831 [35:41:55<17:24:59,  5.46s/it]
 39%|███████████████████████████▋                                           | 7351/18831 [35:42:10<26:39:34,  8.36s/it]
 39%|███████████████████████████▋       

 40%|████████████████████████████▏                                          | 7480/18831 [36:03:53<38:42:27, 12.28s/it]
 40%|████████████████████████████▏                                          | 7481/18831 [36:04:04<36:40:54, 11.63s/it]
 40%|████████████████████████████▏                                          | 7482/18831 [36:04:14<35:59:55, 11.42s/it]
 40%|████████████████████████████▏                                          | 7483/18831 [36:04:40<49:03:09, 15.56s/it]
 40%|████████████████████████████▏                                          | 7484/18831 [36:04:41<35:31:40, 11.27s/it]
 40%|████████████████████████████▏                                          | 7485/18831 [36:05:16<57:47:33, 18.34s/it]
 40%|████████████████████████████▏                                          | 7486/18831 [36:05:20<44:27:24, 14.11s/it]
 40%|████████████████████████████▏                                          | 7487/18831 [36:05:21<31:53:47, 10.12s/it]
 40%|████████████████████████████▏      

 40%|████████████████████████████▋                                          | 7616/18831 [36:29:40<42:19:33, 13.59s/it]
 40%|████████████████████████████▋                                          | 7617/18831 [36:29:40<30:13:03,  9.70s/it]
 40%|████████████████████████████▋                                          | 7618/18831 [36:30:12<50:36:19, 16.25s/it]
 40%|████████████████████████████▋                                          | 7619/18831 [36:30:13<36:07:05, 11.60s/it]
 40%|████████████████████████████▋                                          | 7620/18831 [36:30:18<30:19:38,  9.74s/it]
 40%|████████████████████████████▋                                          | 7621/18831 [36:31:04<63:48:27, 20.49s/it]
 40%|████████████████████████████▋                                          | 7622/18831 [36:31:13<53:04:59, 17.05s/it]
 40%|████████████████████████████▋                                          | 7623/18831 [36:31:46<68:47:06, 22.09s/it]
 40%|████████████████████████████▎      

 41%|████████████████████████████▊                                         | 7752/18831 [37:33:09<117:08:47, 38.07s/it]
 41%|█████████████████████████████▏                                         | 7753/18831 [37:33:11<83:54:41, 27.27s/it]
 41%|█████████████████████████████▏                                         | 7754/18831 [37:33:13<60:07:28, 19.54s/it]
 41%|█████████████████████████████▏                                         | 7755/18831 [37:33:35<62:47:45, 20.41s/it]
 41%|█████████████████████████████▏                                         | 7756/18831 [37:33:36<44:30:27, 14.47s/it]
 41%|█████████████████████████████▏                                         | 7757/18831 [37:33:37<31:44:12, 10.32s/it]
 41%|█████████████████████████████▎                                         | 7758/18831 [37:33:39<24:06:48,  7.84s/it]
 41%|█████████████████████████████▎                                         | 7759/18831 [37:34:13<48:34:39, 15.79s/it]
 41%|█████████████████████████████▎     

In [35]:
df.to_csv('compressed_okcupid.csv')