# Data Filter
### The purpose of this notebook is four-fold:
1) Filter data to only the relevant rows

2) Delete the unnecessary columns

3) Suitably edit the text to allow for topic modeling

4) Create new variables to assist with demographic comparisons of topics


In [4]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
# For Data Cleaning
from bs4 import BeautifulSoup
import split_utils
from text_complexity import get_npoly, get_flesch

#General Imports
from tqdm import tqdm
tqdm.pandas()

In [None]:
#correct subset of data
df = pd.read_csv('profiles.csv')
df = df[(df['sex']=="m")&(df['orientation']=="straight") & df['status']=="single"]

In [24]:
# Some of the essays have just a link in the text. BeautifulSoup sees that and gets 
# the wrong idea. This line hides those warnings.
warnings.filterwarnings("ignore", category=UserWarning, module='bs4')
def clean(text):
    if pd.isnull(text):
        t = np.nan
    else:
        t = BeautifulSoup(text, 'lxml').get_text()
        t = t.lower()
        t = t.strip().replace('\n','').replace("\r", " ").replace('\t', '')
        bad_words = ['http', 'www', '\nnan']

        for b in bad_words:
            t = t.replace(b, '')
    if t == '':
        t = np.nan
    
    return t

#Clearing out all HTML and unnecessary characters
df['essay0'] = df['essay0'].progress_apply(clean)

In [13]:
must_haves = ['body_type', 'height', 'education', 'ethnicity', 'sex', 'essay0', 'essay9']
df = df.dropna(subset= must_haves)
df = df.drop(columns=['essay1', 'essay2', 'essay3','essay4','essay5','essay6','essay7',
                      'essay8', 'essay9', 'income','job','last_online','location','offspring',
                      'orientation','pets','religion','sex','sign','smokes','speaks','status',
                      'diet', 'drinks', 'drugs'])

FileNotFoundError: [Errno 2] File b'profiles.csv' does not exist: b'profiles.csv'

### Fix Conjoined Words

In [None]:
df['essay0'] = df['essay0'].progress_apply(split_incorrect)

### CREATING NEW COLUMNS


Many of the sections here are taken directly from the following link, with specific modifications
Taken directly from:
https://github.com/UM-CSS/CSSLabs-NLP/blob/master/1_Data_munging.ipynb

In [18]:
def recode(text, dictionary, default=np.nan):
    '''Function for recoding categories in a column based on exact matches'''
    out = default
    text = str(text)
    
    for x in dictionary.keys():
        for y in dictionary[x]:
            if y == text: #exact match
                out = x
                return out
    return out

def recode_fuzzy(text, dictionary, default=np.nan):
    '''Function for recoding categories in a column based on partial matches'''
    out = default
    text = str(text)
    
    for x in dictionary.keys():
        for y in dictionary[x]:
            if y in text: #partial match
                out = x
                return out
    return out

In [19]:
ed_levels = {'High School or less': ['dropped out of high school', 'working on high school','graduated from high school', 'working on college/university', 
                    'two-year college', 'dropped out of college/university', 
                    'high school'], 
             'More than High School': ['graduated from college/university', 
                    'working on masters program', 'working on ph.d program', 
                    'college/university', 'working on law school', 
                    'dropped out of masters program', 
                    'dropped out of ph.d program', 'dropped out of law school', 
                    'dropped out of med school',
                    'graduated from masters program',
                    'graduated from ph.d program',                           
                    'graduated from law school', 
                    'graduated from med school', 'masters program', 
                    'ph.d program', 'law school', 'med school']}

#body type
bodies = {'fit': ['fit', 'athletic', 'jacked'], 
          'not_fit': ['average', 'thin', 'skinny','curvey', 'a little extra', 
                      'full figured', 'overweight', 'rather not say', 'used up']
         }

In [20]:
df['edu'] = df.education.apply(recode, dictionary=ed_levels, 
                                            default='unknown')
df['fit'] = df.body_type.apply(recode, dictionary=bodies, 
                                            default='unknown')

In [21]:
# race/ethnicity for exact matching
ethn = {'White': ['white', 'middle eastern', 'middle eastern, white'], 
        'Asian': ['asian', 'indian', 'asian, pacific islander'], 
        'Black': ['black']       }   

# race/ethnicityfor fuzzy matching
ethn2 = {'Latinx': ['latin'], 'multiple': [','], np.nan: ['nan']}

In [22]:
def census_2010_ethnicity(t):
    text = str(t)
    e = recode(text, ethn, default='other')
    if 'other' == e:
        e = recode_fuzzy(text, ethn2, default='other')
    return e

df['race_ethnicity'] = df.ethnicity.apply(census_2010_ethnicity)

In [23]:
def height_check(inches):
    h = 'not_short'
    if inches <= 69:
        h = 'short'
    return h
df['height'] = pd.to_numeric(df['height'])
df['height_group'] = df.height.apply(height_check)

## TEXT EDITING

In [28]:
df['long_words'] = df['essay0'].progress_apply(get_npoly)



  0%|                                                                                        | 0/18831 [00:00<?, ?it/s]

  0%|                                                                                | 4/18831 [00:00<08:04, 38.84it/s]
 12%|█████████▍                                                                   | 2305/18831 [01:19<07:17, 37.80it/s]

  0%|                                                                                | 7/18831 [00:00<09:53, 31.72it/s]

  0%|                                                                               | 11/18831 [00:00<09:46, 32.11it/s]

  0%|                                                                               | 15/18831 [00:00<09:21, 33.53it/s]

  0%|                                                                               | 19/18831 [00:00<08:58, 34.96it/s]

  0%|                                                                               | 23/18831 [00:00<08:43, 35.94it/s]

  0%|                          

  3%|██▌                                                                           | 625/18831 [00:17<11:27, 26.49it/s]

  3%|██▌                                                                           | 629/18831 [00:17<10:57, 27.70it/s]

  3%|██▌                                                                           | 632/18831 [00:17<11:58, 25.34it/s]

  3%|██▋                                                                           | 635/18831 [00:17<11:39, 26.02it/s]

  3%|██▋                                                                           | 640/18831 [00:18<10:10, 29.80it/s]

  3%|██▋                                                                           | 644/18831 [00:18<09:39, 31.36it/s]

  3%|██▋                                                                           | 648/18831 [00:18<09:18, 32.55it/s]

  3%|██▋                                                                           | 652/18831 [00:18<09:09, 33.10it/s]

  3%|██▋                        

  7%|█████                                                                        | 1237/18831 [00:35<10:22, 28.28it/s]

  7%|█████                                                                        | 1241/18831 [00:35<10:06, 28.98it/s]

  7%|█████                                                                        | 1245/18831 [00:35<09:21, 31.29it/s]

  7%|█████                                                                        | 1250/18831 [00:35<09:17, 31.52it/s]

  7%|█████▏                                                                       | 1257/18831 [00:36<07:53, 37.14it/s]

  7%|█████▏                                                                       | 1264/18831 [00:36<07:01, 41.69it/s]

  7%|█████▏                                                                       | 1269/18831 [00:36<06:49, 42.86it/s]

  7%|█████▏                                                                       | 1274/18831 [00:36<07:23, 39.57it/s]

  7%|█████▏                     

 10%|███████▊                                                                     | 1906/18831 [00:53<08:16, 34.08it/s]

 10%|███████▊                                                                     | 1910/18831 [00:53<08:23, 33.59it/s]

 10%|███████▊                                                                     | 1914/18831 [00:53<08:08, 34.65it/s]

 10%|███████▊                                                                     | 1920/18831 [00:53<07:18, 38.53it/s]

 10%|███████▉                                                                     | 1927/18831 [00:53<06:22, 44.20it/s]

 10%|███████▉                                                                     | 1932/18831 [00:53<06:40, 42.20it/s]

 10%|███████▉                                                                     | 1937/18831 [00:54<06:50, 41.11it/s]

 10%|███████▉                                                                     | 1942/18831 [00:54<06:44, 41.79it/s]

 10%|███████▉                   

 14%|██████████▍                                                                  | 2548/18831 [01:11<07:31, 36.07it/s]

 14%|██████████▍                                                                  | 2552/18831 [01:11<07:19, 37.06it/s]

 14%|██████████▍                                                                  | 2556/18831 [01:11<08:04, 33.60it/s]

 14%|██████████▍                                                                  | 2560/18831 [01:11<08:20, 32.54it/s]

 14%|██████████▍                                                                  | 2565/18831 [01:11<07:54, 34.25it/s]

 14%|██████████▌                                                                  | 2570/18831 [01:11<07:16, 37.23it/s]

 14%|██████████▌                                                                  | 2578/18831 [01:11<06:10, 43.91it/s]

 14%|██████████▌                                                                  | 2583/18831 [01:11<06:38, 40.78it/s]

 14%|██████████▌                

 17%|█████████████                                                                | 3192/18831 [01:29<07:49, 33.32it/s]

 17%|█████████████                                                                | 3196/18831 [01:29<09:27, 27.54it/s]

 17%|█████████████                                                                | 3200/18831 [01:29<08:59, 28.99it/s]

 17%|█████████████                                                                | 3205/18831 [01:29<08:08, 31.97it/s]

 17%|█████████████                                                                | 3209/18831 [01:29<07:49, 33.25it/s]

 17%|█████████████▏                                                               | 3213/18831 [01:30<07:31, 34.57it/s]

 17%|█████████████▏                                                               | 3217/18831 [01:30<07:14, 35.94it/s]

 17%|█████████████▏                                                               | 3221/18831 [01:30<07:18, 35.59it/s]

 17%|█████████████▏             

 20%|███████████████▋                                                             | 3844/18831 [01:47<05:49, 42.85it/s]

 20%|███████████████▋                                                             | 3849/18831 [01:47<06:06, 40.92it/s]

 20%|███████████████▊                                                             | 3854/18831 [01:47<06:05, 40.94it/s]

 20%|███████████████▊                                                             | 3859/18831 [01:47<06:18, 39.59it/s]

 21%|███████████████▊                                                             | 3865/18831 [01:47<05:46, 43.23it/s]

 21%|███████████████▊                                                             | 3871/18831 [01:47<05:23, 46.21it/s]

 21%|███████████████▊                                                             | 3876/18831 [01:47<05:48, 42.90it/s]

 21%|███████████████▊                                                             | 3881/18831 [01:47<06:15, 39.78it/s]

 21%|███████████████▉           

 24%|██████████████████▌                                                          | 4536/18831 [02:05<06:25, 37.12it/s]

 24%|██████████████████▌                                                          | 4540/18831 [02:05<06:53, 34.59it/s]

 24%|██████████████████▌                                                          | 4546/18831 [02:05<06:34, 36.25it/s]

 24%|██████████████████▌                                                          | 4550/18831 [02:05<07:43, 30.83it/s]

 24%|██████████████████▋                                                          | 4556/18831 [02:05<06:56, 34.24it/s]

 24%|██████████████████▋                                                          | 4560/18831 [02:05<07:23, 32.16it/s]

 24%|██████████████████▋                                                          | 4564/18831 [02:05<08:18, 28.60it/s]

 24%|██████████████████▋                                                          | 4568/18831 [02:06<07:53, 30.14it/s]

 24%|██████████████████▋        

 27%|████████████████████▉                                                        | 5129/18831 [02:23<06:28, 35.25it/s]

 27%|████████████████████▉                                                        | 5133/18831 [02:23<07:38, 29.84it/s]

 27%|█████████████████████                                                        | 5139/18831 [02:24<06:31, 34.96it/s]

 27%|█████████████████████                                                        | 5144/18831 [02:24<06:29, 35.11it/s]

 27%|█████████████████████                                                        | 5151/18831 [02:24<05:34, 40.85it/s]

 27%|█████████████████████                                                        | 5157/18831 [02:24<05:07, 44.47it/s]

 27%|█████████████████████                                                        | 5162/18831 [02:24<06:02, 37.68it/s]

 27%|█████████████████████▏                                                       | 5167/18831 [02:24<06:49, 33.36it/s]

 27%|█████████████████████▏     

 31%|███████████████████████▌                                                     | 5763/18831 [02:41<06:46, 32.12it/s]

 31%|███████████████████████▌                                                     | 5768/18831 [02:41<06:10, 35.22it/s]

 31%|███████████████████████▌                                                     | 5772/18831 [02:41<06:50, 31.82it/s]

 31%|███████████████████████▌                                                     | 5776/18831 [02:42<06:31, 33.31it/s]

 31%|███████████████████████▋                                                     | 5782/18831 [02:42<05:46, 37.64it/s]

 31%|███████████████████████▋                                                     | 5787/18831 [02:42<06:10, 35.24it/s]

 31%|███████████████████████▋                                                     | 5791/18831 [02:42<06:29, 33.51it/s]

 31%|███████████████████████▋                                                     | 5798/18831 [02:42<05:34, 38.93it/s]

 31%|███████████████████████▋   

 33%|█████████████████████████▊                                                   | 6298/18831 [03:01<05:53, 35.47it/s]

 33%|█████████████████████████▊                                                   | 6303/18831 [03:01<05:51, 35.62it/s]

 33%|█████████████████████████▊                                                   | 6307/18831 [03:02<05:46, 36.13it/s]

 34%|█████████████████████████▊                                                   | 6312/18831 [03:02<05:21, 38.95it/s]

 34%|█████████████████████████▊                                                   | 6317/18831 [03:02<05:21, 38.98it/s]

 34%|█████████████████████████▊                                                   | 6323/18831 [03:02<04:58, 41.92it/s]

 34%|█████████████████████████▉                                                   | 6328/18831 [03:02<05:01, 41.42it/s]

 34%|█████████████████████████▉                                                   | 6334/18831 [03:02<04:38, 44.85it/s]

 34%|█████████████████████████▉ 

 37%|████████████████████████████▍                                                | 6963/18831 [03:20<06:16, 31.50it/s]

 37%|████████████████████████████▍                                                | 6967/18831 [03:20<06:08, 32.19it/s]

 37%|████████████████████████████▌                                                | 6971/18831 [03:20<05:53, 33.59it/s]

 37%|████████████████████████████▌                                                | 6975/18831 [03:20<06:00, 32.93it/s]

 37%|████████████████████████████▌                                                | 6979/18831 [03:20<06:53, 28.65it/s]

 37%|████████████████████████████▌                                                | 6983/18831 [03:20<06:49, 28.94it/s]

 37%|████████████████████████████▌                                                | 6987/18831 [03:20<06:26, 30.61it/s]

 37%|████████████████████████████▌                                                | 6991/18831 [03:21<06:46, 29.12it/s]

 37%|███████████████████████████

 40%|██████████████████████████████▉                                              | 7579/18831 [03:38<04:57, 37.84it/s]

 40%|███████████████████████████████                                              | 7584/18831 [03:38<04:40, 40.03it/s]

 40%|███████████████████████████████                                              | 7590/18831 [03:38<04:47, 39.16it/s]

 40%|███████████████████████████████                                              | 7595/18831 [03:38<04:39, 40.17it/s]

 40%|███████████████████████████████                                              | 7600/18831 [03:38<04:39, 40.22it/s]

 40%|███████████████████████████████                                              | 7605/18831 [03:39<05:15, 35.53it/s]

 40%|███████████████████████████████                                              | 7611/18831 [03:39<04:46, 39.21it/s]

 40%|███████████████████████████████▏                                             | 7616/18831 [03:39<04:54, 38.09it/s]

 40%|███████████████████████████

 44%|█████████████████████████████████▋                                           | 8226/18831 [03:56<05:35, 31.63it/s]

 44%|█████████████████████████████████▋                                           | 8230/18831 [03:56<06:14, 28.30it/s]

 44%|█████████████████████████████████▋                                           | 8235/18831 [03:56<05:42, 30.97it/s]

 44%|█████████████████████████████████▋                                           | 8239/18831 [03:56<06:04, 29.09it/s]

 44%|█████████████████████████████████▋                                           | 8243/18831 [03:57<05:50, 30.24it/s]

 44%|█████████████████████████████████▋                                           | 8247/18831 [03:57<08:49, 19.97it/s]

 44%|█████████████████████████████████▋                                           | 8252/18831 [03:57<08:11, 21.53it/s]

 44%|█████████████████████████████████▊                                           | 8255/18831 [03:57<08:26, 20.87it/s]

 44%|███████████████████████████

 47%|████████████████████████████████████                                         | 8833/18831 [04:14<04:04, 40.93it/s]

 47%|████████████████████████████████████▏                                        | 8838/18831 [04:14<03:56, 42.19it/s]

 47%|████████████████████████████████████▏                                        | 8844/18831 [04:15<03:41, 45.16it/s]

 47%|████████████████████████████████████▏                                        | 8849/18831 [04:15<03:48, 43.59it/s]

 47%|████████████████████████████████████▏                                        | 8854/18831 [04:15<03:44, 44.37it/s]

 47%|████████████████████████████████████▏                                        | 8859/18831 [04:15<04:02, 41.16it/s]

 47%|████████████████████████████████████▏                                        | 8864/18831 [04:15<04:28, 37.08it/s]

 47%|████████████████████████████████████▎                                        | 8868/18831 [04:15<04:28, 37.07it/s]

 47%|███████████████████████████

 50%|██████████████████████████████████████▊                                      | 9484/18831 [04:32<03:34, 43.63it/s]

 50%|██████████████████████████████████████▊                                      | 9489/18831 [04:32<03:54, 39.84it/s]

 50%|██████████████████████████████████████▊                                      | 9495/18831 [04:32<03:35, 43.25it/s]

 50%|██████████████████████████████████████▊                                      | 9500/18831 [04:32<03:45, 41.38it/s]

 50%|██████████████████████████████████████▊                                      | 9505/18831 [04:32<04:06, 37.88it/s]

 51%|██████████████████████████████████████▉                                      | 9510/18831 [04:32<03:56, 39.41it/s]

 51%|██████████████████████████████████████▉                                      | 9515/18831 [04:33<04:53, 31.74it/s]

 51%|██████████████████████████████████████▉                                      | 9521/18831 [04:33<04:13, 36.69it/s]

 51%|███████████████████████████

 54%|████████████████████████████████████████▉                                   | 10142/18831 [04:50<04:11, 34.51it/s]

 54%|████████████████████████████████████████▉                                   | 10148/18831 [04:50<03:39, 39.47it/s]

 54%|████████████████████████████████████████▉                                   | 10153/18831 [04:50<03:29, 41.40it/s]

 54%|████████████████████████████████████████▉                                   | 10158/18831 [04:50<03:20, 43.31it/s]

 54%|█████████████████████████████████████████                                   | 10163/18831 [04:50<03:27, 41.73it/s]

 54%|█████████████████████████████████████████                                   | 10168/18831 [04:50<03:50, 37.57it/s]

 54%|█████████████████████████████████████████                                   | 10173/18831 [04:50<03:56, 36.59it/s]

 54%|█████████████████████████████████████████                                   | 10178/18831 [04:50<03:45, 38.42it/s]

 54%|███████████████████████████

 57%|███████████████████████████████████████████▍                                | 10769/18831 [05:08<03:15, 41.22it/s]

 57%|███████████████████████████████████████████▍                                | 10774/18831 [05:09<03:10, 42.20it/s]

 57%|███████████████████████████████████████████▌                                | 10781/18831 [05:09<02:59, 44.95it/s]

 57%|███████████████████████████████████████████▌                                | 10786/18831 [05:09<03:23, 39.63it/s]

 57%|███████████████████████████████████████████▌                                | 10791/18831 [05:09<03:21, 39.83it/s]

 57%|███████████████████████████████████████████▌                                | 10796/18831 [05:09<04:48, 27.88it/s]

 57%|███████████████████████████████████████████▌                                | 10802/18831 [05:09<04:03, 32.99it/s]

 57%|███████████████████████████████████████████▌                                | 10807/18831 [05:09<03:40, 36.42it/s]

 57%|███████████████████████████

 61%|██████████████████████████████████████████████                              | 11413/18831 [05:27<03:19, 37.20it/s]

 61%|██████████████████████████████████████████████                              | 11417/18831 [05:27<03:53, 31.75it/s]

 61%|██████████████████████████████████████████████                              | 11421/18831 [05:27<04:06, 30.10it/s]

 61%|██████████████████████████████████████████████                              | 11425/18831 [05:27<03:58, 31.01it/s]

 61%|██████████████████████████████████████████████▏                             | 11429/18831 [05:27<03:49, 32.21it/s]

 61%|██████████████████████████████████████████████▏                             | 11433/18831 [05:28<05:47, 21.31it/s]

 61%|██████████████████████████████████████████████▏                             | 11436/18831 [05:28<05:36, 21.95it/s]

 61%|██████████████████████████████████████████████▏                             | 11441/18831 [05:28<04:49, 25.54it/s]

 61%|███████████████████████████

 64%|████████████████████████████████████████████████▌                           | 12026/18831 [05:45<02:57, 38.30it/s]

 64%|████████████████████████████████████████████████▌                           | 12031/18831 [05:45<03:07, 36.34it/s]

 64%|████████████████████████████████████████████████▌                           | 12035/18831 [05:46<03:10, 35.67it/s]

 64%|████████████████████████████████████████████████▌                           | 12040/18831 [05:46<03:00, 37.70it/s]

 64%|████████████████████████████████████████████████▌                           | 12044/18831 [05:46<03:16, 34.49it/s]

 64%|████████████████████████████████████████████████▌                           | 12048/18831 [05:46<03:19, 34.05it/s]

 64%|████████████████████████████████████████████████▋                           | 12053/18831 [05:46<03:10, 35.63it/s]

 64%|████████████████████████████████████████████████▋                           | 12057/18831 [05:46<03:11, 35.38it/s]

 64%|███████████████████████████

 67%|███████████████████████████████████████████████████▎                        | 12703/18831 [06:03<03:16, 31.24it/s]

 67%|███████████████████████████████████████████████████▎                        | 12708/18831 [06:03<03:06, 32.84it/s]

 68%|███████████████████████████████████████████████████▎                        | 12712/18831 [06:03<03:12, 31.73it/s]

 68%|███████████████████████████████████████████████████▎                        | 12716/18831 [06:04<03:09, 32.27it/s]

 68%|███████████████████████████████████████████████████▎                        | 12720/18831 [06:04<03:03, 33.24it/s]

 68%|███████████████████████████████████████████████████▎                        | 12724/18831 [06:04<03:04, 33.18it/s]

 68%|███████████████████████████████████████████████████▎                        | 12729/18831 [06:04<02:52, 35.34it/s]

 68%|███████████████████████████████████████████████████▍                        | 12733/18831 [06:04<03:18, 30.79it/s]

 68%|███████████████████████████

 71%|██████████████████████████████████████████████████████                      | 13383/18831 [06:21<02:55, 31.11it/s]

 71%|██████████████████████████████████████████████████████                      | 13388/18831 [06:21<02:38, 34.29it/s]

 71%|██████████████████████████████████████████████████████                      | 13394/18831 [06:21<02:24, 37.58it/s]

 71%|██████████████████████████████████████████████████████                      | 13399/18831 [06:21<02:34, 35.13it/s]

 71%|██████████████████████████████████████████████████████                      | 13405/18831 [06:21<02:20, 38.49it/s]

 71%|██████████████████████████████████████████████████████                      | 13410/18831 [06:21<02:24, 37.53it/s]

 71%|██████████████████████████████████████████████████████▏                     | 13416/18831 [06:21<02:09, 41.75it/s]

 71%|██████████████████████████████████████████████████████▏                     | 13421/18831 [06:22<02:19, 38.81it/s]

 71%|███████████████████████████

 74%|████████████████████████████████████████████████████████▌                   | 14019/18831 [06:38<02:22, 33.68it/s]

 74%|████████████████████████████████████████████████████████▌                   | 14025/18831 [06:38<02:04, 38.48it/s]

 75%|████████████████████████████████████████████████████████▌                   | 14030/18831 [06:39<02:24, 33.12it/s]

 75%|████████████████████████████████████████████████████████▋                   | 14034/18831 [06:39<02:30, 31.92it/s]

 75%|████████████████████████████████████████████████████████▋                   | 14040/18831 [06:39<02:12, 36.26it/s]

 75%|████████████████████████████████████████████████████████▋                   | 14045/18831 [06:39<02:20, 33.96it/s]

 75%|████████████████████████████████████████████████████████▋                   | 14050/18831 [06:39<02:10, 36.59it/s]

 75%|████████████████████████████████████████████████████████▋                   | 14054/18831 [06:39<02:26, 32.51it/s]

 75%|███████████████████████████

 78%|███████████████████████████████████████████████████████████▎                | 14709/18831 [06:56<01:52, 36.51it/s]

 78%|███████████████████████████████████████████████████████████▍                | 14715/18831 [06:56<01:41, 40.70it/s]

 78%|███████████████████████████████████████████████████████████▍                | 14720/18831 [06:56<01:36, 42.44it/s]

 78%|███████████████████████████████████████████████████████████▍                | 14725/18831 [06:56<01:39, 41.16it/s]

 78%|███████████████████████████████████████████████████████████▍                | 14730/18831 [06:56<01:43, 39.74it/s]

 78%|███████████████████████████████████████████████████████████▍                | 14735/18831 [06:56<01:46, 38.62it/s]

 78%|███████████████████████████████████████████████████████████▍                | 14739/18831 [06:56<01:52, 36.46it/s]

 78%|███████████████████████████████████████████████████████████▌                | 14745/18831 [06:57<01:43, 39.61it/s]

 78%|███████████████████████████

 82%|██████████████████████████████████████████████████████████████▏             | 15402/18831 [07:13<01:20, 42.41it/s]

 82%|██████████████████████████████████████████████████████████████▏             | 15409/18831 [07:13<01:12, 46.94it/s]

 82%|██████████████████████████████████████████████████████████████▏             | 15414/18831 [07:13<01:22, 41.20it/s]

 82%|██████████████████████████████████████████████████████████████▏             | 15419/18831 [07:14<01:26, 39.38it/s]

 82%|██████████████████████████████████████████████████████████████▏             | 15424/18831 [07:14<01:39, 34.20it/s]

 82%|██████████████████████████████████████████████████████████████▎             | 15428/18831 [07:14<01:39, 34.29it/s]

 82%|██████████████████████████████████████████████████████████████▎             | 15433/18831 [07:14<01:39, 34.07it/s]

 82%|██████████████████████████████████████████████████████████████▎             | 15437/18831 [07:14<02:10, 25.99it/s]

 82%|███████████████████████████

 85%|████████████████████████████████████████████████████████████████▋           | 16022/18831 [07:32<01:04, 43.67it/s]

 85%|████████████████████████████████████████████████████████████████▋           | 16027/18831 [07:32<01:08, 40.84it/s]

 85%|████████████████████████████████████████████████████████████████▋           | 16032/18831 [07:32<01:11, 39.15it/s]

 85%|████████████████████████████████████████████████████████████████▋           | 16036/18831 [07:32<01:12, 38.39it/s]

 85%|████████████████████████████████████████████████████████████████▋           | 16041/18831 [07:32<01:08, 40.85it/s]

 85%|████████████████████████████████████████████████████████████████▊           | 16046/18831 [07:32<01:22, 33.77it/s]

 85%|████████████████████████████████████████████████████████████████▊           | 16052/18831 [07:33<01:15, 36.93it/s]

 85%|████████████████████████████████████████████████████████████████▊           | 16057/18831 [07:33<01:10, 39.60it/s]

 85%|███████████████████████████

 88%|███████████████████████████████████████████████████████████████████▏        | 16633/18831 [07:50<00:54, 40.20it/s]

 88%|███████████████████████████████████████████████████████████████████▏        | 16638/18831 [07:50<00:55, 39.76it/s]

 88%|███████████████████████████████████████████████████████████████████▏        | 16644/18831 [07:50<00:50, 43.28it/s]

 88%|███████████████████████████████████████████████████████████████████▏        | 16649/18831 [07:50<00:56, 38.44it/s]

 88%|███████████████████████████████████████████████████████████████████▏        | 16654/18831 [07:50<00:56, 38.36it/s]

 88%|███████████████████████████████████████████████████████████████████▏        | 16659/18831 [07:50<00:54, 40.15it/s]

 88%|███████████████████████████████████████████████████████████████████▎        | 16664/18831 [07:51<00:53, 40.69it/s]

 89%|███████████████████████████████████████████████████████████████████▎        | 16671/18831 [07:51<00:46, 46.44it/s]

 89%|███████████████████████████

 92%|█████████████████████████████████████████████████████████████████████▊      | 17308/18831 [08:08<00:40, 37.24it/s]

 92%|█████████████████████████████████████████████████████████████████████▊      | 17313/18831 [08:08<00:39, 38.12it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17319/18831 [08:08<00:38, 39.73it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17324/18831 [08:08<00:37, 39.91it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17329/18831 [08:08<00:38, 38.55it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17333/18831 [08:08<00:42, 35.64it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17337/18831 [08:09<00:51, 28.81it/s]

 92%|█████████████████████████████████████████████████████████████████████▉      | 17342/18831 [08:09<00:45, 32.49it/s]

 92%|███████████████████████████

 95%|████████████████████████████████████████████████████████████████████████▍   | 17963/18831 [08:26<00:20, 41.62it/s]

 95%|████████████████████████████████████████████████████████████████████████▌   | 17968/18831 [08:26<00:35, 24.61it/s]

 95%|████████████████████████████████████████████████████████████████████████▌   | 17973/18831 [08:26<00:31, 27.27it/s]

 95%|████████████████████████████████████████████████████████████████████████▌   | 17977/18831 [08:27<00:29, 29.23it/s]

 95%|████████████████████████████████████████████████████████████████████████▌   | 17982/18831 [08:27<00:26, 32.10it/s]

 96%|████████████████████████████████████████████████████████████████████████▌   | 17987/18831 [08:27<00:24, 35.06it/s]

 96%|████████████████████████████████████████████████████████████████████████▌   | 17993/18831 [08:27<00:22, 37.78it/s]

 96%|████████████████████████████████████████████████████████████████████████▋   | 17998/18831 [08:27<00:23, 35.94it/s]

 96%|███████████████████████████

 99%|███████████████████████████████████████████████████████████████████████████▏| 18641/18831 [08:44<00:07, 26.51it/s]

 99%|███████████████████████████████████████████████████████████████████████████▏| 18644/18831 [08:44<00:07, 25.44it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18649/18831 [08:44<00:06, 28.27it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18653/18831 [08:45<00:06, 28.66it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18658/18831 [08:45<00:05, 30.58it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18662/18831 [08:45<00:05, 30.99it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18667/18831 [08:45<00:04, 34.26it/s]

 99%|███████████████████████████████████████████████████████████████████████████▎| 18671/18831 [08:45<00:05, 29.60it/s]

 99%|███████████████████████████

  2%|█▋                                                                            | 405/18831 [00:11<09:17, 33.07it/s]

  2%|█▋                                                                            | 409/18831 [00:11<09:13, 33.31it/s]

  2%|█▋                                                                            | 413/18831 [00:11<09:30, 32.27it/s]

  2%|█▋                                                                            | 417/18831 [00:11<09:08, 33.56it/s]

  2%|█▋                                                                            | 421/18831 [00:12<09:04, 33.83it/s]

  2%|█▊                                                                            | 427/18831 [00:12<08:07, 37.75it/s]

  2%|█▊                                                                            | 431/18831 [00:12<08:36, 35.63it/s]

  2%|█▊                                                                            | 435/18831 [00:12<09:18, 32.92it/s]

  2%|█▊                         

ZeroDivisionError: float division by zero



  4%|██▋                                                                           | 663/18831 [00:29<09:43, 31.14it/s]

In [30]:
df['flesch'] = df['essay0'].progress_apply(get_flesch)




  0%|                                                                                        | 0/18831 [00:00<?, ?it/s]


  0%|                                                                                | 4/18831 [00:00<07:50, 40.00it/s]


  0%|                                                                                | 7/18831 [00:00<09:51, 31.84it/s]


  0%|                                                                               | 11/18831 [00:00<09:24, 33.32it/s]


  0%|                                                                               | 14/18831 [00:00<10:09, 30.86it/s]


  0%|                                                                               | 18/18831 [00:00<09:34, 32.72it/s]


  0%|                                                                               | 22/18831 [00:00<09:04, 34.52it/s]


  0%|                                                                               | 27/18831 [00:00<08:14, 38.06it/s]


  0%|▏               

  3%|██▌                                                                           | 610/18831 [00:17<09:51, 30.79it/s]


  3%|██▌                                                                           | 614/18831 [00:17<09:38, 31.51it/s]


  3%|██▌                                                                           | 618/18831 [00:18<09:20, 32.51it/s]


  3%|██▌                                                                           | 622/18831 [00:18<08:51, 34.26it/s]


  3%|██▌                                                                           | 626/18831 [00:18<10:50, 27.99it/s]


  3%|██▌                                                                           | 630/18831 [00:18<10:23, 29.21it/s]


  3%|██▋                                                                           | 634/18831 [00:18<10:16, 29.53it/s]


  3%|██▋                                                                           | 638/18831 [00:18<10:34, 28.67it/s]


  3%|██▋                

  7%|█████▏                                                                       | 1262/18831 [00:35<06:52, 42.56it/s]


  7%|█████▏                                                                       | 1267/18831 [00:35<06:34, 44.55it/s]


  7%|█████▏                                                                       | 1272/18831 [00:36<07:11, 40.67it/s]


  7%|█████▏                                                                       | 1277/18831 [00:36<07:56, 36.80it/s]


  7%|█████▏                                                                       | 1281/18831 [00:36<09:16, 31.55it/s]


  7%|█████▎                                                                       | 1285/18831 [00:36<10:49, 27.00it/s]


  7%|█████▎                                                                       | 1288/18831 [00:36<11:07, 26.30it/s]


  7%|█████▎                                                                       | 1294/18831 [00:36<09:15, 31.58it/s]


  7%|█████▎             

 10%|███████▊                                                                     | 1907/18831 [00:53<07:32, 37.41it/s]


 10%|███████▊                                                                     | 1911/18831 [00:54<08:14, 34.23it/s]


 10%|███████▊                                                                     | 1916/18831 [00:54<07:35, 37.14it/s]


 10%|███████▊                                                                     | 1923/18831 [00:54<06:32, 43.06it/s]


 10%|███████▉                                                                     | 1930/18831 [00:54<06:00, 46.83it/s]


 10%|███████▉                                                                     | 1936/18831 [00:54<06:43, 41.84it/s]


 10%|███████▉                                                                     | 1941/18831 [00:54<06:34, 42.86it/s]


 10%|███████▉                                                                     | 1946/18831 [00:54<06:24, 43.96it/s]


 10%|███████▉           

 14%|██████████▍                                                                  | 2561/18831 [01:12<07:47, 34.84it/s]


 14%|██████████▍                                                                  | 2565/18831 [01:12<07:28, 36.24it/s]


 14%|██████████▌                                                                  | 2570/18831 [01:12<06:53, 39.31it/s]


 14%|██████████▌                                                                  | 2578/18831 [01:12<05:50, 46.31it/s]


 14%|██████████▌                                                                  | 2584/18831 [01:12<06:10, 43.83it/s]


 14%|██████████▌                                                                  | 2589/18831 [01:13<06:27, 41.86it/s]


 14%|██████████▌                                                                  | 2594/18831 [01:13<06:51, 39.43it/s]


 14%|██████████▋                                                                  | 2599/18831 [01:13<07:32, 35.85it/s]


 14%|██████████▋        

 17%|█████████████                                                                | 3190/18831 [01:30<10:03, 25.91it/s]


 17%|█████████████                                                                | 3195/18831 [01:30<09:27, 27.54it/s]


 17%|█████████████                                                                | 3198/18831 [01:30<10:11, 25.56it/s]


 17%|█████████████                                                                | 3201/18831 [01:30<09:44, 26.75it/s]


 17%|█████████████                                                                | 3205/18831 [01:31<08:57, 29.05it/s]


 17%|█████████████                                                                | 3209/18831 [01:31<08:47, 29.61it/s]


 17%|█████████████▏                                                               | 3213/18831 [01:31<08:19, 31.29it/s]


 17%|█████████████▏                                                               | 3217/18831 [01:31<07:51, 33.14it/s]


 17%|█████████████▏     

 20%|███████████████▍                                                             | 3775/18831 [01:49<10:44, 23.37it/s]


 20%|███████████████▍                                                             | 3778/18831 [01:49<11:40, 21.48it/s]


 20%|███████████████▍                                                             | 3781/18831 [01:49<12:44, 19.69it/s]


 20%|███████████████▍                                                             | 3785/18831 [01:50<11:55, 21.03it/s]


 20%|███████████████▍                                                             | 3788/18831 [01:50<11:18, 22.18it/s]


 20%|███████████████▌                                                             | 3791/18831 [01:50<11:22, 22.05it/s]


 20%|███████████████▌                                                             | 3796/18831 [01:50<09:53, 25.32it/s]


 20%|███████████████▌                                                             | 3799/18831 [01:50<09:34, 26.15it/s]


 20%|███████████████▌   

 23%|█████████████████▉                                                           | 4381/18831 [02:08<07:18, 32.95it/s]


 23%|█████████████████▉                                                           | 4386/18831 [02:08<06:36, 36.47it/s]


 23%|█████████████████▉                                                           | 4390/18831 [02:08<06:35, 36.54it/s]


 23%|█████████████████▉                                                           | 4396/18831 [02:08<06:01, 39.90it/s]


 23%|█████████████████▉                                                           | 4401/18831 [02:08<05:50, 41.22it/s]


 23%|██████████████████                                                           | 4407/18831 [02:08<05:27, 44.09it/s]


 23%|██████████████████                                                           | 4412/18831 [02:08<06:03, 39.62it/s]


 23%|██████████████████                                                           | 4417/18831 [02:08<06:05, 39.45it/s]


 23%|██████████████████ 

 27%|████████████████████▌                                                        | 5034/18831 [02:26<05:35, 41.10it/s]


 27%|████████████████████▌                                                        | 5039/18831 [02:26<06:07, 37.54it/s]


 27%|████████████████████▌                                                        | 5044/18831 [02:26<06:04, 37.82it/s]


 27%|████████████████████▋                                                        | 5051/18831 [02:26<05:18, 43.22it/s]


 27%|████████████████████▋                                                        | 5056/18831 [02:26<05:26, 42.20it/s]


 27%|████████████████████▋                                                        | 5062/18831 [02:26<04:59, 45.90it/s]


 27%|████████████████████▋                                                        | 5067/18831 [02:27<05:02, 45.51it/s]


 27%|████████████████████▋                                                        | 5072/18831 [02:27<07:22, 31.08it/s]


 27%|███████████████████

 30%|███████████████████████▎                                                     | 5690/18831 [02:44<06:41, 32.72it/s]


 30%|███████████████████████▎                                                     | 5695/18831 [02:44<06:12, 35.27it/s]


 30%|███████████████████████▎                                                     | 5700/18831 [02:44<05:43, 38.24it/s]


 30%|███████████████████████▎                                                     | 5704/18831 [02:44<06:27, 33.92it/s]


 30%|███████████████████████▎                                                     | 5709/18831 [02:44<05:51, 37.37it/s]


 30%|███████████████████████▎                                                     | 5714/18831 [02:44<05:30, 39.67it/s]


 30%|███████████████████████▍                                                     | 5719/18831 [02:44<05:43, 38.22it/s]


 30%|███████████████████████▍                                                     | 5723/18831 [02:45<06:04, 35.92it/s]


 30%|███████████████████

 34%|█████████████████████████▉                                                   | 6351/18831 [03:02<04:55, 42.29it/s]


 34%|█████████████████████████▉                                                   | 6356/18831 [03:02<05:10, 40.17it/s]


 34%|██████████████████████████                                                   | 6361/18831 [03:02<05:16, 39.36it/s]


 34%|██████████████████████████                                                   | 6365/18831 [03:02<05:51, 35.45it/s]


 34%|██████████████████████████                                                   | 6369/18831 [03:02<06:12, 33.48it/s]


 34%|██████████████████████████                                                   | 6376/18831 [03:02<05:19, 38.96it/s]


 34%|██████████████████████████                                                   | 6381/18831 [03:02<05:20, 38.90it/s]


 34%|██████████████████████████                                                   | 6386/18831 [03:03<05:42, 36.32it/s]


 34%|███████████████████

 37%|████████████████████████████▋                                                | 7031/18831 [03:19<04:56, 39.79it/s]


 37%|████████████████████████████▊                                                | 7036/18831 [03:20<05:37, 35.00it/s]


 37%|████████████████████████████▊                                                | 7040/18831 [03:20<05:51, 33.53it/s]


 37%|████████████████████████████▊                                                | 7044/18831 [03:20<05:55, 33.13it/s]


 37%|████████████████████████████▊                                                | 7050/18831 [03:20<05:14, 37.49it/s]


 37%|████████████████████████████▊                                                | 7055/18831 [03:20<05:18, 37.02it/s]


 37%|████████████████████████████▊                                                | 7059/18831 [03:20<05:32, 35.45it/s]


 38%|████████████████████████████▉                                                | 7063/18831 [03:20<06:08, 31.95it/s]


 38%|███████████████████

 41%|███████████████████████████████▎                                             | 7644/18831 [03:38<06:11, 30.08it/s]


 41%|███████████████████████████████▎                                             | 7648/18831 [03:38<05:44, 32.50it/s]


 41%|███████████████████████████████▎                                             | 7652/18831 [03:38<06:44, 27.65it/s]


 41%|███████████████████████████████▎                                             | 7658/18831 [03:38<05:56, 31.38it/s]


 41%|███████████████████████████████▎                                             | 7662/18831 [03:38<05:40, 32.81it/s]


 41%|███████████████████████████████▎                                             | 7666/18831 [03:38<05:24, 34.41it/s]


 41%|███████████████████████████████▎                                             | 7670/18831 [03:38<05:42, 32.58it/s]


 41%|███████████████████████████████▍                                             | 7674/18831 [03:39<07:50, 23.71it/s]


 41%|███████████████████

 44%|█████████████████████████████████▊                                           | 8266/18831 [03:56<05:09, 34.09it/s]


 44%|█████████████████████████████████▊                                           | 8274/18831 [03:56<04:23, 40.13it/s]


 44%|█████████████████████████████████▊                                           | 8280/18831 [03:56<04:18, 40.82it/s]


 44%|█████████████████████████████████▉                                           | 8285/18831 [03:56<04:51, 36.17it/s]


 44%|█████████████████████████████████▉                                           | 8290/18831 [03:56<05:53, 29.79it/s]


 44%|█████████████████████████████████▉                                           | 8294/18831 [03:57<06:59, 25.09it/s]


 44%|█████████████████████████████████▉                                           | 8297/18831 [03:57<07:20, 23.93it/s]


 44%|█████████████████████████████████▉                                           | 8300/18831 [03:57<07:47, 22.54it/s]


 44%|███████████████████

 47%|████████████████████████████████████▌                                        | 8934/18831 [04:13<03:37, 45.51it/s]


 47%|████████████████████████████████████▌                                        | 8939/18831 [04:14<03:35, 45.87it/s]


 47%|████████████████████████████████████▌                                        | 8944/18831 [04:14<04:24, 37.43it/s]


 48%|████████████████████████████████████▌                                        | 8949/18831 [04:14<04:53, 33.69it/s]


 48%|████████████████████████████████████▌                                        | 8953/18831 [04:14<04:49, 34.09it/s]


 48%|████████████████████████████████████▋                                        | 8957/18831 [04:14<05:05, 32.30it/s]


 48%|████████████████████████████████████▋                                        | 8961/18831 [04:14<05:06, 32.21it/s]


 48%|████████████████████████████████████▋                                        | 8965/18831 [04:14<04:50, 33.95it/s]


 48%|███████████████████

 51%|███████████████████████████████████████▏                                     | 9589/18831 [04:31<04:11, 36.76it/s]


 51%|███████████████████████████████████████▏                                     | 9595/18831 [04:31<03:49, 40.17it/s]


 51%|███████████████████████████████████████▎                                     | 9600/18831 [04:31<03:47, 40.51it/s]


 51%|███████████████████████████████████████▎                                     | 9605/18831 [04:32<03:45, 40.95it/s]


 51%|███████████████████████████████████████▎                                     | 9611/18831 [04:32<03:33, 43.15it/s]


 51%|███████████████████████████████████████▎                                     | 9616/18831 [04:32<03:38, 42.15it/s]


 51%|███████████████████████████████████████▎                                     | 9621/18831 [04:32<04:16, 35.86it/s]


 51%|███████████████████████████████████████▎                                     | 9625/18831 [04:32<04:18, 35.62it/s]


 51%|███████████████████

 54%|█████████████████████████████████████████▍                                  | 10255/18831 [04:49<04:08, 34.47it/s]


 54%|█████████████████████████████████████████▍                                  | 10259/18831 [04:49<04:15, 33.60it/s]


 55%|█████████████████████████████████████████▍                                  | 10263/18831 [04:49<04:06, 34.75it/s]


 55%|█████████████████████████████████████████▍                                  | 10267/18831 [04:49<04:23, 32.47it/s]


 55%|█████████████████████████████████████████▍                                  | 10272/18831 [04:49<04:02, 35.36it/s]


 55%|█████████████████████████████████████████▍                                  | 10276/18831 [04:49<03:59, 35.66it/s]


 55%|█████████████████████████████████████████▍                                  | 10280/18831 [04:49<04:05, 34.83it/s]


 55%|█████████████████████████████████████████▌                                  | 10284/18831 [04:50<04:13, 33.76it/s]


 55%|███████████████████

 58%|███████████████████████████████████████████▉                                | 10890/18831 [05:06<04:34, 28.97it/s]


 58%|███████████████████████████████████████████▉                                | 10894/18831 [05:07<04:13, 31.36it/s]


 58%|███████████████████████████████████████████▉                                | 10900/18831 [05:07<03:50, 34.46it/s]


 58%|████████████████████████████████████████████                                | 10904/18831 [05:07<03:57, 33.34it/s]


 58%|████████████████████████████████████████████                                | 10909/18831 [05:07<03:45, 35.09it/s]


 58%|████████████████████████████████████████████                                | 10915/18831 [05:07<03:29, 37.81it/s]


 58%|████████████████████████████████████████████                                | 10919/18831 [05:07<03:36, 36.55it/s]


 58%|████████████████████████████████████████████                                | 10924/18831 [05:07<03:20, 39.47it/s]


 58%|███████████████████

 61%|██████████████████████████████████████████████▌                             | 11533/18831 [05:25<03:18, 36.78it/s]


 61%|██████████████████████████████████████████████▌                             | 11537/18831 [05:25<03:33, 34.21it/s]


 61%|██████████████████████████████████████████████▌                             | 11541/18831 [05:25<04:02, 30.04it/s]


 61%|██████████████████████████████████████████████▌                             | 11545/18831 [05:25<04:28, 27.17it/s]


 61%|██████████████████████████████████████████████▌                             | 11551/18831 [05:25<03:50, 31.59it/s]


 61%|██████████████████████████████████████████████▋                             | 11555/18831 [05:25<03:37, 33.46it/s]


 61%|██████████████████████████████████████████████▋                             | 11559/18831 [05:25<04:11, 28.86it/s]


 61%|██████████████████████████████████████████████▋                             | 11564/18831 [05:26<03:42, 32.73it/s]


 61%|███████████████████

 64%|████████████████████████████████████████████████▉                           | 12137/18831 [05:43<03:35, 31.08it/s]


 64%|████████████████████████████████████████████████▉                           | 12141/18831 [05:43<03:36, 30.92it/s]


 64%|█████████████████████████████████████████████████                           | 12145/18831 [05:43<03:39, 30.52it/s]


 65%|█████████████████████████████████████████████████                           | 12149/18831 [05:43<03:47, 29.38it/s]


 65%|█████████████████████████████████████████████████                           | 12153/18831 [05:43<03:29, 31.92it/s]


 65%|█████████████████████████████████████████████████                           | 12159/18831 [05:44<03:17, 33.87it/s]


 65%|█████████████████████████████████████████████████                           | 12165/18831 [05:44<02:59, 37.22it/s]


 65%|█████████████████████████████████████████████████                           | 12169/18831 [05:44<03:15, 34.12it/s]


 65%|███████████████████

 68%|███████████████████████████████████████████████████▌                        | 12772/18831 [06:01<02:48, 35.93it/s]


 68%|███████████████████████████████████████████████████▌                        | 12776/18831 [06:01<02:52, 35.20it/s]


 68%|███████████████████████████████████████████████████▌                        | 12781/18831 [06:01<02:37, 38.36it/s]


 68%|███████████████████████████████████████████████████▌                        | 12785/18831 [06:01<02:46, 36.40it/s]


 68%|███████████████████████████████████████████████████▌                        | 12789/18831 [06:02<03:13, 31.20it/s]


 68%|███████████████████████████████████████████████████▋                        | 12794/18831 [06:02<02:54, 34.65it/s]


 68%|███████████████████████████████████████████████████▋                        | 12798/18831 [06:02<02:55, 34.34it/s]


 68%|███████████████████████████████████████████████████▋                        | 12804/18831 [06:02<02:38, 38.12it/s]


 68%|███████████████████

 71%|██████████████████████████████████████████████████████                      | 13397/18831 [06:19<02:40, 33.89it/s]


 71%|██████████████████████████████████████████████████████                      | 13401/18831 [06:19<02:36, 34.59it/s]


 71%|██████████████████████████████████████████████████████                      | 13407/18831 [06:19<02:23, 37.83it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13412/18831 [06:20<02:22, 37.93it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13418/18831 [06:20<02:10, 41.40it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13423/18831 [06:20<02:16, 39.51it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13428/18831 [06:20<02:10, 41.33it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13433/18831 [06:20<02:21, 38.20it/s]


 71%|███████████████████

 74%|████████████████████████████████████████████████████████▏                   | 13936/18831 [06:38<02:41, 30.29it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13941/18831 [06:38<02:22, 34.28it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13945/18831 [06:38<02:19, 34.97it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13951/18831 [06:39<02:22, 34.17it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13955/18831 [06:39<02:46, 29.23it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13959/18831 [06:39<02:59, 27.19it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13962/18831 [06:39<03:21, 24.13it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13965/18831 [06:39<04:19, 18.72it/s]


 74%|███████████████████

 77%|██████████████████████████████████████████████████████████▍                 | 14488/18831 [06:57<01:59, 36.47it/s]


 77%|██████████████████████████████████████████████████████████▍                 | 14494/18831 [06:57<01:45, 41.24it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14499/18831 [06:57<01:59, 36.25it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14504/18831 [06:57<01:52, 38.59it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14509/18831 [06:57<01:56, 37.01it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14513/18831 [06:58<02:04, 34.80it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14518/18831 [06:58<01:54, 37.77it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14523/18831 [06:58<01:47, 40.17it/s]


 77%|███████████████████

 80%|█████████████████████████████████████████████████████████████▏              | 15153/18831 [07:14<01:39, 36.92it/s]


 81%|█████████████████████████████████████████████████████████████▏              | 15159/18831 [07:14<01:28, 41.30it/s]


 81%|█████████████████████████████████████████████████████████████▏              | 15164/18831 [07:15<01:24, 43.35it/s]


 81%|█████████████████████████████████████████████████████████████▏              | 15169/18831 [07:15<01:32, 39.77it/s]


 81%|█████████████████████████████████████████████████████████████▏              | 15174/18831 [07:15<01:33, 39.27it/s]


 81%|█████████████████████████████████████████████████████████████▎              | 15179/18831 [07:15<01:32, 39.68it/s]


 81%|█████████████████████████████████████████████████████████████▎              | 15184/18831 [07:15<01:31, 39.96it/s]


 81%|█████████████████████████████████████████████████████████████▎              | 15190/18831 [07:15<01:24, 42.89it/s]


 81%|███████████████████

 83%|███████████████████████████████████████████████████████████████▎            | 15680/18831 [07:34<02:49, 18.55it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15683/18831 [07:34<03:19, 15.76it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15685/18831 [07:34<03:18, 15.87it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15688/18831 [07:34<03:02, 17.18it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15693/18831 [07:35<02:37, 19.86it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15696/18831 [07:35<02:30, 20.82it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15699/18831 [07:35<02:29, 21.00it/s]


 83%|███████████████████████████████████████████████████████████████▍            | 15705/18831 [07:35<02:06, 24.73it/s]


 83%|███████████████████

 86%|█████████████████████████████████████████████████████████████████▌          | 16243/18831 [07:54<01:16, 33.82it/s]


 86%|█████████████████████████████████████████████████████████████████▌          | 16247/18831 [07:54<01:18, 32.93it/s]


 86%|█████████████████████████████████████████████████████████████████▌          | 16251/18831 [07:54<01:17, 33.30it/s]


 86%|█████████████████████████████████████████████████████████████████▌          | 16255/18831 [07:54<01:14, 34.42it/s]


 86%|█████████████████████████████████████████████████████████████████▌          | 16259/18831 [07:54<01:14, 34.44it/s]


 86%|█████████████████████████████████████████████████████████████████▋          | 16263/18831 [07:54<01:24, 30.24it/s]


 86%|█████████████████████████████████████████████████████████████████▋          | 16267/18831 [07:54<01:21, 31.32it/s]


 86%|█████████████████████████████████████████████████████████████████▋          | 16272/18831 [07:54<01:18, 32.78it/s]


 86%|███████████████████

 89%|███████████████████████████████████████████████████████████████████▉        | 16847/18831 [08:12<01:01, 32.51it/s]


 89%|████████████████████████████████████████████████████████████████████        | 16852/18831 [08:12<00:59, 33.01it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16856/18831 [08:12<00:58, 33.69it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16862/18831 [08:12<00:55, 35.43it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16866/18831 [08:13<00:53, 36.59it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16870/18831 [08:13<00:58, 33.75it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16874/18831 [08:13<01:02, 31.33it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16878/18831 [08:13<01:03, 30.52it/s]


 90%|███████████████████

 93%|██████████████████████████████████████████████████████████████████████▌     | 17492/18831 [08:30<00:37, 35.28it/s]


 93%|██████████████████████████████████████████████████████████████████████▌     | 17497/18831 [08:30<00:36, 36.89it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17501/18831 [08:30<00:35, 37.45it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17506/18831 [08:30<00:33, 39.93it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17511/18831 [08:30<00:31, 42.39it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17516/18831 [08:30<00:31, 41.74it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17523/18831 [08:31<00:28, 46.46it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17528/18831 [08:31<00:29, 44.08it/s]


 93%|███████████████████

 96%|█████████████████████████████████████████████████████████████████████████▏  | 18130/18831 [08:48<00:19, 35.65it/s]


 96%|█████████████████████████████████████████████████████████████████████████▏  | 18135/18831 [08:48<00:18, 38.11it/s]


 96%|█████████████████████████████████████████████████████████████████████████▏  | 18140/18831 [08:48<00:22, 31.21it/s]


 96%|█████████████████████████████████████████████████████████████████████████▏  | 18144/18831 [08:48<00:21, 32.51it/s]


 96%|█████████████████████████████████████████████████████████████████████████▏  | 18149/18831 [08:48<00:19, 35.17it/s]


 96%|█████████████████████████████████████████████████████████████████████████▎  | 18155/18831 [08:49<00:19, 34.90it/s]


 96%|█████████████████████████████████████████████████████████████████████████▎  | 18159/18831 [08:49<00:18, 36.00it/s]


 96%|█████████████████████████████████████████████████████████████████████████▎  | 18163/18831 [08:49<00:19, 34.34it/s]


 96%|███████████████████

100%|███████████████████████████████████████████████████████████████████████████▊| 18797/18831 [09:06<00:00, 39.87it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18802/18831 [09:06<00:00, 39.72it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18807/18831 [09:06<00:00, 39.24it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18811/18831 [09:06<00:00, 36.74it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18815/18831 [09:06<00:00, 35.46it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18821/18831 [09:06<00:00, 39.08it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18827/18831 [09:06<00:00, 42.17it/s]


100%|████████████████████████████████████████████████████████████████████████████| 18831/18831 [09:07<00:00, 34.42it/s]

In [35]:
df.to_csv('compressed_okcupid.csv')