# Data Filter
### The purpose of this notebook is four-fold:
1) Filter data to only the relevant rows

2) Delete the unnecessary columns

3) Suitably edit the text to allow for topic modeling

4) Create new variables to assist with demographic comparisons of topics


In [44]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
# For Data Cleaning
from bs4 import BeautifulSoup
from split_utils import *
from text_complexity_utils import get_npoly, get_flesch

#General Imports
from tqdm import tqdm
tqdm.pandas()

In [45]:
#correct subset of data
df = pd.read_csv('../profiles.csv/profiles.csv')
df = df[(df['sex']=="m")
        &(df['orientation']=="straight") 
        & (df['status']=="single")]

In [46]:
df.shape

(29163, 31)

In [47]:
# Some of the essays have just a link in the text. BeautifulSoup sees that and gets 
# the wrong idea. This line hides those warnings.
warnings.filterwarnings("ignore", category=UserWarning, module='bs4')
def clean(text):
    """
    Removes all null values
    """
    if pd.isnull(text):
        t = np.nan
    else:
        t = BeautifulSoup(text, 'lxml').get_text()
        t = t.lower()
        t = t.strip().replace('\n','').replace("\r", " ").replace('\t', '')
        bad_words = ['http', 'www', '\nnan']

        for b in bad_words:
            t = t.replace(b, '')
    if t == '':
        t = np.nan
    
    return t

#Clearing out all HTML and unnecessary characters
df['essay0'] = df['essay0'].progress_apply(clean)

100%|██████████████████████████████████████████████████████████████████████████| 29163/29163 [00:08<00:00, 3640.84it/s]


In [48]:
must_haves = ['body_type', 'height', 'education', 'ethnicity', 'sex', 'essay0', 'essay9']
df = df.dropna(subset= must_haves)
df = df.drop(columns=['essay1', 'essay2', 'essay3','essay4','essay5','essay6','essay7',
                      'essay8', 'essay9', 'income','job','last_online','location','offspring',
                      'orientation','pets','religion','sex','sign','smokes','speaks','status',
                      'diet', 'drinks', 'drugs'])

In [49]:
df.shape

(17663, 6)

### Fix Conjoined Words

### CREATING NEW COLUMNS


Many of the sections here are taken directly from the following link, with specific modifications
Taken directly from:
https://github.com/UM-CSS/CSSLabs-NLP/blob/master/1_Data_munging.ipynb

In [50]:
def recode(text, dictionary, default=np.nan):
    '''Function for recoding categories in a column based on exact matches'''
    out = default
    text = str(text)
    
    for x in dictionary.keys():
        for y in dictionary[x]:
            if y == text: #exact match
                out = x
                return out
    return out

def recode_fuzzy(text, dictionary, default=np.nan):
    '''Function for recoding categories in a column based on partial matches'''
    out = default
    text = str(text)
    
    for x in dictionary.keys():
        for y in dictionary[x]:
            if y in text: #partial match
                out = x
                return out
    return out

In [51]:
ed_levels = {'High School or less': ['dropped out of high school', 'working on high school','graduated from high school', 'working on college/university', 
                    'two-year college', 'dropped out of college/university', 
                    'high school'], 
             'More than High School': ['graduated from college/university', 
                    'working on masters program', 'working on ph.d program', 
                    'college/university', 'working on law school', 
                    'dropped out of masters program', 
                    'dropped out of ph.d program', 'dropped out of law school', 
                    'dropped out of med school',
                    'graduated from masters program',
                    'graduated from ph.d program',                           
                    'graduated from law school', 
                    'graduated from med school', 'masters program', 
                    'ph.d program', 'law school', 'med school']}

#body type
bodies = {'fit': ['fit', 'athletic', 'jacked'], 
          'not_fit': ['average', 'thin', 'skinny','curvey', 'a little extra', 
                      'full figured', 'overweight', 'rather not say', 'used up']
         }

In [52]:
df['edu'] = df.education.apply(recode, dictionary=ed_levels, 
                                            default='unknown')
df['fit'] = df.body_type.apply(recode, dictionary=bodies, 
                                            default='unknown')

In [53]:
# race/ethnicity for exact matching
ethn = {'White': ['white', 'middle eastern', 'middle eastern, white'], 
        'Asian': ['asian', 'indian', 'asian, pacific islander'], 
        'Black': ['black']       }   

# race/ethnicityfor fuzzy matching
ethn2 = {'Latinx': ['latin'], 'multiple': [','], np.nan: ['nan']}

In [54]:
def census_2010_ethnicity(t):
    text = str(t)
    e = recode(text, ethn, default='other')
    if 'other' == e:
        e = recode_fuzzy(text, ethn2, default='other')
    return e

df['race_ethnicity'] = df.ethnicity.apply(census_2010_ethnicity)

In [55]:
def height_check(inches):
    h = 'not_short'
    if inches <= 69:
        h = 'short'
    return h
df['height'] = pd.to_numeric(df['height'])
df['height_group'] = df.height.apply(height_check)

In [56]:
#Now drop the original variables
df.drop(columns=['body_type', 'ethnicity','height','education'], inplace=True)

In [57]:
df.to_csv('profiles_filtered.csv')

## TEXT EDITING

In [75]:
import re
from spellchecker import SpellChecker
import string
import wordninja

corrections ={r"won\'t": "will not",
              r"can\'t": "can not",
              r"n\'t": " not",
              r"\'re": " are",
              r"\'s": " is",
              r"\'d": " would",
              r"\'ll": " will",
              r"\'t": " not",
              r"\'ve": " have",
              r"\'m": " am"}

spellcheck = SpellChecker()

def decontract(phrase): 
 
    for k,v in corrections.items():
        phrase = re.sub(k, v, phrase)
    return phrase

def split_word(compound_word):
    '''
    Takes in compound word
    Splits it into individual words
    Returns string with spaced words
    '''
    sep_words = wordninja.split(compound_word)
    print("the separated words are {}".format(sep_words))
    return " ".join(sep_words)

def replace_nearest(word):
    """
    Replaces incorrect words with the closest correct one
    If no such word is found, commence splitting in split_word
    """    
    nearest = spellcheck.correction(word)
    #When there is no valid word, the nearest word
    #is the same as the original
    if word == nearest:
        print('Failed to split this word:{}'.format(word))
        #This implies we need to try splitting it
        return split_word(word)
    return nearest
    
def split_incorrect(text):
    '''
    Takes in a long string
    The punctuation parameter checks if punctuation marks are to
    be preserved
    Splits into component words, checks for incorrect spellings
    For incorrect spellings, checks if is possibly compound
    If not, then looks for the closest one word in the dictionary
    Returns the entire text with all words corrected
    '''
    #Remove all punctuatuon
    decontracted = decontract(text)
    no_punct = decontracted.translate(str.maketrans('', '', string.punctuation))
    words = no_punct.split()
    # replace contractions
    fixed_words =[replace_nearest(word) if not spellcheck[word] else word for word in words]
    # flatten the list to allow for join
    final = " ".join(fixed_words)
    return final

In [77]:
test_essay = "about me:i would love to think that i was some some kind of intellectual:either the dumbest smart guy, or the smartest dumb guy. can't say ican tell the difference. i love to talk about ideas and concepts. iforge odd metaphors instead of reciting cliches. like thesimularities between a friend of mine's house and an underwatersalt mine. my favorite word is salt by the way (weird choice iknow). to me most things in life are better as metaphors. i seek tomake myself a little better everyday, in some productively lazyway. got tired of tying my shoes. considered hiring a five yearold, but would probably have to tie both of our shoes... decided toonly wear leather shoes dress shoes.about you:you love to have really serious, really deep conversations aboutreally silly stuff. you have to be willing to snap me out of alight hearted rant with a kiss. you don't have to be funny, but youhave to be able to make me laugh. you should be able to bend spoonswith your mind, and telepathically make me smile while i am stillat work. you should love life, and be cool with just letting thewind blow. extra points for reading all this and guessing myfavorite video game (no hints given yet). and lastly you have agood attention span."
test_essay_2="i just moved to the bay area from austin, tx (originally fromlouisiana). i do audio programming for video games, and juststarted at a game studio out here. yes, i am a bit of a nerdyprogrammer, but i don't have it stamped across my forehead - idon't even really play video games all that often. i actuallycreate/play music way more often in my spare time.i'm starting a new life here in ca and really excited about it. ionly knew one person in this area when i moved here, but i wasn'tworried - i always make friends pretty quickly. in every city i'velived, i've made at least a few life-long friends. i'm definitelylooking to do the same thing here.i'm a very easy to get along with kind of person. i always try toavoid over-complication. i have no time for bullshit, and i wouldexpect the same from anyone i'm close to and/or respect.i'm very much into doing things outside and living a healthy/fitlifestyle. i'm really looking forward to doing some camping,backpacking, biking, etc in ca. i also really enjoy going out for anice meal and some tasty cocktails or beer, or doing the musicnightlife thing. i dj (drum n bass) from time to time, and i'vealready landed a few gigs in the bay area. i'm very much involvedin dnb and other electronic genres, but i love live music just asmuch.basically ... life, to me, is about working hard and playing hard.i've made a lot of sacrifices and invested much effort to getmyself into an industry where those two can often overlap, which issomething i'm fairly proud of myself for. i've learned a lot ofcool stuff so far and i plan to continue doing that. i'm prettyexcited to see where that will take me :d"

In [78]:
split_incorrect(test_essay_2)

Failed to split this word:fromlouisiana
the separated words are ['from', 'louisiana']
Failed to split this word:juststarted
the separated words are ['just', 'started']
Failed to split this word:nerdyprogrammer
the separated words are ['nerdy', 'programmer']
Failed to split this word:actuallycreateplay
the separated words are ['actually', 'create', 'play']
Failed to split this word:notworried
the separated words are ['not', 'worried']
Failed to split this word:havelived
the separated words are ['have', 'lived']
Failed to split this word:definitelylooking
the separated words are ['definitely', 'looking']
Failed to split this word:overcomplication
the separated words are ['over', 'complication']
Failed to split this word:wouldexpect
the separated words are ['would', 'expect']
Failed to split this word:healthyfitlifestyle
the separated words are ['healthy', 'fit', 'lifestyle']
Failed to split this word:campingbackpacking
the separated words are ['camping', 'backpacking']
Failed to split th

'i just moved to the bay area from austin tx originally from louisiana i do audio programming for video games and just started at a game studio out here yes i am a bit of a nerdy programmer but i do not have it stamped across my forehead ido not even really play video games all that often i actually create play music way more often in my spare time am starting a new life here in ca and really excited about it only knew one person in this area when i moved here but i was not worried i always make friends pretty quickly in every city i have lived i have made at least a few lifelong friends i am definitely looking to do the same thing here am a very easy to get along with kind of person i always try avoid over complication i have no time for bullshit and i would expect the same from anyone i am close to and/or respect am very much into doing things outside and living a healthy fit lifestyle i am really looking forward to doing some camping backpacking biking etc in ca i also really enjoy 

In [43]:
# First, fix conjoined words in the essay
# This may take up to 10 minutes
df['essay0'] = df['essay0'].progress_apply(split_incorrect)

  0%|                                                                                        | 0/17663 [00:00<?, ?it/s]

The compound word is intellectualeither
The compound word is thesimularities
The compound word is underwatersalt
The compound word is shoesabout
The compound word is aboutreally
The compound word is youhave
The compound word is spoonswith


  0%|                                                                             | 1/17663 [00:19<95:08:04, 19.39s/it]


TypeError: sequence item 13: expected str instance, list found

In [27]:
df['long_words'] = df['essay0'].progress_apply(get_npoly)

  1%|▊                                                                             | 197/17663 [00:07<10:21, 28.12it/s]


KeyboardInterrupt: 

In [30]:
df['flesch'] = df['essay0'].progress_apply(get_flesch)




  0%|                                                                                        | 0/18831 [00:00<?, ?it/s]


  0%|                                                                                | 4/18831 [00:00<07:50, 40.00it/s]


  0%|                                                                                | 7/18831 [00:00<09:51, 31.84it/s]


  0%|                                                                               | 11/18831 [00:00<09:24, 33.32it/s]


  0%|                                                                               | 14/18831 [00:00<10:09, 30.86it/s]


  0%|                                                                               | 18/18831 [00:00<09:34, 32.72it/s]


  0%|                                                                               | 22/18831 [00:00<09:04, 34.52it/s]


  0%|                                                                               | 27/18831 [00:00<08:14, 38.06it/s]


  0%|▏               

  3%|██▌                                                                           | 610/18831 [00:17<09:51, 30.79it/s]


  3%|██▌                                                                           | 614/18831 [00:17<09:38, 31.51it/s]


  3%|██▌                                                                           | 618/18831 [00:18<09:20, 32.51it/s]


  3%|██▌                                                                           | 622/18831 [00:18<08:51, 34.26it/s]


  3%|██▌                                                                           | 626/18831 [00:18<10:50, 27.99it/s]


  3%|██▌                                                                           | 630/18831 [00:18<10:23, 29.21it/s]


  3%|██▋                                                                           | 634/18831 [00:18<10:16, 29.53it/s]


  3%|██▋                                                                           | 638/18831 [00:18<10:34, 28.67it/s]


  3%|██▋                

  7%|█████▏                                                                       | 1262/18831 [00:35<06:52, 42.56it/s]


  7%|█████▏                                                                       | 1267/18831 [00:35<06:34, 44.55it/s]


  7%|█████▏                                                                       | 1272/18831 [00:36<07:11, 40.67it/s]


  7%|█████▏                                                                       | 1277/18831 [00:36<07:56, 36.80it/s]


  7%|█████▏                                                                       | 1281/18831 [00:36<09:16, 31.55it/s]


  7%|█████▎                                                                       | 1285/18831 [00:36<10:49, 27.00it/s]


  7%|█████▎                                                                       | 1288/18831 [00:36<11:07, 26.30it/s]


  7%|█████▎                                                                       | 1294/18831 [00:36<09:15, 31.58it/s]


  7%|█████▎             

 10%|███████▊                                                                     | 1907/18831 [00:53<07:32, 37.41it/s]


 10%|███████▊                                                                     | 1911/18831 [00:54<08:14, 34.23it/s]


 10%|███████▊                                                                     | 1916/18831 [00:54<07:35, 37.14it/s]


 10%|███████▊                                                                     | 1923/18831 [00:54<06:32, 43.06it/s]


 10%|███████▉                                                                     | 1930/18831 [00:54<06:00, 46.83it/s]


 10%|███████▉                                                                     | 1936/18831 [00:54<06:43, 41.84it/s]


 10%|███████▉                                                                     | 1941/18831 [00:54<06:34, 42.86it/s]


 10%|███████▉                                                                     | 1946/18831 [00:54<06:24, 43.96it/s]


 10%|███████▉           

 14%|██████████▍                                                                  | 2561/18831 [01:12<07:47, 34.84it/s]


 14%|██████████▍                                                                  | 2565/18831 [01:12<07:28, 36.24it/s]


 14%|██████████▌                                                                  | 2570/18831 [01:12<06:53, 39.31it/s]


 14%|██████████▌                                                                  | 2578/18831 [01:12<05:50, 46.31it/s]


 14%|██████████▌                                                                  | 2584/18831 [01:12<06:10, 43.83it/s]


 14%|██████████▌                                                                  | 2589/18831 [01:13<06:27, 41.86it/s]


 14%|██████████▌                                                                  | 2594/18831 [01:13<06:51, 39.43it/s]


 14%|██████████▋                                                                  | 2599/18831 [01:13<07:32, 35.85it/s]


 14%|██████████▋        

 17%|█████████████                                                                | 3190/18831 [01:30<10:03, 25.91it/s]


 17%|█████████████                                                                | 3195/18831 [01:30<09:27, 27.54it/s]


 17%|█████████████                                                                | 3198/18831 [01:30<10:11, 25.56it/s]


 17%|█████████████                                                                | 3201/18831 [01:30<09:44, 26.75it/s]


 17%|█████████████                                                                | 3205/18831 [01:31<08:57, 29.05it/s]


 17%|█████████████                                                                | 3209/18831 [01:31<08:47, 29.61it/s]


 17%|█████████████▏                                                               | 3213/18831 [01:31<08:19, 31.29it/s]


 17%|█████████████▏                                                               | 3217/18831 [01:31<07:51, 33.14it/s]


 17%|█████████████▏     

 20%|███████████████▍                                                             | 3775/18831 [01:49<10:44, 23.37it/s]


 20%|███████████████▍                                                             | 3778/18831 [01:49<11:40, 21.48it/s]


 20%|███████████████▍                                                             | 3781/18831 [01:49<12:44, 19.69it/s]


 20%|███████████████▍                                                             | 3785/18831 [01:50<11:55, 21.03it/s]


 20%|███████████████▍                                                             | 3788/18831 [01:50<11:18, 22.18it/s]


 20%|███████████████▌                                                             | 3791/18831 [01:50<11:22, 22.05it/s]


 20%|███████████████▌                                                             | 3796/18831 [01:50<09:53, 25.32it/s]


 20%|███████████████▌                                                             | 3799/18831 [01:50<09:34, 26.15it/s]


 20%|███████████████▌   

 23%|█████████████████▉                                                           | 4381/18831 [02:08<07:18, 32.95it/s]


 23%|█████████████████▉                                                           | 4386/18831 [02:08<06:36, 36.47it/s]


 23%|█████████████████▉                                                           | 4390/18831 [02:08<06:35, 36.54it/s]


 23%|█████████████████▉                                                           | 4396/18831 [02:08<06:01, 39.90it/s]


 23%|█████████████████▉                                                           | 4401/18831 [02:08<05:50, 41.22it/s]


 23%|██████████████████                                                           | 4407/18831 [02:08<05:27, 44.09it/s]


 23%|██████████████████                                                           | 4412/18831 [02:08<06:03, 39.62it/s]


 23%|██████████████████                                                           | 4417/18831 [02:08<06:05, 39.45it/s]


 23%|██████████████████ 

 27%|████████████████████▌                                                        | 5034/18831 [02:26<05:35, 41.10it/s]


 27%|████████████████████▌                                                        | 5039/18831 [02:26<06:07, 37.54it/s]


 27%|████████████████████▌                                                        | 5044/18831 [02:26<06:04, 37.82it/s]


 27%|████████████████████▋                                                        | 5051/18831 [02:26<05:18, 43.22it/s]


 27%|████████████████████▋                                                        | 5056/18831 [02:26<05:26, 42.20it/s]


 27%|████████████████████▋                                                        | 5062/18831 [02:26<04:59, 45.90it/s]


 27%|████████████████████▋                                                        | 5067/18831 [02:27<05:02, 45.51it/s]


 27%|████████████████████▋                                                        | 5072/18831 [02:27<07:22, 31.08it/s]


 27%|███████████████████

 30%|███████████████████████▎                                                     | 5690/18831 [02:44<06:41, 32.72it/s]


 30%|███████████████████████▎                                                     | 5695/18831 [02:44<06:12, 35.27it/s]


 30%|███████████████████████▎                                                     | 5700/18831 [02:44<05:43, 38.24it/s]


 30%|███████████████████████▎                                                     | 5704/18831 [02:44<06:27, 33.92it/s]


 30%|███████████████████████▎                                                     | 5709/18831 [02:44<05:51, 37.37it/s]


 30%|███████████████████████▎                                                     | 5714/18831 [02:44<05:30, 39.67it/s]


 30%|███████████████████████▍                                                     | 5719/18831 [02:44<05:43, 38.22it/s]


 30%|███████████████████████▍                                                     | 5723/18831 [02:45<06:04, 35.92it/s]


 30%|███████████████████

 34%|█████████████████████████▉                                                   | 6351/18831 [03:02<04:55, 42.29it/s]


 34%|█████████████████████████▉                                                   | 6356/18831 [03:02<05:10, 40.17it/s]


 34%|██████████████████████████                                                   | 6361/18831 [03:02<05:16, 39.36it/s]


 34%|██████████████████████████                                                   | 6365/18831 [03:02<05:51, 35.45it/s]


 34%|██████████████████████████                                                   | 6369/18831 [03:02<06:12, 33.48it/s]


 34%|██████████████████████████                                                   | 6376/18831 [03:02<05:19, 38.96it/s]


 34%|██████████████████████████                                                   | 6381/18831 [03:02<05:20, 38.90it/s]


 34%|██████████████████████████                                                   | 6386/18831 [03:03<05:42, 36.32it/s]


 34%|███████████████████

 37%|████████████████████████████▋                                                | 7031/18831 [03:19<04:56, 39.79it/s]


 37%|████████████████████████████▊                                                | 7036/18831 [03:20<05:37, 35.00it/s]


 37%|████████████████████████████▊                                                | 7040/18831 [03:20<05:51, 33.53it/s]


 37%|████████████████████████████▊                                                | 7044/18831 [03:20<05:55, 33.13it/s]


 37%|████████████████████████████▊                                                | 7050/18831 [03:20<05:14, 37.49it/s]


 37%|████████████████████████████▊                                                | 7055/18831 [03:20<05:18, 37.02it/s]


 37%|████████████████████████████▊                                                | 7059/18831 [03:20<05:32, 35.45it/s]


 38%|████████████████████████████▉                                                | 7063/18831 [03:20<06:08, 31.95it/s]


 38%|███████████████████

 41%|███████████████████████████████▎                                             | 7644/18831 [03:38<06:11, 30.08it/s]


 41%|███████████████████████████████▎                                             | 7648/18831 [03:38<05:44, 32.50it/s]


 41%|███████████████████████████████▎                                             | 7652/18831 [03:38<06:44, 27.65it/s]


 41%|███████████████████████████████▎                                             | 7658/18831 [03:38<05:56, 31.38it/s]


 41%|███████████████████████████████▎                                             | 7662/18831 [03:38<05:40, 32.81it/s]


 41%|███████████████████████████████▎                                             | 7666/18831 [03:38<05:24, 34.41it/s]


 41%|███████████████████████████████▎                                             | 7670/18831 [03:38<05:42, 32.58it/s]


 41%|███████████████████████████████▍                                             | 7674/18831 [03:39<07:50, 23.71it/s]


 41%|███████████████████

 44%|█████████████████████████████████▊                                           | 8266/18831 [03:56<05:09, 34.09it/s]


 44%|█████████████████████████████████▊                                           | 8274/18831 [03:56<04:23, 40.13it/s]


 44%|█████████████████████████████████▊                                           | 8280/18831 [03:56<04:18, 40.82it/s]


 44%|█████████████████████████████████▉                                           | 8285/18831 [03:56<04:51, 36.17it/s]


 44%|█████████████████████████████████▉                                           | 8290/18831 [03:56<05:53, 29.79it/s]


 44%|█████████████████████████████████▉                                           | 8294/18831 [03:57<06:59, 25.09it/s]


 44%|█████████████████████████████████▉                                           | 8297/18831 [03:57<07:20, 23.93it/s]


 44%|█████████████████████████████████▉                                           | 8300/18831 [03:57<07:47, 22.54it/s]


 44%|███████████████████

 47%|████████████████████████████████████▌                                        | 8934/18831 [04:13<03:37, 45.51it/s]


 47%|████████████████████████████████████▌                                        | 8939/18831 [04:14<03:35, 45.87it/s]


 47%|████████████████████████████████████▌                                        | 8944/18831 [04:14<04:24, 37.43it/s]


 48%|████████████████████████████████████▌                                        | 8949/18831 [04:14<04:53, 33.69it/s]


 48%|████████████████████████████████████▌                                        | 8953/18831 [04:14<04:49, 34.09it/s]


 48%|████████████████████████████████████▋                                        | 8957/18831 [04:14<05:05, 32.30it/s]


 48%|████████████████████████████████████▋                                        | 8961/18831 [04:14<05:06, 32.21it/s]


 48%|████████████████████████████████████▋                                        | 8965/18831 [04:14<04:50, 33.95it/s]


 48%|███████████████████

 51%|███████████████████████████████████████▏                                     | 9589/18831 [04:31<04:11, 36.76it/s]


 51%|███████████████████████████████████████▏                                     | 9595/18831 [04:31<03:49, 40.17it/s]


 51%|███████████████████████████████████████▎                                     | 9600/18831 [04:31<03:47, 40.51it/s]


 51%|███████████████████████████████████████▎                                     | 9605/18831 [04:32<03:45, 40.95it/s]


 51%|███████████████████████████████████████▎                                     | 9611/18831 [04:32<03:33, 43.15it/s]


 51%|███████████████████████████████████████▎                                     | 9616/18831 [04:32<03:38, 42.15it/s]


 51%|███████████████████████████████████████▎                                     | 9621/18831 [04:32<04:16, 35.86it/s]


 51%|███████████████████████████████████████▎                                     | 9625/18831 [04:32<04:18, 35.62it/s]


 51%|███████████████████

 54%|█████████████████████████████████████████▍                                  | 10255/18831 [04:49<04:08, 34.47it/s]


 54%|█████████████████████████████████████████▍                                  | 10259/18831 [04:49<04:15, 33.60it/s]


 55%|█████████████████████████████████████████▍                                  | 10263/18831 [04:49<04:06, 34.75it/s]


 55%|█████████████████████████████████████████▍                                  | 10267/18831 [04:49<04:23, 32.47it/s]


 55%|█████████████████████████████████████████▍                                  | 10272/18831 [04:49<04:02, 35.36it/s]


 55%|█████████████████████████████████████████▍                                  | 10276/18831 [04:49<03:59, 35.66it/s]


 55%|█████████████████████████████████████████▍                                  | 10280/18831 [04:49<04:05, 34.83it/s]


 55%|█████████████████████████████████████████▌                                  | 10284/18831 [04:50<04:13, 33.76it/s]


 55%|███████████████████

 58%|███████████████████████████████████████████▉                                | 10890/18831 [05:06<04:34, 28.97it/s]


 58%|███████████████████████████████████████████▉                                | 10894/18831 [05:07<04:13, 31.36it/s]


 58%|███████████████████████████████████████████▉                                | 10900/18831 [05:07<03:50, 34.46it/s]


 58%|████████████████████████████████████████████                                | 10904/18831 [05:07<03:57, 33.34it/s]


 58%|████████████████████████████████████████████                                | 10909/18831 [05:07<03:45, 35.09it/s]


 58%|████████████████████████████████████████████                                | 10915/18831 [05:07<03:29, 37.81it/s]


 58%|████████████████████████████████████████████                                | 10919/18831 [05:07<03:36, 36.55it/s]


 58%|████████████████████████████████████████████                                | 10924/18831 [05:07<03:20, 39.47it/s]


 58%|███████████████████

 61%|██████████████████████████████████████████████▌                             | 11533/18831 [05:25<03:18, 36.78it/s]


 61%|██████████████████████████████████████████████▌                             | 11537/18831 [05:25<03:33, 34.21it/s]


 61%|██████████████████████████████████████████████▌                             | 11541/18831 [05:25<04:02, 30.04it/s]


 61%|██████████████████████████████████████████████▌                             | 11545/18831 [05:25<04:28, 27.17it/s]


 61%|██████████████████████████████████████████████▌                             | 11551/18831 [05:25<03:50, 31.59it/s]


 61%|██████████████████████████████████████████████▋                             | 11555/18831 [05:25<03:37, 33.46it/s]


 61%|██████████████████████████████████████████████▋                             | 11559/18831 [05:25<04:11, 28.86it/s]


 61%|██████████████████████████████████████████████▋                             | 11564/18831 [05:26<03:42, 32.73it/s]


 61%|███████████████████

 64%|████████████████████████████████████████████████▉                           | 12137/18831 [05:43<03:35, 31.08it/s]


 64%|████████████████████████████████████████████████▉                           | 12141/18831 [05:43<03:36, 30.92it/s]


 64%|█████████████████████████████████████████████████                           | 12145/18831 [05:43<03:39, 30.52it/s]


 65%|█████████████████████████████████████████████████                           | 12149/18831 [05:43<03:47, 29.38it/s]


 65%|█████████████████████████████████████████████████                           | 12153/18831 [05:43<03:29, 31.92it/s]


 65%|█████████████████████████████████████████████████                           | 12159/18831 [05:44<03:17, 33.87it/s]


 65%|█████████████████████████████████████████████████                           | 12165/18831 [05:44<02:59, 37.22it/s]


 65%|█████████████████████████████████████████████████                           | 12169/18831 [05:44<03:15, 34.12it/s]


 65%|███████████████████

 68%|███████████████████████████████████████████████████▌                        | 12772/18831 [06:01<02:48, 35.93it/s]


 68%|███████████████████████████████████████████████████▌                        | 12776/18831 [06:01<02:52, 35.20it/s]


 68%|███████████████████████████████████████████████████▌                        | 12781/18831 [06:01<02:37, 38.36it/s]


 68%|███████████████████████████████████████████████████▌                        | 12785/18831 [06:01<02:46, 36.40it/s]


 68%|███████████████████████████████████████████████████▌                        | 12789/18831 [06:02<03:13, 31.20it/s]


 68%|███████████████████████████████████████████████████▋                        | 12794/18831 [06:02<02:54, 34.65it/s]


 68%|███████████████████████████████████████████████████▋                        | 12798/18831 [06:02<02:55, 34.34it/s]


 68%|███████████████████████████████████████████████████▋                        | 12804/18831 [06:02<02:38, 38.12it/s]


 68%|███████████████████

 71%|██████████████████████████████████████████████████████                      | 13397/18831 [06:19<02:40, 33.89it/s]


 71%|██████████████████████████████████████████████████████                      | 13401/18831 [06:19<02:36, 34.59it/s]


 71%|██████████████████████████████████████████████████████                      | 13407/18831 [06:19<02:23, 37.83it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13412/18831 [06:20<02:22, 37.93it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13418/18831 [06:20<02:10, 41.40it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13423/18831 [06:20<02:16, 39.51it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13428/18831 [06:20<02:10, 41.33it/s]


 71%|██████████████████████████████████████████████████████▏                     | 13433/18831 [06:20<02:21, 38.20it/s]


 71%|███████████████████

 74%|████████████████████████████████████████████████████████▏                   | 13936/18831 [06:38<02:41, 30.29it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13941/18831 [06:38<02:22, 34.28it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13945/18831 [06:38<02:19, 34.97it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13951/18831 [06:39<02:22, 34.17it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13955/18831 [06:39<02:46, 29.23it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13959/18831 [06:39<02:59, 27.19it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13962/18831 [06:39<03:21, 24.13it/s]


 74%|████████████████████████████████████████████████████████▎                   | 13965/18831 [06:39<04:19, 18.72it/s]


 74%|███████████████████

 77%|██████████████████████████████████████████████████████████▍                 | 14488/18831 [06:57<01:59, 36.47it/s]


 77%|██████████████████████████████████████████████████████████▍                 | 14494/18831 [06:57<01:45, 41.24it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14499/18831 [06:57<01:59, 36.25it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14504/18831 [06:57<01:52, 38.59it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14509/18831 [06:57<01:56, 37.01it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14513/18831 [06:58<02:04, 34.80it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14518/18831 [06:58<01:54, 37.77it/s]


 77%|██████████████████████████████████████████████████████████▌                 | 14523/18831 [06:58<01:47, 40.17it/s]


 77%|███████████████████

 80%|█████████████████████████████████████████████████████████████▏              | 15153/18831 [07:14<01:39, 36.92it/s]


 81%|█████████████████████████████████████████████████████████████▏              | 15159/18831 [07:14<01:28, 41.30it/s]


 81%|█████████████████████████████████████████████████████████████▏              | 15164/18831 [07:15<01:24, 43.35it/s]


 81%|█████████████████████████████████████████████████████████████▏              | 15169/18831 [07:15<01:32, 39.77it/s]


 81%|█████████████████████████████████████████████████████████████▏              | 15174/18831 [07:15<01:33, 39.27it/s]


 81%|█████████████████████████████████████████████████████████████▎              | 15179/18831 [07:15<01:32, 39.68it/s]


 81%|█████████████████████████████████████████████████████████████▎              | 15184/18831 [07:15<01:31, 39.96it/s]


 81%|█████████████████████████████████████████████████████████████▎              | 15190/18831 [07:15<01:24, 42.89it/s]


 81%|███████████████████

 83%|███████████████████████████████████████████████████████████████▎            | 15680/18831 [07:34<02:49, 18.55it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15683/18831 [07:34<03:19, 15.76it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15685/18831 [07:34<03:18, 15.87it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15688/18831 [07:34<03:02, 17.18it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15693/18831 [07:35<02:37, 19.86it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15696/18831 [07:35<02:30, 20.82it/s]


 83%|███████████████████████████████████████████████████████████████▎            | 15699/18831 [07:35<02:29, 21.00it/s]


 83%|███████████████████████████████████████████████████████████████▍            | 15705/18831 [07:35<02:06, 24.73it/s]


 83%|███████████████████

 86%|█████████████████████████████████████████████████████████████████▌          | 16243/18831 [07:54<01:16, 33.82it/s]


 86%|█████████████████████████████████████████████████████████████████▌          | 16247/18831 [07:54<01:18, 32.93it/s]


 86%|█████████████████████████████████████████████████████████████████▌          | 16251/18831 [07:54<01:17, 33.30it/s]


 86%|█████████████████████████████████████████████████████████████████▌          | 16255/18831 [07:54<01:14, 34.42it/s]


 86%|█████████████████████████████████████████████████████████████████▌          | 16259/18831 [07:54<01:14, 34.44it/s]


 86%|█████████████████████████████████████████████████████████████████▋          | 16263/18831 [07:54<01:24, 30.24it/s]


 86%|█████████████████████████████████████████████████████████████████▋          | 16267/18831 [07:54<01:21, 31.32it/s]


 86%|█████████████████████████████████████████████████████████████████▋          | 16272/18831 [07:54<01:18, 32.78it/s]


 86%|███████████████████

 89%|███████████████████████████████████████████████████████████████████▉        | 16847/18831 [08:12<01:01, 32.51it/s]


 89%|████████████████████████████████████████████████████████████████████        | 16852/18831 [08:12<00:59, 33.01it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16856/18831 [08:12<00:58, 33.69it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16862/18831 [08:12<00:55, 35.43it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16866/18831 [08:13<00:53, 36.59it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16870/18831 [08:13<00:58, 33.75it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16874/18831 [08:13<01:02, 31.33it/s]


 90%|████████████████████████████████████████████████████████████████████        | 16878/18831 [08:13<01:03, 30.52it/s]


 90%|███████████████████

 93%|██████████████████████████████████████████████████████████████████████▌     | 17492/18831 [08:30<00:37, 35.28it/s]


 93%|██████████████████████████████████████████████████████████████████████▌     | 17497/18831 [08:30<00:36, 36.89it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17501/18831 [08:30<00:35, 37.45it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17506/18831 [08:30<00:33, 39.93it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17511/18831 [08:30<00:31, 42.39it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17516/18831 [08:30<00:31, 41.74it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17523/18831 [08:31<00:28, 46.46it/s]


 93%|██████████████████████████████████████████████████████████████████████▋     | 17528/18831 [08:31<00:29, 44.08it/s]


 93%|███████████████████

 96%|█████████████████████████████████████████████████████████████████████████▏  | 18130/18831 [08:48<00:19, 35.65it/s]


 96%|█████████████████████████████████████████████████████████████████████████▏  | 18135/18831 [08:48<00:18, 38.11it/s]


 96%|█████████████████████████████████████████████████████████████████████████▏  | 18140/18831 [08:48<00:22, 31.21it/s]


 96%|█████████████████████████████████████████████████████████████████████████▏  | 18144/18831 [08:48<00:21, 32.51it/s]


 96%|█████████████████████████████████████████████████████████████████████████▏  | 18149/18831 [08:48<00:19, 35.17it/s]


 96%|█████████████████████████████████████████████████████████████████████████▎  | 18155/18831 [08:49<00:19, 34.90it/s]


 96%|█████████████████████████████████████████████████████████████████████████▎  | 18159/18831 [08:49<00:18, 36.00it/s]


 96%|█████████████████████████████████████████████████████████████████████████▎  | 18163/18831 [08:49<00:19, 34.34it/s]


 96%|███████████████████

100%|███████████████████████████████████████████████████████████████████████████▊| 18797/18831 [09:06<00:00, 39.87it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18802/18831 [09:06<00:00, 39.72it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18807/18831 [09:06<00:00, 39.24it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18811/18831 [09:06<00:00, 36.74it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18815/18831 [09:06<00:00, 35.46it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18821/18831 [09:06<00:00, 39.08it/s]


100%|███████████████████████████████████████████████████████████████████████████▉| 18827/18831 [09:06<00:00, 42.17it/s]


100%|████████████████████████████████████████████████████████████████████████████| 18831/18831 [09:07<00:00, 34.42it/s]

In [35]:
df.to_csv('compressed_okcupid.csv')