In [50]:
import pandas as pd
from pathlib import Path
from datetime import datetime, timedelta
from dateutil.parser import parse
from tqdm import tqdm

In [53]:
# Functions
def is_date(string, fuzzy=False):
    """
    Return whether the string can be interpreted as a date.

    :param string: str, string to check for date
    :param fuzzy: bool, ignore unknown tokens in string if True
    """
    try: 
        parse(string, fuzzy=fuzzy)
        return True

    except (ValueError, TypeError):
        return False
    
def bucket_csvs(src_path, bucket_path):
    src_dir = Path(src_path)
    bucket_dir = Path(bucket_path)
    bucket_dir.mkdir(exist_ok=True, parents=True)

    # get file paths
    files = list(src_dir.rglob('*.csv'))
    for file in files:
        print('Processing: {}'.format(file.name))

        # load file
        df = pd.read_csv(file)

        # iterate over rows
        for index, row in tqdm(df.iterrows(), total=df.shape[0], desc='Rows'):
            date = row['Date']

            # drop rows with no dates
            if not is_date(date):
                df.drop(index, inplace=True)
                continue

            date = date.split(' ')[0]
            date_time_obj = datetime.strptime(date, '%Y-%m-%d')
            day_no = date_time_obj.weekday()

            # if weekend, subtract days to make it Friday
            if day_no  == 5:
                new_date = date_time_obj - timedelta(days=1)
                row['Date'] = new_date.strftime('%Y-%m-%d')
            elif day_no == 6:
                new_date = date_time_obj - timedelta(days=2)
                row['Date'] = new_date.strftime('%Y-%m-%d')

        # save new file
        df.to_csv(Path(bucket_dir, file.name), index=False)

    print('Finished bucketing: {}\n'.format(src_path))

In [54]:
# Run bucketing
bucket_csvs('data/in/news/', 'data/bucket/news/')
bucket_csvs('data/in/twitter/', 'data/bucket/twitter/')

Processing: Business Insider.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8344/8344 [00:02<00:00, 3675.89it/s]


Processing: CNN.csv


Rows: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14288/14288 [00:06<00:00, 2310.86it/s]


Processing: CNN_sentiment.csv


Rows: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 856/856 [00:00<00:00, 3190.66it/s]


Processing: New York Times.csv


Rows: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30257/30257 [00:08<00:00, 3423.75it/s]


Processing: New York Times_sentiment.csv


Rows: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 717/717 [00:00<00:00, 3152.70it/s]


Processing: Washington Post.csv


Rows: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12051/12051 [00:04<00:00, 2913.73it/s]


Processing: Washington Post_sentiment.csv


Rows: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 565/565 [00:00<00:00, 2462.92it/s]


Finished bucketing: data/in/news/

Processing: ArianaGrande.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3104/3104 [00:01<00:00, 1773.39it/s]


Processing: BarackObama.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2863/2863 [00:01<00:00, 2814.37it/s]


Processing: BarackObama_sentiment.csv


Rows: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 696/696 [00:00<00:00, 2251.16it/s]


Processing: britneyspears.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2776/2776 [00:01<00:00, 2304.16it/s]


Processing: cnnbrk.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1842/1842 [00:00<00:00, 3286.35it/s]


Processing: cnnbrk_sentiment.csv


Rows: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [00:00<00:00, 2809.31it/s]


Processing: Cristiano.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2507/2507 [00:00<00:00, 2588.77it/s]


Processing: ddlovato.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2217/2217 [00:00<00:00, 2803.08it/s]


Processing: instagram.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2577/2577 [00:00<00:00, 2882.16it/s]


Processing: jimmyfallon.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3123/3123 [00:01<00:00, 2483.23it/s]


Processing: jtimberlake.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2478/2478 [00:01<00:00, 2397.68it/s]


Processing: justinbieber.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2000/2000 [00:00<00:00, 2067.37it/s]


Processing: katyperry.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2924/2924 [00:01<00:00, 2789.55it/s]


Processing: KimKardashian.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2939/2939 [00:01<00:00, 2716.00it/s]


Processing: KimKardashian_sentiment.csv


Rows: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 491/491 [00:00<00:00, 2797.22it/s]


Processing: ladygaga.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2329/2329 [00:00<00:00, 2908.01it/s]


Processing: rihanna.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2877/2877 [00:00<00:00, 2952.60it/s]


Processing: selenagomez.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2913/2913 [00:00<00:00, 3068.09it/s]


Processing: shakira.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2530/2530 [00:00<00:00, 3003.84it/s]


Processing: taylorswift13.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2029/2029 [00:00<00:00, 3005.05it/s]


Processing: TheEllenShow.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3147/3147 [00:01<00:00, 2016.24it/s]


Processing: YouTube.csv


Rows: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3077/3077 [00:01<00:00, 2799.73it/s]


Finished bucketing: data/in/twitter/

