In [12]:
import torch
import transformers
from data_augmentation import *
from util_graph import *
from util import *
import sys
import numpy as np
import random
import pickle
from nltk.tokenize import TweetTokenizer
from pathlib import PurePath
import os
from tqdm import tqdm
import json

In [13]:
random.seed(12345)
np.random.seed(12345)

In [4]:
args = {
    "path": "./all-rnr-annotated-threads",
    "save_path": os.path.join("./", "pheme")
}

In [5]:
# Get the name of all the folders in the parent folder.
directories = [os.path.join(args["path"], o) for o in os.listdir(args["path"]) if os.path.isdir(os.path.join(args["path"], o))]

In [15]:
# Traverse through it to get Source Tweet and Reaction Tweet
for dir in directories:

    topic = PurePath(dir).parts[-1].split('-')[0]
    # Traverse through rumour and non-rumour directories
    sub_dir = [os.path.join(dir, i) for i in os.listdir(
        dir) if os.path.isdir(os.path.join(dir, i))]

    event = PurePath(dir).parts[-1].split('-')[0]
    print(f"Currently processing {event} event.")
    # Make directory for this event at the saving path
    save_path = os.path.join(args["save_path"])
    os.makedirs( os.path.join(args["save_path"], event), exist_ok=True )

    label_json = {}
    for sdir in sub_dir:
        tweets = [os.path.join(sdir, i) for i in os.listdir(
            sdir) if os.path.isdir(os.path.join(sdir, i))]
        label = PurePath(sdir).parts[-1]

        
        os.makedirs(os.path.join(save_path, event, label), exist_ok=True)

        print(f"{event} event contains {len(tweets)} tweets for {label} label")

        os.makedirs(os.path.join(save_path, event, label), exist_ok=True)

        for t in tqdm(tweets):
            id = PurePath(t).parts[-1]

            # Source folder
            source_path = os.path.join(t, "source-tweets", f"{id}.json")
            featureMatrix = []

            with open(source_path, encoding="utf8") as ofile:
                source_json = json.load(ofile)
                featureMatrix.append(source_json["text"])

            # Reaction Folder
            reaction_path = os.path.join(t, "reactions")
            reactions = [os.path.join(reaction_path, i) for i in os.listdir(
                reaction_path) if i.split('\\')[-1][0] != '.']

            for reaction in reactions:
                with open(reaction, encoding="utf8") as ofile:
                    obj = json.load(ofile)
                    featureMatrix.append(obj["text"])

            tweetData = {
                "featureMatrix": featureMatrix,
                "label": label
            }

            # Write in the saving path as id.json
            with open(os.path.join(save_path, event, label, f"{id}.json"), "w", encoding="utf8") as ofile:
                json.dump(tweetData, ofile, indent=4)

    with open(os.path.join(save_path, event, "labels.json"), "w", encoding="utf8") as ofile:
        json.dump(label_json, ofile, indent=4)

    print("\n")
    print("*" * 60)

Currently processing ottawashooting event.
ottawashooting event contains 470 tweets for rumours label


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 470/470 [00:00<00:00, 887.99it/s]


ottawashooting event contains 420 tweets for non-rumours label


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 420/420 [00:00<00:00, 981.95it/s]




************************************************************
Currently processing putinmissing event.
putinmissing event contains 126 tweets for rumours label


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 126/126 [00:00<00:00, 2669.74it/s]


putinmissing event contains 112 tweets for non-rumours label


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 112/112 [00:00<00:00, 2991.39it/s]




************************************************************
Currently processing ferguson event.
ferguson event contains 284 tweets for rumours label


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 284/284 [00:00<00:00, 660.62it/s]


ferguson event contains 859 tweets for non-rumours label


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 859/859 [00:01<00:00, 689.85it/s]




************************************************************
Currently processing prince event.
prince event contains 229 tweets for rumours label


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 229/229 [00:00<00:00, 2529.20it/s]


prince event contains 4 tweets for non-rumours label


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 2509.68it/s]




************************************************************
Currently processing ebola event.
ebola event contains 14 tweets for rumours label


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [00:00<00:00, 827.38it/s]


ebola event contains 0 tweets for non-rumours label


0it [00:00, ?it/s]




************************************************************
Currently processing gurlitt event.
gurlitt event contains 61 tweets for rumours label


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 61/61 [00:00<00:00, 4028.29it/s]


gurlitt event contains 77 tweets for non-rumours label


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 77/77 [00:00<00:00, 4311.33it/s]




************************************************************
Currently processing charliehebdo event.
charliehebdo event contains 458 tweets for rumours label


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 458/458 [00:00<00:00, 847.96it/s]


charliehebdo event contains 1621 tweets for non-rumours label


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1621/1621 [00:02<00:00, 721.85it/s]




************************************************************
Currently processing germanwings event.
germanwings event contains 238 tweets for rumours label


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:00<00:00, 1245.75it/s]


germanwings event contains 231 tweets for non-rumours label


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 231/231 [00:00<00:00, 1354.56it/s]




************************************************************
Currently processing sydneysiege event.
sydneysiege event contains 522 tweets for rumours label


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 522/522 [00:00<00:00, 833.63it/s]


sydneysiege event contains 699 tweets for non-rumours label


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 699/699 [00:01<00:00, 675.36it/s]



************************************************************





In [14]:
SAVE_DIR = "./"
unaugmented_save_path = os.path.join(SAVE_DIR, "unaugmented")
os.makedirs(unaugmented_save_path, exist_ok=True)
for event in os.listdir(os.path.join(SAVE_DIR, "pheme")):
    print("\n")
    print("*" * 60)
    print(event)

    graphList = []

    rumourLabel = [
        os.path.join(SAVE_DIR, "pheme", event, "rumours", i) for i in os.listdir(os.path.join(SAVE_DIR, "pheme", event, "rumours"))]
    nonrumourLabel = [
        os.path.join(SAVE_DIR, "pheme", event, "non-rumours", i) for i in os.listdir(os.path.join(SAVE_DIR, "pheme", event, "non-rumours"))]

    # print(f"\nTrue : {len(trueLabel)} | False : {len(falseLabel)} | Unverified : {len(unverifiedLabel)} tweets\n")
    print(f"Rumour : {len(rumourLabel)} | Non-rumour : {len(nonrumourLabel)}")

    for x in [rumourLabel, nonrumourLabel]:
        for f in tqdm(x):
            with open(f, encoding="utf8") as ofile:
                data = json.load(ofile)
            data['x'] = '. '.join( data['featureMatrix'] )
            graphList.append( data )

    # Save the un-augmented graphList to be used as test dataset
    os.makedirs(os.path.join(unaugmented_save_path, event), exist_ok=True)
    pickle_path = os.path.join(
        unaugmented_save_path, event, 'graph_test.pickle')
    with open(pickle_path, 'wb') as handle:
        pickle.dump(graphList, handle, protocol=pickle.HIGHEST_PROTOCOL)

    pickle_path = os.path.join(
        unaugmented_save_path, event, 'graph.pickle')
    with open(pickle_path, 'wb') as handle:
        pickle.dump(graphList, handle, protocol=pickle.HIGHEST_PROTOCOL)
    print("\n")
    print("*" * 60)



************************************************************
ebola
Rumour : 14 | Non-rumour : 0


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [00:00<00:00, 11159.30it/s]
0it [00:00, ?it/s]




************************************************************


************************************************************
charliehebdo
Rumour : 458 | Non-rumour : 1621


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 458/458 [00:00<00:00, 28019.13it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1621/1621 [00:00<00:00, 26480.37it/s]




************************************************************


************************************************************
sydneysiege
Rumour : 522 | Non-rumour : 699


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 522/522 [00:00<00:00, 29005.18it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 699/699 [00:00<00:00, 25467.06it/s]




************************************************************


************************************************************
ottawashooting
Rumour : 470 | Non-rumour : 420


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 470/470 [00:00<00:00, 30161.00it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 420/420 [00:00<00:00, 31166.21it/s]




************************************************************


************************************************************
prince
Rumour : 229 | Non-rumour : 4


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 229/229 [00:00<00:00, 38748.41it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 7034.47it/s]




************************************************************


************************************************************
putinmissing
Rumour : 126 | Non-rumour : 112


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 126/126 [00:00<00:00, 34498.49it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 112/112 [00:00<00:00, 37250.18it/s]




************************************************************


************************************************************
gurlitt
Rumour : 61 | Non-rumour : 77


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 61/61 [00:00<00:00, 31431.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 77/77 [00:00<00:00, 38775.53it/s]




************************************************************


************************************************************
germanwings
Rumour : 238 | Non-rumour : 231


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 238/238 [00:00<00:00, 30204.98it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 231/231 [00:00<00:00, 32104.58it/s]




************************************************************


************************************************************
ferguson
Rumour : 284 | Non-rumour : 859


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 284/284 [00:00<00:00, 24474.17it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 859/859 [00:00<00:00, 26312.42it/s]




************************************************************


In [15]:
print()
print("Augmented data")
print()
SAVE_DIR="./"
getAugmentedData2Label(SAVE_DIR, False)


Augmented data



************************************************************
ebola
Rumour : 14 | Non-rumour : 0


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [00:00<00:00, 12726.54it/s]
0it [00:00, ?it/s]




************************************************************


************************************************************
charliehebdo
Rumour : 458 | Non-rumour : 1621


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 458/458 [00:00<00:00, 28842.85it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1621/1621 [00:00<00:00, 28282.13it/s]



Augmenting entire Rumour label tweets 2 and randomly augmenting 247 tweets
NUM


  0%|                                                                                                                               | 0/458 [00:00<?, ?it/s]


NameError: name 'feat_extractor' is not defined

In [None]:
print()
print("Improved Augmented data")
print()
SAVE_DIR="./"
getAugmentedData2Label(SAVE_DIR, True)