### Load & Preprocess

In [2]:
import os
import sys
import string
import nltk
import pandas as pd
from tqdm import tqdm
from bs4 import BeautifulSoup
from nltk.stem.porter import *
from nltk.corpus import stopwords
from nltk.corpus import wordnet
from nltk.stem.wordnet import WordNetLemmatizer
from sklearn.model_selection import train_test_split

# 'tokenize' function adopted from @https://github.com/ankailou/reuters-preprocessing/blob/master/preprocess.py
def tokenize(text):
    """ function: tokenize
        ------------------
        generate list of tokens given a block of @text;
        :param text: string representing text field (title or body)
        :returns: list of strings of tokenized & sanitized words
    """
#     # encode unicode to string
#     ascii = text.encode('ascii', 'ignore')
    # remove digits
#     no_digits = text.translate(str.maketrans('','',string.digits))
    # remove punctuation
    no_punctuation = text.translate(str.maketrans('','',string.punctuation))
    # tokenize
    tokens = nltk.word_tokenize(no_punctuation)
    # remove stopwords - assume 'reuter'/'reuters' are also irrelevant
#     no_stop_words = [w for w in tokens if not w in stopwords.words('english')]
    # filter out non-english words
#     eng = [y for y in no_stop_words if wordnet.synsets(y)]
#     # lemmatization process
#     lemmas = []
#     lmtzr = WordNetLemmatizer()
#     for token in eng:
#         lemmas.append(lmtzr.lemmatize(token))
#     # stemming process
#     stems = []
#     stemmer = PorterStemmer()
#     for token in lemmas:
#         stems.append(stemmer.stem(token).encode('ascii','ignore'))
#     # remove short stems
#     terms = [x for x in stems if len(x) >= 4]
    return tokens

def generate_pairs(folder):
    data = {'body': [], 'title': []}
    for file in os.listdir(folder):
        if file.endswith(".sgm"):
            print("Opening", file)
            try:
                sgm = open(os.path.join(os.getcwd(), folder, file), 'r', encoding='utf-8')
                text = sgm.read()
                sgm.close()
            except:
                lines = []
                for line in open(os.path.join(os.getcwd(), folder, file), 'rb').readlines():
                    line = line.decode('utf-8','ignore') 
                    lines.append(line)
                text = '\n'.join(lines)
            parsedText = BeautifulSoup(text.lower(), 'html.parser')
            for reuter in tqdm(parsedText.find_all('reuters')):
                if reuter.body and reuter.title:
                    data['body'].append(tokenize(reuter.body.get_text(strip=True)))
                    data['title'].append(tokenize(reuter.title.get_text(strip=True)))
    return data

In [74]:
data = generate_pairs('reuters21578')

Opening reut2-000.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 449.83it/s]


Opening reut2-001.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 480.08it/s]


Opening reut2-002.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 497.97it/s]


Opening reut2-003.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 436.51it/s]


Opening reut2-004.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:03<00:00, 312.16it/s]


Opening reut2-005.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 432.19it/s]


Opening reut2-006.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 512.05it/s]


Opening reut2-007.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 538.44it/s]


Opening reut2-008.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 463.12it/s]


Opening reut2-009.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 484.37it/s]


Opening reut2-010.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 468.49it/s]


Opening reut2-011.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 484.82it/s]


Opening reut2-012.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 481.79it/s]


Opening reut2-013.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 702.26it/s]


Opening reut2-014.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 691.98it/s]


Opening reut2-015.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 497.85it/s]


Opening reut2-016.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 479.34it/s]


Opening reut2-017.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 411.09it/s]


Opening reut2-018.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 522.34it/s]


Opening reut2-019.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 509.70it/s]


Opening reut2-020.sgm


100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 659.82it/s]


Opening reut2-021.sgm


100%|███████████████████████████████████████████████████████████████████████████████| 578/578 [00:00<00:00, 637.18it/s]


In [75]:
len(data['body']), len(data['title'])

(19043, 19043)

### (Optional) Saving processed data before splitting

In [77]:
# pd.DataFrame(data).to_csv("reuters_processed.csv", index=False)

In [4]:
# data = pd.read_csv("../data/reuters_processed.csv")

### Train/Valid/Test Split (80/10/10) & Save

In [5]:
train, valid_test = train_test_split(data, test_size=0.2, random_state=42, shuffle=True)
valid, test = train_test_split(valid_test, test_size=0.5, random_state=42, shuffle=True)

In [6]:
len(train), len(valid), len(test)

(15234, 1904, 1905)

In [9]:
train.to_csv("../data/reuters_train.csv", index=False)
valid.to_csv("../data/reuters_valid.csv", index=False)
test.to_csv("../data/reuters_test.csv", index=False)