In [4]:
# enable automatic reloading of the notebook
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


# News Cleanup and Preparation

This notebook contains the scripts to cleanup and prepare the news data.

## Data Loading

In [5]:
# import the dataset loader
from src.data.dataset import load_dataset, DATA_PATHS

In [6]:
# load the raw articles
dataset = load_dataset(DATA_PATHS["raw"], dataType="raw")

### Dataset Statistics

In [7]:
# check how many articles were loaded
len(dataset)

2590823

In [8]:
dataset[0]

{'uri': '1453078729',
 'lang': 'deu',
 'isDuplicate': True,
 'date': datetime.datetime(2020, 2, 19, 0, 0),
 'time': '06:26:00',
 'dateTime': datetime.datetime(2020, 2, 19, 6, 26),
 'dateTimePub': datetime.datetime(2020, 2, 19, 5, 49),
 'dataType': 'news',
 'sim': 0,
 'url': 'https://www.watson.de/!350934492',
 'title': 'Zoff zwischen US-Präsidenten: Obama twittert - Trump völlig aus',
 'body': 'BVB: Sammer bereitet wohl mögliches Favre-Aus vor - zwei Kandidaten im Gespräch\n\nDonald Trump, 45. Präsident der Vereinigten Staaten von Amerika, hat eine sehr kurze Zündschnur. Vor allem dann, wenn es irgendeiner wagt, auch nur im Entferntesten über seine Person zu sprechen. Oder seine Erfolge.\n\nHeißt dieser "irgendeiner" dann noch Barack Obama, dann gute Nacht!\n\nDiese unheilvolle Kombination aus Barack Obama und einem Thema, das Donald Trump sehr am Herzen liegt, sorgte Anfang dieser Woche für einen spontanen Wutausbruch des Präsidenten.\n\nBegonnen hat alles mit diesem Tweet von Ex-Präs

## Cleanup Process

In [9]:
# filter out the duplicates
news_articles = filter(lambda x: not x["isDuplicate"], dataset)
news_articles = list(news_articles)

In [10]:
len(news_articles)

1791343

In [11]:
# sort news articles in cronological order
news_articles.sort(key = lambda x: x["dateTime"])

In [12]:
print(news_articles[0]["dateTime"])
print(news_articles[10]["dateTime"])

2020-01-01 00:01:00
2020-01-01 00:04:00


### Store the Non-Duplicated Articles

In [13]:
import os
import json
import datetime

In [14]:
class DateTimeEncoder(json.JSONEncoder):
    """"Used to Serialize a datetime encoder"""
    def default(self, z):
        if isinstance(z, datetime.datetime):
            return (str(z))
        else:
            return super().default(z)

In [15]:
DATA_PATH = "../data/processed"
# create the processed directory if not exists
if not os.path.isdir(DATA_PATH):
     os.makedirs(DATA_PATH)

# store the articles in the articles file
with open(f"{DATA_PATH}/articles.jsonl", mode="w", encoding="utf8") as file:
    for article in news_articles:
        json.dump(article, file, ensure_ascii=False, cls=DateTimeEncoder)
        file.write("\n")

## Load the Processed Data

In [16]:
# import the dataset loader
from src.data.dataset import load_dataset, DATA_PATHS

In [17]:
processed = load_dataset(DATA_PATHS["processed"])

In [18]:
len(processed)

1791343