In [5]:
# enable automatic reloading of the notebook
%load_ext autoreload
%autoreload 2

# News Clustering

This notebook contains the scripts to create news article clusters.

## Data Loading

In [6]:
# import the dataset loader
from src.data.dataset import load_dataset

In [7]:
# load the raw articles
dataset = load_dataset()

### Dataset Statistics

In [8]:
# check how many articles were loaded
len(dataset)

2519058

In [9]:
dataset[0]

{'uri': '1453078729',
 'lang': 'deu',
 'isDuplicate': True,
 'date': datetime.datetime(2020, 2, 19, 0, 0),
 'time': '06:26:00',
 'dateTime': datetime.datetime(2020, 2, 19, 6, 26),
 'dateTimePub': datetime.datetime(2020, 2, 19, 5, 49),
 'dataType': 'news',
 'sim': 0,
 'url': 'https://www.watson.de/!350934492',
 'title': 'Zoff zwischen US-Präsidenten: Obama twittert - Trump völlig aus',
 'body': 'BVB: Sammer bereitet wohl mögliches Favre-Aus vor - zwei Kandidaten im Gespräch\n\nDonald Trump, 45. Präsident der Vereinigten Staaten von Amerika, hat eine sehr kurze Zündschnur. Vor allem dann, wenn es irgendeiner wagt, auch nur im Entferntesten über seine Person zu sprechen. Oder seine Erfolge.\n\nHeißt dieser "irgendeiner" dann noch Barack Obama, dann gute Nacht!\n\nDiese unheilvolle Kombination aus Barack Obama und einem Thema, das Donald Trump sehr am Herzen liegt, sorgte Anfang dieser Woche für einen spontanen Wutausbruch des Präsidenten.\n\nBegonnen hat alles mit diesem Tweet von Ex-Präs

## Experiments

### Prepare News Articles

In [10]:
from src.utils.NewsArticle import NewsArticle

In [11]:
articles = [NewsArticle(article) for article in dataset]
articles.sort()

In [13]:
articles[0]

NewsArticle(
  title=Entwicklungsminister ruft EU zu "Klimapartnerschaft" mit Afrika auf | Berliner Sonntagsblatt,
  lang=deu,
  source=Berliner Sonntagsblatt,
  time=1577833260.0,
  url=https://www.berliner-sonntagsblatt.de/Entwicklungsminister-ruft-EU-zu-Klimapartnerschaft-mit-Afrika-auf-175204.html,
)

### Prepare News Event Monitor

In [82]:
from src.utils.NewsEventMonitor import NewsEventMonitor

In [83]:
sim_threshold = 0.5
time_threshold_in_days = 3
time_compare_stat = "min"

In [84]:
event_monitor = NewsEventMonitor(
    sim_threshold=sim_threshold, 
    time_threshold_in_days=time_threshold_in_days, 
    time_compare_stat=time_compare_stat
)

### Cluster News Articles

In [85]:
from tqdm.notebook import tqdm

In [86]:
for article in tqdm(articles[:1000], desc="Article Feed"):
    event_monitor.update(article)

Article Feed:   0%|          | 0/1000 [00:00<?, ?it/s]

In [88]:
for event in event_monitor.get_events():
    print(event.articles)

[NewsArticle(
  title=Entwicklungsminister ruft EU zu "Klimapartnerschaft" mit Afrika auf | Berliner Sonntagsblatt,
  lang=deu,
  source=Berliner Sonntagsblatt,
  time=1577833260.0,
  url=https://www.berliner-sonntagsblatt.de/Entwicklungsminister-ruft-EU-zu-Klimapartnerschaft-mit-Afrika-auf-175204.html,
), NewsArticle(
  title=Entwicklungsminister ruft EU zu "Klimapartnerschaft" mit Afrika auf | NEWS | POPULÄRE PRESSE,
  lang=deu,
  source=POPULÄRE PRESSE,
  time=1577833380.0,
  url=https://www.poppress.de/ausland/2020/01/01/entwicklungsminister-ruft-eu-zu-klimapartnerschaft-mit-afrika-auf/28699/,
), NewsArticle(
  title=Klein: EU-Staaten brauchen Strategie gegen Judenhass,
  lang=deu,
  source=ExtremNews,
  time=1577833440.0,
  url=https://www.extremnews.com/nachrichten/weltgeschehen/9e491782ab88e63,
), NewsArticle(
  title=Klimawandel Hauptthema in Merkels Neujahrsansprache: "Bedrohlich",
  lang=deu,
  source=ExtremNews,
  time=1577833500.0,
  url=https://www.extremnews.com/berichte/