# News Crawling

News crawling is essential for gathering and analyzing the latest information from various sources in real-time. This exercise explores two approaches to news crawling: (1) reading RSS feeds to collect structured updates from news websites, and (2) leveraging the Fundus library developed by Humboldt University Berlin, which provides tools for advanced web scraping and data extraction.

## Crawl News Website using rss reader



In [12]:
# RSS feed: https://www.tagesschau.de/infoservices/alle-meldungen-100~rss2.xml
import feedparser

feed = feedparser.parse(
    "https://www.tagesschau.de/infoservices/alle-meldungen-100~rss2.xml"
)

for entry in feed.entries[:5]:
    print(f"Title: {entry.title}")
    print(f"Link: {entry.link}")
    print(f"Published: {entry.published}")
    print(f"Summary: {entry.summary}")
    print("-" * 80)

Title: Marktbericht: Keine Begeisterungsstürme in New York
Link: https://www.tagesschau.de/wirtschaft/finanzen/marktberichte/marktbericht-boersen-trump-powell-fed-dax-kursgewinne-oel-gold-100.html
Published: Wed, 23 Apr 2025 22:13:46 +0200
Summary: Auf die neuesten Entspannungssignale des US-Präsidenten in Richtung China und Fed reagierte die Wall Street vergleichsweise kühl. Noch gibt es wenig Konkretes. Der DAX hatte noch positiver reagiert.
--------------------------------------------------------------------------------
Title: Kopfschütteln über Trumps "Friedensplan" für die Ukraine
Link: https://www.tagesschau.de/ausland/europa/ukraine-russland-usa-eu-verhandlungen-vorschlag-trump-100.html
Published: Wed, 23 Apr 2025 22:05:18 +0200
Summary: In der EU herrscht Unverständnis über die US-Pläne für eine mögliche Friedenslösung im russischen Krieg gegen die Ukraine. Ist das Tischtuch zwischen Washington und Brüssel in dieser Frage endgültig zerschnitten? Von Andreas Meyer-Feist.
-------

## Crawl news websites with fundus

Fundus libary: https://github.com/flairNLP/fundus

In [13]:
from fundus import PublisherCollection, Crawler, NewsMap

crawler = Crawler(PublisherCollection.de.Tagesschau)

for article in crawler.crawl(max_articles=5, save_to_file="tagesschau_news.json"):
    print(article)

Fundus-Article:
- Title: "Marktbericht: Keine Begeisterungsstürme in New York"
- Text:  "Auf die neuesten Entspannungssignale des US-Präsidenten in Richtung China und
          Fed reagierte die Wall Street vergleichsweise kühl. Noch gibt es [...]"
- URL:    https://www.tagesschau.de/wirtschaft/finanzen/marktberichte/marktbericht-boersen-trump-powell-fed-dax-kursgewinne-oel-gold-100.html
- From:   Tagesschau (2025-04-23 20:13)


In [None]:
# TODO:
# - update the crawler to crawl news sources from the us
# - Read the docs here (https://github.com/flairNLP/fundus/blob/master/docs/3_the_article_class.md) and following to filter all articles that talk about "trump" in the topics or title
# - The articles should have a title and body