# News Crawling

News crawling is essential for gathering and analyzing the latest information from various sources in real-time. This exercise explores two approaches to news crawling: (1) reading RSS feeds to collect structured updates from news websites, and (2) leveraging the Fundus library developed by Humboldt University Berlin, which provides tools for advanced web scraping and data extraction.

## Crawl News Website using rss reader



In [2]:
# RSS feed: https://www.tagesschau.de/infoservices/alle-meldungen-100~rss2.xml
import feedparser

feed = feedparser.parse(
    "https://www.tagesschau.de/infoservices/alle-meldungen-100~rss2.xml"
)

for entry in feed.entries[:5]:
    print(f"Title: {entry.title}")
    print(f"Link: {entry.link}")
    print(f"Published: {entry.published}")
    print(f"Summary: {entry.summary}")
    print("-" * 80)

Title: Abschied von Papst Franziskus - Zehntausende im Petersdom erwartet
Link: https://www.tagesschau.de/ausland/europa/papst-franziskus-trauerfeierlichkeiten-100.html
Published: Thu, 24 Apr 2025 08:29:48 +0200
Summary: Im Petersdom werden heute wohl erneut Zehntausende Gläubige Papst Franziskus die letzte Ehre erweisen. Im Vatikan laufen die Vorbereitungen für die weiteren Trauerfeierlichkeiten. Ein Termin für das Konklave steht noch nicht fest.
--------------------------------------------------------------------------------
Title: Mindestens neun Tote bei russischen Luftangriffen auf Kiew
Link: https://www.tagesschau.de/ausland/europa/russland-angriffe-kiew-100.html
Published: Thu, 24 Apr 2025 08:24:38 +0200
Summary: Ungeachtet der Verhandlungen mit den USA greift Russland die Ukraine weiter massiv an. Allein in der Hauptstadt Kiew wurden mindestens neun Menschen getötet. Und auch aus anderen Landesteilen werden Attacken gemeldet.
----------------------------------------------------

## Crawl news websites with fundus

Fundus libary: https://github.com/flairNLP/fundus

In [7]:
from fundus import PublisherCollection, Crawler, RSSFeed

crawler = Crawler(PublisherCollection.de.Tagesschau, restrict_sources_to=[RSSFeed])

for article in crawler.crawl(max_articles=5, save_to_file="tagesschau_news.json"):
    print(article)

Fundus-Article including 3 image(s):
- Title: "Nach Erdbeben der Stärke 6,2: Weitere Nachbeben erschüttern Istanbul"
- Text:  "Nach dem gestrigen Erdbeben gab es in Istanbul auch am Morgen weitere Nachbeben,
          darunter eines mit der Stärke 4,1. Experten warnen vor weiteren [...]"
- URL:    https://www.tagesschau.de/ausland/europa/erdbeben-istanbul-104.html
- From:   Tagesschau (2025-04-24 06:31)
Fundus-Article including 2 image(s):
- Title: "Abschied von Papst Franziskus - Zehntausende im Petersdom erwartet"
- Text:  "Im Petersdom werden heute wohl erneut Zehntausende Gläubige Papst Franziskus die
          letzte Ehre erweisen. Im Vatikan laufen die Vorbereitungen für [...]"
- URL:    https://www.tagesschau.de/ausland/europa/papst-franziskus-trauerfeierlichkeiten-100.html
- From:   Tagesschau (2025-04-24 06:29)
Fundus-Article:
- Title: "Mindestens neun Tote bei russischen Luftangriffen auf Kiew"
- Text:  "Ungeachtet der Verhandlungen mit den USA greift Russland die Ukraine wei

In [None]:
# TODO:
# - update the crawler to crawl news sources from the us
# - Read the docs here (https://github.com/flairNLP/fundus/blob/master/docs/3_the_article_class.md) and following to filter all articles that talk about "trump" in the topics or title
# - The articles should have a title and body