Dieses Projekt wird von Dave und Robin für die Vorlesung TextAnalytics im Sommersemester 2022 bearbeitet.
Können Methoden zur Textanalyse und Webscraping benutzt werden, um Unterschiede zwischen der Berichterstattung über den Ukraine-Russland Krieg in Deutschland und Russland zu finden? Wo sind diese Unterschiede besonders gravierend und wie lassen sich diese quantifizieren?
Als Datenbasis sollen Veröffentlichungen der jeweils drei größten Nachrichtenwebsiten aus Russland und Deutschland herangezogen werden. Die Methode zur Analyse der Texte wird im Laufe der Vorlesung entwickelt.
Wie in der Statistik von Statista(Aufgerufen 18.4.22) zu sehen ist sind die drei Nachrichten Websiten aus Deutschland mit der größten Reichweite für Februar 2022:
- Bild.de
- T-Online Contentangebot
- n-tv.de
Wie in der Statistik von Statista(Aufgerufen 18.4.22) zu sehen ist sind die drei Nachrichten Websiten aus Russland mit der größten Reichweite für August 2021:
- Lenta.ru
- Kp.ru
- Rg.ru
Dateiformat:
Für jede Seite gibt es eine Funktion "get_article_content(url)" Diese gibt:
'title': title, 'kicker': kicker, 'author':author, 'date':date, 'text':text, 'subheadlines': subheadline, 'url': url
zurück. Wenn eines dieser Attribute nicht vorhanden ist: '' (Auf Figcaption wird verzichtet _ Warum? _ Vielleicht doch noch)
Bild hat ein sehr schönes Archiv, in dem sich alle älteren Artikel befinden.
T-Online hat kein Archiv, allerdings sind ältere Artikel anscheinend über eine größeren Seitenindex abrufbar (muss noch getestet werden).
N-Tv hat kein Archiv, allerdings sind ältere Artikel anscheinend über eine größeren Seitenindex abrufbar (muss noch getestet werden).
Fragen klären:
- Ist es gefährlich?
- Übersetzungsoftware besorgen