# Data Scraping mit Python: Abschluss-Portfolio – Vergleich liberaler und konservativer Zeitungen/Medien in den USA

In diesem Notebook soll eine deskriptiv-explorative, vergleichende Analyse zweier amerikanischer Zeitungen und der Themen, über die dort berichtet wird, durchgeführt werden.

Folgendes Notebook gliedert sich wie folgt:

**1. Hintergrund: welche Zeitungen wurden ausgewählt und auf was zielt die Analyse ab?**

**2. Technische Durchführung, Datenakquise**

**3. Explorative Analysen mittels erhaltener Daten**

**4. Ein kurzes abschließendes Fazit**

## 1. Hintergrund: welche Zeitungen wurden ausgewählt und auf was zielt die Analyse ab?

Zunächst wird geklärt, welches Erkenntnisinteresse diesem Projekt zugrunde liegt – woraus sich nachfolgend auch die Auswahl der beiden Medien ergibt.

Es kann durchaus behauptet werden, dass die US-amerikanische politische Landschaft aktuell ein problematisches Bild abgibt. Gerade der Diskurs um "Fake News", der durch Donald Trumps Präsidentschaft sowie seine haltlosen Bemerkungen, dass ihm ein vermeintlicher Wahlsieg gegen Joe Biden bei der letzten Wahl durch gezielte Manipulation gestohlen worden wäre, trugen dazu bei. Die ohnehin starke Rivalität zwischen den konservativen Republikanern und den liberaleren Demokraten, die durchaus schon vor Trumps Präsidentschaft bestand, wurde jedoch durch eben diese verschärft: man bekommt als außenstehender Europäer immer mehr den Eindruck, es handele sich um regelrechte Grabenkämpfe – eine Metapher, die sich durch die traurigen Ereignisse des Sturms auf das US-Kapitol vom 6. Januar 2021 noch stärker aufdrängt.

Und dieses Bild der amerikanischen Politik lässt sich zu gewissen Teilen sicher auch auf die Medienlandschaft der USA übertragen. So konnte man unter dem letzten Präsidenten wohl einen starken Anstieg in der Wichtigkeit von Blogs und anderen News-Quellen feststellen, mit denen seine Anhänger ihre "alternativen Fakten" einholten.

Doch sind für vorliegendes Portfolio vor allem die traditionellen Printmedien von Interesse, genauer gesagt deren Online-Versionen. Es soll um die Frage gehen, ***welche Themen in diesen behandelt werden und wo zwischen traditionell liberalen und traditionell konservativen Zeitungen bzw. Nachrichtenagenturen Unterschiede bestehen.***

Hier wäre beispielsweise anzunehmen, dass sozusagen aus der "Ideologie" in den konservativen Zeitungen das "America first"-Prinzip vorherrschend ist und daher viele bzw. hauptsächlich Artikel im Inland- oder gar im Sicherheits-Ressort publiziert werden. Dem gegenüber könnte angenommen werden, dass in den liberaleren Zeitungen wohl eher die Prämisse eines "offeneren Amerikas" vorherrscht und hier im Gegenteil zu konservativen Zeitungen auch Beiträge aus den Ressorts "Global" und "International" oder auch "Wirtschaft" veröffentlicht werden. 
Diese Vermutungen sollen mittels dieses Portfolios einer ersten explorativen Überprüfung unterzogen werden, damit sie durch Fakten untermauert werden können: welche Themen werden also wirklich von den Nachrichtenportalen aufgegriffen?

Zwecks der dafür genutzten Medien soll auf der "liberalen Seite" auf die [New York Times](https://www.nytimes.com) zurückgegriffen werden. Als konservatives Gegenstück wurde sich für die [Washington Times](https://www.washingtontimes.com) entschieden. Alternativ würde hier auch das News-Portal [Fox News](https://www.foxnews.com/) als eher konservatives Beispiel fungieren können – in Ermangelung von Informationen über eine möglicherweise verfügbare API wurden beide News-Portale kontaktiert, da diese den Prozess der Informationsgewinnung wesentlich vereinfachen würde. Zur Datenbeschaffung soll jedoch später unter Punkt 2 mehr Information gegeben werden. Diese Entscheidungen wurden beispielsweise aufgrund von [Rankings der University of Michigan in Zusammenarbeit mit AllSides](https://guides.lib.umich.edu/c.php?g=637508&p=4462444) getroffen.

AllSides ist ein eigenes Nachrichten-Portal, welches wie der Name schon sagt versucht, "beide Seiten" des (nachrichten)politischen Spektrums zu erfassen und somit ein möglichst umfassendes Nachrichtenbild zu gewährleisten. Dort werden Seiten mit einem eigenen [Ranking](https://www.allsides.com/media-bias/media-bias-ratings) erfasst, auf welches von Seiten der University of Michigan und auch von Seiten dieses Portfolios zurückgegriffen wurde.
Es wurde dabei bewusst nur auf die Kategorien "lean left" und "lean right" geblickt, da u. a. auch Nachrichtenagenturen wie Breitbart erfasst wurden, welche von vorliegender Arbeit nicht wirklich als seriöse "traditionelle Nachrichtenquelle" erachtet wird.

# 2. Technische Durchführung, Datenakquise

Im zweiten Schritt sollen dann die Daten von den ausgewählten Medien-APIs gezogen werden. Dieser Paragraph soll kurz als Vorabklärung zu den APIs dienen - etwaige geschriebene Funktionen werden dann jedoch an Ort und Stelle näher erläutert oder mit ausreichend erklärenden Kommentaren versehen.

Zunächst zur **API der New York Times**. Hier konnte ganz einfach ein Zugang und ein Key angefragt werden, welcher dann sofort einsetzbar war. Hier können verschiedene Zugänge gewählt werden, besonders interessant für den hier vorliegenden Anwendungsfall sind jedoch *Article Archive* (hier kann zeitlich gesucht werden, nach Monaten) und *Article Search* (hier kann nach einem Begriff gesucht werden, zu dem dann Artikel gezeigt werden).

Informationen zur Washington Times und zu Fox News folgen hier noch.

Für die [Currents API](https://www.currentsapi.services/en) wurde ebenfalls ein API-Key beantragt, welcher auch nutzbar ist. Diese API versucht, über verschiedenste Nachrichtenquellen hinweg den Zugang über eine Schnittstelle zu gewährleisten – sie ist sozusagen als Meta-API zu sehen. Sollten für die einzelnen Portale keine Keys zu erhalten sein, dann wird auf Currents zurückgegriffen werden.

In [2]:
import requests
import datetime
import pandas as pd
import seaborn as sea
from pprint import pprint

########################

myAPI = 'OCoZLlqojAZ4Ci4eovRL4uqeXXTIP9KI3Cco3XRMSmDDzr3g'

In [3]:
# hier könnte IHRE funktion stehen!
#def req_currents(keywords, )

In [4]:
# keyword search

latest = ('https://api.currentsapi.services/v1/latest-news?domain=washingtontimes.com&' + 
       'apiKey=OCoZLlqojAZ4Ci4eovRL4uqeXXTIP9KI3Cco3XRMSmDDzr3g')

latest_resp = requests.get(latest)

pprint(latest_resp.json())

2daded443012dd36fb548d01aa8453f52ef',
           'language': 'en',
           'published': '2021-06-24 18:38:07 +0000',
           'title': 'Army won’t reprimand chaplain who expressed concern over '
                    'proposed transgender rules',
           'url': 'https://www.washingtontimes.com/news/2021/jun/24/army-wont-reprimand-chaplain-who-posted-about-tran/'},
          {'author': 'Vladimir Isachenkov',
           'category': ['security'],
           'description': 'Russia will be ready to fire to hit to protect its '
                          'borders, a senior diplomat warned Thursday in the '
                          'wake of a Black Sea incident in which a British '
                          'destroyer sailed near Crimea in an area that Russia '
                          'claims as its territorial waters.',
           'id': '8bd8eaaf-2ae9-4d39-ba44-bafaf239d42e',
           'image': 'https://twt-thumbs.washtimes.com/media/image/2021/06/23/Russia_Black_Sea_85385.jpg-67d65

In [5]:
# keyword search with domain specified

keywords = 'Biden'

search = (f"https://api.currentsapi.services/v1/search?domain=washingtontimes.com&keywords={keywords}&" + 
       "apiKey=OCoZLlqojAZ4Ci4eovRL4uqeXXTIP9KI3Cco3XRMSmDDzr3g")

search_res = requests.get(search)

data = search_res.json()

pprint(data)

 Republican lawmakers Wednesday during a budget '
                          'hearing over allegations that the Pentagon has '
                          'embraced controversial topics such as critical race '
                          'theory since the election of President Biden.',
           'id': '9c7a203d-cf3b-486b-9a89-0115d9cf0dc7',
           'image': 'https://twt-thumbs.washtimes.com/media/image/2021/06/17/senate_defense_54902_c0-221-5286-3303_s1770x1032.jpg?60d9adbe0df70abd1b75b57dcd0047c988ea9c4c',
           'language': 'en',
           'published': '2021-06-23 20:58:00 +0000',
           'title': 'Joint Chiefs chairman spars with GOP lawmakers over '
                    '‘woke’ military',
           'url': 'https://www.washingtontimes.com/news/2021/jun/23/mark-milley-joint-chiefs-chairman-spars-gop-lawmak/'},
          {'author': 'Stephen Dinan',
           'category': ['general'],
           'description': 'The Supreme Court’s recent ruling on Obamacare has '
               

In [6]:
def keys_currents(domain, keywords):
    
    # definieren, dass die api mit such-funktion angesteuert wird
    url = "https://api.currentsapi.services/v1/search?"
    
    # welche domain soll durchsucht werden? (aufpassen: spezifizieren ohne web-protokoll und ohne "www.")
    search_domain = f"domain={domain}&"
    
    # mode == welches keyword mit meinem api-key gesucht werden soll
    mode = f"keywords={keywords}&" + "apiKey=OCoZLlqojAZ4Ci4eovRL4uqeXXTIP9KI3Cco3XRMSmDDzr3g"
    
    # was passiert mit den resultaten davon:
    gesamt = url + search_domain + mode
    
    ergebnis = requests.get(gesamt)
    
    # am ende ausgabe als json
    daten = ergebnis.json()
    return pprint(daten)

    

        

In [7]:
keys_currents(domain='nytimes.com', keywords='Biden')

s.html'},
          {'author': 'Dan Levin',
           'category': ['general'],
           'description': 'Live Covid-19 Live Updates: C.D.C. Extends National '
                          'Eviction Moratorium Through July 31 Travel '
                          'restrictions were put in place in Sydney after a '
                          'cluster of cases grew to 49. “Since the pandemic '
                          'has sta...',
           'id': 'b081d02e-2914-44a2-b500-08a70d178f33',
           'image': 'https://static01.nyt.com/images/2021/06/24/us/24virus-briefing-Biden-vaccinations/24virus-briefing-Biden-vaccinations-facebookJumbo.jpg',
           'language': 'en',
           'published': '2021-06-24 21:09:17 +0000',
           'title': 'The Bidens hit the road as part of a high-profile ‘ground '
                    'game’ to boost vaccinations.',
           'url': 'https://www.nytimes.com/live/2021/06/24/world/covid-vaccine-coronavirus-mask/the-bidens-hit-the-road-as-part-of-a-high-pr

In [8]:
keys_currents(domain='washingtontimes.com', keywords='Biden')

 Republican lawmakers Wednesday during a budget '
                          'hearing over allegations that the Pentagon has '
                          'embraced controversial topics such as critical race '
                          'theory since the election of President Biden.',
           'id': '9c7a203d-cf3b-486b-9a89-0115d9cf0dc7',
           'image': 'https://twt-thumbs.washtimes.com/media/image/2021/06/17/senate_defense_54902_c0-221-5286-3303_s1770x1032.jpg?60d9adbe0df70abd1b75b57dcd0047c988ea9c4c',
           'language': 'en',
           'published': '2021-06-23 20:58:00 +0000',
           'title': 'Joint Chiefs chairman spars with GOP lawmakers over '
                    '‘woke’ military',
           'url': 'https://www.washingtontimes.com/news/2021/jun/23/mark-milley-joint-chiefs-chairman-spars-gop-lawmak/'},
          {'author': 'Stephen Dinan',
           'category': ['general'],
           'description': 'The Supreme Court’s recent ruling on Obamacare has '
               

In [9]:
def latest_currents(domain):
    
    # definieren, dass die api mit such-funktion angesteuert wird
    url2 = "https://api.currentsapi.services/v1/latest-news?"
    
    # welche domain soll durchsucht werden? (aufpassen: spezifizieren ohne web-protokoll und ohne "www.")
    search_domain2 = f"domain={domain}&"
    
    # mode == diesmal nur der api-key eingegeben
    api = "apiKey=OCoZLlqojAZ4Ci4eovRL4uqeXXTIP9KI3Cco3XRMSmDDzr3g"
    
    # was passiert mit den resultaten davon:
    gesamt2 = url2 + search_domain2 + api
    
    ergebnis2 = requests.get(gesamt2)
    
    # am ende ausgabe als json
    daten2 = ergebnis2.json()
    return pprint(daten2)

In [10]:
latest_currents(domain='nytimes.com')

anguage': 'en',
           'published': '2021-06-25 13:00:07 +0000',
           'title': 'What You Need to Know About the Child Tax Credit',
           'url': 'https://www.nytimes.com/2021/06/25/your-money/child-tax-credit.html'},
          {'author': 'Paul Sullivan',
           'category': ['business'],
           'description': '“The industry has changed in the last 24 months '
                          'because of one company, Hipgnosis,” said Mathew '
                          'Knowles, a music executive and father of the music '
                          'stars Beyoncé and Solange Knowles. “That’s the '
                          'compan...',
           'id': 'c163beb1-1524-4f3b-b472-2d746171f78f',
           'image': 'https://static01.nyt.com/images/2021/06/25/us/25wealth/25wealth-facebookJumbo.jpg',
           'language': 'en',
           'published': '2021-06-25 13:00:08 +0000',
           'title': 'The Pandemic Changed How Musicians and Investors See '
                    'Roya

In [11]:
latest_currents(domain='washingtontimes.com')

2daded443012dd36fb548d01aa8453f52ef',
           'language': 'en',
           'published': '2021-06-24 18:38:07 +0000',
           'title': 'Army won’t reprimand chaplain who expressed concern over '
                    'proposed transgender rules',
           'url': 'https://www.washingtontimes.com/news/2021/jun/24/army-wont-reprimand-chaplain-who-posted-about-tran/'},
          {'author': 'Vladimir Isachenkov',
           'category': ['security'],
           'description': 'Russia will be ready to fire to hit to protect its '
                          'borders, a senior diplomat warned Thursday in the '
                          'wake of a Black Sea incident in which a British '
                          'destroyer sailed near Crimea in an area that Russia '
                          'claims as its territorial waters.',
           'id': '8bd8eaaf-2ae9-4d39-ba44-bafaf239d42e',
           'image': 'https://twt-thumbs.washtimes.com/media/image/2021/06/23/Russia_Black_Sea_85385.jpg-67d65