# Data Scraping mit Python: Abschluss-Portfolio – Vergleich liberaler und konservativer Zeitungen/Medien in den USA

In diesem Notebook soll eine deskriptiv-explorative, vergleichende Analyse zweier amerikanischer Zeitungen und der Themen, über die dort berichtet wird, durchgeführt werden.

Folgendes Notebook gliedert sich wie folgt:

**1. Hintergrund: welche Zeitungen wurden ausgewählt und auf was zielt die Analyse ab?**

**2. Technische Durchführung, Datenakquise**

**3. Explorative Analysen mittels erhaltener Daten**

**4. Ein kurzes abschließendes Fazit**

## 1. Hintergrund: welche Zeitungen wurden ausgewählt und auf was zielt die Analyse ab?

Zunächst wird geklärt, welches Erkenntnisinteresse diesem Projekt zugrunde liegt – woraus sich nachfolgend auch die Auswahl der beiden Medien ergibt.

Es kann durchaus behauptet werden, dass die US-amerikanische politische Landschaft aktuell ein problematisches Bild abgibt. Gerade der Diskurs um "Fake News", der durch Donald Trumps Präsidentschaft sowie seine haltlosen Bemerkungen, dass ihm ein vermeintlicher Wahlsieg gegen Joe Biden bei der letzten Wahl durch gezielte Manipulation gestohlen worden wäre, trugen dazu bei. Die ohnehin starke Rivalität zwischen den konservativen Republikanern und den liberaleren Demokraten, die durchaus schon vor Trumps Präsidentschaft bestand, wurde jedoch durch eben diese verschärft: man bekommt als außenstehender Europäer immer mehr den Eindruck, es handele sich um regelrechte Grabenkämpfe – eine Metapher, die sich durch die traurigen Ereignisse des Sturms auf das US-Kapitol vom 6. Januar 2021 noch stärker aufdrängt.

Und dieses Bild der amerikanischen Politik lässt sich zu gewissen Teilen sicher auch auf die Medienlandschaft der USA übertragen. So konnte man unter dem letzten Präsidenten wohl einen starken Anstieg in der Wichtigkeit von Blogs und anderen News-Quellen feststellen, mit denen seine Anhänger ihre "alternativen Fakten" einholten.

Doch sind für vorliegendes Portfolio vor allem die traditionellen Printmedien von Interesse, genauer gesagt deren Online-Versionen. Es soll um die Frage gehen, ***welche Themen in diesen behandelt werden und wo zwischen traditionell liberalen und traditionell konservativen Zeitungen bzw. Nachrichtenagenturen Unterschiede bestehen.***

Hier wäre beispielsweise anzunehmen, dass sozusagen aus der "Ideologie" in den konservativen Zeitungen das "America first"-Prinzip vorherrschend ist und daher viele bzw. hauptsächlich Artikel im Inland- oder gar im Sicherheits-Ressort publiziert werden. Dem gegenüber könnte angenommen werden, dass in den liberaleren Zeitungen wohl eher die Prämisse eines "offeneren Amerikas" vorherrscht und hier im Gegenteil zu konservativen Zeitungen auch Beiträge aus den Ressorts "Global" und "International" oder auch "Wirtschaft" veröffentlicht werden. 
Diese Vermutungen sollen mittels dieses Portfolios einer ersten explorativen Überprüfung unterzogen werden, damit sie durch Fakten untermauert werden können: welche Themen werden also wirklich von den Nachrichtenportalen aufgegriffen?

Zwecks der dafür genutzten Medien soll auf der "liberalen Seite" auf die [New York Times](https://www.nytimes.com) zurückgegriffen werden. Als konservatives Gegenstück wurde sich für die [Washington Times](https://www.washingtontimes.com) entschieden. Alternativ würde hier auch das News-Portal [Fox News](https://www.foxnews.com/) als eher konservatives Beispiel fungieren können – in Ermangelung von Informationen über eine möglicherweise verfügbare API wurden beide News-Portale kontaktiert, da diese den Prozess der Informationsgewinnung wesentlich vereinfachen würde. Zur Datenbeschaffung soll jedoch später unter Punkt 2 mehr Information gegeben werden. Diese Entscheidungen wurden beispielsweise aufgrund von [Rankings der University of Michigan in Zusammenarbeit mit AllSides](https://guides.lib.umich.edu/c.php?g=637508&p=4462444) getroffen.

AllSides ist ein eigenes Nachrichten-Portal, welches wie der Name schon sagt versucht, "beide Seiten" des (nachrichten)politischen Spektrums zu erfassen und somit ein möglichst umfassendes Nachrichtenbild zu gewährleisten. Dort werden Seiten mit einem eigenen [Ranking](https://www.allsides.com/media-bias/media-bias-ratings) erfasst, auf welches von Seiten der University of Michigan und auch von Seiten dieses Portfolios zurückgegriffen wurde.
Es wurde dabei bewusst nur auf die Kategorien "lean left" und "lean right" geblickt, da u. a. auch Nachrichtenagenturen wie Breitbart erfasst wurden, welche von vorliegender Arbeit nicht wirklich als seriöse "traditionelle Nachrichtenquelle" erachtet wird.

# 2. Technische Durchführung, Datenakquise

Im zweiten Schritt sollen dann die Daten von den ausgewählten Medien-APIs gezogen werden. Dieser Paragraph soll kurz als Vorabklärung zu den APIs dienen - etwaige geschriebene Funktionen werden dann jedoch an Ort und Stelle näher erläutert oder mit ausreichend erklärenden Kommentaren versehen.

Zunächst zur **API der New York Times**. Hier konnte ganz einfach ein Zugang und ein Key angefragt werden, welcher dann sofort einsetzbar war. Hier können verschiedene Zugänge gewählt werden, besonders interessant für den hier vorliegenden Anwendungsfall sind jedoch *Article Archive* (hier kann zeitlich gesucht werden, nach Monaten) und *Article Search* (hier kann nach einem Begriff gesucht werden, zu dem dann Artikel gezeigt werden).

Informationen zur Washington Times und zu Fox News folgen hier noch.

Für die [Currents API](https://www.currentsapi.services/en) wurde ebenfalls ein API-Key beantragt, welcher auch nutzbar ist. Diese API versucht, über verschiedenste Nachrichtenquellen hinweg den Zugang über eine Schnittstelle zu gewährleisten – sie ist sozusagen als Meta-API zu sehen. Sollten für die einzelnen Portale keine Keys zu erhalten sein, dann wird auf Currents zurückgegriffen werden.

In [3]:
import requests
import datetime
import pandas as pd
import seaborn as sea
from pprint import pprint

########################

myAPI = 'OCoZLlqojAZ4Ci4eovRL4uqeXXTIP9KI3Cco3XRMSmDDzr3g'

In [4]:
# hier könnte IHRE funktion stehen!
#def req_currents(keywords, )

In [5]:
# keyword search

latest = ('https://api.currentsapi.services/v1/latest-news?domain=washingtontimes.com&' + 
       'apiKey=OCoZLlqojAZ4Ci4eovRL4uqeXXTIP9KI3Cco3XRMSmDDzr3g')

latest_resp = requests.get(latest)

pprint(latest_resp.json())

{'news': [{'author': 'Cheryl K. Chumley',
           'category': ['opinion'],
           'description': 'Politically speaking, forcing Americans who don’t '
                          'want to get vaccinated is a win for Democrats '
                          'because Democrats, by and large, are already '
                          'vaccinated and think the rest of America should be '
                          'vaccinated, as well. By hook or by crook. By '
                          'pressure or by force. By carrot and by stick.',
           'id': 'd8356b5b-7a95-4e89-bd63-49434ca56875',
           'image': 'https://twt-thumbs.washtimes.com/media/image/2021/07/05/Virus_Outbreak_85499.jpg-57d3e_c0-331-3775-2532_s1770x1032.jpg?b0d82ca578dde3872473c3616a652fbd0a91f7d7',
           'language': 'en',
           'published': '2021-07-07 14:41:38 +0000',
           'title': 'White House floats more coronavirus clampdowns',
           'url': 'https://www.washingtontimes.com/news/2021/jul/7/white-

In [6]:
# keyword search with domain specified

keywords = 'Biden'

search = (f"https://api.currentsapi.services/v1/search?domain=washingtontimes.com&keywords={keywords}&" + 
       "apiKey=OCoZLlqojAZ4Ci4eovRL4uqeXXTIP9KI3Cco3XRMSmDDzr3g")

search_res = requests.get(search)

data = search_res.json()

pprint(data)

{'news': [{'author': 'Haris Alic',
           'category': ['national'],
           'description': 'Coal — the longtime nemesis of the green movement — '
                          'stands to play a significant role in America’s '
                          'transition from gas-powered to electric vehicles by '
                          'supplying rare-earth elements for high-tech '
                          'batteries.',
           'id': 'da160389-7fcb-42a6-9de5-a1bdae106479',
           'image': 'https://twt-thumbs.washtimes.com/media/image/2021/07/06/Energy_Secretary_New_York_12844.jpg-54beb_c0-409-6000-3907_s1770x1032.jpg?5b4cf4ea478b571f0b3f599ec6c16561299107ee',
           'language': 'en',
           'published': '2021-07-08 08:48:51 +0000',
           'title': 'Coal aversion by Biden, environmentalists threatens '
                    'transition to electric vehicles',
           'url': 'https://www.washingtontimes.com/news/2021/jul/8/coal-poised-to-contribute-to-electric-vehicle-f

In [7]:
def keys_currents(domain, keywords):
    
    # definieren, dass die api mit such-funktion angesteuert wird
    url = "https://api.currentsapi.services/v1/search?"
    
    # welche domain soll durchsucht werden? (aufpassen: spezifizieren ohne web-protokoll und ohne "www.")
    search_domain = f"domain={domain}&"
    
    # mode == welches keyword mit meinem api-key gesucht werden soll
    mode = f"keywords={keywords}&" + "apiKey=OCoZLlqojAZ4Ci4eovRL4uqeXXTIP9KI3Cco3XRMSmDDzr3g"
    
    # was passiert mit den resultaten davon:
    gesamt = url + search_domain + mode
    
    ergebnis = requests.get(gesamt)
    
    # am ende ausgabe als json
    daten = ergebnis.json()
    return pprint(daten)

    

        

In [8]:
nyt_news_keywords = keys_currents(domain='nytimes.com', keywords='Biden')
pd.DataFrame(nyt_news_keywords)

{'news': [{'author': 'David E. Sanger',
           'category': ['politics'],
           'description': 'The president summoned his top cybersecurity '
                          'advisers to consider immediate action to disrupt '
                          'Russian incursions.',
           'id': '30cfd9dc-2296-4865-b00a-f006591ca925',
           'image': 'https://static01.nyt.com/images/2021/07/07/lens/07dc-cyber-biden/07dc-cyber-biden-facebookJumbo.jpg',
           'language': 'en',
           'published': '2021-07-08 01:19:25 +0000',
           'title': 'Biden Weighs a Response to Ransomware Attacks',
           'url': 'https://www.nytimes.com/2021/07/07/us/politics/biden-ransomware-russia.html'},
          {'author': 'Jim Tankersley and Michael D. Shear',
           'category': ['business'],
           'description': 'The president’s aides say they have found ways to '
                          'replace lead pipes, wire homes for broadband and '
                          'build chargi

In [9]:
keys_currents(domain='washingtontimes.com', keywords='Biden')

{'news': [{'author': 'Haris Alic',
           'category': ['national'],
           'description': 'Coal — the longtime nemesis of the green movement — '
                          'stands to play a significant role in America’s '
                          'transition from gas-powered to electric vehicles by '
                          'supplying rare-earth elements for high-tech '
                          'batteries.',
           'id': 'da160389-7fcb-42a6-9de5-a1bdae106479',
           'image': 'https://twt-thumbs.washtimes.com/media/image/2021/07/06/Energy_Secretary_New_York_12844.jpg-54beb_c0-409-6000-3907_s1770x1032.jpg?5b4cf4ea478b571f0b3f599ec6c16561299107ee',
           'language': 'en',
           'published': '2021-07-08 08:48:51 +0000',
           'title': 'Coal aversion by Biden, environmentalists threatens '
                    'transition to electric vehicles',
           'url': 'https://www.washingtontimes.com/news/2021/jul/8/coal-poised-to-contribute-to-electric-vehicle-f

In [10]:
def latest_currents(domain):
    
    # definieren, dass die api mit such-funktion angesteuert wird
    url2 = "https://api.currentsapi.services/v1/latest-news?"
    
    # welche domain soll durchsucht werden? (aufpassen: spezifizieren ohne web-protokoll und ohne "www.")
    search_domain2 = f"domain={domain}&"
    
    # mode == diesmal nur der api-key eingegeben
    api = "apiKey=OCoZLlqojAZ4Ci4eovRL4uqeXXTIP9KI3Cco3XRMSmDDzr3g"
    
    # was passiert mit den resultaten davon:
    gesamt2 = url2 + search_domain2 + api
    
    ergebnis2 = requests.get(gesamt2)
    
    # am ende ausgabe als json
    daten2 = ergebnis2.json()
    
    daten_voll = pd.DataFrame(daten2["news"])
    
    return(daten_voll)

In [125]:
nyt = latest_currents(domain='nytimes.com')

In [126]:
nyt["description"][0]

'Dicky Maegle was an All-American running back at Rice University. He was inducted into the College Football Hall of Fame. And he was a Pro Bowl defensive back in his first N.F.L. season.\n\nBut when Ric...'

In [132]:
wtimes = latest_currents(domain='washingtontimes.com')

In [133]:
wtimes["description"][0]

'The eight-time Wimbledon champion lost 6-3, 7-6 (4), 6-0 to 14th-seeded Hubert Hurkacz of Poland in the quarterfinals at the All England Club on Wednesday, a surprisingly lopsided finish to Federer’s 22nd appearance in the tournament.'

In [134]:
foxnews = latest_currents(domain='foxnews.com')

In [135]:
foxnews["description"][1]

'Greg Gutfeld slams mainstream media for drawing out the January 6 breach of the Capitol while ignoring the crime surge in the United States.'

# Versuche mit NLTK an NLP

In [93]:
import numpy
import re
from nltk.tokenize import word_tokenize
from nltk import pos_tag
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.preprocessing import LabelEncoder
from collections import defaultdict
from nltk.corpus import wordnet as wn
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import model_selection, naive_bayes, svm
from sklearn.metrics import accuracy_score