# Projekt Data Scraping (SS 21) – Großbritannien oder NYT

In [5]:
from IPython.display import IFrame
IFrame('https://nytimes.com', width=1000, height=500)

## Was ist das Projekt? Was ist das Ziel?

Im Projekt soll geprüft werden, wie und über was in der amerikanischen Medienlandschaft berichtet wird. Dazu werden zunächst Daten von der API der (liberalen/pro-Dem.) **New York Times** in Anspruch genommen. Hier gibt es dreierlei Zugriff:

+ Zugriff auf **Most Popular Articles API**
    - Erklärung auf der Dokumentationsseite: "Provides services for getting the most popular articles on NYTimes.com based on emails, shares, or views."

+ Zugriff auf **Article Search API**
    - Erklärung auf der Dokumentationsseite: "Use the Article Search API to look up articles by keyword. You can refine your search using filters and facets."
    
+ Zugriff auf **Article Archive API**
    - Erklärung auf der Dokumentationsseite: "The Archive API returns an array of NYT articles for a given month, going back to 1851."

+ Zugrif auf **Top Stories API**
    - Erklärung auf der Dokumentationsseite: "The Top Stories API returns an array of articles currently on the specified section (arts, business, ...)."

Vergleichend dazu könnte ein **eher konservatives News-Portal gegenübergestellt** werden, um zu sehen, welche Artikel dort im Trend liegen. Da auch in den meisten Fällen die Schlagzeilen verfügbar sein sollten, könnte man hier sehen, was bei der jeweiligen Leserschaft dieser Zeitungen im Trend liegt.

Das Ziel ist dann, herauszustellen, **ob sich zwischen Zeitungen/News-Outlets mit einer liberalen, pro-Democrats Leserschaft und jenen mit einer konservativen, pro-Republican Leserschaft klare Unterschiede** feststellen lassen, was beispielsweise...:

+ ... die Themen der News-Artikel angeht

+ ... die Sprache in den Schlagzeilen der populärsten News-Artikel angeht

Eine weitere Frage, die man aus den Daten heraus angehen könnte, wäre auch, ob es möglicherweise News-Trends gibt, die besonders in einer der beiden untersuchten Portale thematisiert werden – in der anderen jedoch gar nicht.

Mittels den Möglichkeiten in Richtung Article Search oder Article Archive könnte man darüber hinaus einen festgelegten Zeitraum einstellen (z. B. einen Monat oder auch mehr). Danach könnte dann untersucht werden, welche "Tags" für die Artikel in diesem Zeitraum dominant waren oder auch, welche Ressorts vorwiegend von den jeweils unterschiedlichen Nachrichtenseiten im gleichen Zeitraum bedient wurden.

*So könnte man versuchen, weitere bzw. andere Trends festzustellen: werden in konservativen Nachrichtenquellen mehr/öfter/mit höherer Frequenz Politik-Themen besprochen? Oder kommen dazu mehr in den liberalen Nachrichtenquellen?*

## Woher bekommt man die Daten?

Die Daten für die ***NYT sind über eine eingerichtete API mittels API-Key*** verfügbar. Ein solcher Key wurde schon beantragt, getestet und ist einsatzbereit.

Für eine zweite Quelle käme evtl. die ***Developer-Version der Currents-API*** infrage, ein kurzer Blick hierauf kann über die folgende Zelle erlangt werden. Ein Vorteil wäre hier auch, dass eine Suche, einem ersten Blick zufolge, nicht nur auf Nachrichten im klassischen Sinne begrenzt wäre, sondern innerhalb der gleichen API-Sortierungsmöglichkeiten wie bei der NYT, auch Blogs o. Ä. durchsuchbar machen würde. Und gerade im konservativen Nachrichtenspektrum der USA sind diese auch oft eine Informations- und Nachrichtenquelle für viele Menschen.

In [6]:
IFrame('https://currentsapi.services/en', width=1000, height=500)

## Ist Scraping legal?

+ **NYT**: Der Zugang ist legal, da er mittels API-Key erfolgt und somit von der NYT selbst freigeschaltet wurde.

+ Auch im Falle von **Currents** erfolgt der Zugang über einen API-Key, ist damit legal. Jedoch gibt es hier einen Cap von 600 Newsartikeln/Tag. Ob dies ausreichend sein wird, muss noch erprobt werden.

Weitere Alternativen zu Currents wären [mediastack](https://mediastack.com/product) oder [newsapi.org](https://newsapi.org/). Beide hätten aber ein niedrigeres Limit an Artikeln pro Tag. Mediastack wäre dabei aber schon interessant, da hier mehr als 7.500 Nachrichtenquellen abgedeckt sein würden. Sollte Currents dies nicht bewerkstelligen können, dann wäre ein Wechsel zu mediastack zu überlegen.

Wenn nicht über APIs, sondern über Webscraping z. B. mittels `Selenium` bzw. Chromedriver/automatisiertem Browser gegangen wird, muss die Legalität nochmals im Einzelfall geprüft werden. Dann muss sich jedoch als "Gegenpart" zur NYT auf eine Zeitung/ein News-Outlet spezialisiert werden (z. B. Washington Times).

## Erste Überlegungen zur Datensammlung und Strategie

+ Bei der NYT liegt der API-Key vor und es wurde bereits mittels `requests` ein Scraping-Versuch vorgenommen, der erfolgreich war (siehe nachfolgende Codezellen). Hier wurden für die am meisten angesehenen Artikel der letzten 7 Tage Informationen abgegriffen.
    - Es dürfte einfach möglich sein, hier eine Funktion zu schreiben, indem man 'what' und 'period' ersetzen lässt (vgl. letzte Code-Zelle)

+ Für Currents wurde ein API-Zugang per Developer beantragt, ein Key liegt vor, jedoch wurde noch keine genauere Abfrage getestet. Die Dokumentation scheint aber recht gut und aufschlussreich zu sein. Auch hier wird (höchstwahrscheinlich) mit `requests` gearbeitet.

+ Es bleibt zu überlegen, ob sich eher auf die "most popular articles" spezialisiert werden sollte, oder ob die Idee, einen Zeitraum festzulegen und hier sozusagen "unabhängig" von Klickzahlen oder Shares über Mail/Social Media eine Analyse durchzuführen, die sich eher auf die behandelten Themen/"Tags" bezieht.

+ Es sollte auch bedacht werden, dass im Falle eines Scrapens von Artikeln über einen längeren Zeitraum auf jeden Fall **Paginations-Mechanismen** in etwaige Funktionen eingebaut werden müssen (die NYT weist sogar ausdrücklich darauf hin), auch unabhängig vom genutzten Package (sollten sich hier im Verlauf Änderungen am Wunsch, `requests` zu nutzen, ergeben)

+ Datensätze sollten als `Pandas DataFrame` gesichert und nachher als .csv gesichert werden. Dieses Format eignet sich zur Analyse nicht nur mit Python, sondern auch mit R oder gar mit Excel/LibreOffice Calc/Spreadsheets.

+ Sollten die API-Zugänge aus verschiedenen Gründen zu "restriktiv" sein, muss sich nochmals über das direkte Scraping der einzelnen Webseiten informiert werden:
    - NYT: Hier sind einige Dinge gesperrt, die Seite ist sehr tief verschachtelt. Generell sollte hier aber mittels API, den "most popular articles gearbeitet werden können
    - Currents würde dann wegfallen, da das ja gerade eine API zu **diesem** Zweck ist
    - Als konservatives Blatt z. B. die Washington Times. Hier ist jedoch nicht genau ersichtlich, ob Scraping per se verboten ist. Robots.txt zeigt einige beschränkte Bereiche (z. B. "guns") und einige Bots sind verboten
        - Hier wäre es vielleicht (für ein anderes, größeres Projekt) interessant, eine Art Meta-Scraping zu machen und zu schauen, welche Seiten welche Bereiche für Scraping "sperren". Gerade im News-Bereich wäre das sicher interessant, jedoch für dieses Projekt wohl zu ausufernd.

In [2]:
import requests
from pprint import pprint

In [3]:
apikey = 'stCPZiKMxcJpce8WKRo8jAamLfs8whRs'

# Top Stories:
# https://developer.nytimes.com/docs/top-stories-product/1/overview
what = "viewed"
period = "7" # aus der dokumentation: ein wert von 1, 7 oder 30 (default == 1; meint: Tage)
query_url = f"https://api.nytimes.com/svc/mostpopular/v2/{what}/{period}.json?api-key={apikey}"

r = requests.get(query_url)
pprint(r.json())

# einfache abfrage für letzte 7 tage scheint zu funktionieren, zieht immer die 20 populärsten artikel nach "views"

{'copyright': 'Copyright (c) 2021 The New York Times Company.  All Rights '
              'Reserved.',
 'num_results': 20,
 'results': [{'abstract': 'The four-time Grand Slam tournament winner wrote on '
                          'Instagram that she had suffered from bouts of '
                          'depression since 2018 and that she would “take some '
                          'time” away from the tennis court.',
              'adx_keywords': 'Tennis;French Open (Tennis);Mental Health and '
                              "Disorders;Osaka, Naomi (1997- );Women's Tennis "
                              'Assn',
              'asset_id': 100000007790151,
              'byline': 'By Matthew Futterman',
              'column': None,
              'des_facet': ['Tennis',
                            'French Open (Tennis)',
                            'Mental Health and Disorders'],
              'eta_id': 0,
              'geo_facet': [],
              'id': 100000007790151,
              

                          'threat from the pandemic lessens in the United '
                          'States.',
              'adx_keywords': 'Coronavirus (2019-nCoV);Vaccination and '
                              'Immunization;Funerals and Memorials;Deaths '
                              '(Fatalities);Centers for Disease Control and '
                              'Prevention;GoFundMe;Michigan',
              'asset_id': 100000007773542,
              'byline': 'By Sarah Mervosh',
              'column': None,
              'des_facet': ['Coronavirus (2019-nCoV)',
                            'Vaccination and Immunization',
                            'Funerals and Memorials',
                            'Deaths (Fatalities)'],
              'eta_id': 0,
              'geo_facet': ['Michigan'],
              'id': 100000007773542,
              'media': [{'approved_for_syndication': 1,
                         'caption': 'People gathered for the viewing of Darryl '
                  