# Einführung in Python für die Computational Social Science (CSS)

## Jonas Volle
Wissenschaftlicher Mitarbeiter  
Chair of Methodology and Empirical Social Research  
Otto-von-Guericke-Universität

[jonas.volle@ovgu.de](mailto:jonas.volle@ovgu.de)

**Sprechstunde**: individuell nach vorheriger Anmeldung per [Mail](mailto:jonas.volle@ovgu.de)

Freitag, 07.07.2023

**Quelle:** Ich orientiere mich für diese Sitzung teils an den Kapiteln 4 und 5 aus dem Buch:  

McLevey, John. 2021. Doing Computational Social Science: A Practical Introduction. 1st ed. Thousand Oaks: SAGE Publications.

# Tag 3: APIs und Webscraping

## Inhalt

- API
- Webscraping


## Application Programming Interfaces

### Was ist ein API?

- **I**nterface (Benutzeroberfläche): Interaktion zwischen Mensch und Computer, um bestimmte Aufgaben zu erledigen, ohne dass er verstehen muss, wie diese Aufgabe tatsächlich ausgeführt wird.  
- Wie Benutzeroberflächen machen APIs schwierige Dinge einfacher, indem sie eine Menge von Prozessen auf niedriger Ebene abstrahieren. APIs bündeln Funktionen damit diese besonders leicht zu verstehen und zu verwenden sind.

### RESTful APIs
- Besondere Art von APIs, die auf dem REST (Representational State Transfer) Prinzip basieren.
- RESTful APIs ermöglichen die Kommunikation und den Datenaustausch zwischen verschiedenen Anwendungen über das Internet.
- RESTful APIs arbeiten nach dem Client-Server-Modell, wobei der Client Anfragen (Requests) an den Server sendet und der Server entsprechend antwortet.
- Die Daten werden normalerweise im JSON- oder XML-Format übertragen.
- RESTful APIs sind zustandslos, was bedeutet, dass jede Anfrage unabhängig ist und der Server keine Informationen über vergangene Anfragen speichert.
- Zugriff über Endpunkte (Endpoints)

### Requests mit Python
- Requests werden an einen bestimmten Endpunkt (Endpoint) gesendet in Form einer URL (APIs können verschiedene Enpoints haben!)
- Diese URL besteht aus verschiedenen Teilen, die wir so spezifizieren können (Suchbegriffe, Filter, Parameter etc.), sodass wir den gewünschten Inhalt zurück bekommen.
- Die meisten APIs haben *rate limits*, also Obergrenzen für Anfragen in einer bestimmten Zeitspanne. 

### API keys oder tokens
- Um Anfragen an einen API zu senden, benötigen wir in den meisten Fällen einen API key oder API token.
- API keys oder tokens funktionieren wie Benutzername und Passwort die uns identifizieren.
- Diese keys können auf der jeweiligen Webseite des APIs beantragt werden und werden uns dann zugewiesen.
- Es ist wichtig, dass wir diese Zugangsdaten nicht teilen, das heißt auch nicht direkt in unser Script schreiben.

### Responses
- Wenn wir eine GET-Anfrage an den API senden, bekommen wir im Gegenzug eine Antwort (response)
- In den meisten Fällen bekommen wir die Daten im `json`-Format zurück. Das steht für *JavaScript Object Notation*.
- `json` ist eine genestete Datenstruktur, die aussieht wie ein *dictionary* in Python und in der die Daten in *key-value* Paaren gespeichert sind.
- Mit dem Python Paket `json` können wir diese Datenstrukturen wie ein `dictionary` behandeln.
- Mit `pandas` Methode `.read_json()` können wir dieses Datenformat auch direkt in einen Dataframe umwandeln.

## The Guardian API

Die Zeitung 'The Guardian' bietet fünf verschiedene Endpunkte:

1. Der content-Endpoint liefert den Text und die Metadaten für veröffentlichte Artikel. Es ist möglich, die Ergebnisse mittels Suchanfragen abzufragen und zu filtern. Dieser Endpunkt ist wahrscheinlich der nützlichste für Forscher. 
2. Der tags-Endpunkt liefert API-Tags für mehr als 50.000 Ergebnisse, die in anderen API-Abfragen verwendet werden können. 
3. Der sections-ENdpunkt liefert Informationen über die Gruppierung veröffentlichter Artikel in Sektionen. 
4. Der editions-Endpunkt liefert Inhalte für jede der regionalen Hauptseiten: USA UK, Australien und International. 
5. Der single-Endpunkt Punkt liefert Daten für einzelne Elemente, einschließlich Inhalt, Tags und Abschnitte.

In vielen Fällen gibt es in Python schon Clients für einschlägige APIs. Diese Clients sind Pakete und beinhalten eine Reihe an Funktionen, die die Arbeit mit dem API erleichtert. In diesem Fall arbeiten wir aber mit dem `requests` Paket direkt mit dem API um die Logik hinter den API-Anfragen und Antworten zu verstehen.

### Zugriff auf den Guardian API

Zunächst müssen wir uns für einen API-key registrieren. Das geht hier: https://bonobo.capi.gutools.co.uk/register/developer

Nach der erfolgreichen Registrierung bekommen wir einen key zugesendet, den wir speichern müssen. Dafür erstellen wir eine Datei mit dem Namen `cred.py` im gleichen Ordner wie dieses Notebook. In dieser Datei weisen wir der Variable `GUARDIAN_KEY` den zugesendeten Key zu. Wenn wir git zur Versionskontrolle nutzen, können wir diese Datei der `.gitignore` Liste hinzufügen. Dann wird unser Key nicht synchronisiert.

In [1]:
GUARDIAN_KEY = 'paste_your_key_here'

Diese Datei können wir dann in unser Script importieren:

In [2]:
import cred 
GUARDIAN_KEY = cred.GUARDIAN_KEY

In [3]:
# print(GUARDIAN_KEY)

Wir verwenden ein Paket namens `requests`, um unsere API-Anfragen zu stellen. Sobald das Paket importiert wurde, können wir dies tun, indem wir die Methode `.get()` mit der Basis-API-URL für den Inhaltsendpunkt versehen. Außerdem erstellen wir ein Wörterbuch namens `PARAMS`, das ein Key-Values-Paar für unseren API-Schlüssel enthält. Später werden wir diesem Wörterbuch weitere Key-Values-Paare hinzufügen, um zu ändern, was die API zurückgibt.

In [4]:
import requests
import pprint as pp

In [5]:
# API Endpoint
API_ENDPOINT = 'http://content.guardianapis.com/search' 

# API Parameter
PARAMS = {'api-key': GUARDIAN_KEY} 

In [6]:
# GET request
response = requests.get(API_ENDPOINT, params=PARAMS) 

# json Datei als dictionary speichern
response_dict = response.json()['response'] 

In [1]:
# Unsere Anfrage besteht aus dieser URL:
# response.url

In [8]:
pp.pprint(response_dict)

{'currentPage': 1,
 'orderBy': 'newest',
 'pageSize': 10,
 'pages': 243594,
 'results': [{'apiUrl': 'https://content.guardianapis.com/sport/live/2023/jul/06/tour-de-france-2023-cycling-stage-six-tourmalet-live',
              'id': 'sport/live/2023/jul/06/tour-de-france-2023-cycling-stage-six-tourmalet-live',
              'isHosted': False,
              'pillarId': 'pillar/sport',
              'pillarName': 'Sport',
              'sectionId': 'sport',
              'sectionName': 'Sport',
              'type': 'liveblog',
              'webPublicationDate': '2023-07-06T15:13:07Z',
              'webTitle': 'Tour de France: riders head for stage six summit '
                          'finish after Tourmalet test – live',
              'webUrl': 'https://www.theguardian.com/sport/live/2023/jul/06/tour-de-france-2023-cycling-stage-six-tourmalet-live'},
             {'apiUrl': 'https://content.guardianapis.com/sport/live/2023/jul/06/wimbledon-tennis-andy-murray-tsitsipas-ruud-rybakina-d

In [9]:
# Was sind die keys des dictionaries?
print(response_dict.keys())

dict_keys(['status', 'userTier', 'total', 'startIndex', 'pageSize', 'currentPage', 'pages', 'orderBy', 'results'])


Die Ergebnisse sind dem key `'results'` zugewiesen. Results besteht aus einem dictionary je Eintrag. Diese dictonaries befinden sich in einer Liste.

In [10]:
pp.pprint(response_dict['results'])

[{'apiUrl': 'https://content.guardianapis.com/sport/live/2023/jul/06/tour-de-france-2023-cycling-stage-six-tourmalet-live',
  'id': 'sport/live/2023/jul/06/tour-de-france-2023-cycling-stage-six-tourmalet-live',
  'isHosted': False,
  'pillarId': 'pillar/sport',
  'pillarName': 'Sport',
  'sectionId': 'sport',
  'sectionName': 'Sport',
  'type': 'liveblog',
  'webPublicationDate': '2023-07-06T15:13:07Z',
  'webTitle': 'Tour de France: riders head for stage six summit finish after '
              'Tourmalet test – live',
  'webUrl': 'https://www.theguardian.com/sport/live/2023/jul/06/tour-de-france-2023-cycling-stage-six-tourmalet-live'},
 {'apiUrl': 'https://content.guardianapis.com/sport/live/2023/jul/06/wimbledon-tennis-andy-murray-tsitsipas-ruud-rybakina-day-four-live',
  'id': 'sport/live/2023/jul/06/wimbledon-tennis-andy-murray-tsitsipas-ruud-rybakina-day-four-live',
  'isHosted': False,
  'pillarId': 'pillar/sport',
  'pillarName': 'Sport',
  'sectionId': 'sport',
  'sectionName':

In [11]:
response_dict['results'][0]

{'id': 'sport/live/2023/jul/06/tour-de-france-2023-cycling-stage-six-tourmalet-live',
 'type': 'liveblog',
 'sectionId': 'sport',
 'sectionName': 'Sport',
 'webPublicationDate': '2023-07-06T15:13:07Z',
 'webTitle': 'Tour de France: riders head for stage six summit finish after Tourmalet test – live',
 'webUrl': 'https://www.theguardian.com/sport/live/2023/jul/06/tour-de-france-2023-cycling-stage-six-tourmalet-live',
 'apiUrl': 'https://content.guardianapis.com/sport/live/2023/jul/06/tour-de-france-2023-cycling-stage-six-tourmalet-live',
 'isHosted': False,
 'pillarId': 'pillar/sport',
 'pillarName': 'Sport'}

In [12]:
response_dict['results'][0]['webTitle']

'Tour de France: riders head for stage six summit finish after Tourmalet test – live'

### Ergebnisse filtern
Wir können unserer API Anfrage noch weitere Parameter hinzufügen. Diese Parameter können wir der Dokumentation entnehmen: https://open-platform.theguardian.com/documentation/search

In [13]:
PARAMS = { 
    'api-key': GUARDIAN_KEY,
    'from-date': '2020-04-10',
    'to-date': '2020-04-10',
    'lang': 'en',
    'production-office': 'uk',
    'q': 'coronavirus' 
}

In [14]:
response = requests.get(API_ENDPOINT, params=PARAMS)
response_dict = response.json()['response']

Unsere Anfrage besteht aus dieser URL. Die Antwort können wir uns auch im Browser anschauen. Hierbei bietet sich eine json Erweiterung an, die das Ergebnis schön formatiert. Für Chrome z.B. JSONVue (https://chrome.google.com/webstore/detail/jsonvue/chklaanhfefbnpoihckbnefhakgolnmc)

In [2]:
# Unsere Anfrage besteht aus dieser URL.
# response.url

Damit wir auch die Texte der Artikel mit ausgegeben bekommen, müssen wir unsere Parameter ändern und Felder hinzufügen:

In [16]:
PARAMS = {
    'api-key': GUARDIAN_KEY,
    'from-date': '2020-04-10', 
    'to-date': '2020-04-10', 
    'lang': 'en', 
    'production-office': 'uk', 
    'q': 'coronavirus', 
    'show-fields': 'wordcount,body,byline' 
} 

In [17]:
response = requests.get(API_ENDPOINT, params=PARAMS) 
response_dict = response.json()['response']

In [3]:
# response.url

In [19]:
response_dict['results']

[{'id': 'world/2020/apr/10/coronavirus-latest-at-a-glance-summary',
  'type': 'article',
  'sectionId': 'world',
  'sectionName': 'World news',
  'webPublicationDate': '2020-04-10T17:26:45Z',
  'webTitle': 'Coronavirus: 10 April at a glance',
  'webUrl': 'https://www.theguardian.com/world/2020/apr/10/coronavirus-latest-at-a-glance-summary',
  'apiUrl': 'https://content.guardianapis.com/world/2020/apr/10/coronavirus-latest-at-a-glance-summary',
  'fields': {'byline': 'Kevin Rawlinson',
   'wordcount': '525'},
  'isHosted': False,
  'pillarId': 'pillar/news',
  'pillarName': 'News'},
 {'id': 'world/2020/apr/10/coronavirus-latest-at-a-glance-friday',
  'type': 'article',
  'sectionId': 'world',
  'sectionName': 'World news',
  'webPublicationDate': '2020-04-10T10:57:40Z',
  'webTitle': 'Coronavirus: 10 April, at a glance',
  'webUrl': 'https://www.theguardian.com/world/2020/apr/10/coronavirus-latest-at-a-glance-friday',
  'apiUrl': 'https://content.guardianapis.com/world/2020/apr/10/coron

In [20]:
for response in response_dict['results']:
    print(response['fields'])

{'byline': 'Alexandra Topping', 'body': '<p>Key developments in the global <a href="https://www.theguardian.com/world/coronavirus-outbreak">coronavirus outbreak</a> today include:</p> <h2>Spanish death toll continues to slow</h2> <p><a href="https://www.theguardian.com/world/live/2020/apr/10/coronavirus-live-news-global-deaths-near-95000-as-boris-johnson-leaves-intensive-care?page=with:block-5e903e568f08db3109f20078#block-5e903e568f08db3109f20078">Spain recorded 605 deaths</a> from Thursday to Friday, down from 683 during the previous 24 hours, in a sign that the lockdown strategy is continuing to work and that the virus is being slowed in its tracks. The number of people who have died from the disease rose to 15,843 on Friday, up from 15,238 on Thursday.</p> <h2>Yemen announces first confirmed case of coronavirus</h2> <p><a href="https://www.theguardian.com/world/live/2020/apr/10/coronavirus-live-news-global-deaths-near-95000-as-boris-johnson-leaves-intensive-care?page=with:block-5e90

In [21]:
for i in response_dict['results']:
    print(i['fields']['body'])

<p>Key developments in the global <a href="https://www.theguardian.com/world/coronavirus-outbreak">coronavirus outbreak</a> today include:</p> <h2>Spanish death toll continues to slow</h2> <p><a href="https://www.theguardian.com/world/live/2020/apr/10/coronavirus-live-news-global-deaths-near-95000-as-boris-johnson-leaves-intensive-care?page=with:block-5e903e568f08db3109f20078#block-5e903e568f08db3109f20078">Spain recorded 605 deaths</a> from Thursday to Friday, down from 683 during the previous 24 hours, in a sign that the lockdown strategy is continuing to work and that the virus is being slowed in its tracks. The number of people who have died from the disease rose to 15,843 on Friday, up from 15,238 on Thursday.</p> <h2>Yemen announces first confirmed case of coronavirus</h2> <p><a href="https://www.theguardian.com/world/live/2020/apr/10/coronavirus-live-news-global-deaths-near-95000-as-boris-johnson-leaves-intensive-care?page=with:block-5e90385c8f081a236f190ee5#block-5e90385c8f081a

### Größere Anfragen senden

Bis jetzt haben wir nur Daten für 10 Artikel erhalten. Wenn wir mehr Artikel bekommen wollen, müssen wir ein weiteres Konzept von APIs verstehen:  
Jede Antwort enhält neben den results auch Metadaten:
- `response_dict['total']` --> Anzahl der Artikel
- `response_dict['pages']` --> Anzahl der Seiten
- `response_dict['pageSize']` --> Anzahl der Artikel je Seite
- `response_dict['currentPage']` --> Aktuelle Seite

APIs funktionieren wie Suchmaschinen, sie geben die Ergebnisse auf verschiedenen Seiten zurück. Wir können die oben genannten Parameter mit in unsere API-Anfrage aufnehmen, um etwa auf eine bestimmte Seite zu navigieren, oder die Größe der jeweiligen Seiten zu bestimmen. Wenn wir alle Ergebnisse haben möchten, müssen wir mit einem Loop über alle Seiten loopen.

In [22]:
response_dict.keys()

dict_keys(['status', 'userTier', 'total', 'startIndex', 'pageSize', 'currentPage', 'pages', 'orderBy', 'results'])

In [23]:
response_dict['total']

82

In [24]:
response_dict['pages']

9

In [25]:
response_dict['pageSize']

10

In [26]:
response_dict['currentPage']

1

Wir vergrößern die Anzahl der Artikel je Seite, indem wir den Parameter `page-size` erhöhen:

In [27]:
PARAMS = {
    'api-key': GUARDIAN_KEY,
    'from-date': '2020-04-10', 
    'to-date': '2020-04-10', 
    'lang': 'en', 
    'production-office': 'uk', 
    'q': 'coronavirus', 
    'show-fields': 'wordcount,body,byline' ,
    'page-size': 50, # 50 Artikel je Seite
} 

response = requests.get(API_ENDPOINT, params=PARAMS) 
response_dict = response.json()['response']

Mit einem `while`-Loop können wir uns jede Seite des Ergbisses anzeigen lassen. Die Ergebnisse jeder Seite speichern wir in der List `all_results`. Damit wir nicht über die `rate-limits` des APIs kommen, können wir `time.sleep()` benutzen um, in jeder Runde ein bisschen zu warten.

In [28]:
import time

In [29]:
all_results = [] 
cur_page = 1 
total_pages = 1

while (cur_page <= total_pages) and (cur_page < 10): # with a fail safe 
    
    # Make a API request 
    PARAMS['page'] = cur_page 
    response = requests.get(API_ENDPOINT, params=PARAMS) 
    response_dict = response.json()['response'] 
    
    print(f"page: {cur_page} of {total_pages} - Articles (total): {response_dict['total']}")
    
    # Update our master results list 
    all_results += (response_dict['results']) 
    
    # Update our loop variables 
    total_pages = response_dict['pages'] 
    cur_page += 1 
    
    # sleep for 1 second
    time.sleep(1)
    
len(all_results)

page: 1 of 1 - Articles (total): 82
page: 2 of 2 - Articles (total): 82


82

In [30]:
all_results

[{'id': 'world/2020/apr/10/coronavirus-latest-at-a-glance-summary',
  'type': 'article',
  'sectionId': 'world',
  'sectionName': 'World news',
  'webPublicationDate': '2020-04-10T17:26:45Z',
  'webTitle': 'Coronavirus: 10 April at a glance',
  'webUrl': 'https://www.theguardian.com/world/2020/apr/10/coronavirus-latest-at-a-glance-summary',
  'apiUrl': 'https://content.guardianapis.com/world/2020/apr/10/coronavirus-latest-at-a-glance-summary',
  'fields': {'byline': 'Kevin Rawlinson',
   'wordcount': '525'},
  'isHosted': False,
  'pillarId': 'pillar/news',
  'pillarName': 'News'},
 {'id': 'world/2020/apr/10/coronavirus-latest-at-a-glance-friday',
  'type': 'article',
  'sectionId': 'world',
  'sectionName': 'World news',
  'webPublicationDate': '2020-04-10T10:57:40Z',
  'webTitle': 'Coronavirus: 10 April, at a glance',
  'webUrl': 'https://www.theguardian.com/world/2020/apr/10/coronavirus-latest-at-a-glance-friday',
  'apiUrl': 'https://content.guardianapis.com/world/2020/apr/10/coron

### Ergebnisse speichern

Nun sollten wir unsere Daten auf unserer Festplatte speichern, um später auf sie zurückgreifen zu können, ohne den API überflüssig benutzen zu müssen. Es bietet sich auch an den Code für die Datenerhebung und Analyse zu trennen.  

Wir können unsere Daten mit dem `json` Modul auf unsere Festplatte schreiben:

In [31]:
import json

FILE_PATH = '../data/guardian_api_results.json'

with open(FILE_PATH, 'w') as outfile:
    json.dump(all_results, outfile)

So können wir die Daten dann wieder lesen:

In [32]:
FILE_PATH = '../data/guardian_api_results.json'

with open(FILE_PATH) as f:
    guardian_results = json.load(f)

In [33]:
guardian_results

[{'id': 'world/2020/apr/10/coronavirus-latest-at-a-glance-summary',
  'type': 'article',
  'sectionId': 'world',
  'sectionName': 'World news',
  'webPublicationDate': '2020-04-10T17:26:45Z',
  'webTitle': 'Coronavirus: 10 April at a glance',
  'webUrl': 'https://www.theguardian.com/world/2020/apr/10/coronavirus-latest-at-a-glance-summary',
  'apiUrl': 'https://content.guardianapis.com/world/2020/apr/10/coronavirus-latest-at-a-glance-summary',
  'fields': {'byline': 'Kevin Rawlinson',
   'wordcount': '525'},
  'isHosted': False,
  'pillarId': 'pillar/news',
  'pillarName': 'News'},
 {'id': 'world/2020/apr/10/coronavirus-latest-at-a-glance-friday',
  'type': 'article',
  'sectionId': 'world',
  'sectionName': 'World news',
  'webPublicationDate': '2020-04-10T10:57:40Z',
  'webTitle': 'Coronavirus: 10 April, at a glance',
  'webUrl': 'https://www.theguardian.com/world/2020/apr/10/coronavirus-latest-at-a-glance-friday',
  'apiUrl': 'https://content.guardianapis.com/world/2020/apr/10/coron

### Ergebnisse in einem DataFrame speichern:

In [34]:
import pandas as pd

In [35]:
all_results_df = pd.json_normalize(all_results)
all_results_df.head()

Unnamed: 0,id,type,sectionId,sectionName,webPublicationDate,webTitle,webUrl,apiUrl,isHosted,pillarId,pillarName,fields.byline,fields.body,fields.wordcount
0,world/2020/apr/10/coronavirus-latest-at-a-glan...,article,world,World news,2020-04-10T17:26:45Z,Coronavirus: 10 April at a glance,https://www.theguardian.com/world/2020/apr/10/...,https://content.guardianapis.com/world/2020/ap...,False,pillar/news,News,Kevin Rawlinson,"<p>Key developments in the global <a href=""htt...",525
1,world/2020/apr/10/coronavirus-latest-at-a-glan...,article,world,World news,2020-04-10T10:57:40Z,"Coronavirus: 10 April, at a glance",https://www.theguardian.com/world/2020/apr/10/...,https://content.guardianapis.com/world/2020/ap...,False,pillar/news,News,Alexandra Topping,"<p>Key developments in the global <a href=""htt...",329
2,world/2020/apr/10/coronavirus-the-week-explained,article,world,World news,2020-04-10T10:42:55Z,Coronavirus: the week explained - 10 April,https://www.theguardian.com/world/2020/apr/10/...,https://content.guardianapis.com/world/2020/ap...,False,pillar/news,News,Ian Sample Science editor,<p>Welcome to our weekly roundup of developmen...,1087
3,world/2020/apr/10/coronavirus-at-a-glance,article,world,World news,2020-04-10T22:51:41Z,Coronavirus 10 April: at a glance,https://www.theguardian.com/world/2020/apr/10/...,https://content.guardianapis.com/world/2020/ap...,False,pillar/news,News,Kevin Rawlinson,"<p>Key developments in the global <a href=""htt...",536
4,commentisfree/2020/apr/10/heres-how-body-gains...,article,commentisfree,Opinion,2020-04-10T08:30:39Z,Here's how your body gains immunity to coronav...,https://www.theguardian.com/commentisfree/2020...,https://content.guardianapis.com/commentisfree...,False,pillar/opinion,Opinion,Zania Stamataki,<p>As the daughter of an air force officer and...,1053


In [36]:
all_results_df['fields.body'][0]



Mit dem Paket `BeautifulSoup` können wir aus dem html-body den reinen Text extrahieren. Das `beautifulSoup` Paket lernen wir im nächsten Abschnitt zum Webscraping geanuer kennen.

In [37]:
from bs4 import BeautifulSoup

In [38]:
all_results_df['text'] = [BeautifulSoup(i, "html.parser").text for i in all_results_df['fields.body']]

In [39]:
all_results_df[['webTitle','fields.body', 'text']].head()

Unnamed: 0,webTitle,fields.body,text
0,Coronavirus: 10 April at a glance,"<p>Key developments in the global <a href=""htt...",Key developments in the global coronavirus out...
1,"Coronavirus: 10 April, at a glance","<p>Key developments in the global <a href=""htt...",Key developments in the global coronavirus out...
2,Coronavirus: the week explained - 10 April,<p>Welcome to our weekly roundup of developmen...,Welcome to our weekly roundup of developments ...
3,Coronavirus 10 April: at a glance,"<p>Key developments in the global <a href=""htt...",Key developments in the global coronavirus out...
4,Here's how your body gains immunity to coronav...,<p>As the daughter of an air force officer and...,As the daughter of an air force officer and a ...


In [40]:
all_results_df['text'][0]



Die Date Variabel können wir in eine Pandas Datumsvariable verwandeln.

In [41]:
all_results_df['article_date'] = pd.to_datetime(all_results_df.webPublicationDate)

In [42]:
all_results_df[['id', 'article_date', 'sectionName', 'webTitle', 'webUrl', 'fields.byline', 'text']].head()

Unnamed: 0,id,article_date,sectionName,webTitle,webUrl,fields.byline,text
0,world/2020/apr/10/coronavirus-latest-at-a-glan...,2020-04-10 17:26:45+00:00,World news,Coronavirus: 10 April at a glance,https://www.theguardian.com/world/2020/apr/10/...,Kevin Rawlinson,Key developments in the global coronavirus out...
1,world/2020/apr/10/coronavirus-latest-at-a-glan...,2020-04-10 10:57:40+00:00,World news,"Coronavirus: 10 April, at a glance",https://www.theguardian.com/world/2020/apr/10/...,Alexandra Topping,Key developments in the global coronavirus out...
2,world/2020/apr/10/coronavirus-the-week-explained,2020-04-10 10:42:55+00:00,World news,Coronavirus: the week explained - 10 April,https://www.theguardian.com/world/2020/apr/10/...,Ian Sample Science editor,Welcome to our weekly roundup of developments ...
3,world/2020/apr/10/coronavirus-at-a-glance,2020-04-10 22:51:41+00:00,World news,Coronavirus 10 April: at a glance,https://www.theguardian.com/world/2020/apr/10/...,Kevin Rawlinson,Key developments in the global coronavirus out...
4,commentisfree/2020/apr/10/heres-how-body-gains...,2020-04-10 08:30:39+00:00,Opinion,Here's how your body gains immunity to coronav...,https://www.theguardian.com/commentisfree/2020...,Zania Stamataki,As the daughter of an air force officer and a ...


Wir können Spalten umbenennen:

In [43]:
# rename columns
all_results_df = all_results_df.rename(columns={'webTitle':'article_title',
                                                'webUrl':'article_url',
                                                'fields.byline':'article_author'})

... und eine Auswahl an Spalten als csv Datei speichern. Diese csv Datei können wir dann später wieder in einen Pandas DataFrame laden und analysieren.

In [44]:
all_results_df_f = all_results_df[['id', 'article_date', 'sectionName', 'article_title', 'article_url', 'article_author', 'text']].copy()

In [45]:
all_results_df_f.head()

Unnamed: 0,id,article_date,sectionName,article_title,article_url,article_author,text
0,world/2020/apr/10/coronavirus-latest-at-a-glan...,2020-04-10 17:26:45+00:00,World news,Coronavirus: 10 April at a glance,https://www.theguardian.com/world/2020/apr/10/...,Kevin Rawlinson,Key developments in the global coronavirus out...
1,world/2020/apr/10/coronavirus-latest-at-a-glan...,2020-04-10 10:57:40+00:00,World news,"Coronavirus: 10 April, at a glance",https://www.theguardian.com/world/2020/apr/10/...,Alexandra Topping,Key developments in the global coronavirus out...
2,world/2020/apr/10/coronavirus-the-week-explained,2020-04-10 10:42:55+00:00,World news,Coronavirus: the week explained - 10 April,https://www.theguardian.com/world/2020/apr/10/...,Ian Sample Science editor,Welcome to our weekly roundup of developments ...
3,world/2020/apr/10/coronavirus-at-a-glance,2020-04-10 22:51:41+00:00,World news,Coronavirus 10 April: at a glance,https://www.theguardian.com/world/2020/apr/10/...,Kevin Rawlinson,Key developments in the global coronavirus out...
4,commentisfree/2020/apr/10/heres-how-body-gains...,2020-04-10 08:30:39+00:00,Opinion,Here's how your body gains immunity to coronav...,https://www.theguardian.com/commentisfree/2020...,Zania Stamataki,As the daughter of an air force officer and a ...


In [46]:
all_results_df_f.to_csv('../data/guardian_articles.csv', index=False)

## Twitter API

- Twitter bietet einen kostenlosen Zugang auf 1.500 Tweets im Monat an
- Für den Zugang ist ein Twitter Account nötig und die Registrierung im Developer Portal
- In Python gibt es verschiedene Pakete, die den API-Zugang erleichtern: `Tweepy` und `twarc`
- Sie finden bspw. hier ein Tutorial für `twarc`: https://melaniewalsh.github.io/Intro-Cultural-Analytics/04-Data-Collection/11-Twitter-API-Setup.html

## Web Scraping

- Webscraping Techniken benutzen wir, wenn wir keinen direkten Zugriff auf die Daten einer Webseite z.B. durch eine API haben
- Für Webscraping benötigen wir Grundkenntnisse in HTML und CSS
- Mit Webscraping Techniken ist es möglich von quasi jeder Webseite Daten zu extrahieren
- Beim Scrapen sollte sich aber immer an Ethische Standards gehalten werden!

In [47]:
'''
<html> 
    <head> 
    <title>This is a minimal example</title> 
    </head> 
    <body> 
        <h1>This is a first-level heading</h1> 
        <p>A paragraph with some <emph>italicized</emph> text. </p> 
        <p lang="en-us">American English sentence here...</p>
        <img src="image.pdf" alt=""> <p>A paragraph with some <strong>bold</strong> text. </p>
        <h2>This is a second-level heading</h2> 
        <ul> 
            <li>first list item</li> 
            <li>second list item</li> 
        </ul> 
    </body> 
</html>
'''

'\n<html> \n    <head> \n    <title>This is a minimal example</title> \n    </head> \n    <body> \n        <h1>This is a first-level heading</h1> \n        <p>A paragraph with some <emph>italicized</emph> text. </p> \n        <p lang="en-us">American English sentence here...</p>\n        <img src="image.pdf" alt=""> <p>A paragraph with some <strong>bold</strong> text. </p>\n        <h2>This is a second-level heading</h2> \n        <ul> \n            <li>first list item</li> \n            <li>second list item</li> \n        </ul> \n    </body> \n</html>\n'

### div
Das Divisions-Tag div ist ein allgemeiner Container, der eine Website in kleinere Abschnitte unterteilt.

In [48]:
'''
<div>

</div>
'''

'\n<div>\n\n</div>\n'

### css
- Die meisten Webseite trennen den Inhalt der Webseite von der Struktur und dem Style
- HTML sagt dem Browser, was ein bestimmter Text ist (z. B. eine Überschrift, ein Listenelement, eine Zeile in einer Tabelle, ein Absatz)
- CSS teilt dem Browser mit, wie der Text aussehen soll, wenn er im Browser gerendert wird (z. B. welche Schriftart für Zwischenüberschriften zu verwenden ist, wie groß der Text sein soll, welche Farbe der Text haben soll usw.)


In [49]:
'''
<div id='content' class='dcr1'>

</div>
'''

"\n<div id='content' class='dcr1'>\n\n</div>\n"

In [50]:
all_results_df_f.article_url[0]

'https://www.theguardian.com/world/2020/apr/10/coronavirus-latest-at-a-glance-summary'

In [51]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np

In [52]:
url = 'https://www.theguardian.com/world/2020/apr/10/coronavirus-latest-at-a-glance-summary'

Mit dem `requests` Paket stellen wir eine `GET` Anfrage an die Webseite.

In [53]:
r = requests.get(url)

Mit der `BeautifulSoup` Funktion aus dem gleichnamigen Paket lesen wir das html.

In [54]:
soup = BeautifulSoup(r.content, 'html.parser')

In [55]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <!--

We are hiring, ever thought about joining us?
https://workforus.theguardian.com/careers/product-engineering/


                                    GGGGGGGGG
                           GGGGGGGGGGGGGGGGGGGGGGGGGG
                       GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG
                    GGGGGGGGGGGGGGGGG      GG   GGGGGGGGGGGGG
                  GGGGGGGGGGGG        GGGGGGGGG      GGGGGGGGGG
                GGGGGGGGGGG         GGGGGGGGGGGGG       GGGGGGGGG
              GGGGGGGGGG          GGGGGGGGGGGGGGGGG     GGGGGGGGGGG
             GGGGGGGGG           GGGGGGGGGGGGGGGGGGG    GGGGGGGGGGGG
            GGGGGGGGG           GGGGGGGGGGGGGGGGGGGGGG  GGGGGGGGGGGGG
           GGGGGGGGG            GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG
           GGGGGGGG             GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG
          GGGGGGGG              GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG
          GGGGGGGG              GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG

In unserem Browser können wir die Webseite *untersuchen* und nach den Elementen suchen, die wir extrahieren möchten. Mit den Funktionen `.findAll()` oder `.find()` können wir nach den Elementen suchen.

In [56]:
soup.findAll('title')[0].text.replace('\n', '')

'Coronavirus: 10 April at a glance | World news | The Guardian'

In [57]:
paragraphs = soup.findAll('p')

In [58]:
paragraphs[8].text

'Some non-essential workers will return to work from Monday and face masks will be handed out at metro and train stations under government plans to ease some of the restrictions on public life.'

In [59]:
all_text = " ".join(para.text for para in paragraphs)

In [60]:
all_text



Wir können uns eine Funktion bauen, um verschiedene Elemente auf der Webseite zu extrahieren:

In [61]:
def scrape_guardian_stories(url): 
    soup = BeautifulSoup(requests.get(url).content, 'html.parser') # html lesen
    article_title = soup.find('title').text.replace('\n', '') # titel extrahieren
    paras = " ".join(para.text.replace('\n', '') for para in soup.findAll('p')) # text extrahieren
    return [article_title, paras]

Diese Funktion können wir auf eine Liste an urls anwenden. Hier auf die Liste der guardian urls:

In [62]:
all_results_df_f.article_url.head().to_list()

['https://www.theguardian.com/world/2020/apr/10/coronavirus-latest-at-a-glance-summary',
 'https://www.theguardian.com/world/2020/apr/10/coronavirus-latest-at-a-glance-friday',
 'https://www.theguardian.com/world/2020/apr/10/coronavirus-the-week-explained',
 'https://www.theguardian.com/world/2020/apr/10/coronavirus-at-a-glance',
 'https://www.theguardian.com/commentisfree/2020/apr/10/heres-how-body-gains-immunity-coronavirus']

In [63]:
scraped = [scrape_guardian_stories(s) for s in all_results_df_f.article_url]

Diese Liste aus Listen können wir ganz einfach in einen DataFrame umwandeln:

In [64]:
df_scraped = pd.DataFrame(scraped, columns=['title', 'article_text'])

In [65]:
df_scraped.head()

Unnamed: 0,title,article_text
0,Coronavirus: 10 April at a glance | World news...,A summary of the biggest developments in the g...
1,"Coronavirus: 10 April, at a glance | World new...",A summary of the biggest developments in the g...
2,Coronavirus: the week explained - 10 April | C...,Survivors’ blood plasma may provide help ... l...
3,Coronavirus 10 April: at a glance | World news...,A summary of the biggest developments in the g...
4,Here's how your body gains immunity to coronav...,Unprecedented efforts and diverted resources m...


... und als csv Datei speichern

In [66]:
df_scraped.to_csv('../data/guardian_scraped_texts.csv', index=False)

### Elemente auswählen

Jetzt möchten wir nicht immer nur Titel und Texte scrapen, sondern auch spezifische Felder auf einer Webseite. Mit Beautifulsoup können wir jedes html-Feld finden mit einem bestimmten Locator. Wir benutzen dafür die Funktion: `soup.find("html-container", {"class/id etc.": "class/id etc. name"})` oder `soup.find_all()`  

Beispielhaft schauen wir uns diese Webseite an: https://www.unimagazin.ovgu.de/Beitr%C3%A4ge/2022/Januar/F%C3%BCr+eine+starke+Gemeinschaft+brauchen+wir+vielf%C3%A4ltige+Talente.html

In [67]:
url = 'https://www.unimagazin.ovgu.de/Beitr%C3%A4ge/2022/Januar/F%C3%BCr+eine+starke+Gemeinschaft+brauchen+wir+vielf%C3%A4ltige+Talente.html'

In [68]:
soup = BeautifulSoup(requests.get(url).content, 'html.parser')

In [69]:
# Datum

soup.find('div', {'class': 'beitrag-datum'}).text.replace('\xa0', '').replace('\n', '').replace('aus', '').strip()

'10.01.2022'

In [70]:
# Titel des Beitrags

soup.find('div', {'class': 'beitrag-titel'}).text.replace('\n', '').strip()

'Für eine starke Gemeinschaft brauchen wir vielfältige Talente'

In [71]:
# Schlagwörter
schlagwort_list = soup.find('div', {'class': 'schlagwortliste'}).find_all('a')

In [72]:
[i.text for i in schlagwort_list]

['Studentische Initiativen',
 'Campus',
 'Diversity',
 'Chancengleichheit',
 'Prof. Borna Relja']

In [73]:
schlagwort_list[0].get('href')

'onlinemagazin/keywords-keyword-82.html'

In [74]:
# Autor
(soup.find_all('div', {'class': 'info-zeile'})[1]
 .find('div', {'class': 'info-boxes'})
 .text.replace('\n', '')
 .replace('Autor:in:', '')
 .strip())

'Ines Perl'

In [75]:
def get_ovgu_mag_article(url):
    
    results = requests.get(url)
    
    if results.ok:
        
        soup = BeautifulSoup(results.content, 'html.parser')
        
        # Datum
        try:
            date_tmp = soup.find('div', {'class': 'beitrag-datum'}).text.replace('\xa0', '').replace('\n', '').replace('aus', '').strip()
        except:
            date_tmp = np.nan
        
        # Titel
        try:
            title_tmp = soup.find('div', {'class': 'beitrag-titel'}).text.replace('\n', '').strip()
        except:
            title_tmp = np.nan
            
        # Autor
        try:
            author_tmp = (soup.find_all('div', {'class': 'info-zeile'})[1]
                          .find('div', {'class': 'info-boxes'})
                          .text.replace('\n', '')
                          .replace('Autor:in:', '')
                          .strip())
            
        except:
            author_tmp = np.nan

        return [date_tmp, title_tmp, author_tmp]
    
    else:
        return None

In [76]:
get_ovgu_mag_article(url)

['10.01.2022',
 'Für eine starke Gemeinschaft brauchen wir vielfältige Talente',
 'Ines Perl']

### Tabellen

- Tabellen sind in einem `<table> </table>` Container gespeichert
- Tabellen können Spaltennamen haben. Diese sind in `<thead> </thead>` gespeichert.
- Der Inhalt der Tabelle befindet sich in `<tbody> </tbody>`
- Zeilen befinden sich in `<tr> </tr>`
- Spalten in `<th> </th>`

In [77]:
table_html ='''
<table>
    <thead>
        <tr>
            <th>Überschrift 1</th>
            <th>Überschrift 2</th>
            <th>Überschrift 3</th>
        </tr>
    </thead>

    <tbody>
    <tr>
      <td><p>R1 - S1</p></td>
      <td><p>R1 - S2</p></td>
      <td><p>R1 - S3</p></td>
    </tr>
    
    <tr>
      <td><p>R2 - S1</p></td>
      <td><p>R2 - S2</p></td>
      <td><p>R2 - S3</p></td>
    </tr>
    
    <tr>
      <td><p>R3 - S1</p></td>
      <td><p>R3 - S2</p></td>
      <td><p>R3 - S3</p></td>
    </tr>

    </tbody>

</table>
'''

In [78]:
soup = BeautifulSoup(table_html, 'html.parser')

In [79]:
table_html = soup.find('table')

In [80]:
pd.read_html(str(table_html))[0]

Unnamed: 0,Überschrift 1,Überschrift 2,Überschrift 3
0,R1 - S1,R1 - S2,R1 - S3
1,R2 - S1,R2 - S2,R2 - S3
2,R3 - S1,R3 - S2,R3 - S3


Manche Tabellen haben keine Überschrift im `thead`, sondern haben ihre `keys` in der ersten Spalte und die `values` in der zweiten Spalte. Das Datenformat ist dann ähnlich eines `dictionaries`. Genau so extrahieren wir die Informationen dann auch:

In [81]:
table_html_2 ='''
<table>
    <tbody>
    <tr>
      <td><p>Name</p></td>
      <td><p>Jonas</p></td>
    </tr>
    
    <tr>
      <td><p>Größe</p></td>
      <td><p>190</p></td>
    </tr>

    </tbody>

</table>
'''

In [82]:
soup = BeautifulSoup(table_html_2, 'html.parser')

In [83]:
table_html_2 = soup.find('table')

In [84]:
pd.read_html(str(table_html_2))[0]

Unnamed: 0,0,1
0,Name,Jonas
1,Größe,190


In [85]:
table_html_2

<table>
<tbody>
<tr>
<td><p>Name</p></td>
<td><p>Jonas</p></td>
</tr>
<tr>
<td><p>Größe</p></td>
<td><p>190</p></td>
</tr>
</tbody>
</table>

In [86]:
results = {}
for row in table_html_2.findAll('tr'):
    key_value = row.findAll('td')
    results[key_value[0].text] = key_value[1].text

In [87]:
results

{'Name': 'Jonas', 'Größe': '190'}

In [88]:
results['Name']

'Jonas'

In [89]:
results['Größe']

'190'

**Beispiel**: Scopus Journal Classification Codes

In [90]:
url = 'https://service.elsevier.com/app/answers/detail/a_id/15181/supporthub/scopus/'

In [91]:
soup = BeautifulSoup(requests.get(url).content, 'html.parser')

In [92]:
soup.find('table')

<table class="order-table table-bordered table-hover table-striped">
<thead>
<tr>
<th><h3>Code</h3></th>
<th><h3>ASJC category</h3></th>
<th><h3>Subject area</h3></th>
</tr>
</thead>
<tbody>
<tr>
<td><p style="font-size:18px">1000</p></td>
<td><p style="font-size:18px">Multidisciplinary</p></td>
<td><p style="font-size:18px">Multidisciplinary</p></td>
</tr>
<tr>
<td><p style="font-size:18px">1100</p></td>
<td><p style="font-size:18px">General Agricultural and Biological Sciences</p></td>
<td><p style="font-size:18px">Life Sciences</p></td>
</tr>
<tr>
<td><p style="font-size:18px">1101</p></td>
<td><p style="font-size:18px">Agricultural and Biological Sciences (miscellaneous)</p></td>
<td><p style="font-size:18px">Life Sciences</p></td>
</tr>
<tr>
<td><p style="font-size:18px">1102</p></td>
<td><p style="font-size:18px">Agronomy and Crop Science</p></td>
<td><p style="font-size:18px">Life Sciences</p></td>
</tr>
<tr>
<td><p style="font-size:18px">1103</p></td>
<td><p style="font-size:18

In [93]:
pd.read_html(str(soup.find('table')))[0]

Unnamed: 0,Code,ASJC category,Subject area
0,1000,Multidisciplinary,Multidisciplinary
1,1100,General Agricultural and Biological Sciences,Life Sciences
2,1101,Agricultural and Biological Sciences (miscella...,Life Sciences
3,1102,Agronomy and Crop Science,Life Sciences
4,1103,Animal Science and Zoology,Life Sciences
...,...,...,...
329,3612,"Physical Therapy, Sports Therapy and Rehabilit...",Health Sciences
330,3613,Podiatry,Health Sciences
331,3614,Radiological and Ultrasound Technology,Health Sciences
332,3615,Respiratory Care,Health Sciences


**Zeit für Übung 2**

### Webscraping mehrerer Seiten

Oft sind die Inhalte auf einer Webseite die wir extrahieren möchten auf unterschiedlichen Seiten gespeichert. Beispielhaft scrapen wir nun alle Artikel auf der Webseite: https://www.cyclingnews.com/

Zunächst lesen wir das html ein:

In [94]:
url = 'https://www.cyclingnews.com/news/'

In [95]:
soup = BeautifulSoup(requests.get(url).content, 'html.parser')

In [96]:
pp.pprint(soup)

<!DOCTYPE html>

<html class="cyclingnews" data-locale="US" dir="ltr" lang="en">
<head>
<!-- [METATAGS - critical] -->
<meta charset="utf-8"/>
<meta content="width=device-width,minimum-scale=1,initial-scale=1" name="viewport"/>
<title>Cycling News - Cyclingnews</title>
<meta content="All of the latest {articleType} from Cyclingnews" name="description"/>
<link href="https://www.cyclingnews.com/news/" rel="canonical"/>
<link href="https://cdn.mos.cms.futurecdn.net/flexiimages/rq9jbx90pv1567084527.png" rel="apple-touch-icon"/>
<meta content="#000000" name="msapplication-TileColor"/>
<meta content="https://cdn.mos.cms.futurecdn.net/flexiimages/rq9jbx90pv1567084527.png" name="msapplication-TileImage"/>
<link href="https://cdn.mos.cms.futurecdn.net/flexiimages/0osie8hhk61567084489.png" rel="shortcut icon" size="16x16"/>
<link href="https://cdn.mos.cms.futurecdn.net/flexiimages/rq9jbx90pv1567084527.png" rel="shortcut icon" size="120x120"/>
<meta content="cyclingnews.com" property="og:site_nam

Wir schauen uns nun als erstes die erste Seite an und erstellen eine Routine, die wir dann für jede Seite mittels eines Loops anwenden können.

Die Artikel sind in diesem Fall in einem `div` Container gespeichert. Mit der Funktion `.find_all()` finden wir alle `div` Container mit der gleichen Klasse.

In [97]:
article_list = soup.find_all("div", {"class": "listingResult"})

In [98]:
len(article_list)

21

In [99]:
pp.pprint(article_list[0])

<div class="listingResult small result1" data-page="1">
<a aria-label="Lorena Wiebes leaves Giro Donne to focus on Tour de France Femmes sprints" class="article-link" href="https://www.cyclingnews.com/news/lorena-wiebes-leaves-giro-donne-to-focus-on-tour-de-france-femmes-sprints/">
<article aria-label="Search result: Lorena Wiebes leaves Giro Donne to focus on Tour de France Femmes sprints" class="search-result search-result-news has-rating">
<div class="image">
<figure class="article-lead-image-wrap" data-original="https://cdn.mos.cms.futurecdn.net/9BentvNq2oZzy2wfpFN7Nc.jpg">
<div class="image-remove-flow-width-setter">
<div class="image-remove-reflow-container" data-original="https://cdn.mos.cms.futurecdn.net/9BentvNq2oZzy2wfpFN7Nc.jpg">
<picture><source alt="Lorena Wiebes wins at the Giro Donne" class="lazy-image-van" data-normal="https://vanilla.futurecdn.net/cyclingnews/media/img/missing-image.svg" data-original-mos="https://cdn.mos.cms.futurecdn.net/9BentvNq2oZzy2wfpFN7Nc.jpg" d

Nun schauen wir uns den **ersten** div-Container an und entwickeln eine Routine, die wir dann auf alle Container anwenden können. Wir such in diesem Container nach den Informationen, die wir extrahieren möchten. Diese Elemente können wir in unserem Browser mit der 'untersuchen' Funktion lokalisieren und deren Indtifier in die `.find()` Funktion eintragen.

In [100]:
# link 
article_list[0].find("a", {"class": "article-link"}).get("href")

'https://www.cyclingnews.com/news/lorena-wiebes-leaves-giro-donne-to-focus-on-tour-de-france-femmes-sprints/'

In [101]:
# title
article_list[0].find("h3", {"class": "article-name"}).text

'Lorena Wiebes leaves Giro Donne to focus on Tour de France Femmes sprints'

In [102]:
# author
article_list[0].find("span", {"class": "by-author"}).text.replace('\n', '').replace('By', '').strip()

'Kirsten Frattini'

In [103]:
# time
article_list[0].find("time", {"class": "date-with-prefix"}).get('datetime')

'2023-07-06T14:21:02Z'

Alle gewünschten Informationen sammeln wir nun in einer Funktion, die wir dann auf alle div-Container loslassen können. Hier verwenden wir try/except Blöcke um mit möglichen Fehlern umgehen zu können.

In [104]:
def cn_article_meta(url):
    
    results = requests.get(url)
    
    if results.ok:
        
        soup = BeautifulSoup(results.content, 'html.parser')
        all_articles = soup.find_all("div", {"class": "listingResult"})
    
        article_list = []
        for article in all_articles:

            # link 
            try:
                link_tmp = article.find("a", {"class": "article-link"}).get("href")
            except:
                link_tmp = np.nan

            # title
            try:
                title_tmp = article.find("h3", {"class": "article-name"}).text
            except:
                title_tmp = np.nan

            # time
            try:
                time_tmp = article.find("time", {"class": "date-with-prefix"}).get('datetime')
            except:
                time_tmp = np.nan

            # author
            try:
                author_tmp = article.find("span", {"class": "by-author"}).text.replace('\n', '').replace('By', '').strip()
            except:
                author_tmp = np.nan


            article_list.append([link_tmp, title_tmp, time_tmp, author_tmp])

        return article_list
    
    else:
        return None

In [105]:
pd.DataFrame(cn_article_meta('https://www.cyclingnews.com/news/'), columns=['url', 'title', 'date', 'author'])

Unnamed: 0,url,title,date,author
0,https://www.cyclingnews.com/news/lorena-wiebes...,Lorena Wiebes leaves Giro Donne to focus on To...,2023-07-06T14:21:02Z,Kirsten Frattini
1,https://www.cyclingnews.com/news/truck-driver-...,Truck driver accused of Davide Rebellin hit-an...,2023-07-06T12:15:38Z,Barry Ryan
2,,,,
3,https://www.cyclingnews.com/news/doctors-give-...,Doctors give Balsamo green light to start trai...,2023-07-06T00:44:18Z,Kirsten Frattini
4,https://www.cyclingnews.com/news/jumbo-visma-c...,Jumbo-Visma combine to outfox Pogacar in Pyren...,2023-07-05T19:11:14Z,Stephen Farrand
5,https://www.cyclingnews.com/news/fabio-jakobse...,Fabio Jakobsen fights the pain to stay in Tour...,2023-07-05T18:31:13Z,Stephen Farrand
6,https://www.cyclingnews.com/news/it-wasnt-plan...,'It wasn't planned' – Jai Hindley races into T...,2023-07-05T18:10:37Z,Daniel Ostanek
7,https://www.cyclingnews.com/news/i-wanted-to-t...,‘I wanted to test Pogacar’ – Vingegaard lands ...,2023-07-05T17:30:01Z,Stephen Farrand
8,https://www.cyclingnews.com/news/labous-challe...,Labous challenges for Giro Donne podium with a...,2023-07-05T17:24:12Z,Lukas Knöfler
9,https://www.cyclingnews.com/news/tadej-pogacar...,Tadej Pogacar keeps Tour de France Pyrenees ti...,2023-07-05T17:24:08Z,Daniel Ostanek


Jetzt versuchen wir nicht nur eine Seite zu scrapen, sondern mehrere Seite mit Hilfe eines Loops:

In [106]:
# Liste mit allen Seiten:
all_pages = [f'https://www.cyclingnews.com/news/page/{n}/' for n in range(1,10)]

In [107]:
all_pages

['https://www.cyclingnews.com/news/page/1/',
 'https://www.cyclingnews.com/news/page/2/',
 'https://www.cyclingnews.com/news/page/3/',
 'https://www.cyclingnews.com/news/page/4/',
 'https://www.cyclingnews.com/news/page/5/',
 'https://www.cyclingnews.com/news/page/6/',
 'https://www.cyclingnews.com/news/page/7/',
 'https://www.cyclingnews.com/news/page/8/',
 'https://www.cyclingnews.com/news/page/9/']

In [108]:
import time

In [109]:
# Loop über jede Seite:

all_results = []

for page_url in all_pages:
    print(page_url)
    
    # scrape current page
    results_tmp = cn_article_meta(page_url)
    print(f'scraped {len(results_tmp)} articles!')
    
    
    # append results to list
    all_results.append(results_tmp)
    
    # sleep
    time.sleep(1)

https://www.cyclingnews.com/news/page/1/
scraped 21 articles!
https://www.cyclingnews.com/news/page/2/
scraped 21 articles!
https://www.cyclingnews.com/news/page/3/
scraped 21 articles!
https://www.cyclingnews.com/news/page/4/
scraped 21 articles!
https://www.cyclingnews.com/news/page/5/
scraped 21 articles!
https://www.cyclingnews.com/news/page/6/
scraped 21 articles!
https://www.cyclingnews.com/news/page/7/
scraped 21 articles!
https://www.cyclingnews.com/news/page/8/
scraped 21 articles!
https://www.cyclingnews.com/news/page/9/
scraped 21 articles!


Da wir nun eine List von Listen von Listen haben, müssen wir diese Liste flacher machen, d.h. in eine Liste aus Listen verwandeln. Das geht mit diesem kleinen Code-Schnipsel:

In [110]:
# flatten list
all_results_flat = [i for s in all_results for i in s]
all_results_flat

[['https://www.cyclingnews.com/news/lorena-wiebes-leaves-giro-donne-to-focus-on-tour-de-france-femmes-sprints/',
  'Lorena Wiebes leaves Giro Donne to focus on Tour de France Femmes sprints',
  '2023-07-06T14:21:02Z',
  'Kirsten Frattini'],
 ['https://www.cyclingnews.com/news/truck-driver-accused-of-davide-rebellin-hit-and-run-death-to-be-extradited-to-italy/',
  'Truck driver accused of Davide Rebellin hit-and-run death to be extradited to Italy',
  '2023-07-06T12:15:38Z',
  'Barry Ryan'],
 [nan, nan, nan, nan],
 ['https://www.cyclingnews.com/news/doctors-give-balsamo-green-light-to-start-training-after-recovery-from-broken-jaw/',
  'Doctors give Balsamo green light to start training after recovery from broken jaw',
  '2023-07-06T00:44:18Z',
  'Kirsten Frattini'],
 ['https://www.cyclingnews.com/news/jumbo-visma-combine-to-outfox-pogacar-and-uae-team-emirates-in-pyrenees-at-tour-de-france/',
  'Jumbo-Visma combine to outfox Pogacar in Pyrenees at Tour de France',
  '2023-07-05T19:11:14

Diese Liste aus Listen können wir nun in einen DataFrame umwandeln.

In [111]:
# list to DataFrame
all_results_df = pd.DataFrame(all_results_flat, columns = ['url', 'title', 'date', 'author'])

In [112]:
all_results_df.head()

Unnamed: 0,url,title,date,author
0,https://www.cyclingnews.com/news/lorena-wiebes...,Lorena Wiebes leaves Giro Donne to focus on To...,2023-07-06T14:21:02Z,Kirsten Frattini
1,https://www.cyclingnews.com/news/truck-driver-...,Truck driver accused of Davide Rebellin hit-an...,2023-07-06T12:15:38Z,Barry Ryan
2,,,,
3,https://www.cyclingnews.com/news/doctors-give-...,Doctors give Balsamo green light to start trai...,2023-07-06T00:44:18Z,Kirsten Frattini
4,https://www.cyclingnews.com/news/jumbo-visma-c...,Jumbo-Visma combine to outfox Pogacar in Pyren...,2023-07-05T19:11:14Z,Stephen Farrand


In [113]:
all_results_df.groupby('author').size().sort_values(ascending=False)

author
Stephen Farrand                      31
Alasdair Fotheringham                25
Daniel Ostanek                       25
Barry Ryan                           16
Simone Giuliani                      13
Kirsten Frattini                     13
Lukas Knöfler                        11
Paul Norman                           8
Josh Croxton                          6
Laura Weislo                          6
Amy Jones                             5
Tom Wieckowski                        5
Jackie Tyson                          4
Peter Stuart                          2
James Moultrie                        1
Laura Weislo, Jackie Tyson            1
Cyclingnews                           1
Lyne Lamoureux                        1
Patrick Fletcher                      1
Barry Ryan, Stephen Farrand           1
Barry Ryan, Jackie Tyson              1
Barry Ryan, Alasdair Fotheringham     1
Stephen Farrand, Barry Ryan           1
Will Jones                            1
dtype: int64

Nun haben wir eine Tabelle mit allen Artikeln auf der Webseite. Der Text ist aber noch nicht enthalten, da dieser auf einer eigenen Webseite ist. Wir haben aber alle urls dieser Unterwebseiten. Das heißt wir können mit einem Loop über alle Webseiten loopen und dort den entsprechenden Text extrahieren. hierzu schreiben wir zunächst eine Funktion, die wir dann auf alle webseiten anwenden können.

In [114]:
# scrape text for every article

In [115]:
def get_cn_article_text(url):
    results = requests.get(url)
    
    if results.ok:
        soup = BeautifulSoup(results.content, 'html.parser')
        try:
            
            article_text = " ".join(para.text.replace('\n', '') for para in soup.find('div', {'id': 'article-body'}).find_all('p'))

            # replace \xa0
            article_text = article_text.replace('\xa0', ' ')

            # remove whitespace
            article_text = ' '.join(article_text.split())
            
        except:
            article_text = np.nan
        
        return [url, article_text]
    
    else:
        return None

In [116]:
url = 'https://www.cyclingnews.com/news/tour-de-france-femmes-to-start-in-rotterdam-in-2024/'

In [117]:
get_cn_article_text(url)

['https://www.cyclingnews.com/news/tour-de-france-femmes-to-start-in-rotterdam-in-2024/',
 "The Grand Départ of the Tour de France Femmes avec Zwift will be in Rotterdam in 2024, Wielerflits reported, citing multiple unnamed sources. The news should be made official this week by the Amaury Sport Organisation (ASO) in the lead-up to the start of the Tour de France in Bilbao. After starting with a circuit race in Paris for its first edition in 2022 and then a road stage in Clermont-Ferrand in 2023, the third edition of the race will head outside of France for the first time in its history. Wielerflits reports that the first three days of the stage race will take place outside of France, starting with a time trial in Rotterdam on August 12, one day after the end of the Paris Olympic Games. Tour de France Femmes 2023Annemiek van Vleuten seals Tour de France Femmes victoryYou’ve come a long way, baby - Vital statistics show sea change in women’s cycling Stage 2 will be a road stage from Rot

Diese Funktion wenden wir nun auf alle urls an. Dafür benutzen wir einen for-Loop:

In [118]:
all_article_text = []

for url in all_results_df.url:
    print(url)
    try:
        all_article_text.append(get_cn_article_text(url))
    except:
        print('Error! Next')
        next
    time.sleep(1)

https://www.cyclingnews.com/news/lorena-wiebes-leaves-giro-donne-to-focus-on-tour-de-france-femmes-sprints/
https://www.cyclingnews.com/news/truck-driver-accused-of-davide-rebellin-hit-and-run-death-to-be-extradited-to-italy/
nan
Error! Next
https://www.cyclingnews.com/news/doctors-give-balsamo-green-light-to-start-training-after-recovery-from-broken-jaw/
https://www.cyclingnews.com/news/jumbo-visma-combine-to-outfox-pogacar-and-uae-team-emirates-in-pyrenees-at-tour-de-france/
https://www.cyclingnews.com/news/fabio-jakobsen-fights-the-pain-to-stay-in-tour-de-france-after-sprint-crash/
https://www.cyclingnews.com/news/it-wasnt-planned-jai-hindley-races-into-the-tour-de-france-lead-in-pyrenees/
https://www.cyclingnews.com/news/i-wanted-to-test-pogacar-vingegaard-lays-down-marker-at-tour-de-france/
https://www.cyclingnews.com/news/labous-challenges-for-giro-donne-podium-with-aggressive-team-tactics/
https://www.cyclingnews.com/news/tadej-pogacar-keeps-tour-de-france-pyrenees-time-loss-in-

https://www.cyclingnews.com/news/van-der-poel-philipsen-combine-to-create-powerful-tour-de-france-sprint-train/
https://www.cyclingnews.com/news/annemiek-van-vleuten-recharged-and-back-again-for-giro-ditalia/
https://www.cyclingnews.com/news/lotto-dstny-director-allan-davis-will-not-attend-tour-de-france-following-accusations-of-transgressive-behaviour/
https://www.cyclingnews.com/news/jonas-vingegaard-i-expect-tadej-pogacar-to-attack-early-at-the-tour-de-france/
https://www.cyclingnews.com/news/tadej-pogacar-physically-unsure-of-start-at-tour-de-france-but-super-good-mentally/
https://www.cyclingnews.com/news/no-room-for-sentimentality-at-mark-cavendishs-final-tour-de-france/
nan
Error! Next
https://www.cyclingnews.com/news/thibaut-pinot-i-havent-fully-realised-its-my-last-tour-de-france/
https://www.cyclingnews.com/news/face-masks-and-selfie-bans-return-to-limit-covid-19-in-tour-de-france-peloton/
https://www.cyclingnews.com/news/simon-yates-happy-to-fly-below-radar-at-23-tour-de-fra

https://www.cyclingnews.com/news/wout-van-aert-hopes-for-another-step-forward-ahead-of-tour-de-france/
https://www.cyclingnews.com/news/gino-mader-and-safety-foremost-for-jakobsen-after-second-belgium-tour-win/
https://www.cyclingnews.com/news/alberto-contador-gets-multiple-facial-stitches-after-vuelta-espana-event-crash-in-china/
https://www.cyclingnews.com/news/marlen-reusser-its-hard-to-keep-the-focus-on-the-sport/
https://www.cyclingnews.com/news/german-truck-driver-arrested-over-hit-and-run-death-of-davide-rebellin/
https://www.cyclingnews.com/news/bike-thieves-strike-at-tour-of-slovenia-and-baloise-belgium-tour/
https://www.cyclingnews.com/news/i-wanted-to-make-myself-suffer-chabbey-on-long-range-breakaway-at-tour-de-suisse/
https://www.cyclingnews.com/news/remco-evenepoel-this-was-the-best-way-to-honour-gino/
https://www.cyclingnews.com/news/bahrain-victorious-among-teams-withdrawing-from-final-stages-of-tour-de-suisse/
nan
Error! Next
https://www.cyclingnews.com/news/tour-de-su

In [119]:
all_article_text_df = pd.DataFrame(all_article_text, columns=['url', 'text'])
all_article_text_df.head()

Unnamed: 0,url,text
0,https://www.cyclingnews.com/news/lorena-wiebes...,Lorena Wiebes (SD Worx) was not on the start l...
1,https://www.cyclingnews.com/news/truck-driver-...,A German court has approved the extradition to...
2,https://www.cyclingnews.com/news/doctors-give-...,Doctors have given Elisa Balsamo the green lig...
3,https://www.cyclingnews.com/news/jumbo-visma-c...,The polemics about contrasting ambitions for W...
4,https://www.cyclingnews.com/news/fabio-jakobse...,Fabio Jakobsen finished last on stage 5 to Lar...


Nun haben wir einen DataFrame mit den Metadaten (url, titel, author etc.) und einen DataFrame mit den jeweiligen Texten und der url. Beide DataFrames können wir nun anhand der url mergen:

In [120]:
all_results_df.dropna(how='all', inplace=True)
all_results_df.head()

Unnamed: 0,url,title,date,author
0,https://www.cyclingnews.com/news/lorena-wiebes...,Lorena Wiebes leaves Giro Donne to focus on To...,2023-07-06T14:21:02Z,Kirsten Frattini
1,https://www.cyclingnews.com/news/truck-driver-...,Truck driver accused of Davide Rebellin hit-an...,2023-07-06T12:15:38Z,Barry Ryan
3,https://www.cyclingnews.com/news/doctors-give-...,Doctors give Balsamo green light to start trai...,2023-07-06T00:44:18Z,Kirsten Frattini
4,https://www.cyclingnews.com/news/jumbo-visma-c...,Jumbo-Visma combine to outfox Pogacar in Pyren...,2023-07-05T19:11:14Z,Stephen Farrand
5,https://www.cyclingnews.com/news/fabio-jakobse...,Fabio Jakobsen fights the pain to stay in Tour...,2023-07-05T18:31:13Z,Stephen Farrand


In [121]:
cn_df = all_results_df.merge(all_article_text_df, on = 'url', how='left')

In [122]:
cn_df.head()

Unnamed: 0,url,title,date,author,text
0,https://www.cyclingnews.com/news/lorena-wiebes...,Lorena Wiebes leaves Giro Donne to focus on To...,2023-07-06T14:21:02Z,Kirsten Frattini,Lorena Wiebes (SD Worx) was not on the start l...
1,https://www.cyclingnews.com/news/truck-driver-...,Truck driver accused of Davide Rebellin hit-an...,2023-07-06T12:15:38Z,Barry Ryan,A German court has approved the extradition to...
2,https://www.cyclingnews.com/news/doctors-give-...,Doctors give Balsamo green light to start trai...,2023-07-06T00:44:18Z,Kirsten Frattini,Doctors have given Elisa Balsamo the green lig...
3,https://www.cyclingnews.com/news/jumbo-visma-c...,Jumbo-Visma combine to outfox Pogacar in Pyren...,2023-07-05T19:11:14Z,Stephen Farrand,The polemics about contrasting ambitions for W...
4,https://www.cyclingnews.com/news/fabio-jakobse...,Fabio Jakobsen fights the pain to stay in Tour...,2023-07-05T18:31:13Z,Stephen Farrand,Fabio Jakobsen finished last on stage 5 to Lar...


In [123]:
len(cn_df)

184

In [124]:
# export
cn_df.to_csv('../data/cycling_news_articles.csv', index=False)

**Zeit für Übung 3**

### Ethische und rechtliche Einschränkungen beim Webscrapen

- Auch wenn es möglich ist jeden Part einer Webseite automatisiert zu extrahieren, heißt das NICHT, dass wir das auch dürfen!
- Manche Webseiten verbieten webscraping in ihren Nutzungsbedingungen, und in einigen Fällen können diese Webseits rechtliche Schritte einleiten, wenn wir diese Daten irgendwo verwenden
- Wir wollen auf jeden Fall vermeiden, dass uns beim Web Scraping rechtliche Schritte drohen
- Bitte Prüfen Sie immer die Nutzungsbedingungen der Websites, die Sie scrapen.
- Als allgemeine Regel gilt: Wenn Websites den Zugang zu Daten in großem Umfang ermöglichen wollen, werden sie eine API einrichten, um sie bereitzustellen
- Wenn dies nicht der Fall ist, sollten Sie darauf verzichten, Daten in großem Umfang zu sammeln, und Ihre Datenerfassung auf das beschränken, was Sie benötigen, anstatt alle Daten zu sammeln und später zu filtern
- Manche Websites verweigern den Dienst, wenn wir zu viele Anfragen stellen

Die am weitesten verbreitete Position in der Wissenschaft zu Webscraping scheint zu sein, dass öffentliche Online-Inhalte mit denselben Standards behandelt werden sollten, die man auch bei der Beobachtung von Menschen in öffentlichen Umgebungen anwenden würde, wie es z.B. Ethnographen tun (vgl. McLLevey 2021).