# Datenjournalismus in Python - 
# Eine praktische Einführung in die Programmierung


### Natalie Widmann




Wintersemester 2022 / 2023


Universität Leipzig





## Organisation

![Timeline](../imgs/kursplan.png)

# Vorlesung 10 -  Web Scraping

 ### Inhalte
 
 - Was ist Web Scraping? 
 - Webseiten verstehen
 - Einen Scraper in Python bauen


# Was ist Web Scraping?

**to scrape:** etw. abkratzen, schaben, schürfen

Unter Web Scraping versteht man das Extrahieren (oder Abkratzen) von Inhalten und Daten von Webseiten. 


Ein Scraper ist ein Programm (Python-Skript) mit zwei Kernaufgaben:

- dem Aufrufen der gewünschten Webseiten
- die Extraktion und Ablage der relevanten Informationen


![API](../imgs/scraping.png)
Quelle: https://kinsta.com/de/wissensdatenbank/was-ist-web-scraping/




## Web Crawling vs. Web Scraping

![Crawler vs Scraper](../imgs/crawl_vs_scrape.png)
![Crawler vs Scraper](../imgs/crawler.png)

Quellen:

https://limeproxies.netlify.app/blog/crawling-vs-scraping

https://dev.to/soax/web-crawling-vs-web-scraping-what-is-the-difference-4chl


## Wann benutzen wir Scraper?

- Wenn die gewünschten Daten nicht verfügbar sind:
    - keine Datenfiles (csv, json, excel, etc.)
    - keine API Schnittstelle
- Wenn die Informationen auf einer (oder mehreren) Webseiten
    - strukturiert abrufbar sind
    - nicht hinter Paywalls, Passwörtern oder Captchas versteckt sind


## Ist Scrapen legal?

Die kurze Antwort: **Meistens ja, aber es kommt drauf an.**

    
Öffentlich zugängliche Daten, also Inhalte ohne "Schutzvorrichtungen", zu sammeln ist legal unter Berücksichtigung des  Urheberrechts und bei personenbezogenen Daten auch der DSGVO.


Quelle: https://www.computerwoche.de/a/was-ist-scraping,3551081




## Robots.txt

Viele Webseiten veröffentlichen eine *robots.txt* Datei. Diese zeigt an ob und wie Bots auf der Seite erlaubt sind.

Beispielsweise:

- https://www.uni-leipzig.de/robots.txt
- https://www.airbnb.com/robots.txt


# Die Grundlagen von Webseiten verstehen

Die Grundlage einer Webseite besteht aus einem **Hypertext Markup Language (HTML)** File.
Dieses teilt die Seite in Abschnitte ein und definiert welche Textabschnitte Überschriften oder Paragraphen sind.


Mit **Cascading Style Sheets (CSS)** wird das Design festgelegt, beispielsweise die Schriftart und Schriftfarbe oder die Abstände zwischen Textelementen.

Zusätzlich wird **JavaScript** verwendet um PopUps oder interaktive Elemente auf eine Webseite einzufügen.


Die Entwicklertools im Browser helfen eine Seite zu verstehen.


In [1]:
!pip install requests
import requests

Defaulting to user installation because normal site-packages is not writeable


In [2]:
url = 'https://www.mdr.de/nachrichten/sachsen/index.html'
response = requests.get(url)

In [3]:
response

<Response [200]>

In [4]:
dir(response)

['__attrs__',
 '__bool__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__enter__',
 '__eq__',
 '__exit__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__nonzero__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_content',
 '_content_consumed',
 '_next',
 'apparent_encoding',
 'close',
 'connection',
 'content',
 'cookies',
 'elapsed',
 'encoding',
 'headers',
 'history',
 'is_permanent_redirect',
 'is_redirect',
 'iter_content',
 'iter_lines',
 'json',
 'links',
 'next',
 'ok',
 'raise_for_status',
 'raw',
 'reason',
 'request',
 'status_code',
 'text',
 'url']

In [5]:
response.status_code

200

In [6]:
response.json()

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

In [7]:
response.text

'<!DOCTYPE html>\n<html lang="de" itemscope="" itemtype="http://schema.org/" class="view-m">\n<!-- generated: 12.01.2023, 11:41:17 from mdrprod-tomcat-delivery2 -->\n<head>\n<title>Sachsen | Aktuelle Nachrichten, News, Videos, Fotos und Liveticker | MDR.DE</title>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\n<meta name="description" content="Täglich aktuell: Nachrichten und Informationen aus Sachsen. Dazu Fotos, Audios, Videos und Liveticker des MDR aus dem Freistaat Sachsen."/>\n<meta name="keywords" content="Sachsen, News, Nachrichten, Bilder, Fotos, Videos, Audios, Berichte, Politik, Kultur, Veranstaltungen, Zeitgeschehen, Geschichte, Tourismus, Frauenkirche, Verkehr, Kultur, Kriminalität, Parteien, Landtag, Wetter, Pegida, Flüchtlinge, Wirtschaft, Technologie, Regionales, Sachsen, MDR"/>\n<meta name="news_keywords" content="Sachsen, News, Nachrichten, Bilder, Fotos, Videos, Audios, Berichte, Politik, Kultur, Veranstaltungen, Zeitgeschehen, Geschichte, Tour

In [8]:
type(response.text)

str

In [11]:
'Themenschwerpunkt Bildung' in response.text

True

In [12]:
response.text.find("Themenschwerpunkt Bildung")

28834

In [13]:
response.text[28834:28900]

'Themenschwerpunkt Bildung\n</h3>\n<div class="modCon " >\n<div class='

# BeautifulSoup

Beautiful Soup is a Python library for pulling data out of HTML and XML files. It works with your favorite parser to provide idiomatic ways of navigating, searching, and modifying the parse tree. It commonly saves programmers hours or days of work.

Dokumentation: https://beautiful-soup-4.readthedocs.io/en/latest/

In [14]:
!pip3 install beautifulsoup4

Defaulting to user installation because normal site-packages is not writeable


In [15]:
import requests 
from bs4 import BeautifulSoup

results = BeautifulSoup(response.text, 'html.parser')

In [16]:
results

<!DOCTYPE html>

<html class="view-m" itemscope="" itemtype="http://schema.org/" lang="de">
<!-- generated: 12.01.2023, 11:41:17 from mdrprod-tomcat-delivery2 -->
<head>
<title>Sachsen | Aktuelle Nachrichten, News, Videos, Fotos und Liveticker | MDR.DE</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="Täglich aktuell: Nachrichten und Informationen aus Sachsen. Dazu Fotos, Audios, Videos und Liveticker des MDR aus dem Freistaat Sachsen." name="description"/>
<meta content="Sachsen, News, Nachrichten, Bilder, Fotos, Videos, Audios, Berichte, Politik, Kultur, Veranstaltungen, Zeitgeschehen, Geschichte, Tourismus, Frauenkirche, Verkehr, Kultur, Kriminalität, Parteien, Landtag, Wetter, Pegida, Flüchtlinge, Wirtschaft, Technologie, Regionales, Sachsen, MDR" name="keywords"/>
<meta content="Sachsen, News, Nachrichten, Bilder, Fotos, Videos, Audios, Berichte, Politik, Kultur, Veranstaltungen, Zeitgeschehen, Geschichte, Tourismus, Frauenkirche, Verkehr,

In [17]:
type(results)

bs4.BeautifulSoup

In [18]:
dir(results)

['ASCII_SPACES',
 'DEFAULT_BUILDER_FEATURES',
 'DEFAULT_INTERESTING_STRING_TYPES',
 'ROOT_TAG_NAME',
 '__bool__',
 '__call__',
 '__class__',
 '__contains__',
 '__copy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 '__weakref__',
 '_all_strings',
 '_decode_markup',
 '_feed',
 '_find_all',
 '_find_one',
 '_is_xml',
 '_lastRecursiveChild',
 '_last_descendant',
 '_linkage_fixer',
 '_markup_is_url',
 '_markup_resembles_filename',
 '_most_recent_element',
 '_namespaces',
 '_popToTag',
 '_should_pretty_print',
 'append',
 'attrs',
 'builder',
 'can_be_empty_element',
 'cdata_list_

### Nachrichtenblöcke finden

In [19]:
teaser = results.find_all('div', class_='teaser')

In [20]:
teaser

[<div class="teaser">
 <div class="innerTeaser">
 </div>
 <div class="linklist">
 <ul class="list">
 <li class="cssIndexPage hasNoRessort">
 <a href="/nachrichten/sachsen/bautzen/region-bautzen-nachrichtenfeed100.html" title="">
 <span class="linktext">Region Bautzen
 </span>
 </a>
 </li>
 <li class="cssIndexPage hasNoRessort">
 <a href="/nachrichten/sachsen/chemnitz/region-chemnitz-nachrichtenfeed100.html" title="">
 <span class="linktext">Region Chemnitz
 </span>
 </a>
 </li>
 <li class="cssIndexPage hasNoRessort">
 <a href="/nachrichten/sachsen/dresden/region-dresden-nachrichtenfeed100.html" title="">
 <span class="linktext">Region Dresden
 </span>
 </a>
 </li>
 <li class="cssIndexPage hasNoRessort">
 <a href="/nachrichten/sachsen/leipzig/region-leipzig-nachrichtenfeed100.html" title="">
 <span class="linktext">Region Leipzig
 </span>
 </a>
 </li>
 </ul>
 </div>
 </div>,
 <div class="teaser">
 <div class="innerTeaser">
 <div class="mediaCon">
 <div class="media mediaA">
 <a href="/n

In [21]:
teaser = results.find_all('a', class_='linkAll')

In [22]:
teaser

[<a class="linkAll" href="/nachrichten/sachsen/bautzen/bautzen-hoyerswerda-kamenz/aerger-absage-ausbau-autobahn-vier-dresden-goerlitz-strassen-verkehr-100.html" tabindex="-1" title=""></a>,
 <a class="linkAll" href="/nachrichten/sachsen/tag-offene-hochschultuer-bildung-universitaet-studieren-100.html" tabindex="-1" title=""></a>,
 <a class="linkAll" href="/nachrichten/sachsen/dresden/dresden-radebeul/inventur-tiere-zoo-messen-wiegen-zaehlen-100.html" tabindex="-1" title=""></a>,
 <a class="linkAll" href="/nachrichten/sachsen/dresden/schule-bildung-universitaetsschule-gemeinschaftsschule-modell-universitaet-100.html" tabindex="-1" title=""></a>,
 <a class="linkAll" href="/nachrichten/sachsen/gendern-schule-bildung-102.html" tabindex="-1" title=""></a>,
 <a class="linkAll" href="/nachrichten/sachsen/schule-bildung-100.html" tabindex="-1" title=""></a>,
 <a class="linkAll" href="/nachrichten/sachsen/navi-karte-sachsen-100.html" tabindex="-1" title=""></a>,
 <a class="linkAll" href="/nachr

In [23]:
type(teaser)

bs4.element.ResultSet

In [24]:
len(teaser)

35

In [25]:
teaser[0]

<a class="linkAll" href="/nachrichten/sachsen/bautzen/bautzen-hoyerswerda-kamenz/aerger-absage-ausbau-autobahn-vier-dresden-goerlitz-strassen-verkehr-100.html" tabindex="-1" title=""></a>

In [26]:
teaser[1]

<a class="linkAll" href="/nachrichten/sachsen/tag-offene-hochschultuer-bildung-universitaet-studieren-100.html" tabindex="-1" title=""></a>

## Aufgabe

Finde alle Überschriften (Headlines) auf der Seite

In [27]:
headlines = results.find_all('a', class_='headline')

In [28]:
headlines

[<a class="headline" href="/nachrichten/sachsen/bautzen/bautzen-hoyerswerda-kamenz/aerger-absage-ausbau-autobahn-vier-dresden-goerlitz-strassen-verkehr-100.html" title="">Abgesagter A4-Ausbau? Machtwort des Kanzlers gefordert</a>,
 <a class="headline" href="/nachrichten/sachsen/bautzen/bautzen-hoyerswerda-kamenz/aerger-absage-ausbau-autobahn-vier-dresden-goerlitz-strassen-verkehr-100.html" title="">Abgesagter A4-Ausbau: Machtwort des Kanzlers gefordert</a>,
 <a class="headline" href="/nachrichten/sachsen/tag-offene-hochschultuer-bildung-universitaet-studieren-100.html" title="">Landesschülerrat fordert kostenlosen Nahverkehr für Hochschultag in Sachsen</a>,
 <a class="headline" href="/nachrichten/sachsen/tag-offene-hochschultuer-bildung-universitaet-studieren-100.html" title="">Landesschülerrat fordert kostenlosen Nahverkehr für Hochschultag in Sachsen</a>,
 <a class="headline" href="/nachrichten/sachsen/dresden/dresden-radebeul/inventur-tiere-zoo-messen-wiegen-zaehlen-100.html" title=

In [29]:
headlines[0]

<a class="headline" href="/nachrichten/sachsen/bautzen/bautzen-hoyerswerda-kamenz/aerger-absage-ausbau-autobahn-vier-dresden-goerlitz-strassen-verkehr-100.html" title="">Abgesagter A4-Ausbau? Machtwort des Kanzlers gefordert</a>

In [30]:
type(headlines[0])

bs4.element.Tag

## Beautiful Soup Tag Element

https://beautiful-soup-4.readthedocs.io/en/latest/#kinds-of-objects

In [31]:
dir(headlines[0])

['DEFAULT_INTERESTING_STRING_TYPES',
 '__bool__',
 '__call__',
 '__class__',
 '__contains__',
 '__copy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 '__weakref__',
 '_all_strings',
 '_find_all',
 '_find_one',
 '_is_xml',
 '_lastRecursiveChild',
 '_last_descendant',
 '_namespaces',
 '_should_pretty_print',
 'append',
 'attrs',
 'can_be_empty_element',
 'cdata_list_attributes',
 'childGenerator',
 'children',
 'clear',
 'contents',
 'decode',
 'decode_contents',
 'decompose',
 'decomposed',
 'default',
 'descendants',
 'encode',
 'encode_contents',
 'extend',
 'extract',
 'fetchNextSiblings'

In [33]:
headlines[0]

<a class="headline" href="/nachrichten/sachsen/bautzen/bautzen-hoyerswerda-kamenz/aerger-absage-ausbau-autobahn-vier-dresden-goerlitz-strassen-verkehr-100.html" title="">Abgesagter A4-Ausbau? Machtwort des Kanzlers gefordert</a>

In [32]:
headlines[0].text

'Abgesagter A4-Ausbau? Machtwort des Kanzlers gefordert'

## Aufgabe

Iteriere durch alle Headlines und gibt den Text aus

In [35]:
for headline in headlines:
    print(headline.text)

Abgesagter A4-Ausbau? Machtwort des Kanzlers gefordert
Abgesagter A4-Ausbau: Machtwort des Kanzlers gefordert
Landesschülerrat fordert kostenlosen Nahverkehr für Hochschultag in Sachsen
Landesschülerrat fordert kostenlosen Nahverkehr für Hochschultag in Sachsen
Koala zu dick: Tierische Inventur im Zoo Dresden
Koala zu dick: Tierische Inventur im Zoo Dresden
Universitätsschule Dresden: Wie läuft es an der Schule ohne Noten?
Universitätsschule Dresden: Wie läuft es an der Schule ohne Noten?
Gewerkschaft plädiert für Gendern auch an Schulen
Sachsen: Gewerkschaft plädiert für Gendern auch an Schulen
Navigation Karte Sachsen
Navigation Karte Sachsen
Eigentümer wollen gegen Grundsteuergesetz klagen
Grundsteuer: Eigentümer wollen wegen Neuberechnung klagen
Was die Kunstsammlungen Chemnitz für 2023 planen
Chemnitz: Kunstsammlungen präsentieren Ausstellungshighlights 2023
Polizei befreit in Leipzig entführten Mann
Polizei befreit in Leipzig entführten Mann
Warum Mitteldeutschland an Verteilungs

## Duplikate entfernen

In [36]:
# Duplikate entfernen
titel = []
for headline in headlines:
    clean_headline = headline.text.strip()
    if clean_headline not in titel:
        titel.append(clean_headline)

# Titel ausgeben        
for elem in titel:
    print(elem)

Abgesagter A4-Ausbau? Machtwort des Kanzlers gefordert
Abgesagter A4-Ausbau: Machtwort des Kanzlers gefordert
Landesschülerrat fordert kostenlosen Nahverkehr für Hochschultag in Sachsen
Koala zu dick: Tierische Inventur im Zoo Dresden
Universitätsschule Dresden: Wie läuft es an der Schule ohne Noten?
Gewerkschaft plädiert für Gendern auch an Schulen
Sachsen: Gewerkschaft plädiert für Gendern auch an Schulen
Navigation Karte Sachsen
Eigentümer wollen gegen Grundsteuergesetz klagen
Grundsteuer: Eigentümer wollen wegen Neuberechnung klagen
Was die Kunstsammlungen Chemnitz für 2023 planen
Chemnitz: Kunstsammlungen präsentieren Ausstellungshighlights 2023
Polizei befreit in Leipzig entführten Mann
Warum Mitteldeutschland an Verteilungsformel für Flüchtlinge festhält
Königsteiner Schlüssel: Warum Mitteldeutschland an Verteilungsformel für Flüchtlinge festhält
Verteidigungsministerin Lambrecht in Bundeswehrkaserne in Marienberg erwartet
Verteidigungsministerin Lambrecht besucht Kaserne in Mar

## Auf Links zugreifen

In [37]:
headlines

[<a class="headline" href="/nachrichten/sachsen/bautzen/bautzen-hoyerswerda-kamenz/aerger-absage-ausbau-autobahn-vier-dresden-goerlitz-strassen-verkehr-100.html" title="">Abgesagter A4-Ausbau? Machtwort des Kanzlers gefordert</a>,
 <a class="headline" href="/nachrichten/sachsen/bautzen/bautzen-hoyerswerda-kamenz/aerger-absage-ausbau-autobahn-vier-dresden-goerlitz-strassen-verkehr-100.html" title="">Abgesagter A4-Ausbau: Machtwort des Kanzlers gefordert</a>,
 <a class="headline" href="/nachrichten/sachsen/tag-offene-hochschultuer-bildung-universitaet-studieren-100.html" title="">Landesschülerrat fordert kostenlosen Nahverkehr für Hochschultag in Sachsen</a>,
 <a class="headline" href="/nachrichten/sachsen/tag-offene-hochschultuer-bildung-universitaet-studieren-100.html" title="">Landesschülerrat fordert kostenlosen Nahverkehr für Hochschultag in Sachsen</a>,
 <a class="headline" href="/nachrichten/sachsen/dresden/dresden-radebeul/inventur-tiere-zoo-messen-wiegen-zaehlen-100.html" title=

In [38]:
headlines[0].get('title')

''

In [39]:
headlines[0].get('href')

'/nachrichten/sachsen/bautzen/bautzen-hoyerswerda-kamenz/aerger-absage-ausbau-autobahn-vier-dresden-goerlitz-strassen-verkehr-100.html'

## Titel und Link in Dictionary speichern

In [40]:
data = []
titel = []
for headline in headlines:
    clean_headline = headline.text.strip()
    if clean_headline not in titel:
        current_data = {'titel': clean_headline,
                        'link': headline.get('href')}
        data.append(current_data)
        titel.append(clean_headline)

In [41]:
# Einzelnen Elemente ausgeben
for elem in data:
    print(elem)

{'titel': 'Abgesagter A4-Ausbau? Machtwort des Kanzlers gefordert', 'link': '/nachrichten/sachsen/bautzen/bautzen-hoyerswerda-kamenz/aerger-absage-ausbau-autobahn-vier-dresden-goerlitz-strassen-verkehr-100.html'}
{'titel': 'Abgesagter A4-Ausbau: Machtwort des Kanzlers gefordert', 'link': '/nachrichten/sachsen/bautzen/bautzen-hoyerswerda-kamenz/aerger-absage-ausbau-autobahn-vier-dresden-goerlitz-strassen-verkehr-100.html'}
{'titel': 'Landesschülerrat fordert kostenlosen Nahverkehr für Hochschultag in Sachsen', 'link': '/nachrichten/sachsen/tag-offene-hochschultuer-bildung-universitaet-studieren-100.html'}
{'titel': 'Koala zu dick: Tierische Inventur im Zoo Dresden', 'link': '/nachrichten/sachsen/dresden/dresden-radebeul/inventur-tiere-zoo-messen-wiegen-zaehlen-100.html'}
{'titel': 'Universitätsschule Dresden: Wie läuft es an der Schule ohne Noten?', 'link': '/nachrichten/sachsen/dresden/schule-bildung-universitaetsschule-gemeinschaftsschule-modell-universitaet-100.html'}
{'titel': 'Gewe

In [45]:
data[0]

'/nachrichten/sachsen/bautzen/bautzen-hoyerswerda-kamenz/aerger-absage-ausbau-autobahn-vier-dresden-goerlitz-strassen-verkehr-100.html'

## Daten in Dataframe umwandeln und speichern

In [47]:
import pandas as pd
df = pd.DataFrame(data)

In [48]:
df

Unnamed: 0,titel,link
0,Abgesagter A4-Ausbau? Machtwort des Kanzlers g...,/nachrichten/sachsen/bautzen/bautzen-hoyerswer...
1,Abgesagter A4-Ausbau: Machtwort des Kanzlers g...,/nachrichten/sachsen/bautzen/bautzen-hoyerswer...
2,Landesschülerrat fordert kostenlosen Nahverkeh...,/nachrichten/sachsen/tag-offene-hochschultuer-...
3,Koala zu dick: Tierische Inventur im Zoo Dresden,/nachrichten/sachsen/dresden/dresden-radebeul/...
4,Universitätsschule Dresden: Wie läuft es an de...,/nachrichten/sachsen/dresden/schule-bildung-un...
5,Gewerkschaft plädiert für Gendern auch an Schulen,/nachrichten/sachsen/gendern-schule-bildung-10...
6,Sachsen: Gewerkschaft plädiert für Gendern auc...,/nachrichten/sachsen/gendern-schule-bildung-10...
7,Navigation Karte Sachsen,/nachrichten/sachsen/navi-karte-sachsen-100.html
8,Eigentümer wollen gegen Grundsteuergesetz klagen,/nachrichten/deutschland/politik/grundsteuer-g...
9,Grundsteuer: Eigentümer wollen wegen Neuberech...,/nachrichten/deutschland/politik/grundsteuer-g...


In [49]:
df.to_csv('nachrichten_sachsen.csv')

## Informationen auf den einzelnen Seiten holen

In [51]:
data[4]

{'titel': 'Universitätsschule Dresden: Wie läuft es an der Schule ohne Noten?',
 'link': '/nachrichten/sachsen/dresden/schule-bildung-universitaetsschule-gemeinschaftsschule-modell-universitaet-100.html'}

In [52]:
data[4]['link']

'/nachrichten/sachsen/dresden/schule-bildung-universitaetsschule-gemeinschaftsschule-modell-universitaet-100.html'

In [53]:
base_url = "https://www.mdr.de/"
url = base_url + data[4]['link']

In [54]:
print(url)

https://www.mdr.de//nachrichten/sachsen/dresden/schule-bildung-universitaetsschule-gemeinschaftsschule-modell-universitaet-100.html


In [55]:
response = requests.get(url)
result = BeautifulSoup(response.text, 'html.parser')

In [56]:
result

<!DOCTYPE html>

<html class="view-m" itemscope="" itemtype="http://schema.org/" lang="de">
<!-- generated: 12.01.2023, 12:31:01 from mdrprod-tomcat-delivery9 -->
<head>
<title>Universitätsschule Dresden: Wie läuft es an der Schule ohne Noten? | MDR.DE</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="Keine Noten, keine Ferien, Lernbausteine statt Schulfächer: Das Schulprojekt der TU Dresden gestaltet Schule neu und wird immer stärker nachgefragt. MDR SACHSEN zu Besuch in der Universitätsschule." name="description"/>
<meta content="nachrichten, Bildung, Schulen, Gemeinschaftsschulen, Schüler, Lehrer, Forschung, Universitätsschule, Sachsen, MDR" name="keywords"/>
<meta content="nachrichten, Bildung, Schulen, Gemeinschaftsschulen, Schüler, Lehrer, Forschung, Universitätsschule" name="news_keywords"/>
<meta content="article" property="og:type"/>
<meta content="https://www.mdr.de/nachrichten/sachsen/dresden/schule-bildung-universitaetsschule-gemein

### Den Autor extrahieren

In [57]:
author = result.find('p', class_='author').text

In [67]:
author

'Katrin Tominski, MDR SACHSEN'

In [66]:
author = author.replace('von', '')
author = author.replace('\n', '')

### Das Veröffentlichungsdatum extrahieren

In [68]:
webtime = result.find('p', class_='webtime')

In [70]:
type(webtime)

bs4.element.Tag

In [71]:
dateinfo = webtime.select('span')

In [72]:
dateinfo

[<span>Stand: </span>, <span>12. Januar 2023, </span>, <span>05:00 Uhr</span>]

In [74]:
dateinfo[1].text

'12. Januar 2023, '

In [75]:
dateinfo[2].text

'05:00 Uhr'

In [76]:
full_date = dateinfo[1].text + dateinfo[2].text

In [77]:
full_date

'12. Januar 2023, 05:00 Uhr'

## Abstecher: Timestamps in Python

String Datum in Datetime umwandeln.

Module: Datetime
 - https://docs.python.org/3/library/datetime.html
 
Funktion: Strptime
 https://www.geeksforgeeks.org/python-datetime-strptime-function/

In [81]:
time = dateinfo[2].text

In [82]:
time

'05:00 Uhr'

In [84]:
from datetime import datetime

time_str = datetime.strptime(time, '%H:%M Uhr')

In [86]:
from datetime import datetime
import locale

locale.setlocale(locale.LC_ALL, 'de_DE.utf8')
datetime.strptime(dateinfo[1].text, '%d. %B %Y, ')

datetime.datetime(2023, 1, 12, 0, 0)

In [None]:
full_date

In [87]:
from datetime import datetime
import locale
locale.setlocale(locale.LC_ALL, 'de_DE.utf8')

def create_timestamp(elements):
    date = elements[1].text
    time = elements[2].text
    return datetime.strptime(date + time, '%d. %B %Y, %H:%M Uhr')

In [88]:
create_timestamp(dateinfo)

datetime.datetime(2023, 1, 12, 5, 0)

## Aufgabe:

Extrahiere von allen gespeicherten Links die Autoren und das zugehörige Veröffentlichungsdatum