# Webscraper für die Studentenjobs auf www.stellenwerk-hamburg.de

## Installieren und importieren benötigter Bibliotheken

Die Python-Bibliotheken *requests*, *BeautifulSoup* und *tqdm* müssen vor der ersten Verwendung installiert werden. Mit *requests* ist es möglich, über Python HTTP-Anfragen zu stellen. Mit *BeautifulSoup* kann man HTML-Code parsen und mit *tqdm* kann man sich bei langwierigen Programmausführungen Fortschrittsbalken anzeigen lassen. Die Installation geht folgendermaßen:

In [64]:
!pip install requests
!pip install bs4
!pip install tqdm

Collecting bs4
  Using cached bs4-0.0.1-py3-none-any.whl
Installing collected packages: bs4
Successfully installed bs4-0.0.1


Die ebenfalls benötigten Bibliotheken *time* (zum Verzögern der Programmausführung) und *csv* (zum Arbeiten mit csv-Dateien) sind Teil von Python und müssen nicht extra installiert werden. Sie müssen aber importiert werden, damit man sie verwenden kann.<br>
Alle benötigten Bibliotheken importieren:

In [1]:
import requests
from bs4 import BeautifulSoup
from tqdm.notebook import tqdm
import time
import csv

## Anforderungen an den Web Scraper

Die **Stellenanzeigen für Studentenjobs** auf den Seiten des Stellenwerks sind [hier](https://www.stellenwerk-hamburg.de/jobboerse/unternehmen/studentenjobs) zu finden.
Die Seite ist so aufgebaut, dass immer 20 Stellenangebote auf einer Seite verlinkt werden. Um die nächsten 20 Links zu Stellenangebote zu sehen, muss weitergeblättert werden. Die eigentliche Information zur Stelle findet sich hinter dem jeweiligen Link. Um an die Informationen über die Stellenangebote zu gelangen, müssen entsprechend diese Job-spezifischen Links aufgerufen werden.
Der Webscraper für das Stellenwerk muss somit:
- Webseite des Stellenwerks aufrufen
- blättern und wissen, wie oft weitergeblättert werden muss (Seitenzahl)
- die 20 Links je Seite auslesen
- eine Liste aller (Seitenzahl x 20) Links zusammenstellen
- alle so gewonnen Links zu den jeweiligen Stellenanzeigen aufrufen
- die stellenbezogenen Informationen extrahieren
- die extrahierten Informationen in einer CSV-Datei abspeichern.

## Aufbau der URL des Stellenwerks

Wenn man durch die Seiten mit den Stellenanzeigen blättert, stellt man fest, dass die URL des Stellenwerks [*Query Strings*](https://de.wikipedia.org/wiki/Query-String) nutzt, um Parameter (insbesondere der Suchanfrage) an den Webserver zu senden. Die URLs haben folgenden beispielhaften Aufbau:

https://www.stellenwerk-hamburg.de/jobboerse/unternehmen/studentenjobs?keywords=&offer_type=job_ad_b2b&job_category=111&employment_type=All&page=1

Der Query-String wird mit einem Fragezeichen (?) eingeleitet und besteht aus einem oder mehreren Schlüssel=Wert-Paaren. Im Fall mehrerer Schlüssel=Wert-Paare sind diese mit einem *&* verbunden. Vor dem Query-String steht die Basis-URL. Somit läst sich der URL des Stellenwerks in folgende Bestandteile gliedern:

- Basis-URL: https://www.stellenwerk-hamburg.de/jobboerse/unternehmen/studentenjobs
- Query-String: [keywords=&offer_type=job_ad_b2b&job_category=111&employment_type=All&page=1](https://www.stellenwerk-hamburg.de/jobboerse/unternehmen/studentenjobs?keywords=&offer_type=job_ad_b2b&job_category=111&employment_type=All&page=1)<br>
mit folgenden Schlüssel=Wert-Paaren:
    - keywords=
    - offer_type=job_ad_b2b
    - job_category=111
    - employment_type=All
    - page=1

Diese Schlüssel=Wert-Paare des Query Strings werden im Folgenden in einem [Python-Dictionary](https://www.w3schools.com/python/python_dictionaries.asp) mit den Namen *query* gespeichert. Das Python-Dictionary wird dann - neben der Basis-URL - an *requests* übergeben, um die Webseite aufzurufen:

In [2]:
base_url = "https://www.stellenwerk-hamburg.de/jobboerse/unternehmen/studentenjobs"
query = {
    'keywords': '',
    'offer_type': 'job_ad_b2b',
    'job_category': '111',
    'employment_type': 'All',
    'page': '0'
}

## Wir tarnen uns als Firefox 

Standardmäßig offenbart sich die *requests*-Bibliothek selbst, indem sie sich beim Aufrufen einer Webseite im *Request Header* als User-Agent nennt: **'User-Agent': 'python-requests/2.26.0'**.<br>
Um nicht sofort als Web-Scraper aufzufallen, ändern wir den entsprechenden Eintrag im *Request Header* und geben uns als Firefox-Browser aus (die Angaben, die Firefox sendet, habe ich mit den *Werkzeugen für Webentwickler* im Firefox-Browser ermittelt über **Netzwerkanalyse** &rightarrow; **Kopfzeilen** &rightarrow; **Anfragekopfzeilen**). Dazu werden die Angaben, die Firefox sendet, in einem Python-Dictionary namens *my_headers* gespeichert, damit sie an *requests* übergeben werden können. Damit werden die ursprünglichen Angaben zum User-Agenten überschrieben.

In [3]:
my_headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0'}

## Aufruf der Webseite

Nun wird ein *Get-Request* zum Aufruf der Stellenwerk-Webseite an den Webserver gestellt. Neben der Basis-URL müssen auch die Informationen aus dem Query-String an *requests* übergeben werden. Dazu wird das oben erstellte Python-Dictionary mit dem Namen *query* dem funktionseigenen Argument *params* übergeben. Ebenso wird das Dictionary mit dem Namen *my_headers* dem funktionseigenen Argument *headers* übergeben, um uns so als Firefox-Browser zu tarnen.<br>
Anfrage und die Antwort des Webservers werden von *requests* in einem sog. Response-Objekt gespeichert. Dieses Response-Objekt wird dann der [Variablen](https://www.w3schools.com/python/python_variables.asp) *r* zugewiesen, so dass wir im weiteren Verlauf damit arbeiten können.

In [4]:
r = requests.get(base_url, params = query, headers = my_headers)

In [5]:
print(r.request.url) # aufgerufene URL

https://www.stellenwerk-hamburg.de/jobboerse/unternehmen/studentenjobs?keywords=&offer_type=job_ad_b2b&job_category=111&employment_type=All&page=0


In [6]:
print(r.request.headers) # an den Webserver gesendete Anfragekopfezeile

{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0', 'Accept-Encoding': 'gzip, deflate, br', 'Accept': '*/*', 'Connection': 'keep-alive'}


In [7]:
print(r.status_code) # War der Webseitenaufruf erfolgreich?
print(r.reason)

200
OK


## HTML-Code der Webseite speichern

Nun wird mit `.text` der übermittelte HTML-Quellcode der Stellenwerk-Webseite als Unicode-Text aus dem Response-Objekt *r* extrahiert und in der Variable *html* gespeichert:

In [8]:
html = r.text

Diese Variable wird als Input an *BeautifulSoup* übergeben und von *BeautifulSoup* in ein *BeautifulSoup*-Objekt umgewandelt. *BeautifulSoup*-Objekte erlauben es, durch den HTML-Quellcode zu navigieren, in diesem Code nach spezifischen Inhalten zu suchen und diese Inhalte zu extrahieren. Das *BeautifulSoup*-Objekt wird der Variable *bs* zugewiesen:

In [9]:
bs = BeautifulSoup(html, 'html.parser')

## Gesuchte Informationen aus dem HTML-Code auslesen

### Links zu den jeweiligen Stellenanzeigen auslesen

Aus dem Quellcode der Webseite wird das HTML-Element ausgelesen, in dem die Links zu den Stellenanzeigen zu finden sind. Um dieses Element im Quellcode zu identifizieren, verwendet man die *Browserwerkzeuge* bzw. *Entwicklertools* des jeweiligen Browsers. Diese kann man in den meisten Browsern mit <kbd>Strg</kbd>+<kbd>UMSCHALTTASTE</kbd>+<kbd>I</kbd> öffnen. Hier wählt man dann den Reiter *Inspektor*.
Wenn man nun die Maus über die Webseite bewegt, ändert sich das hervorgehobene Element. Gleichzeitig wird der dazugehörge HTML-Quellcode im Fensterbereich der *Browserwerkzeuge* angezeigt. Hier sind auch rudimentäre Kenntnisse von HTML und CSS hilfreich, um die entsprechenden Elemente im Quellcode zu bestimmen.<br>
Die Links zu den ausgeschriebenen Jobs befinden sich in einem
[*div*](https://www.w3schools.com/tags/tag_div.ASP)-Tag, welches mit einem CSS [*class*](https://www.w3schools.com/css/css_selectors.asp)-Selektor gestaltet wurde. In diesem Fall ist *class="JobSearch-content"*. Mit diesen Informationen und der Funktion  `.find()` von *BeautifulSoup* können die entsprechenden Informationen aus dem HTML-Quellcode extrahiert und in eine Variable *job_ads* gespeichert werden:

In [10]:
job_ads = bs.find('div', class_ = 'JobSearch-content')

Aus diesem so extrahierten HTML-Element werden in einem weiteren Schritt alle Links zu den Stellenanzeigen ausgelesen. Links werden in HTML über einen [*a*](https://www.w3schools.com/tags/tag_a.asp)-Tag definiert. Die Links zu den Stellenanzeigen befinden sich in einem *a*-Tag mit dem CSS-Selektor *class="Link"*. Da es hier mehrere entsprechende Elemente gibt, muss die Funktion `.find_all()` von *BeautifulSoup* verwendet werden, um alle Links zu finden. Die so extrahierten Links werden in die Listen-Variable *job_links* geschrieben. Die URL, zu der der Link führt, befindet sich in dem *href*-Attribut des *a*-Tags.

In [11]:
job_links = job_ads.find_all('a', class_ = 'Link')

Anzahl an Elementen (hier: Links zu den Stellenanzeigen) in der Liste *job_links*:

In [12]:
print(len(job_links))

20


Es befinden sich immer 20 Links zu den Stellenanzeigen auf jeder der Unterseiten.

Als nächstes werfen wir einen Blick auf die so extrahierten Links:

In [13]:
for l in job_links:
    print(l['href'])

/jobboerse/praktikant-werkstudent-mwd-globales-hr-management-hamburg-211209-507382
/jobboerse/werkstudent-recruiting-mwd-hamburg-211209-507377
/jobboerse/werkstudent-dmw-im-bereich-technisches-facility-management-hamburg-211209-507353
/jobboerse/betreuerin-familienanaloge-wohngruppe-hamburg-211209-507352
/jobboerse/werkstudentin-customer-success-hamburg-211209-507351
/jobboerse/betreuerin-familienanaloge-wohngruppe-hamburg-211209-507349
/jobboerse/werkstudent-it-mwd-hamburg-211209-507345
/jobboerse/werkstudent-praktikant-wmd-corporate-development-finance-hamburg-211209-507337
/jobboerse/werkstudentin-compliance-hamburg-211209-507336
/jobboerse/student-assistant-middle-east-mfd-editorial-research-intelligence-hamburg-211209-507334
/jobboerse/student-assistant-asia-pacific-mfd-editorial-research-intelligence-hamburg-211209-507333
/jobboerse/student-assistant-japan-mfd-editorial-research-intelligence-hamburg-211209-507332
/jobboerse/werkstudent-praktikant-wmd-hr-administration-hamburg-211

Wie man sieht, handelt es sich um relative statt [absolute Links](https://de.wikipedia.org/wiki/Absoluter_Link). Die fehlenden Informationen - Protokoll (https://) und Hostname (www.stellenwerk-hamburg.de) - werden den Links vorangestellt und die nun vollständigen Links werden in der Listen-Variable *rows* gespeichert:

In [14]:
rows = []
for link in job_links:
    link = 'https://www.stellenwerk-hamburg.de' + link['href']
    rows.append(link)

Jetzt sehen die Links so aus:

In [15]:
for row in rows:
    print(row)

https://www.stellenwerk-hamburg.de/jobboerse/praktikant-werkstudent-mwd-globales-hr-management-hamburg-211209-507382
https://www.stellenwerk-hamburg.de/jobboerse/werkstudent-recruiting-mwd-hamburg-211209-507377
https://www.stellenwerk-hamburg.de/jobboerse/werkstudent-dmw-im-bereich-technisches-facility-management-hamburg-211209-507353
https://www.stellenwerk-hamburg.de/jobboerse/betreuerin-familienanaloge-wohngruppe-hamburg-211209-507352
https://www.stellenwerk-hamburg.de/jobboerse/werkstudentin-customer-success-hamburg-211209-507351
https://www.stellenwerk-hamburg.de/jobboerse/betreuerin-familienanaloge-wohngruppe-hamburg-211209-507349
https://www.stellenwerk-hamburg.de/jobboerse/werkstudent-it-mwd-hamburg-211209-507345
https://www.stellenwerk-hamburg.de/jobboerse/werkstudent-praktikant-wmd-corporate-development-finance-hamburg-211209-507337
https://www.stellenwerk-hamburg.de/jobboerse/werkstudentin-compliance-hamburg-211209-507336
https://www.stellenwerk-hamburg.de/jobboerse/student-

### Blättern

Die Stellenanzeigen sind über mehrere Seiten à 20 Links verteilt. Wir müssen also blättern, um an alle Links zu kommen. Wie oft geblättert werden muss, kann man der Seite im unteren Bereich entnehmen.<br>
Die Information zur Anzahl der Seiten befindet sich in einem [*span*](https://www.w3schools.com/tags/tag_span.asp)-Tag mit dem CSS-Selektor *class="Pagination-text"*. Mit der Funktion  `.find()` von *BeautifulSoup* kann die Informationen aus dem HTML-Quellcode extrahiert werden. Mit der Funktion `.get_text()` wird die so extrahierte Information in Text umgewandelt (andernfalls wäre sie ein *BeautifulSoup*-Objekt):

In [16]:
pages = bs.find('span', class_ = 'Pagination-text').get_text()
print(pages)
print(type(pages)) # Abfrage des Datentyps; hier: string (Zeichenkette)

Seite 1 von 45
<class 'str'>


Aus diesem String kann man die maximale Seitenzahl folgendermaßen isolieren. Der String wird über die Methode `.split()` am Leerzeichen (' ') in seine Komponenten zerlegt. Aus der Liste der Komponenten wird dann das vierte Element extrahiert. Das vierte Element hat den Index 3, da die Indexzählung bei 0 beginnt. Schließlich wird der String mit `int()` in ein Integer (ganzzahliger Wert) umgewandelt und ist somit numerisch:

In [17]:
page_max = int(pages.split(' ')[3])

In [18]:
print(page_max)
print(type(page_max)) # Abfrage des Datentyps; hier: integer (ganzzahliger Wert)

45
<class 'int'>


Nun kann diese Information genutzt werden, um zu blättern. Dazu wird eine *for*-Schleife in Kombination mit der Funktion `range()` verwendet. `range()` bestimmt, wie häufig die Schleife durchlaufen wird. Hier setzen wir *page_max* ein und addieren eine Eins hinzu, da `range()` standardmäßig den Stoppwert nicht mit einschließt (also nur bis *page_max* - 1 läuft). In jedem Schleifendurchlauf wird im *Query-String* der Wert für den Schlüssel *page* (s. oben unter Aufbau der URL des Stellenwerks) um eins erhöht. Im ersten Durchlauf ist page=0, im zweiten page=1, im dritten page=2 usw. Alle Links zu den Stellenanzeigen, die auf einer Seite zu finden sind, werden dann extrahiert und zu der Liste *all_links* hinzugefügt.<br>
Nach jedem Schleifendurchlauf stoppen wir mit `time.sleep(1)` das Programm für 1 Sekunde, bevor wir die nächste Seite aufrufen. Andernfalls würden wir mit zu vielen Anfragen in kurzer Zeit eventuell den Server überlasten. Dies würde schlimmstenfalls eine [Denial-of-Service-Attacke](https://www.bsi.bund.de/DE/Themen/Verbraucherinnen-und-Verbraucher/Cyber-Sicherheitslage/Methoden-der-Cyber-Kriminalitaet/DoS-Denial-of-Service/dos-denial-of-service_node.html) darstellen.

In [19]:
all_links = [] # Anlegen einer leeren Liste zur Aufnahme der Links
for page in tqdm(range(page_max + 1)): # tqdm vor range erzeugt einen Fortschrittsbalken 
    query["page"] = page # Seitenzahl wird in jedem Schleifendurchlauf um 1 erhöht
    r = requests.get(base_url, params = query) # Webseite aufrufen
    html = r.text # HTML-Code der Webseite speichern
    bs = BeautifulSoup(html, 'html.parser') # HTML-Code an BeautifulSoup übergeben
    job_ads = bs.find('div', class_ = 'JobSearch-content') # Element mit Links zu den Stellenanzeigen extrahieren
    job_links = job_ads.find_all('a', class_ = 'Link') # aus dieser Spalte alle Links zu den Anzeigen extrahieren
    for link in job_links: # Protokoll und Hostname jedem Link voranstellen
        link = 'https://www.stellenwerk-hamburg.de' + link['href']
        all_links.append(link) # Links der Liste all_links hinzufügen
    time.sleep(1) # eine Sekunde Verzögerung nach jedem Seitenaufruf (friendly scraping)

  0%|          | 0/46 [00:00<?, ?it/s]

Wie viele Elemente hat die Liste *all_links* nach dem durch alle Seiten geblättert wurde? Diese Anzahl entspricht der Anzahl an Stellenangeboten zum Scraping-Zeitpunkt:

In [20]:
print(len(all_links))

893


Nun liegt eine Liste mit allen Links zu den Stellenangeboten vor. Jetzt muss noch bestimmt werden, welche Informationen zu den jeweiligen Stellenangeboten extrahiert werden sollen. Dazu ruft man beispielhaft eine oder mehrere Stellenanzeigen aus der Liste *all_links* auf untersucht den HTML-Quellcode mit den Entwicklerwerkzeugen. So können alle HTML-Elemente identifiziert werden, in denen die Job-spezifischen Informationen zu finden sind.

### Allgemeine Informationen

Allgemeinere Informationen wie Job-Bezeichnung, Datum und ID der Anzeige sowie der Anzeigetyp finden sich im oberen Bereich der Seite und lassen sich wie folgt aus dem Quellcode herauslesen. Bei *ad_date* wird die Zeichenkette "Online seit DD.MM.YYYY" mit Hilfe der Methode `.split()` am Leerzeichen (' ') in seine Komponenten zerlegt und dann das dritte Element (DD.MM.YYYY) extrahiert. 


Hier kommt die Funktion `.select()` von *BeautifulSoup* zum Einsatz, der man einen [CSS-Selektor](https://www.w3schools.com/cssref/css_selectors.asp) übergeben kann.

In [241]:
job_title = bs.find('h1', class_ = 'JobHead-title').get_text()
ad_date = bs.find('li', class_ = 'JobHead-additionalInfoItem').get_text().split(' ')[2]
ad_id = bs.select('li.JobHead-additionalInfoItem:nth-child(2)')[0].get_text()
ad_type = bs.select('li.JobHead-additionalInfoItem:nth-child(3)')[0].get_text()

### Anzeigendaten

Informationen wie Art und Zeitraum der Beschäftigung, Vergütung sowie Bewerbungslink oder Bewerbungs-E-Mail (es gibt nur eins von beiden) finden sich im unteren Drittel der Stellenanzeigen.<br>
Hier werden das erste Mal mit [*try* und *except*](https://www.w3schools.com/python/python_try_except.asp) Ausnahmen behandelt:<br>
+ Nicht jede Stellenanzeige weist eine Vergütung aus
+ Wenn ein Bewerbunslink angegeben wurde, fehlt die Bewerbungs-E-Mail und vice versa, da es auf der Webseite des Stellenwerks sich ausschließende Alternativen sind.

Ein Exraktionsversuch bei fehlenden Informationen würde zu einer Fehlermeldung und zu einem Programmabbruch führen. Für so einen Fall wird im *except*-Block explizit der Wert *None* vergeben. Durch diese Konstruktion wird ein Programmabbruch verhindert:

In [242]:
job_type = bs.find(string = "Art der Beschäftigung").find_next('dd').get_text() # Suche nach dem Tag mit Inhalt "Art der Beschäftigung", dann das folgende dd-Tag wählen
job_duration = bs.find(string = "Zeitraum der Beschäftigung").find_next('dd').get_text()
try:
    job_wage = bs.find(string = "Vergütung").find_next('dd').get_text()
except:
    job_wage = None
try:
    app_link = bs.find(string = "Bewerbungslink").find_next('dd').find_next('a', class_ = 'Link')['href']
except:
    app_link = None
try:
    app_email = bs.find(string = "Bewerbungs-E-Mail").find_next('a', class_ = 'IconText-mail IconText')['href']
except:
    app_email = None

### Beschreibung und Anforderungsprofil der Stelle

Die Beschreibung der Stelle und das Anforderungsprofil sind die zentralen stellenbezogenen Informationen und finden sich in zwei seperaten Textfeldern im mittleren Teil der Seite:

In [244]:
job_descrip = bs.find_all('div', class_ = 'RichText')[0].get_text()
job_profile = bs.find_all('div', class_ = 'RichText')[1].get_text()

### Firmenkontaktdaten

Die Firmenkontaktdaten stehen am Ende der Seite und beinhalten Informationen wie Firmenname, Adresse und Kontaktperson:

In [243]:
company = bs.find(string = "Firmenname").find_next('dd').get_text()
loc = bs.find(string = "Standort").find_all_next('dd', limit = 2)
location = loc[0].get_text()+ ", " + loc[1].get_text()
contact = bs.find(string = "Kontaktperson").find_next('dd').get_text()

## Schleife über alle Stellenanzeigen

Nun wird alles kombiniert. Die Informationen (allgemeine Informationen, Anzeigendaten, Beschreibung und Anforderungsprofil der Stelle, Firmeninformationen) müssen nun für *alle* Stellenanzeigen extrahiert werden. Mit Hilfe einer *for*-Schleife werden dafür alle Links aus *all_links* nacheinander aufgerufen, der jeweilige HTML-Quellcode abgerufen, aus diesem die relevanten Informationen zu jeder Stellenanzeige extrahiert und in einem Python-Dictionary (Schlüssel-Wert-Paare) names *row* gespeichert. Diese Dictionaries werden dann ein eine Liste namens *rows* übertragen, d.h. die Liste hat so viele Elemente in Form von Dictionaries, wie es Stellenanzeigen gibt. Die *try*-und-*except*-Blöcke verhindern den Programm-Abbruch falls in einzelnen Stellenanzeigen manche Informationen nicht vorhanden sind und somit nicht ausgelesen werden können.

In [21]:
rows = []
for link in tqdm(all_links): # tqdm vor der iterierbaren Liste 'all_links' erzeugt einen Fortschrittsbalken 
    r = requests.get(link, headers = my_headers) # Webseite aufrufen
    html = r.text # HTML-Code der Webseite speichern
    bs = BeautifulSoup(html, 'html.parser') # HTML-Code an BeautifulSoup übergeben
    try: # alle benötigen Informationen aus dem HTML-Code extrahieren
        job_title = bs.find('h1', class_ = 'JobHead-title').get_text()
    except:
        job_title = None
    try:
        ad_date = bs.find('li', class_ = 'JobHead-additionalInfoItem').get_text().split(' ')[2]
    except:
        ad_date = None
    try:    
        ad_id = bs.select('li.JobHead-additionalInfoItem:nth-child(2)')[0].get_text()
    except:
        ad_id = None
    try:
        ad_type = bs.select('li.JobHead-additionalInfoItem:nth-child(3)')[0].get_text()
    except:
        ad_type = None
    try:
        job_type = bs.find(string = "Art der Beschäftigung").find_next('dd').get_text() # Suche nach dem Tag mit Inhalt "Art der Beschäftigung", dann das folgende dd-Tag wählen
    except:
        job_type = None
    try:
        job_duration = bs.find(string = "Zeitraum der Beschäftigung").find_next('dd').get_text()
    except:
        job_duration = None
    try:
        job_wage = bs.find(string = "Vergütung").find_next('dd').get_text()
    except:
        job_wage = None
    try:
        app_link = bs.find(string = "Bewerbungslink").find_next('dd').find_next('a', class_ = 'Link')['href']
    except:
        app_link = None
    try:
        app_email = bs.find(string = "Bewerbungs-E-Mail").find_next('a', class_ = 'IconText-mail IconText')['href']
    except:
        app_email = None
    try:
        company = bs.find(string = "Firmenname").find_next('dd').get_text()
    except:
        company = None
    try:
        loc = bs.find(string = "Standort").find_all_next('dd', limit = 2)
        location = loc[0].get_text()+ ", " + loc[1].get_text()
    except:
        loc, location = None, None
    try:
        contact = bs.find(string = "Kontaktperson").find_next('dd').get_text()
    except:
        contact = None
    try:
        job_descrip = bs.find_all('div', class_ = 'RichText')[0].get_text()
    except:
        job_descrip = None
    try:
        job_profile = bs.find_all('div', class_ = 'RichText')[1].get_text()
    except:
        job_profile = None
    row = { # alle extrahierten Informationen in ein Dictionary schreiben
    'job_title': job_title,
    'ad_date': ad_date,
    'ad_id': ad_id,
    'ad_type': ad_type,
    'job_type': job_type,
    'job_duration': job_duration,
    'job_wage': job_wage,
    'app_link': app_link,
    'app_email': app_email,
    'company': company,
    'location': location,
    'contact': contact,
    'job_descrip': job_descrip,
    'job_profile': job_profile,
    'link': link
    }
    rows.append(row) # Dictionary names row wird der Liste namens rows angehängt
    time.sleep(1) # eine Sekunde Verzögerung nach jedem Seitenaufruf (friendly scraping)

  0%|          | 0/893 [00:00<?, ?it/s]

## Extrahierte Daten in CSV-Datei schreiben

Die extrahierten Daten, die in der Liste *rows* gespeichert sind, werden abschließend in eine rechteckige Datenmatrix geschrieben. Jede Stellenanzeige (Merkmalsträger) bildet eine Zeile. Die Merkmale der Stellenanzeigen bilden die Spalten:

In [22]:
file = 'daten/job_ads.csv'
with open(file, mode = 'w', encoding = 'utf-8', newline = '') as f:
    col_names = ['link', 'job_title', 'ad_date', 'ad_id', 'ad_type', 'job_type', 'job_duration', 'job_wage', 'app_link', 'app_email', 'company', 'location', 'contact', 'job_descrip', 'job_profile', 'link']
    writer = csv.DictWriter(f, fieldnames = col_names)
    writer.writeheader()
    for row in rows:
        writer.writerow(row)