# Webscraper für die Studentenjobs auf www.stellenwerk-hamburg.de

## Installieren und importieren benötigter Bibliotheken

Die Python-Bibliotheken *requests* und *BeautifulSoup* müssen vor der ersten Verwendung installiert werden. Zur Installation unter Windows muss folgender Code in die [Eingabeaufforderung](https://www.youtube.com/watch?v=Bmt3n9RczeU) eingegeben werden (Code für die Eingabeaufforderung beginnt `$`, um zu verdeutlichen, dass es kein Python-Code ist; `$` ist aber kein Bestandteil des Codes): `$ python -m pip install requests`. Um *requests* upzudaten, muss folgende Zeile in die Eingabeaufforderung eingegeben werden: `$ python -m pip install --upgrade requests`. Beide Codezeilen setzen voraus, dass das sowohl Python als auch das Paketverwaltungsprogramm *pip* installiert sind. Beides kann in der Eingabeaufforderung mit `$ python` und `$ python -m pip --version` getestet werden.

Die Bibliotheken *time* und *csv* sind Teil von Pyhton und müssen nicht extra installiert werden. Sie müssen aber importiert werden, damit man sie verwenden kann.

Alle benötigten Bibliotheken laden:

In [2]:
import requests
from bs4 import BeautifulSoup
import time
import csv

## Anforderungen an den Web Scraper

Die **Stellenanzeigen für Studentenjobs** auf den Seiten des Stellenwerks sind [hier](https://www.stellenwerk-hamburg.de/jobboerse/unternehmen/studentenjobs) zu finden.
Die Seite ist so aufgebaut, dass immer 20 Stellenangebote auf einer Seite verlinkt werden. Um die nächsten 20 Stellenangebote zu sehen, muss weitergeblättert werden. Die eigentliche Information zur Stelle findet sich hinter dem jeweiligen Link. Um an die Informationen über die Stellenangebote zu gelangen, müssen entsprechend diese Job-spezifischen Links aufgerufen werden.
Der Webscraper für das Stellenwerk muss somit
- blättern
- wissen, wie oft weitergeblättert werden muss (Seitenzahl)
- die 20 Links je Seite auslesen
- eine Liste aller (Seitenzahl x 20) Links zusammenstellen
- alle so gewonnen Links zu den jeweiligen Stellenanzeigen aufrufen
- die stellenbezogenen Informationen extrahieren
- die extrahierten Informationen in einer CSV-Datei abspeichern.

## Aufbau der URL des Stellenwerks

Wenn man durch die Seiten mit den Stellenanzeigen blättert, stellt man fest, dass die URL des Stellenwerks [*query strings*](https://de.wikipedia.org/wiki/Query-String) nutzt, um Parameter (insbesondere der Suchanfrage) an den Webserver zu senden. Die URLs haben folgenden beispielhaften Aufbau:

https://www.stellenwerk-hamburg.de/jobboerse/unternehmen/studentenjobs?keywords=&offer_type=job_ad_b2b&job_category=111&employment_type=All&page=1

Der Query-String wird mit einem Fragezeichen (?) eingeleitet. Davor steht die die Basis-URL. Somit läst sich der URL des Stellenwerks in folgende Bestandteile gliedern:

- Basis-URL: https://www.stellenwerk-hamburg.de/jobboerse/unternehmen/studentenjobs
- Query-String: [keywords=&offer_type=job_ad_b2b&job_category=111&employment_type=All&page=1](https://www.stellenwerk-hamburg.de/jobboerse/unternehmen/studentenjobs?keywords=&offer_type=job_ad_b2b&job_category=111&employment_type=All&page=1)<br>
mit folgenden Schlüssel-Wert-Paaren:
    - keywords=
    - offer_type=job_ad_b2b
    - job_category=111
    - employment_type=All
    - page=1

Diese Schlüssel-Wert-Paare des query strings werden im Folgenden in einem [Python-Dictionary](https://www.w3schools.com/python/python_dictionaries.asp) mit den Namen *query* gespeichert. Das Python-Dictionary wird dann - neben der Basis-URL - an *requests* übergeben, um die Webseite aufzurufen:

In [3]:
base_url = "https://www.stellenwerk-hamburg.de/jobboerse/unternehmen/studentenjobs"
query = {
    'keywords': '',
    'offer_type': 'job_ad_b2b',
    'job_category': '111',
    'employment_type': 'All',
    'page': '0'
}

## Wir tarnen uns als Firefox 

Standardmäßig offenbart sich die *requests*-Bibliothek selbst, indem sie sich im request header als User-Agent nennt: **'User-Agent': 'python-requests/2.26.0'**.<br>
Um nicht sofort als Web-Scraper aufzufallen, ändern wir den entsprechenden Eintrag im request header und geben uns als Firefox-Browser aus (die Angaben, die Firefox sendet, habe ich mit den *Werkzeugen für Webentwickler* im Firefox-Browser ermittelt über **Netzwerkanalyse** &rightarrow; **Kopfzeilen** &rightarrow; **Anfragekopfzeilen**). Dazu werden die Angaben, die Firefox sendet, in einem Python-Dictionary namens *my_headers* gespeichert, damit sie an *requests* übergeben werden können. Damit werden die ursprünglichen Angaben zum User-Agenten überschrieben.

In [4]:
my_headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0'}

## Aufruf der Webseite

Nun wird ein *Get-Request* zum Aufruf der Stellenwerk-Webseite an den Webserver gestellt. Neben der Basis-URL müssen auch die Informationen aus dem query string an *requests* übergeben werden. Dazu wird das oben erstellte Python-Dictionary mit den Namen *query* dem funktionseigenen Argument *params* übergeben. Ebenso wird das Dictionary mit dem Namen *my_headers* dem funktionseigenen Argument *headers* übergeben, um uns so als Firefox auszugeben.<br>
Anfrage und die Antwort des Webservers werden von *requests* in einem sog. Response-Objekt gespeichert. Dieses Response-Objekt wird dann der [Variablen](https://www.w3schools.com/python/python_variables.asp) *r* zugewiesen, so dass wir im weiteren Verlauf damit arbeiten können.

In [5]:
r = requests.get(base_url, params = query, headers = my_headers)

In [6]:
print(r.request.url)

https://www.stellenwerk-hamburg.de/jobboerse/unternehmen/studentenjobs?keywords=&offer_type=job_ad_b2b&job_category=111&employment_type=All&page=0


In [7]:
print(r.request.headers)

{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}


In [8]:
print(r.status_code)
print(r.reason)

200
OK


## HTML-Code der Webseite speichern

Nun wird der übermittelte HTML-Quellcode der Stellenwerk-Webseite als Unicode-Text aus dem Response-Objekt *r* extrahiert und in der Variable *html* gespeichert:

In [9]:
html = r.text

Diese Variable wird als Input an *BeautifulSoup* übergeben und von *BeautifulSoup* in ein *BeautifulSoup*-Objekt umgewandelt. Dieses *BeautifulSoup*-Objekt wird dann der Variable *bs* zugewiesen:

In [10]:
bs = BeautifulSoup(html, 'html.parser')

## Gesuchte Informationen aus dem HTML-Code auslesen

Aus dem HTML-Quellcode wird das HTML-Element ausgelesen, in dem die Stellenanzeigen zu finden sind. Um dieses Element im Quellcode zu identifizieren, verwendet man die *Browserwerkzeuge* bzw. *Entwicklertools* des jeweiligen Browsers. Diese kann man in den meisten Browsern mit <kbd>Strg</kbd>+<kbd>UMSCHALTTASTE</kbd>+<kbd>I</kbd> öffnen.<br> 
Hier sind rudimentäre Kenntnisse von HTML und CSS hilfreich, um die entsprechenden Elemente zu bestimmen.<br>
Die Informationen zu den ausgeschriebenen Jobs befinden sich in einem
[div](https://www.w3schools.com/tags/tag_div.ASP)-Tag, welches mit einem [CSS class Selector](https://www.w3schools.com/css/css_selectors.asp) gestaltet wurde. In diesem Fall ist class="JobSearch-content". Mit diesen Informationen und der Funktion  `find()` von *BeautifulSoup* können die entsprechenden Informationen aus dem HTML-Quellcode extrahiert und in eine Variable *job_ads* gespeichert werden.

In [None]:
job_ads = bs.find('div', class_ = 'JobSearch-content')

Aus diesem so extrahierten HTML-Element werden in einem weiteren Schritt alle Links zu den Stellenanzeigen ausgelesen. Links werden in HTML über einen [a](https://www.w3schools.com/tags/tag_a.asp)-Tag definiert. 

In [12]:
job_links = job_ads.find_all('a', class_ = 'Link')

Anzahl an Stellenanzeigen in der Liste job_links.

In [13]:
print(len(job_links)) 

20


In [14]:
rows = []
for link in job_links:
    link = 'https://www.stellenwerk-hamburg.de' + link['href']
    rows.append(link)

In [15]:
for row in rows:
    print(row)

https://www.stellenwerk-hamburg.de/jobboerse/werkstudent-content-management-running-und-outdoorschuhdatenbank-mwd-hamburg-211020
https://www.stellenwerk-hamburg.de/jobboerse/werkstudent-mwd-hamburg-211020-498226
https://www.stellenwerk-hamburg.de/jobboerse/werkstudent-oder-praktikant-im-bereich-influencer-marketing-mwd-hamburg-211104-501088
https://www.stellenwerk-hamburg.de/jobboerse/kursleiterinnen-fuer-sport-tanzangebote-hamburg-211104-501077
https://www.stellenwerk-hamburg.de/jobboerse/werkstudent-dmw-board-management-support-hamburg-211104-501068
https://www.stellenwerk-hamburg.de/jobboerse/job-purpose-student-contract-work-software-development-mfd-hamburg-211104-501064
https://www.stellenwerk-hamburg.de/jobboerse/bee-keeper-fuer-hamburg-und-schleswig-holstein-hamburg-211104-501049
https://www.stellenwerk-hamburg.de/jobboerse/werkstudentin-kundenberatung-hamburg-211104-501045
https://www.stellenwerk-hamburg.de/jobboerse/studentische-hilfskraft-mwd-prozessmanagement-hamburg-211104-

## Blättern

Die Anzeigen sind über mehrere Seiten verteilt. Wir müssen also blättern. Wie oft geblättert werden muss, kann man der Seite entnehmen:

In [11]:
pages = bs.find('span', class_ = 'Pagination-text').get_text()
print(pages)

Seite 1 von 53


Aus diesem String kann man die maximale Seitenzahl folgendermaßen extrahieren:<br>
Der String wird über die Methode `.split()` am Leerzeichen (' ') in seine Komponenten zerlegt. Aus dieser Liste wird dann das vierte Element extrahiert. Das vierte Element hat den Index 3, da die Indexzählung bei 0 beginnt. Schließlich wird der String mit `int()` in ein Integer (ganzzahliger Wert) umgewandelt und ist somit numerisch:

In [11]:
page_max = int(pages.split(' ')[3])

In [12]:
print(page_max)
print(type(page_max))

54
<class 'int'>


Nun kann diese Info genutzt werden, um zu blättern. Dazu wird eine for-Schleife verwendet. In jedem Schleifendurchlauf wird im query string der Wert für den Schlüssel *page* (s. oben unter Aufbau der URL des Stellenwerks) um eins erhöht.

In [41]:
all_links = []
for page in range(2): #page_max + 1
    query["page"] = page # Seitenzahl wird in jedem Schleifendurchlauf um 1 erhöht
    r = requests.get(base_url, params = query) # Webseite aufrufen
    html = r.text # HTML-Code der Webseite speichern
    bs = BeautifulSoup(html, 'html.parser') # HTML-Code an BeautifulSoup übergeben
    job_ads = bs.find('div', class_ = 'JobSearch-content') # Spalte mit den Stellenanzeigen extrahieren
    job_links = job_ads.find_all('a', class_ = 'Link') # aus dieser Spalte die Links zu den Anzeigen extrahieren
    for link in job_links: # die extrahierten Links sind relativ, entsprechend die Homepage des Stellenwerks jedem Link vorangestellt werden
        link = 'https://www.stellenwerk-hamburg.de' + link['href']
        all_links.append(link)
    time.sleep(2) # zwei Sekunden Verzögerung nach jedem Seitenaufruf: friendly scraping

Wie viele Elemente hat die Liste *all_links*? Diese Anzahl entspricht der Anzahl an Stellenangeboten.

In [44]:
print(len(all_links))

40


Nun liegt eine Liste mit allen Links zu den Stellenangeboten vor. Mit Hilfe einer For-Schleife kann jeder Link aufgerufen und die relevanten Informationen zu den Stellenanzeigen extrahiert werden.

In [67]:
#link = 'https://www.stellenwerk-hamburg.de/jobboerse/werkstudent-mwd-fuer-backofficetaetigkeiten-gaensemarkt-hh-15eu-std-hamburg-211014-497098'
#r = requests.get(link, headers = my_headers)
print(r.status_code)
print(r.reason)
html = r.text
bs = BeautifulSoup(html, 'html.parser')
job_title = bs.find('h1', class_ = 'JobHead-title').get_text()
ad_date = bs.find('li', class_ = 'JobHead-additionalInfoItem').get_text()
ad_id = bs.select('li.JobHead-additionalInfoItem:nth-child(2)')

ad_id = bs.select('li.JobHead-additionalInfoItem:nth-child(2)')
job_descrip = bs.find('div', class_ = 'RichText').get_text()
print(job_title)
print(ad_date)
print(job_descrip)
print(ad_id)

200
OK
Werkstudent (m/w/d) für Backofficetätigkeiten / Gänsemarkt HH / 15€ Std.
Online seit 14.10.2021

Die Certum Finanz GmbH ist ein deutschlandweit agierendes Maklerunternehmen für Kapitalanlagen. Der Sitz ist in Hamburg am Gänsemarkt. Für unser kleines aber ganz großartiges Team suchen wir eine vor allem nette und zuverlässige Unterstützung bei einfachen Officetätigkeiten.

[<li class="JobHead-additionalInfoItem">211014-497098</li>]


In [None]:
for link in all_links:
    r = requests.get(link, headers = my_headers)
    html = r.text
    bs = BeautifulSoup(html, 'html.parser')
    job_title = bs.find()

    
    time.sleep(2) # zwei Sekunden Verzögerung nach jedem Seitenaufruf: friendly scraping
    

In [75]:
def stellenwerk(url):
    html = r.text
    bs = BeautifulSoup(html, 'html.parser')
    job_ads = bs.find('div', class_ = 'JobSearch-content')
    job_links = job_ads.find_all('a', class_ = 'Link')
    rows = []
    for link in job_links:
        text = link.get_text()
        link = 'https://www.stellenwerk-hamburg.de' + link['href']
        row = {
        'text': text,
        'links': link
        }
    rows.append(row)

Extrahierte Daten (Text und Link) in eine CSV-Datei schreiben:

In [76]:
file = 'daten/job_ads.csv'
with open(file, mode = 'w', newline = '') as f:
    col_names = ['text', 'links']
    writer = csv.DictWriter(f, fieldnames = col_names)
    writer.writeheader()
    for row in rows:
        writer.writerow(row)