# HTML Parsers - Webscraping


In [1]:

# one of the several ways of webscraping


# HTML Parser Method: --> programs that parse HTML documents and extract the data from them.
#                   They are usually used to access webpages and extract the content from them.


In [2]:

# importing libraries:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")
from bs4 import BeautifulSoup
import requests
import re
from datetime import date
pd.set_option('display.max_colwidth', 300)
pd.set_option('display.pprint_nest_depth', 10)
pd.set_option('display.width', None)


In [1]:

# Let's look at robots.txt to see if any of the website's pages are prohibited from requesting.
import os
print(os.popen("curl https://www.karriere.at/robots.txt").read())


User-agent: BLEXBot
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: *
Disallow:

Sitemap: https://www.karriere.at/sitemaps-https.xml
Sitemap: https://www.karriere.at/static/sitemaps/sitemap-arbeitgebersuche-https.xml
Sitemap: https://www.karriere.at/static/sitemaps/sitemap-berufe-https.xml
Sitemap: https://www.karriere.at/static/sitemaps/sitemap-brutto-netto-https.xml
Sitemap: https://www.karriere.at/static/sitemaps/sitemap-firmen-https.xml
Sitemap: https://www.karriere.at/static/sitemaps/sitemap-firmen-standorte-https.xml
Sitemap: https://www.karriere.at/static/sitemaps/sitemap-firmen-bs-https.xml
Sitemap: https://www.karriere.at/static/sitemaps/sitemap-firmen-bs-work-https.xml
Sitemap: https://www.karriere.at/static/sitemaps/sitemap-firmen-bs-jobs-https.xml
Sitemap: https://www.karriere.at/static/sitemaps/sitemap-gehalt-https.xml
Sitemap: https://www.karriere.at/static/sitemaps/sitemap-jobs-https.xml
Sitemap: https://www.karriere.at/hr/sitemaps-1-sitemap.xml
Sitemap: http

In [3]:

# Sending HTTP Requests:
# i use the requests library to send HTTP GET requests to the constructed URLs.
# i check the status code of the response to ensure
# that i receive a successful response (HTTP status code 200) before proceeding.


In [4]:

# create a request to a job market website with the response:
try:
    url = 'https://www.karriere.at/jobs?jobLevels%5B%5D=3954&jobLevels%5B%5D=3955&jobLevels%5B%5D=3956&jobLevels%5B%5D=3958&jobLevels%5B%5D=11972'
    resp = requests.get(url)
    print("Scraping successful! 200 =",resp.status_code)
except:
    print("Sorry, Scraping didn't work!")


Scraping successful! 200 = 200


In [5]:

# Parsing HTML Content:
# Upon successful retrieval of a web page,
# i use the BeautifulSoup library to parse the HTML content of the page.
# This enabled me to navigate the page's structure and extract relevant information.


In [6]:

# get the content of the html:
soup = BeautifulSoup(resp.text,'html.parser')
html = soup.find_all('div')


In [7]:

# Extracting Data:
# you have to know how to navigate the HTML of a website to get the required data,
# stored in various classes.
# In this case, i went to get the 'Job_Titles','Company_Names','Locations','Days_Online','Job_Descriptions'.
# i also created a new column based on my existing data.


In [8]:

# getting jobtitles:
req = soup.select('div h2[class="m-jobsListItem__title"]')
#fetching the text from the html
titles = [r.text for r in req]
#Removing any spaces
titles = [t.replace("  ", "") for t in titles]
titles[:5]


['Hauswirtschafter*in (m/w/d)',
 'Entwicklungsingenieur Maschinenbau (m/w/d)',
 'Serviceassistenz (m/w/x)',
 'Erfahrene:r Personalverrechner:in',
 'Projektmanager IT-Projekte (m/w/x)']

In [9]:

# getting employer name:
comp = soup.find_all('div',class_="m-jobsListItem__company")
#fetching the text from the HTML
comp1 = [c.text for c in comp]
#Removing any spaces
comp1 = [c.strip() for c in comp1]


In [10]:

comp1[:5]


['B. Braun Austria GmbH',
 'Schunk Transit Systems GmbH',
 'DENZEL Gruppe',
 'G.L. Pharma GmbH',
 'gemdatnoe Gemeinde-Datenservice GmbH']

In [11]:

# getting job locations:
#fetching the HTML data from the class where the location data is available
loc = soup.find_all('ul', class_='m-jobsListItem__locations')
#fetching all the text from the HTML
loc1 = [l.text for l in loc]
#cleaning the locations --> removing the zip codes 
loc1 = [re.sub("[0-9]","",i) for i in loc1]
#Removing any spaces
loc1 = [l.strip() for l in loc1]


In [12]:

loc1[:5]


['Innsbruck',
 'Nußdorf am Haunsberg',
 'Erdberg (Wien)',
 'Lannach',
 'Korneuburg']

In [13]:

# getting the dates:
date0 = soup.find_all('span',class_="m-jobsListItem__date")
date1 = [d.text for d in date0]
date1 = [re.sub("[a-m]","",i) for i in date1]
date1 = [l.strip() for l in date1]
date1[:5]


['5.1.2024', '5.1.2024', '5.1.2024', '5.1.2024', '5.1.2024']

In [14]:

# converting the date to prepare the durations:
date1[0].split(".")


['5', '1', '2024']

In [15]:

date2 = []
for i in date1:
    i = i.split(".")
    date2.append((int(i[2]),int(i[1]),int(i[0])))
    
date2[:5]


[(2024, 1, 5), (2024, 1, 5), (2024, 1, 5), (2024, 1, 5), (2024, 1, 5)]

In [16]:

date3 = []
for j in date2:
    y = j[0]
    m = j[1]
    d = j[2]
    date3.append(date(y,m,d))
    
date3[:5]


[datetime.date(2024, 1, 5),
 datetime.date(2024, 1, 5),
 datetime.date(2024, 1, 5),
 datetime.date(2024, 1, 5),
 datetime.date(2024, 1, 5)]

In [17]:

# for duration:
date_today = date.today()
date_today


datetime.date(2024, 1, 5)

In [18]:
days_online = []
for l in date3:
    days_online.append((date_today - l))
    
days_online[:5]

[datetime.timedelta(0),
 datetime.timedelta(0),
 datetime.timedelta(0),
 datetime.timedelta(0),
 datetime.timedelta(0)]

In [19]:

# getting the short form of the job description: 
text = soup.find_all('p',class_="m-jobsListItem__snippet")
text1 = [t.text for t in text]
#text1 = [re.sub("[a-m]","",i) for i in text1]
text1 = [l.strip() for l in text1]
text1[:5]


['Zur Verstärkung unseres Teams im Dialysezentrum Innsbruck (Franz-Fischer-Straße 13, 6020 Innsbruck) suchen wir ab sofort eine*n Hauswirtschafter*in im Ausmaß...',
 'Ihre Aufgaben: Neuentwicklungen und Änderungskonstruktionen verantworten, Berechnung von Bauteilen und FEM-Analysen, Ableitung von Fertigungszeichnungen und Stücklisten, Durchführung von Versuchen...',
 'Jetzt bewerben Serviceassistenz (m/w/x) DENZEL Erdberg, Wien, Fiat / Alfa Romeo / Jeep Festanstellung, Vollzeit ab sofort Sie suchen einen Job, bei dem Sie Ihre Leidenschaft für...',
 'Ihre Hauptaufgaben: Verantwortung für die ordnungsgemäße und pünktliche Lohn- und Gehaltsabrechnung, Ansprechperson für Mitarbeitende, Führungskräfte und Behörden bei Fragen rund...',
 'Projektmanager IT-Projekte (m/w/x) Modernste Technologie, erstklassige Produkte und überdurchschnittliches Engagement kennzeichnen unser Unternehmen. Die ausgezeichnete Stellung...']

In [20]:

# create an dataframe with all the pieces of data in a dictionary:
data = {'Job_Title':titles,'Company_Name':comp1,'Location':loc1,'Days_Online':days_online,'Job_Description':text1}
df01 = pd.DataFrame(data)


In [21]:

df01.shape


(15, 5)

In [22]:

df01.head()


Unnamed: 0,Job_Title,Company_Name,Location,Days_Online,Job_Description
0,Hauswirtschafter*in (m/w/d),B. Braun Austria GmbH,Innsbruck,0 days,"Zur Verstärkung unseres Teams im Dialysezentrum Innsbruck (Franz-Fischer-Straße 13, 6020 Innsbruck) suchen wir ab sofort eine*n Hauswirtschafter*in im Ausmaß..."
1,Entwicklungsingenieur Maschinenbau (m/w/d),Schunk Transit Systems GmbH,Nußdorf am Haunsberg,0 days,"Ihre Aufgaben: Neuentwicklungen und Änderungskonstruktionen verantworten, Berechnung von Bauteilen und FEM-Analysen, Ableitung von Fertigungszeichnungen und Stücklisten, Durchführung von Versuchen..."
2,Serviceassistenz (m/w/x),DENZEL Gruppe,Erdberg (Wien),0 days,"Jetzt bewerben Serviceassistenz (m/w/x) DENZEL Erdberg, Wien, Fiat / Alfa Romeo / Jeep Festanstellung, Vollzeit ab sofort Sie suchen einen Job, bei dem Sie Ihre Leidenschaft für..."
3,Erfahrene:r Personalverrechner:in,G.L. Pharma GmbH,Lannach,0 days,"Ihre Hauptaufgaben: Verantwortung für die ordnungsgemäße und pünktliche Lohn- und Gehaltsabrechnung, Ansprechperson für Mitarbeitende, Führungskräfte und Behörden bei Fragen rund..."
4,Projektmanager IT-Projekte (m/w/x),gemdatnoe Gemeinde-Datenservice GmbH,Korneuburg,0 days,"Projektmanager IT-Projekte (m/w/x) Modernste Technologie, erstklassige Produkte und überdurchschnittliches Engagement kennzeichnen unser Unternehmen. Die ausgezeichnete Stellung..."
