# HTML Parsers - Webscraping


In [1]:

# one of the several ways of webscraping


# HTML Parser Method: --> programs that parse HTML documents and extract the data from them.
#                   They are usually used to access webpages and extract the content from them.


In [2]:

# importing libraries:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")
from bs4 import BeautifulSoup
import requests
import re
from datetime import date
pd.set_option('display.max_colwidth', 300)
pd.set_option('display.pprint_nest_depth', 10)
pd.set_option('display.width', None)


In [3]:

# Sending HTTP Requests:
# i use the requests library to send HTTP GET requests to the constructed URLs.
# i check the status code of the response to ensure
# that i receive a successful response (HTTP status code 200) before proceeding.


In [4]:

# create a request to a job market website with the response:
try:
    url = 'https://www.karriere.at/jobs?jobLevels%5B%5D=3954&jobLevels%5B%5D=3955&jobLevels%5B%5D=3956&jobLevels%5B%5D=3958&jobLevels%5B%5D=11972'
    resp = requests.get(url)
    print("Scraping successful! 200 =",resp.status_code)
except:
    print("Sorry, Scraping didn't work!")


Scraping successful! 200 = 200


In [5]:

# Parsing HTML Content:
# Upon successful retrieval of a web page,
# i use the BeautifulSoup library to parse the HTML content of the page.
# This enabled me to navigate the page's structure and extract relevant information.


In [6]:

# get the content of the html:
soup = BeautifulSoup(resp.text,'html.parser')
html = soup.find_all('div')


In [7]:

soup


<!DOCTYPE html>
<html data-event-category="page: jobs" lang="de"><head> <script>if('performance' in this && 'mark' in this.performance) { performance.mark("markup-preconnect");
}</script> <link href="//kcdn.at" rel="preconnect"/> <link href="//www.google-analytics.com" rel="preconnect"/> <script type="text/plain"> if (typeof window.dataLayer !== 'object') { window.dataLayer = window.dataLayer || []; } (function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start': new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0], j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src= 'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f); })(window,document,'script','dataLayer','GTM-5WGVNH5');</script> <script>if('performance' in this && 'mark' in this.performance) { performance.mark("markup-preload");
}</script> <link as="script" href="/assets/bundle/22189-1702988349/commons.js" rel="modulepreload"/> <link as="script" href="/assets/bundle/22

In [8]:

# Extracting Data:
# you have to know how to navigate the HTML of a website to get the required data,
# stored in various classes.
# In this case, i went to get the 'Job_Titles','Company_Names','Locations','Days_Online','Job_Descriptions'.
# i also created a new column based on my existing data.


In [9]:

# getting jobtitles:
req = soup.select('div h2[class="m-jobsListItem__title"]')
#fetching the text from the html
titles = [r.text for r in req]
#Removing any spaces
titles = [t.replace("  ", "") for t in titles]
titles[:5]


['IT-Administrator/in (Senior)',
 'IT-Administrator/in (Regular)',
 'Digital Learning Studentische:r Mitarbeiter:in (w/m/d)',
 'Reinigungskraft (m/w/d)',
 'IT Solution Architect (w/m/x)']

In [10]:

# getting employer name:
comp = soup.find_all('div',class_="m-jobsListItem__company")
#fetching the text from the HTML
comp1 = [c.text for c in comp]
#Removing any spaces
comp1 = [c.strip() for c in comp1]


In [11]:

comp1[:5]


['Institut des Bundes für Qualitätssicherung im österreichischen Schulwesen - IQS',
 'Institut des Bundes für Qualitätssicherung im österreichischen Schulwesen - IQS',
 'CMS Reich-Rohrwig Hainz Rechtsanwälte GmbH',
 'J. & L. Lobmeyr Gesellschaft m.b.H.',
 'EurimPharm Verwaltungs-GmbH & Co Beteiligungs-KG']

In [12]:

# getting job locations:
#fetching the HTML data from the class where the location data is available
loc = soup.find_all('ul', class_='m-jobsListItem__locations')
#fetching all the text from the HTML
loc1 = [l.text for l in loc]
#cleaning the locations --> removing the zip codes 
loc1 = [re.sub("[0-9]","",i) for i in loc1]
#Removing any spaces
loc1 = [l.strip() for l in loc1]


In [13]:

loc1[:5]


['Salzburg (Stadt)',
 'Salzburg (Stadt)',
 'Wien . Bezirk (Innere Stadt)',
 'Wien',
 'Saaldorf-Surheim']

In [14]:

# getting the dates:
date0 = soup.find_all('span',class_="m-jobsListItem__date")
date1 = [d.text for d in date0]
date1 = [re.sub("[a-m]","",i) for i in date1]
date1 = [l.strip() for l in date1]
date1[:5]


['5.1.2024', '5.1.2024', '5.1.2024', '5.1.2024', '5.1.2024']

In [15]:

# converting the date to prepare the durations:
date1[0].split(".")


['5', '1', '2024']

In [16]:

date2 = []
for i in date1:
    i = i.split(".")
    date2.append((int(i[2]),int(i[1]),int(i[0])))
    
date2[:5]


[(2024, 1, 5), (2024, 1, 5), (2024, 1, 5), (2024, 1, 5), (2024, 1, 5)]

In [17]:

date3 = []
for j in date2:
    y = j[0]
    m = j[1]
    d = j[2]
    date3.append(date(y,m,d))
    
date3[:5]


[datetime.date(2024, 1, 5),
 datetime.date(2024, 1, 5),
 datetime.date(2024, 1, 5),
 datetime.date(2024, 1, 5),
 datetime.date(2024, 1, 5)]

In [18]:

# for duration:
date_today = date.today()
date_today


datetime.date(2024, 1, 5)

In [19]:
days_online = []
for l in date3:
    days_online.append((date_today - l))
    
days_online[:5]

[datetime.timedelta(0),
 datetime.timedelta(0),
 datetime.timedelta(0),
 datetime.timedelta(0),
 datetime.timedelta(0)]

In [20]:

# getting the short form of the job description: 
text = soup.find_all('p',class_="m-jobsListItem__snippet")
text1 = [t.text for t in text]
#text1 = [re.sub("[a-m]","",i) for i in text1]
text1 = [l.strip() for l in text1]
text1[:5]


['Tätigkeit: Ehestmöglich, Ende der Bewerbungsfrist: 21.01.2024 Monatsentgelt/bezug mindestens: EUR 4.212,21 Referenzcode: BMBWF-24-0036 Online-Bewerbung: Jobbörse der Republik Österreich Aufgaben...',
 'Tätigkeit: Ehestmöglich, Ende der Bewerbungsfrist: 21.01.2024 Monatsentgelt/bezug mindestens: EUR 3.743,95 Referenzcode: BMBWF-24-0019 Online-Bewerbung: Jobbörse der Republik Österreich Aufgaben...',
 'Ihre Aufgaben: Im Überblick. Unser Motto? Mit den Aufgaben wachsen. Sie unterstützen bei der technischen und gestalterischen Umsetzung von digitalen Lernformaten, In Zusammenarbeit mit Ihrer Führungskraft...',
 'Ihre Aufgaben: Reinigung der gesamten Geschäftsräume und Büroräume, Reinigung der ausgestellten Ware (Glas, Porzellan, Silber, Luster, …) Verpacken der Ware für unsere Kund*innen...',
 'Ihre Aufgabe: Konzeptionelle Weiterentwicklung sowie Neueinführung von Business Anwendungen innerhalb der eurimGROUP Betreuung, Administration und Konfiguration bestehender Anwendungen (insbesonde

In [21]:

# create an dataframe with all the pieces of data in a dictionary:
data = {'Job_Title':titles,'Company_Name':comp1,'Location':loc1,'Days_Online':days_online,'Job_Description':text1}
df01 = pd.DataFrame(data)


In [22]:

df01.shape


(15, 5)

In [23]:

df01.head()


Unnamed: 0,Job_Title,Company_Name,Location,Days_Online,Job_Description
0,IT-Administrator/in (Senior),Institut des Bundes für Qualitätssicherung im österreichischen Schulwesen - IQS,Salzburg (Stadt),0 days,"Tätigkeit: Ehestmöglich, Ende der Bewerbungsfrist: 21.01.2024 Monatsentgelt/bezug mindestens: EUR 4.212,21 Referenzcode: BMBWF-24-0036 Online-Bewerbung: Jobbörse der Republik Österreich Aufgaben..."
1,IT-Administrator/in (Regular),Institut des Bundes für Qualitätssicherung im österreichischen Schulwesen - IQS,Salzburg (Stadt),0 days,"Tätigkeit: Ehestmöglich, Ende der Bewerbungsfrist: 21.01.2024 Monatsentgelt/bezug mindestens: EUR 3.743,95 Referenzcode: BMBWF-24-0019 Online-Bewerbung: Jobbörse der Republik Österreich Aufgaben..."
2,Digital Learning Studentische:r Mitarbeiter:in (w/m/d),CMS Reich-Rohrwig Hainz Rechtsanwälte GmbH,Wien . Bezirk (Innere Stadt),0 days,"Ihre Aufgaben: Im Überblick. Unser Motto? Mit den Aufgaben wachsen. Sie unterstützen bei der technischen und gestalterischen Umsetzung von digitalen Lernformaten, In Zusammenarbeit mit Ihrer Führungskraft..."
3,Reinigungskraft (m/w/d),J. & L. Lobmeyr Gesellschaft m.b.H.,Wien,0 days,"Ihre Aufgaben: Reinigung der gesamten Geschäftsräume und Büroräume, Reinigung der ausgestellten Ware (Glas, Porzellan, Silber, Luster, …) Verpacken der Ware für unsere Kund*innen..."
4,IT Solution Architect (w/m/x),EurimPharm Verwaltungs-GmbH & Co Beteiligungs-KG,Saaldorf-Surheim,0 days,"Ihre Aufgabe: Konzeptionelle Weiterentwicklung sowie Neueinführung von Business Anwendungen innerhalb der eurimGROUP Betreuung, Administration und Konfiguration bestehender Anwendungen (insbesondere ERP..."
