# Web Scraping Job Vacancies

## Introduction

In this project, we'll build a web scraper to extract job listings from a popular job search platform. We'll extract job titles, companies, locations, job descriptions, and other relevant information.

Here are the main steps we'll follow in this project:

1. Setup our development environment
2. Understand the basics of web scraping
3. Analyze the website structure of our job search platform
4. Write the Python code to extract job data from our job search platform
5. Save the data to a CSV file
6. Test our web scraper and refine our code as needed

## Prerequisites

Before starting this project, you should have some basic knowledge of Python programming and HTML structure. In addition, you may want to use the following packages in your Python environment:

- requests
- BeautifulSoup
- csv
- datetime

These packages should already be installed in Coursera's Jupyter Notebook environment, however if you'd like to install additional packages that are not included in this environment or are working off platform you can install additional packages using `!pip install packagename` within a notebook cell such as:

- `!pip install requests`
- `!pip install BeautifulSoup`

## Step 1: Importing Required Libraries

In [100]:
# load packages
import requests
import pandas as pd
import json

In [101]:
# Since I could not find a job searching site allowing for web scraping with beautiful soup (due to anti-scraping mechanism) I decided to use API from the Swedish Employment Agency (Arbetsföremedlingen).

# Because of this I have used the package Json instead of beautiful soup.

# AMF API

# Making a request to the API
url = "https://links.api.jobtechdev.se/joblinks?"
query = {'q':"utvecklare", 'limit':100}
response = requests.get(url, params = query)

job_data = response.json()

# Check output
job_data

{'total': {'value': 933},
 'hits': [{'id': '8ce3574c85086c70115d06fab3d6c052',
   'headline': 'Utvecklare',
   'brief': 'Om tjänstenVår kund är en av de absolut ledande aktörerna i sin bransch och kännetecknas av ett högt tekniskt kunnande och en harmonisk syn på balans mellan arbetsliv och fritid, här ges utrymme för en långsiktig och hållbar relation till arbetet. Projekten innebär utveckling av produktionsnära system till tillverkande företag och erbjuder stor variation, såsom nyutveckling eller vidareutveckling av redan implementerade system.',
   'occupation_group': {'label': 'Mjukvaru- och systemutvecklare m.fl.',
    'concept_id': 'DJh5_yyF_hEM'},
   'occupation_field': {'label': 'Data/IT', 'concept_id': 'apaJ_2ja_LuF'},
   'employer': {'name': 'Procruitment AB'},
   'workplace_addresses': [{'municipality_concept_id': 'hRDj_PoV_sFU',
     'municipality': 'Karlstad',
     'region_concept_id': 'EVVp_h6U_GSZ',
     'region': 'Värmlands län',
     'country_concept_id': 'i46j_HmG_v64

In [108]:
# Creating empty dataframe

job_df = pd.DataFrame()

# Loop and create dataframe

# response.status_code == 200 and

for item in job_data['hits']:
    
    Title = item['headline']
    Company = item['employer']['name']
    
    if item['workplace_addresses']:
        Location = item['workplace_addresses'][0]['municipality']
    else:
        Location = 'No location'
                
    Description = item['brief']
    Publication_date = item['publication_date'].split('T')[0]
    Source = item['source_links'][0]['url']
    
    job_df = job_df.append({
    'Title':Title,
    'Company': Company,
    'Location': Location,
    'Description': Description,
    'Publication date': Publication_date,
    'Source': Source
    
    }, ignore_index = True)
    

In [110]:
# Reorder columns
order = ['Company', 'Title', 'Description', 'Location', 'Publication date', 'Source']
job_df = job_df.reindex(columns = order)

In [111]:
# check dateframe
job_df

Unnamed: 0,Company,Title,Description,Location,Publication date,Source
0,Procruitment AB,Utvecklare,Om tjänstenVår kund är en av de absolut ledand...,Karlstad,2024-03-22,https://arbetsformedlingen.se/platsbanken/anno...
1,Akkodis Sweden AB,Utvecklare,Vår kund letar efter engagerade och erfarna ut...,No location,2024-02-05,https://arbetsformedlingen.se/platsbanken/anno...
2,Cancerfonden - Riksfören Mot Cancer,Utvecklare,Cancerfondens framgångar beror på vår förmåga ...,Stockholm,2023-11-15,https://arbetsformedlingen.se/platsbanken/anno...
3,Nexer AB,Utvecklare C/C++,Det har redan hunnit gå ett kvartal av 2024 oc...,No location,2024-03-28,https://arbetsformedlingen.se/platsbanken/anno...
4,NXT Interim Göteborg AB,Citrix Utvecklare,Vill du vara en del av en organisation som arb...,No location,2024-03-26,https://arbetsformedlingen.se/platsbanken/anno...
...,...,...,...,...,...,...
95,B3 Consulting Group AB (publ),iOS utvecklare till B3 Skilled,Vem är vi?B3 Skilled AB är resultatet av en kr...,No location,2023-12-07,https://arbetsformedlingen.se/platsbanken/anno...
96,Softhouse Nordic AB,Utvecklare Småland - öppen ansökan,Är du utvecklare som letar efter din nästa utm...,No location,2023-12-04,https://arbetsformedlingen.se/platsbanken/anno...
97,FRA,Utvecklare | Problemlösare | Hacker,FRA söker nu utvecklare/problemlösare/hackers ...,Stockholm,2023-11-21,https://ingenjorsguiden.se/jobb/fra/utvecklare...
98,Deploja AB,Spännande möjlighet som Java utvecklare,Vi har nu flera behov hos ett flertal kunder e...,No location,2023-11-09,https://arbetsformedlingen.se/platsbanken/anno...


In [112]:
# Save as CSV
job_df.to_csv('job_listings.csv', index=False, encoding='utf-8')
