<a href="https://colab.research.google.com/github/TK-Problem/Python-mokymai/blob/master/Scripts/cvonline.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
#@title Importuoti paketus

# playwright biblioteka naudojama importuoti html kodą
!pip install playwright==1.25.00
!playwright install-deps
!playwright install webkit
!pip install nest_asyncio==1.5.6

# playwright veikia TIK asyncio režimu
import nest_asyncio
nest_asyncio.apply()
import asyncio

# importuoti playwright versiją
from playwright.async_api import async_playwright

# bsė naudojama iš HTML ištraukti reikiamą informaciją
from bs4 import BeautifulSoup

# kartais reikia palaikyti kurį laiką programą veikiančią
import time

# paketai dirbti su skaičiais ir duomenimis
import pandas as pd
import numpy as np

# clear output komanda naudojama išvalyti informacijai
from IPython.display import clear_output
clear_output()

# Duomenų atsisiuntimas

Funcijos veikimo žingsniai:

* sukuria `playwright` webdriver'į (webkit),
* sukuria netikrą `user_agent`, kad svetainė tave laikytų tikru varotoju,
* sugeneruoji `cvonline.lt` puslapio URL kartu su raktažodžių (keyword),
* paspaudžia ant pop-up ir cookie mygtukų,
* palaukia prevenciškai 2 sekundes,
* atsisiunčia HTML kodą,
* perkelia jį į `BeautifulSoup` objektą,
* iteruojame per eilutes ir išsitraukiame reikiamą informaciją,
* duomenis sukeliame į `pandas` DataFrame objektą ir jį grąžiname.

In [2]:
#@title CVonline funkcija
async def cvonline(keyword="python"):
    """
    This function returns all available job listings based on search keyword.
    Inputs:
      keyword (str)
    Output:
      returns pandas DataFrame
    """
    async with async_playwright() as p:

        # create webdriver/webkit
        browser = await p.webkit.launch()

        # create user agent for the webdriver
        user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0'

        # create new page, i.e. new table in your browser
        page = await browser.new_page(user_agent=user_agent)
        
        # generate URL with a keyword
        url = f"https://cvonline.lt/lt/search?limit=1000&offset=0&keywords%5B0%5D={keyword}&fuzzy=true&suitableForRefugees=false&isHourlySalary=false&isRemoteWork=false&isQuickApply=false"
        
        # visit page, make timeout to 60 sec, i.e. 60 000 ms
        await page.goto(url, timeout=60_000)

        # click on pop-up window
        await page.click("//button[@class='jsx-4189752321 close-modal-button']")

        # click cookie button
        await page.click("//button[@class='cookie-consent-button']")

        # imlicit wait
        time.sleep(2)

        # get page html contents
        page_source = await page.content()

        # convert to bs4 object
        soup = BeautifulSoup(page_source, "lxml")

        # find all rows (ul - unordered list, li - list item)
        rows = soup.find("ul", {"data-gtm-id": "search-results"}).find_all("li")

        # create tmp. list to store data
        lst = list()

        # iterate over all rows
        for row in rows:
          # find all <a> tags
          for a in row.find_all('a', href=True):
            # condition to find employr info
            if "employer" in a['href']:
              # get element's text
              employer = a.text
          
          # get all row contents
          _contents = row.find_all("span")

          # get specific info about job title and job location
          job_title = _contents[0].text
          job_location = _contents[2].text[3:]

          # get start day (the date job was created)
          for c in _contents[4:]:
            # if it started
            if "Paskelbta" in c.text:
              # get text value
              offer_started = c.text.split("Baigiasi")[0]
            # if job offered is closed
            if "Baigiasi" in c.text:
              # get text value
              offer_ends = c.text

          # get salary value
          salary = row.find('span', {'class': 'jsx-1401030249 vacancy-item__salary-label'})

          # convert salary to text
          if salary:
            salary = salary.text
          else:
            salary = ''
    
          # "jsx-1401030249 vacancy-item__salary-label"
            

          # add data to temp. list
          lst.append([employer, job_title, job_location, offer_started, offer_ends, salary])

        # save image to your enviroment (for debuging)
        # one can close this line
        await page.screenshot(path="cvonline_status.png")
        
        # close webkit
        await browser.close()

        # return pandas DataFrame
        return pd.DataFrame(lst, columns = ['Employer', 'JobTitle', "Location", "Offered", "AddEnds", "Salary"])

In [3]:
#@title Atsisiųsti duomenis
# paieškos žodis
keyword = 'bankas' # @param {type:"string"}

# iškviečiame funkciją ir išsaugome duomenis ir atvaizduojame pirmus 5 skelbimus
df_cvonline = asyncio.run(cvonline(keyword))

# parašyti kiek rado skelbimų
print(f"Rado {len(df_cvonline)} skelbimų.")

df_cvonline.head()

Rado 471 skelbimų.


Unnamed: 0,Employer,JobTitle,Location,Offered,AddEnds,Salary
0,"Šiaulių bankas, AB",Klientų aptarnavimo vadybininkas (-ė),"Telšiai, Telšių rajonas, Lietuva",Paskelbta prieš 3 dienas,Baigiasi: 2023.01.30,€ 940 – 1420
1,"Šiaulių bankas, AB",Klientų aptarnavimo vadybininkas (-ė),"Mažeikiai, Telšių rajonas, Lietuva",Paskelbta prieš 2 dienas,Baigiasi: 2023.01.31,€ 940 – 1420
2,"Šiaulių bankas, AB",Klientų aptarnavimo vadybininkas (-ė),"Kupiškis, Panevėžio rajonas, Lietuva",Paskelbta prieš 15 dienų,Baigiasi: 2023.01.18,€ 940 – 1420
3,"Šiaulių bankas, AB",Teisininkas (-ė) Investicinių paslaugų srityje,"Vilnius, Vilniaus rajonas, Lietuva",Paskelbta prieš apie 1 mėnesį,Baigiasi: 2023.01.16,€ 2000 – 3200
4,"Šiaulių bankas, AB",Atitikties departamento direktorius (-ė),"Vilnius, Vilniaus rajonas, Lietuva",Paskelbta prieš 16 dienų,Baigiasi: 2023.01.18,€ 4040 – 6060


# Duomenų apdorojimas

Duomenis būtina sutvarkyti prieš pradedant analizuoti. Atlyginimo stulpelis `salary` turi keletą tipų reikšmių:

* vieni atlyginimai parašyti per ruožą, pvz. € 3300 – 4000. Tokiu atveju, reikia ištraukti minimalią ir maksimalią atlyginimo vertes, panaikinti euro simbolį.
* kiti skelbimai neskelbia atlygimų, tiesiog rašo "TOP Darbdavys". Tokius įrašus reikia paversti NaN vertėmis.
* yra atlyginimų, kur rašo valandinį, pvz. € 6/h, tokiu šį atlyginimą paversti į mnesinį.

Galiausiai atlyginimai yra sunormuojami į vidurkį tarp minimalaus ir maksimalaus siūlomo varianto.

In [4]:
#@title Sutvarkyti skaitinius duomenis
def clean_num_cols(df):
  """
  Formats salary columns
  Input:
    df - pandas DataFrame
  Output:
    pandas DataFrame
  """
  # clean empty salaries (the ones with Top darbdavys)
  df.Salary = df.Salary.apply(lambda x: "" if "TOP Darbdavys" in x else x)

  # if there is salary range, e.g. x - y, then extract min and max values
  df['SalaryMin'] = df.Salary.apply(lambda x: x.split(" – ")[0][2:] if " – " in x else x)
  df['SalaryMax'] = df.Salary.apply(lambda x: x.split(" – ")[1] if " – " in x else x)

  # remove euro sign
  df['SalaryMin'] = df['SalaryMin'].str.replace("€", "")
  df['SalaryMax'] = df['SalaryMax'].str.replace("€", "")

  # assume that each month has 22 working days with 8 hours a day
  # approximate hourly wages to monthly
  # condition to select rows with hourly salary
  cond_1 = df.Salary.apply(lambda x: "/h" in x)
  # condition with are salary range
  cond_2 = df.Salary.apply(lambda x: " – " in x)

  # convert hourly data to month salaries with single hourply pay
  df.loc[cond_1 & ~cond_2, 'SalaryMin'] = df.loc[cond_1 & ~cond_2, 'Salary'].apply(lambda x: float(x.split("/h")[0].replace("€", "")) * 22 * 8)
  df.loc[cond_1 & ~cond_2, 'SalaryMax'] = df.loc[cond_1 & ~cond_2, 'Salary'].apply(lambda x: float(x.split("/h")[0].replace("€", "")) * 22 * 8)

  # convert hourly data to month salaries with hourly pay in range
  df.loc[cond_1 & cond_2, 'SalaryMin'] = df.loc[cond_1 & cond_2, 'Salary'].apply(lambda x: float(x.split(" – ")[0].replace("€", "")) * 22 * 8)
  df.loc[cond_1 & cond_2, 'SalaryMax'] = df.loc[cond_1 & cond_2, 'Salary'].apply(lambda x: float(x.split(" – ")[1][:-2]) * 22 * 8)

  # convert missing salaries to NaNs
  df.loc[df.SalaryMin == '', 'SalaryMin'] = np.nan
  df.loc[df.SalaryMax == '', 'SalaryMax'] = np.nan

  # convert to floats
  df['SalaryMin'] = df['SalaryMin'].astype(float)
  df['SalaryMax'] = df['SalaryMax'].astype(float)

  # calculate average salary
  df['SalaryMean'] = (df['SalaryMin'] + df['SalaryMax']) / 2
  
  # return cleaned DataFrame
  return df


In [5]:
# clean numerical values
df_c = clean_num_cols(df_cvonline.copy())

# drop adds without salary
df_c = df_c.dropna()
df_c.head()

Unnamed: 0,Employer,JobTitle,Location,Offered,AddEnds,Salary,SalaryMin,SalaryMax,SalaryMean
0,"Šiaulių bankas, AB",Klientų aptarnavimo vadybininkas (-ė),"Telšiai, Telšių rajonas, Lietuva",Paskelbta prieš 3 dienas,Baigiasi: 2023.01.30,€ 940 – 1420,940.0,1420.0,1180.0
1,"Šiaulių bankas, AB",Klientų aptarnavimo vadybininkas (-ė),"Mažeikiai, Telšių rajonas, Lietuva",Paskelbta prieš 2 dienas,Baigiasi: 2023.01.31,€ 940 – 1420,940.0,1420.0,1180.0
2,"Šiaulių bankas, AB",Klientų aptarnavimo vadybininkas (-ė),"Kupiškis, Panevėžio rajonas, Lietuva",Paskelbta prieš 15 dienų,Baigiasi: 2023.01.18,€ 940 – 1420,940.0,1420.0,1180.0
3,"Šiaulių bankas, AB",Teisininkas (-ė) Investicinių paslaugų srityje,"Vilnius, Vilniaus rajonas, Lietuva",Paskelbta prieš apie 1 mėnesį,Baigiasi: 2023.01.16,€ 2000 – 3200,2000.0,3200.0,2600.0
4,"Šiaulių bankas, AB",Atitikties departamento direktorius (-ė),"Vilnius, Vilniaus rajonas, Lietuva",Paskelbta prieš 16 dienų,Baigiasi: 2023.01.18,€ 4040 – 6060,4040.0,6060.0,5050.0


# Įžvalgos

Keletas klausimų į kurios galima atsakyti tiek vizualiai tiek skaičiais.

In [6]:
#@title Vidutinis atlyginimas

# atspausindit atsakymą
print(f'Pagal pieškos žodį "{keyword}"" buvo {len(df_c)} skelbimai vidutiškai siūlo {df_c.SalaryMean.mean():.0f} € atlyginimą')

Pagal pieškos žodį "bankas"" buvo 455 skelbimai vidutiškai siūlo 2271 € atlyginimą


In [7]:
#@title Top skelbimai su didžiausiais atlyginimais

# top N dižiausius atlyginimus turintys skelbimai
N = 10 # @param {type:"integer"}
cols = ['Employer', 'JobTitle', 'AddEnds', 'Salary', 'SalaryMean']

# sort and return N largest
df_c.sort_values(by="SalaryMean").tail(N)[cols]

Unnamed: 0,Employer,JobTitle,AddEnds,Salary,SalaryMean
4,"Šiaulių bankas, AB",Atitikties departamento direktorius (-ė),Baigiasi: 2023.01.18,€ 4040 – 6060,5050.0
435,Danske Bank Lithuania,Platform Engineer in Channels Individuals Tribe,Baigiasi: 2023.01.13,€ 4160 – 6240,5200.0
432,Danske Bank Lithuania,Mid/Senior SAS Developer,Baigiasi: 2023.02.03,€ 4160 – 6240,5200.0
410,Danske Bank Lithuania,Senior Software Engineer for Market Data,Baigiasi: 2023.02.03,€ 4160 – 6240,5200.0
51,AB SEB bankas,Baltic Digital Sales Manager,Baigiasi: 2023.02.04,€ 4400 – 6600,5500.0
429,Danske Bank Lithuania,Senior Solution Architect in Core Payments Tribe,Baigiasi: 2023.01.27,€ 4720 – 7080,5900.0
24,AB SEB bankas,Enterprise Area Architect of Digital Channels ...,Baigiasi: 2023.02.04,€ 4800 – 7200,6000.0
107,"""Swedbank"", AB",Senior Information Security Architect,Baigiasi: 2023.02.02,€ 4800 – 7200,6000.0
121,"Luminor Bank, AB",Asset Management & Pensions Chief Risk Officer,Baigiasi: 2023.01.12,€ 5000 – 7650,6325.0
88,"Personalo valdymo inovacijos, UAB","Bankinės įrangos, bankomatų ir jų sistemų tech...",Baigiasi: 2023.01.18,€ 6612 – 8265,7438.5


# Išsaugoti duomenis

Atkomentuoti eilutes su `CTR + /` ir išsaugoti norimu formatu. Failo pavadinimas sugenruojams:

* `cv_online_Y_X.csv` arba `cv_online_Y_X.xlsx`, kur `X` yra raktažodis, o `Y` yra data, kad buvo paleistas kodas. Jei `X` buvo iš dviejų žodžių, pvz. `duomenų analitikas`, tarpai ` ` yra paverčiami `_`.

Norint atsisiųsti duomenis lokaliai paspauskite ant dešinėje pusė esančios "Files" ikonos ir atsisiųskite norimą failą. Jei to nepadarysite, failai bus ištrinti uždarius google colab.

![image info](https://i.stack.imgur.com/mYWnb.png)




In [8]:
# generate data for today
_date = pd.Timestamp.now().strftime("%Y_%m_%d")

# excel, remove comments if you want to save data
# df_c.to_excel(f"cv_online_{keyword}_{_date}.xlsx", index = False)
# .csv, remove comments if you want to save data
# df_c.to_csv(f"cv_online_{keyword}_{_date}.csv", index = False)