In [16]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime
import time

In [17]:
def scrape_unegui_jobs():
    base_url = "https://www.unegui.mn/azhild-avna/"
    jobs = []
    page = 1
    max_pages = 50

    while page <= max_pages:
        print(f"Scraping page {page}...")
        url = f"{base_url}?page={page}"
        response = requests.get(url)
        if response.status_code != 200:
            print("Failed to fetch page. Status code:", response.status_code)
            break
        soup = BeautifulSoup(response.text, 'html.parser')
        job_blocks = soup.find_all('div', class_='announcement-block-text announcement-block__text _premium _job')
        if not job_blocks:
            print("No more job listings found.")
            break

        for job in job_blocks:
            title = job.find('a', class_='announcement-block__title').text.strip() if job.find('a', class_='announcement-block__title') else "N/A"
            company = job.find('span', class_='announcement-block__company-name').text.strip() if job.find('span', class_='announcement-block__company-name') else "N/A"
            date = job.find('div', class_='announcement-block__date').text.split(",")[1].strip() if job.find('div', class_='announcement-block__date') else "N/A"
            location = job.find('div', class_='announcement-block__date').text.split(",")[2].strip() if len(job.find('div', class_='announcement-block__date').text.split(",")) > 2 else "N/A"
            category = job.find('div', class_='announcement-block__breadcrumbs').text.strip() if job.find('div', class_='announcement-block__breadcrumbs') else "N/A"
            jobs.append({
                "Title": title,
                "Company": company,
                "Date Posted": date,
                "Location": location,
                "Category": category})
        page += 1
        time.sleep(1)

    return pd.DataFrame(jobs)

In [18]:
if __name__ == "__main__":
    unegui_jobs = scrape_unegui_jobs()
    if not unegui_jobs.empty:
        print(unegui_jobs.head())
        today = datetime.now().strftime('%Y-%m-%d')
        unegui_jobs.to_csv(f"unegui_jobs_{today}.csv", index=False, encoding='utf-8-sig')
        print(f"Data saved to CSV. Total jobs scraped: {len(unegui_jobs)}")
    else:
        print("No jobs found.")

Scraping page 1...
Scraping page 2...
Scraping page 3...
Scraping page 4...
Scraping page 5...
No more job listings found.
                                Title Company    Date Posted        Location  \
0            Hybrid battery засварчин   Davaa  Өнөөдөр 19:40    УБ — Баянгол   
1  Япон улсад барилгын туслах ажилчин  shogun  Өнөөдөр 19:16  УБ — Сүхбаатар   
2                                Касс   Ээгий  Өнөөдөр 17:58    УБ — Хан-Уул   
3                     Барилгын туслах     Ням  Өнөөдөр 17:45    УБ — Хан-Уул   
4                      Ээлжийн харуул     Ням  Өнөөдөр 17:44    УБ — Хан-Уул   

                                            Category  
0  Авто үйлчилгээ, засвар »\n                \n  ...  
1  Барилга, дэд бүтэц »\n                \n      ...  
2  Борлуулалт, худалдаа »\n                \n    ...  
3  Барилга, дэд бүтэц »\n                \n      ...  
4  Харуул хамгаалалт »\n                \n       ...  
Data saved to CSV. Total jobs scraped: 192


In [19]:
unegui_jobs

Unnamed: 0,Title,Company,Date Posted,Location,Category
0,Hybrid battery засварчин,Davaa,Өнөөдөр 19:40,УБ — Баянгол,"Авто үйлчилгээ, засвар »\n \n ..."
1,Япон улсад барилгын туслах ажилчин,shogun,Өнөөдөр 19:16,УБ — Сүхбаатар,"Барилга, дэд бүтэц »\n \n ..."
2,Касс,Ээгий,Өнөөдөр 17:58,УБ — Хан-Уул,"Борлуулалт, худалдаа »\n \n ..."
3,Барилгын туслах,Ням,Өнөөдөр 17:45,УБ — Хан-Уул,"Барилга, дэд бүтэц »\n \n ..."
4,Ээлжийн харуул,Ням,Өнөөдөр 17:44,УБ — Хан-Уул,Харуул хамгаалалт »\n \n ...
...,...,...,...,...,...
187,Оройн ээлжинд ажиллах үйлчлэгч,Урбан Линк,2024-11-11 09:32,УБ — Хан-Уул,Үйлчилгээ »\n \n ...
188,Ээлжээр ажиллах үйлчлэгч,Урбан Линк,2024-11-11 09:32,УБ — Хан-Уул,Үйлчилгээ »\n \n ...
189,Евро хашаа үйлдвэрлэлд угсралтанд ажилтан,СТӨҮНХИЖ,2024-11-10 09:52,УБ — Баянгол,Үйлдвэрлэл »\n \n ...
190,HR manager,UU,2024-10-01 14:59,УБ — Чингэлтэй,"Захиргаа, Хүний нөөц »\n \n ..."
