In [42]:
%pip show webdriver-manager

Name: webdriver-manager
Version: 4.0.2
Summary: Library provides the way to automatically manage drivers for different browsers
Home-page: https://github.com/SergeyPirogov/webdriver_manager
Author: Sergey Pirogov
Author-email: automationremarks@gmail.com
License: 
Location: c:\Users\user\anaconda3\Lib\site-packages
Requires: packaging, python-dotenv, requests
Required-by: 
Note: you may need to restart the kernel to use updated packages.


In [2]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import time
import pandas as pd

# ✅ 산업군 이름-코드 매핑
industry_map = {
    "서비스업": 100,
    "제조/화학": 200,
    "의료/제약/복지": 300,
    "유통/무역/운송": 400,
    "교육업": 500,
    "건설업": 600,
    "IT/웹/통신": 700,
    "미디어/디자인": 800,
    "은행/금융업": 900,
    "기관/협회": 1000
}

# ✅ 산업군 이름 입력 받기
print("📌 선택 가능한 산업군:")
for name in industry_map:
    print(f" - {name}")

industry_name = input("\n크롤링할 산업군 이름을 입력하세요 (예: 교육업): ").strip()

# ✅ 코드로 변환
industry_code = industry_map.get(industry_name)

if not industry_code:
    print("❗ 유효하지 않은 산업군 이름입니다. 프로그램을 종료합니다.")
    exit()

# ✅ 크롬 옵션 설정
options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64)")

# ✅ 드라이버 실행
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service, options=options)

# ✅ URL 설정
base_url = f"https://www.jobplanet.co.kr/companies?sort_by=review_compensation_cache&industry_id={industry_code}"

companies = []
page = 1

while True:
    url = f"{base_url}&page={page}"
    driver.get(url)

    soup = BeautifulSoup(driver.page_source, 'html.parser')
    company_blocks = soup.select("div.section_wrap div.section_group section.company")

    if not company_blocks:
        print(f"❗ 페이지 {page}에 더 이상 항목이 없습니다. 크롤링 종료.")
        break

    for item in company_blocks:
        name_tag = item.select_one("dt.us_titb_l3 a")
        rating_tag = item.select_one("div.us_star_m div.star_score")

        if name_tag and rating_tag:
            name = name_tag.get_text(strip=True)
            rating_style = rating_tag.get("style", "")
            try:
                width_pct = float(rating_style.replace("width:", "").replace("%", "").strip())
                rating = round(width_pct / 20, 1)
            except:
                rating = None

            companies.append({
                "회사명": name,
                "평점": rating
            })

    print(f"✅ {page}페이지 완료, 누적 기업 수: {len(companies)}")
    page += 1

# ✅ 결과 출력
df = pd.DataFrame(companies)
print(df)

# ✅ 드라이버 종료
driver.quit()


📌 선택 가능한 산업군:
 - 서비스업
 - 제조/화학
 - 의료/제약/복지
 - 유통/무역/운송
 - 교육업
 - 건설업
 - IT/웹/통신
 - 미디어/디자인
 - 은행/금융업
 - 기관/협회
✅ 1페이지 완료, 누적 기업 수: 10
✅ 2페이지 완료, 누적 기업 수: 20
✅ 3페이지 완료, 누적 기업 수: 30
✅ 4페이지 완료, 누적 기업 수: 40
✅ 5페이지 완료, 누적 기업 수: 50
✅ 6페이지 완료, 누적 기업 수: 60
✅ 7페이지 완료, 누적 기업 수: 70
✅ 8페이지 완료, 누적 기업 수: 80
✅ 9페이지 완료, 누적 기업 수: 90
✅ 10페이지 완료, 누적 기업 수: 100
✅ 11페이지 완료, 누적 기업 수: 110
✅ 12페이지 완료, 누적 기업 수: 120
✅ 13페이지 완료, 누적 기업 수: 130
✅ 14페이지 완료, 누적 기업 수: 140
✅ 15페이지 완료, 누적 기업 수: 150
✅ 16페이지 완료, 누적 기업 수: 160
✅ 17페이지 완료, 누적 기업 수: 170
✅ 18페이지 완료, 누적 기업 수: 180
✅ 19페이지 완료, 누적 기업 수: 190
✅ 20페이지 완료, 누적 기업 수: 200
✅ 21페이지 완료, 누적 기업 수: 210
✅ 22페이지 완료, 누적 기업 수: 220
✅ 23페이지 완료, 누적 기업 수: 230
✅ 24페이지 완료, 누적 기업 수: 240
✅ 25페이지 완료, 누적 기업 수: 250
✅ 26페이지 완료, 누적 기업 수: 260
✅ 27페이지 완료, 누적 기업 수: 270
✅ 28페이지 완료, 누적 기업 수: 280
✅ 29페이지 완료, 누적 기업 수: 290
✅ 30페이지 완료, 누적 기업 수: 300
✅ 31페이지 완료, 누적 기업 수: 310
✅ 32페이지 완료, 누적 기업 수: 320
✅ 33페이지 완료, 누적 기업 수: 330
✅ 34페이지 완료, 누적 기업 수: 340
✅ 35페이지 완료, 누적 기업 수: 350
✅ 36페이지 완료, 누적 기업 수: 360
✅ 37페이지 