# 사이트의 보안 강도에 따라 크롤링 방식이 다름
# 차단 당하거나 정상적인 정보 수집이 불가능
# 웹 사이트가 만들어지는 구조의 이해
- html, css, js -> 전통적인 언어, 스타일시트로 웹사이트가 생성된다
- 전통적인 방식으로는 100개 중 1개만 수정 되어도 매번 서버에 데이터를 요청해야하는 비효율적 작업이 발생
- 문제를 개선시킨 Single Page App 활용한 웹사이트 개발됨

크롤링 방법
1) requests
2) selenium : 가상의 웹 브라우저를 생성
- 브라우저는 각 드라이브 버전

In [1]:
# 브라우저 드라이브
# 웹드라이버 매니저 설치 명령어 : !pip install webdriver_manager
# 명령어에서 '!' 유무의 차이 : ! 는 파이썬 문법이 아닌 터미널에서 사용해야하는 문법
# 아나콘다의 주피터노트북의 호환성이 좋아짐. 그래서 ! 를 사용하지 않아도 실행된다.

!pip install webdriver_manager

Collecting webdriver_manager
  Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl.metadata (12 kB)
Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl (27 kB)
Installing collected packages: webdriver_manager
Successfully installed webdriver_manager-4.0.2


In [2]:
!pip install selenium

Collecting selenium
  Downloading selenium-4.39.0-py3-none-any.whl.metadata (7.5 kB)
Collecting trio<1.0,>=0.31.0 (from selenium)
  Downloading trio-0.32.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket<1.0,>=0.12.2 (from selenium)
  Downloading trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting outcome (from trio<1.0,>=0.31.0->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket<1.0,>=0.12.2->selenium)
  Downloading wsproto-1.3.2-py3-none-any.whl.metadata (5.2 kB)
Downloading selenium-4.39.0-py3-none-any.whl (9.7 MB)
   ---------------------------------------- 0.0/9.7 MB ? eta -:--:--
   -------------------- ------------------- 5.0/9.7 MB 26.6 MB/s eta 0:00:01
   ---------------------------------------  9.4/9.7 MB 24.5 MB/s eta 0:00:01
   ---------------------------------------- 9.7/9.7 MB 24.0 MB/s  0:00:00
Downloading trio-0.32.0-py3-none-any.whl (512 kB)
Downloading trio_webso

In [12]:
# from VS import 차이 : from 은 하위 개념으로 경로를 계속 언급해줘야 함. import 사용하면 간편, 효율

from selenium import webdriver #크롤러가 웹드라이버의 역할
from selenium.webdriver.chrome.service import Service #웹드라이버 이식
from selenium.webdriver.chrome.options import Options #웹브라우저 흉내
from selenium.webdriver.common.by import By 
from webdriver_manager.chrome import ChromeDriverManager #사용하고 있는 웹 버전에 맞춰준다
# import urllib.parse '퍼포먼스마케터' 로 검색할거니까 인코딩 미리 해줄게. 아래와 동일 구문
from urllib import parse 
import time #가상 브라우저가 너무 빠르게 전개되지 않게 시간을 벌어줌
import pandas as pd 

service = Service(ChromeDriverManager().install()) #가상의 브라우저에 설치된 서비스

options = Options()
# options.add_argument("--headless") 가상의 브라우저를 우리 눈에 보이지 않도록 설정
# options.add_argument("--disable-gpu") gpu 카드 쓰지 말아라. 위의 구문과 세트로 사용.
options.add_argument("--disable-dev-shm-usage") #development-share memory. 로컬에 있는 메모리값 써라
options.add_argument("--window-size=1920x1080") 
options.add_argument("--start-maximized") #크롤링하는 환경의 전체 넓이가 작더라도 PC로 인지해라
options.add_argument("--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/143.0.0.0 Safari/537.36") #사이트에서 F12 
options.add_argument("--lang=ko_KR")

driver = webdriver.Chrome(service=service, options=options) #그 서비스를 탑재한 실질적인 크롤러의 역할

query = "퍼포먼스마케터"
encoded_query = parse.quote(query)

max_pages = 6

results = []

for page in range(1, max_pages+1) : #range(1, max_pages+1) 의미: 1페이지부터 6페이지까지 반복해라. 0부터 시작하므로
    url = f"https://www.jobkorea.co.kr/Search?stext={encoded_query}&Page_No={page}" #f"" - 문자열과 변수를 같이 쓰겠다
    driver.get(url) # url 페이지 갔다와라
    time.sleep(2) #페이지 넘어갈 때마다 2초씩 쉬어라
    
    job_posts = driver.find_elements(By.CSS_SELECTOR, "div.styles_mb_space2__dk46ts4t")

    for post in job_posts :
        try : 
            title_elem = post.find_element(By.CSS_SELECTOR, "a.Flex_display_flex__i0l0hl2.Flex_gap_space6__i0l0hl1g.Flex_align_center__i0l0hl8.styles_mb_space2__dk46ts4t")
            title = title_elem.text.strip()
            link = title_elem.get_attribute("href")
            results.append({
                "공고 제목": title,
                "지원 링크": link,
            })
        except :
            continue

driver.quit() #가상의 브라우저 종료

df = pd.DataFrame(results)
df.to_excel("잡코리아_퍼포먼스마케터.xlsx", index=False)
print("잡코리아_퍼포먼스마케터.xlsx 저장완료")

    # f-str을 안 썼을 경우 "https://www.jobkorea.co.kr/Search?stext" + encoded_query + "&Page_No=" + page

잡코리아_퍼포먼스마케터.xlsx 저장완료


In [4]:
from urllib import parse 

query = "퍼포먼스마케터"
encoded_query = parse.quote(query)

print(encoded_query)

%ED%8D%BC%ED%8F%AC%EB%A8%BC%EC%8A%A4%EB%A7%88%EC%BC%80%ED%84%B0


In [6]:
# 반복문 for-in. 반복해야할 대상 있음
list01 = [1, 2, 3, 4]
str01 = "hello"

for item in list01 : 
    print(item)
for item in str01 : 
    print(item)

1
2
3
4
h
e
l
l
o


In [7]:
# 반복문. 반복해야할 대상 없을 때 range
for index in range(6) :
    print(index)

0
1
2
3
4
5
