# Selenium
- 셀레니움은 웹드라이버를 활용해 웹사이트를 탐색, 수집, 조작할 수 있는 라이브러리

In [4]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By

driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()) )


#### driver.get(): driver 객체에서 get 메소드를 통해 특정 웹사이트에 접속가능
#### find_element(): 한개의 태그만 선택
#### find_elements(): 일치하는 모든 태그 선택
#### By
- CSS_SELECTOR
- TAG_NAME
- ID
- CLASS_NAME
- XPATH ★

- Selenium은 request에 비해 속도가 느리고 쓰는만큼 메모리를 잡아먹기 때문에 너무 많은 요청을 불러올 경우 중간에 꺼질 수 있는 위험이 있다

### 예제01
> 디자인정글 메인페이지 데이터셀레니움으로 크롤링

In [5]:
driver.get('https://www.jungle.co.kr/')

In [None]:
elem = driver.find_element(By.CLASS_NAME, 'thumb_list')
elem.find_elements(By.TAG_NAME, 'li')

elems = driver.find_elements(By.CSS_SELECTOR, '.thumb_list > li')
len(elems)

35

In [None]:
for elem in elems:
    title_elem = elem.find_element(By.CSS_SELECTOR, '.title')
    a_elem = elem.find_element(By.CSS_SELECTOR, 'a')
    
    print(title_elem.text)
    print(a_elem.get_attribute('href'))
    # a_tag.atts['href']

[디자인이슈] 203인포그래픽연구소, 미국 PRINT Awards 2025 데이터 시각화 부문 2·3위 쾌거 
https://www.jungle.co.kr/magazine/206904
[디자인정글 칼럼] “유럽의 농촌 마을은 왜 이렇게 아름다울까?”
https://www.jungle.co.kr/magazine/206903
[디자인정글 칼럼] 대통령실 로고 교체, ‘실용주의 디자인’의 한 걸음
https://www.jungle.co.kr/magazine/206902
테디 베어에서 영감받은 엑소 카이와 구찌의 컬래버레이션 
https://www.jungle.co.kr/magazine/202570
2025 보조기기 아이디어 공모전025 보조기기 아이디어 공모전
https://www.jungle.co.kr/contest/208759
서울디자인어워드 2024
https://www.jungle.co.kr/exhibit/21266
문화, 예술가로 구성된 FC더조이플러스 축구단, 스포츠 및 문화예술 분야 민간 교류 활동 펼쳐 
https://www.jungle.co.kr/magazine/206246
락앤락, 세계 환경의 날 기념 ‘라인프렌즈 에디션’ 출시
https://www.jungle.co.kr/magazine/206245
광주요, 맑은 소리로 마음을 울리는 구슬잔 출시
https://www.jungle.co.kr/magazine/206243
'보브(VOV)' 서핑 브랜드 체험 공간 오픈
https://www.jungle.co.kr/magazine/206242
[다이슨] 국제 엔지니어링 및 디자인 공모전 제임스 다이슨 어워드 2024 참가자 모집
https://www.jungle.co.kr/contest/207280
[추천공모전] 2025 대한민국 편지쓰기 공모전(~7. 21)
https://www.jungle.co.kr/contest/208805
[포커스 인터뷰] ‘뮤지엄의 하이브리드화’ 통해 ‘공동(Public)의 뮤지엄’ 이끌어 갈 것_ 애니메이션박물관 최경희 관장

In [22]:
driver.find_element(By.CSS_SELECTOR, '#more').click()

In [25]:
driver.find_element(By.CSS_SELECTOR, '#top-search').click()

In [26]:
driver.find_element(By.CSS_SELECTOR, '#top-search-keyword').send_keys('파이썬')

In [29]:
from selenium.webdriver.common.keys import Keys

driver.find_element(By.CSS_SELECTOR, '#top-search-keyword').send_keys(Keys.ENTER)

In [31]:
driver.execute_script('window.scrollTo(0,document.body.scrollHeight);')

In [32]:
driver.quit()

In [None]:
try:
    driver = webdriver.Chrome(
        service=Service( (ChromeDriverManager().install()))
    )
    # 디자인 정글 접속
    driver.get('https://www.jungle.co.kr/')
    
    # 스크롤, 더보기 버튼 클릭
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight);')
    driver.find_element(By.CSS_SELECTOR, '#more').click()
    
    # 데이터 가져오기 (find_elements)
    elems = driver.find_elements(By.CSS_SELECTOR, '.thumb_list > li')
    print(len(elems))
    
except Exception as e:
    
    # 특정 코드 실행 이전의 실행된 코드를 출력
    import traceback
    traceback.print_exc(elems)
    print('오류가 발생했습니다', e)

### 예제02
> 로켓펀치 채용페이지 총10페이지 셀레니움으로 크롤링\
> (회사명, 회사설명, 채용정보(회사별 여러개))

In [11]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
import time

driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()) )

driver.get('https://www.rocketpunch.com/jobs')

time.sleep(2) # WebdriverWait

# 첫페이지 데이터 체크
elems = driver.find_elements(By.CSS_SELECTOR, '#job-list > div > div > div')
len(elems)

8

In [12]:

# elems = len(driver.find_elements(By.CSS_SELECTOR, '#job-list > div > div > div'))
# elems[-1].text.split('\n')

# 첫 페이지의 데이터를 저장한다
result = []

result.extend(elems) # 반복문 돌려서 append 써도 됨

In [None]:
# 스크롤 1회 수행
elem = len(driver.find_elements(By.CSS_SELECTOR, '#job-list > div > div > div:last-child'))
driver.execute_script('arguments[0].scrollIntoView();',elem)
# 방법 2
# elem = driver.find_element(By.CSS_SELECTOR, '#job-list')
# driver.execute_script('arguments[0].scrollTop = arguments[0].scrollHeight', elem)

In [14]:
# 로그인 창 닫기
login_elem = driver.find_element(By.CSS_SELECTOR, '.pos_fixed')
driver.execute_script('arguments[0].remove()', login_elem)

In [None]:
# 사라진 부분 제외하고 새로 추가된 부분의 데이터를 저장한다
elems = len(driver.find_elements(By.CSS_SELECTOR, '#job-list > div > div > div'))
result.extend(elems)

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
import time

driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()) )

driver.get('https://www.rocketpunch.com/jobs')

time.sleep(2) # WebdriverWait

# 첫번째 공고는 들
elems = driver.find_elements(By.CSS_SELECTOR, '#job-list > div > div > div')
len(elems)

result = []

for i in range(10):
    
    # 공고 추가로 가져오고
    elems = len(driver.find_elements(By.CSS_SELECTOR, '#job-list > div > div > div'))
    len(elems)
    
    print(elems[-1].text)
    # 결과 담아주고 -> 디버깅 중 오류발생
    # 원인) 요소는 스크롤이 되면 사용할 수 없는 상태가 됨(로켓펀치 기준) StaleElementReferenceException 에러발생
    # 결과) 그 안에 있는 .text 속성을 뽑아서 문자열을 저장해놓는다
    for elem in elems:
        # 중복체크
        if elem.text not in result:
            result.append(elem.text) # 문자열 자체를 그냥 넣음 (후처리 필요)
            
        print(elem.get_attribute('data-index'))
        
        p_tags = elem.find_elements(By.CSS_SELECTOR, 'p')
        company_name = p_tags[0].text
        job_name = p_tags[1].text
        
            
        # 중복 체크 방안2    
        # my_data = set()
        # my_data.add(elem.text)
        
        temp = elem.text.split('\n')
        company_name = temp[0]
        job_name = temp[1]
        
        if len(temp) == 7:
            skills = temp[2]
        else:
            skills = ''

        result.append({
            'company_name': company_name,
            'job_name': job_name,
            'skills': skills
        })
        
    # 스크롤
    elem = driver.find_element(By.CSS_SELECTOR, '#job-list > div > div > div:last-child')
    driver.execute_script('arguments[0].scrollIntoView();', elem)
    
    time.sleep(1) # time은 스크롤 시 데이터가 스크롤보다 더 빨리 가져올때 사용    

len(result)


In [None]:
duplicate_checker = set()
final_result = []

for r in result:
    if ''.join(r.values()) in duplicate_checker:
        continue
    else:
        duplicate_checker.add(''.join(r.values()))
        final_result.append(r)