3. Selenium 심화 : 브라우저 제어
    - 웹 테스트 자동화 도구인 Selenium을 이용해
      브라우저를 제어하는 방법을 배웁니다.

목 차

01. Selenium을 이용한 브라우저 제어

02. 브라우저 로딩 기다리기

03. 키보드/마우스 입력

04. 다양한 입력, ActionChains

05. 맺으며

01. Selenium을 이용한 브라우저 제어

로그인이 필요한 페이지

driver.get("https://mail.naver.com")
e_list = driver.find_elements_by_xpath('//div/p')

for e in e_list:
    print(e.text)
    
실행 결과
-> 로그인 필요

동적으로 렌더링되는 페이지

드랍다운 내리면 html이 있지만
닫으면 사라짐

브라우저 제어

1) 로그인 자동화
    - 로그인 후에만 나오는 웹페이지 분석을 위해
    - ID와 비밀번호 입력 후 로그인 버튼 클릭(또는 엔터키)
    => 어떻게?
    
2) 드랍다운 버튼 클릭
    - 드랍다운 버튼을 클릭해야만 나오는 요소의 추출을 위해
    - 드랍다운 버튼을 찾아서 클릭
    => 어떻게?
    
답은 Selenium이다!

02. 브라우저 로딩 기다리기

Scraping 동작 순서

Python
with webdriver.Firefox() as driver:
    driver.get(url) # 웹 페이지 로딩
    
    e = driver.find_element()
    ....
    
    
< 이상적인 경우 >
with webdriver.Firefox() as driver:
             ↓
      driver.get(url) ----------↓
             ↓                  ↓
             ↓        ←   해당 웹 페이지 로딩 
             ↓
      e = driver.find_element()
             ↓
           .....

Scraping 동작 순서 : 지연된 로딩

Python
with webdriver.Firefox() as driver:
    driver.get(url) # 웹 페이지 로딩
    
    e = driver.find_element() # error !
    ....
    
    
    
< 네트워크 문제 등으로 로딩이 늦을 경우 >
with webdriver.Firefox() as driver:
             ↓
      driver.get(url) -----------↓
             ↓                  ↓
             ↓                  ↓
             ↓                  ↓
      e = driver.find_element()  ↓ # Error
             ↓     ← ← ← ←   해당 웹 페이지 로딩 
           .....

기다리기 : 3가지

무조건 기다리기


Python
import time

with webdriver.Firefox() as driver:
    driver.get(url) # 웹페이지 로딩
    time.sleep(10) # 10초간 기다리기
    
    e = driver.find_element()
    ....
    
time.sleep()
- 파이썬 내장 라이브러리
- n초만큼 무조건 기달림
- 웹페이지 로딩이 끝났어도 주어진 시간을
  계속 기다리기 때문에 비효율적

암시적 기다리기

Python
with webdriver.Firefox() as driver:
    driver.implicitly_wait(10) # 10초
    
    driver.get(url) # 웹페이지로딩
    
    e = driver.find_element()
    ....

implicitly_wait(n)
- 암시적으로 기다림 수행
- 웹 페이지를 새로 로딩할 때마다 (driver.get)
  최대 n초까지 기다림 
- 웹 페이지 로딩이 끝나면 기다리기를 종료하고 코드를 수행 v
- 한 번만설정해주면 계속해서 적용

특정 요소만 로딩이 지연되는 경우

웹페이지는 로딩이 됐으나, 요소가 불러와지지 않은 경우

지연된 로딩 예시

페이지 로딩이 끝남 -> 잠시 후에 광고가 보인다.

광고 JS를 통해 넣게 되는데
Error 발생

명시적 기다리기

Python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

with webdriver.Firefox() as driver:
    driver.implicitly_wait(10) # 10초
    driver.get(url) # 웹페이지로딩
    e = WebDriverWait(driver, 10).until(
       EC.presence_of_element_located((By.ID,"id_name"))
       ) # 해당 요소를 불러올 때까지 10초 기다림
       
명시적 기다리기
- 기다릴 요소를 명시
- 명시된 요소가 해당 방식으로 불러와
  질 때까지 최대 n초 기다림
- 요소는 class_name, xpath등 다양한 방법으로 찾을 수 있음

presence_of_element_located
- 괄호 안의 요소가 나타날 때까지 기다림

명시적 기다리기

Python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

with webdriver.Firefox() as driver:
    driver.implicitly_wait(10) # 10초
    driver.get(url) # 웹페이지로딩
    e = WebDriverWait(driver, 10).until(
       EC.element_to_be_clickable((By.ID,"id_name"))
       ) # 해당 요소가 클릭 가능해질때까지 10초 기다림
       
(By.ID, "id_name")
- 요소를 찾는 방법과 파라미터를 의미
- id 외에 대표적으로 사용하는 것
    - (By.XPATH, "xpath")
    - (By.CLASS, "class_name")

element_to_be_clickable
- 해당 요소가 클릭 가능해질 때까지 기다림

6/16