## Selenium

- 단순히 HTML만 가져오는 requests나 BeautifulSoup과 달리,
로그인, 무한 스크롤, 동적 로딩(AJAX) 등 자바스크립트가 실행된 후의 데이터까지 가져올 수 있음.

- 실제로 브라우저를 띄워서 사람이 클릭하는 것처럼 행동 →
크롤링 막는 사이트도 상대적으로 우회 가능.

파이썬 코드로 열기

In [3]:
# 파일의 절대경로
import os
import urllib.request
abs_path = os.path.abspath('HTML/basic2.html')
url_path = "file:///" + abs_path
with urllib.request.urlopen(url_path)as f:
    html =f.read().decode('utf-8')

print(html[:100])

<!DOCTYPE html>
<html lang="ko">
	<head>    
		<meta charset="UTF-8">    
		<title>Title</title>


셀레니움으로 로컬 HTML 열기

In [4]:
from selenium import webdriver

driver = webdriver.Chrome()

# 로컬 파일 경로를 file:// 로 시작해야 함
driver.get(url_path)

In [None]:
from selenium.webdriver import Chrome
import os
from selenium.webdriver.chrome.options import Options


#Chrome 브라우저의 실행 옵션을 설정하기 위해 Options 객체를 만들기
chrome_options = Options()

#브라우저 창을 자동화가 끝나도 닫지 않고, 계속 열어두게 함
chrome_options.add_experimental_option(name='detach', value=True)


#Chrome 브라우저를 위에서 설정한 옵션과 함께 실행
driver = Chrome(options=chrome_options)

#file:///는 로컬 파일을 브라우저에서 여는 URL 형식
driver.get(url_path) 

### 요소 찾기

In [11]:
# 요소를 찾아서 값추가
username_el = driver.find_element(by='name', value='username')
username_el.send_keys('jungseok')

username_el = driver.find_element(by='name', value='password')
username_el.send_keys('012345678')

In [17]:
# 링크가 들어있는 요소를 찾기
link_el = driver.find_element(by='link text', value='파이썬전문가그룹')
link_el.click()

In [18]:
driver.back() #브라우저에서 이전 페이지로 이동

### 검색 결과 가져오기

In [None]:
#Selenium의 웹드라이버 기능 불러오기 (크롬, 파이어폭스 등 조작 가능)
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.python.org/')

In [40]:
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
input_el = driver.find_element(by=By.ID, value='id-search-field') # 유니크한 아이디
input_el.send_keys('pycon') # 검색창에 pycon 검색
input_el.send_keys(Keys.RETURN) # 엔터

driver.implicitly_wait(3) # 명시적 대기

result_list = driver.find_elements(by = "css selector", value='form li h3 > a')
for result in result_list:
    print(result.text)

In [25]:
input_el2 = driver.find_element(by='css selector', value='#id-search-field')
input_el2.send_keys('ahaha')

In [29]:
#content > div > section > form > ul > li:nth-child(2) > h3 > a

In [33]:
result_list = driver.find_elements(by = "css selector", value='form li h3 > a')
for result in result_list:
    print(result.text)

PSF PyCon Trademark Usage Policy
PyCon Italia 2016 (PyCon Sette)
PyCon Australia 2013
PyCon AU 2019
PyCon NL 2025
PyCon Australia 2014
PyCon Ireland 2012
PyCon Ireland 2016
PyCon Ireland 2022
PyCon Australia 2014
PyCon Ireland 2024
PyCon APAC 2025
PyCon AU 2018
PyCon APAC 2022
PyCon PH 2024
PyCon Ireland 2023
PyCon PL 2014
PyCon MY 2015
PyCon Ireland 2015
PyCon AU 2015


### 비동기 요청

In [41]:
#비동기 방식으로 정보가 보여지는 페이지의 예
import requests
response = requests.get('https://www.weather.go.kr/w/index.do')
print(response.status_code)
print(len(response.text))

from bs4 import BeautifulSoup
soup = BeautifulSoup(response.content, 'html.parser')
print(soup.select('.tmp'))

200
170732
[]


날씨 정보를 일반적 조건으로 대기해서 가져오기

In [44]:
import requests

In [47]:
url = 'https://www.weather.go.kr/w/index.do'
res = requests.get(url)

In [48]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text, 'html.parser')
soup.select(".tmp")

[]

In [43]:
from selenium.webdriver import Chrome
import time
driver = Chrome()
driver.get("https://www.weather.go.kr/w/index.do")

time.sleep(3) #지정한 시간동안 무조건 대기

element = driver.find_element(by='css selector', value='div#current-weather span.tmp')
print(element.text)
driver.close()

34.8℃


명시적 대기: 웹페이지는 로딩 속도가 느릴 수 있어서 바로 요소를 찾으면 못 찾고 에러가 나는 경우가 있어서 조건이 만족될 때까지 기다리는 것.

In [None]:
from selenium.webdriver import Chrome
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
driver = Chrome()
driver.get("https://www.weather.go.kr/w/index.do")
wait = WebDriverWait(driver, 3) # 최대 3초까지 대기

# find_element() 함수의 인수로 전달될 by와 value를 튜플 형식으로 지정
element = wait.until(
    EC.presence_of_element_located(("css selector", "div#current-weather span.tmp"))
)
print(element.text)
driver.close()

34.7℃
