# [Selenium](https://www.selenium.dev/)

-   **웹 브라우저 제어 도구**
    -   원래는 웹 어플리케이션 자동 테스트를 위한 목적으로 만들어진 프레임워크.
    -   웹브라우저를 프로그램을 이용해 제어할 수 있다.
-   **requests 모듈의 한계**
    -   Javascript를 이용한 AJAX 기법의 비동기적 요청 처리 페이지 크롤링이 힘들다.
    -   로그인 후 요청이 가능한 페이지들에 대한 크롤링이 번거롭다.
    -   Selenium을 활용하면 이 두가지 모두 쉽게 처리할 수 있다.
-   **Selenium 단점**
    -   속도가 느림
-   **설치**
    -   `conda install selenium`
    -   `pip install selenium`
-   [튜토리얼](https://selenium-python.readthedocs.io/)
    > -   주의: selenium은 3에서 4버전으로 업그레이드 되면서 드라이버 설정과 element 조회 메서드등이 많이 바뀜.


# Driver

-   Driver
    -   웹브라우저를 제어하는 프로그램으로 웹 브라우저별로 제공된다.
    -   Selenium 패키지의 Driver객체를 이용해 제어하게 된다.

## 설치

1. **DriverManager 이용**
    - `pip install webdriver-manager`


2. **Hard coding**
    1. 브라우져별로 드라이버를 다운로드 받는다.
        - https://www.selenium.dev/documentation/webdriver/getting_started/install_drivers/#quick-reference
    2. Local 컴퓨터에 설치된 크롬브라우져 버전에 맞는 드라이버 선택


### DriverManager를 이용해 WebDriver 생성


In [3]:
from webdriver_manager.chrome import ChromeDriverManager

# 없으면 다운받고 그 경로를 반환
# 이미 다운 받았으면 경로를 반환
driver_path = ChromeDriverManager().install()
print(type(driver_path))
print(driver_path)

<class 'str'>
C:\Users\USER\.wdm\drivers\chromedriver\win64\123.0.6312.86\chromedriver-win32/chromedriver.exe


### 다운 받은 Driver이용해 WebDriver생성


In [4]:
# WebDriver 객체를 생성. => chromedriver.exe driver를 컨트롤하는 객체
from selenium.webdriver.chrome.service import Service
from selenium import webdriver

service = Service(executable_path=driver_path)
browser = webdriver.Chrome(service=service)

In [5]:
# 특정 url로 이동
browser.get("https://www.naver.com")

In [6]:
browser.get("https://www.daum.net")

In [7]:
# browser 종료
browser.close()

## WebDriver 주요 속성/메소드

-   **page_source** : 현재 페이지의 html 소스를 반환
    -   page_source로 html을 받아서 BeautifulSoup으로 크롤링할 원소를 찾을 수 있다.
-   **get_screenshot_as_file(파일경로)**
    -   현재 웹브라우저 화면을 지정한 캡처해서 지정한 파일 경로에 저장한다.
-   **set_window_size(width, height)**
    -   웹브라우저 윈도우 크기 조정
-   **maximize_window()**
    -   웹브라우저 화면 최대 크기로 만들기.
-   **get_window_size()**
    -   웹브라우저 윈도우 크기 조회. (width, height)
-   **execute_script("자바스크립트코드")**
    -   문자열로 전달한 **javascript 코드**를 실행시킨다.
-   **quit()**, **close()**
    -   웹브라우저를 종료한다.


## Page의 Element 조회 메소드

-   BeautifulSoup을 이용하지 않고 셀레늄 자체 parser를 이용할 수 있다.
-   **find_element()**: 조건을 만족하는 첫번째 요소를 반환한다.
    -   매개변수
        -   **by**: 검색방식
            -   **By.ID**
            -   **By.CLASS_NAME**
            -   **By.TAG_NAME**
            -   **By.CSS_SELECTOR**
            -   **By.XPATH**
            -   **By.LINK_TEXT**
            -   **By.PARTIAL_LINK_TEXT**
        -   **value**: str - 검색조건
    -   반환타입: **WebElement**
-   **find_elements()**: 조건을 만족하는 모든 요소를 찾는다.
    -   매개변수: find_element()와 동일
    -   반환타입
        -   **list of WebElement**


### WebElement (조회결과) 메소드 / 속성

-   메소드
    -   **get_attribute('속성명')**: 태그의 속성값 조회
    -   **send_keys("문자열")**: 입력폼에 문자열 값을 입력.
    -   **click()**: element를 클릭
    -   **submit()**: element가 Form인 경우 폼 전송
    -   **clear()**: element가 입력폼인 경우 텍스트를 지운다.
    -   위 조회 메소드들 : 하위의 elements들 조회
-   속성
    -   **text**: 태그내의 텍스트
    -   **tag_name**: 태그이름


In [8]:
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

In [9]:
# browser 실행
service = Service(executable_path=ChromeDriverManager().install())
browser = webdriver.Chrome(service=service)

# naver로 이동
browser.get("https://www.naver.com")

In [10]:
# 현재 페이지의 소스를 조회 
#                     -> BeautifulSoup을 이용해 크롤링 할 경우
html = browser.page_source
print(html[:100]) #str 반환

<html lang="ko" class="fzoom" data-dark="false"><head><script async="" src="https://ntm.pstatic.net/


In [11]:
# 스크린샷 - 저장경로
browser.get_screenshot_as_file("naver_main.png") 

True

In [12]:
# 브라우저 최대화
browser.maximize_window()

In [13]:
# 브라우저 윈도우 사이즈 조회 (width, height)
size = browser.get_window_size()
print(size)

{'width': 1936, 'height': 1048}


In [15]:
# 자바스크립트 코드를 실행.
browser.execute_script("alert('안녕하세요');")

In [23]:
### element 처리
# element조회
## 검색키워드 입력 input을 조회 -> id=query
query_textfield = browser.find_element(By.ID, "query")
print(type(query_textfield))
# element의 정보: 태그이름 - tag_name, 
#                 속성값: get_attribute(속성명)
#                 content text: text
print(query_textfield.tag_name)
print(query_textfield.get_attribute("id"))

# text를 입력 (element에 문자열을 전송)
query_textfield.send_keys("날씨 예보")  # 키보드 친다.
query_textfield.send_keys(Keys.ENTER)

<class 'selenium.webdriver.remote.webelement.WebElement'>
input
query


In [25]:
# 이동한 페이지의 키워드 입력 input 태그 조회
query_textfield2 = browser.find_element(By.ID, "nx_query")
# input의 내용을 삭제
query_textfield2.clear()
query_textfield2.send_keys("미세먼지")
query_textfield2.send_keys(Keys.ENTER)

In [27]:
# 검색 버튼 조회 class=bt_search
search_btn = browser.find_element(By.CLASS_NAME, "bt_search")
# element.click() -> 클릭
search_btn.click()

In [28]:
browser.close()

## TODO: 구글 검색

1. https://www.google.co.kr 페이지로 이동
2. 파이썬을 검색한다.
3. 검색결과 title들을 출력한다.


In [29]:
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

In [31]:
# browser 실행
service = Service(executable_path=ChromeDriverManager().install())
# service = Service(executable_path="chromedriver.exe")
browser = webdriver.Chrome(service=service)

# 구글로 이동
browser.get("https://www.google.co.kr")

In [32]:
# 키워드 입력폼(textarea[name=q])
keyword_input = browser.find_element(By.NAME, "q")
keyword_input.send_keys("파이썬")
keyword_input.send_keys(Keys.ENTER)


In [34]:
# 제목 조회
ele_list = browser.find_elements(By.CSS_SELECTOR,
                    "#arc-srp_110 > div > div > div > div > div.kb0PBd.cvP2Ce.A9Y9g.jGGQ5e > div > div > span > a > h3")
len(ele_list)

8

In [35]:
# element의 text content 조회
for ele in ele_list:
    print(ele.text)

온라인 파이썬 컴파일러
HongLab 홍정모 연구소
01-4 파이썬 설치하기
모두를 위한 프로그래밍 : 파이썬 강좌소개
1 장 파이썬(Python) 입문 | 파이썬 프로그래밍 기초
파이썬 프로그래밍
파이썬
Python(파이썬) | 국내도서 - 모바일교보문고


In [36]:
# beautifulsoup
from bs4 import BeautifulSoup
soup = BeautifulSoup(browser.page_source, "lxml")
ele_list2 = soup.select("#arc-srp_110 > div > div > div > div > div.kb0PBd.cvP2Ce.A9Y9g.jGGQ5e > div > div > span > a > h3")
for ele2 in ele_list2:
    print(ele2.text)

온라인 파이썬 컴파일러
HongLab 홍정모 연구소
01-4 파이썬 설치하기
모두를 위한 프로그래밍 : 파이썬 강좌소개
1 장 파이썬(Python) 입문 | 파이썬 프로그래밍 기초
파이썬 프로그래밍
파이썬
Python(파이썬) | 국내도서 - 모바일교보문고


In [37]:
browser.close()

## 브라우저의 headless 모드를 이용.

-   Headless 브라우저
    -   브라우저의 창을 띄우지 않고 실제 브라우저와 동일하게 동작하도록 하는 방식
    -   CLI(command line interface) 기반의 OS (리눅스 서버)를 지원하기 위한 브라우저
    -   크롬은 버전 60부터 headless 모드 지원
-   selenium에서 headless 모드
    -   webdriver options에 headless 설정

> -   **Brower Option**: https://www.selenium.dev/documentation/webdriver/drivers/options/


In [41]:
from selenium import webdriver
import time 
option = webdriver.ChromeOptions()
option.add_argument("--headless")
service = Service(executable_path=ChromeDriverManager().install())
browser = webdriver.Chrome(service=service, 
                           options=option)
browser.maximize_window()
browser.get("https://www.daum.net")
# time.sleep(1)
browser.get_screenshot_as_file("daum_main2.png")
browser.close()
print("완료")

완료


# 대기 하기

## Explicit Wait

-   특정 조건/상황을 만족할 때 까지 대기
-   `WebDriverWait(driver, 초).until(expected_contition)` 구문 사용
-   expected_condition 함수
    -   selenium.webdriver.support.expected_conditions 모듈에 정의된 함수 사용.
        -   https://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.support.expected_conditions

## Implicit Wait

-   현재 페이지에 없는 element나 elememt들이 loading 되기를 설정한 시간만큼 기다린다.
-   설정한 시간 이내에 elements가 loading되면 대기가 종료된다.
-   `implicit_wait(초)` 구문 사용
-   한번 설정하면 설정된 WebDriver가 close될때 까지 그 설정이 유지된다.
-   https://selenium-python.readthedocs.io/waits.html

### 예)

```python
browser.implicitly_wait(5)
# 페이지 로딩(dom tree완성)될 때까지 최대 5초간 기다린다. (로딩이 되면 5초가 되지 않아도 대기를 끝낸다.)
```

<hr>

```python
from selenium.webdriver.support import expected_conditions as EC

...

try:
    # element가 반환될 때 까지 최대 10초 기다린다.
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "myDynamicElement"))
    )
finally:
    driver.quit()
```


# 무한 스크롤

-   javascript 에서 현재 페이지의 높이(scroll pane(scroll bar가 움직이는 공간)의 길이)
    -   `document.documentElement.scrollHeight`
-   scroll bar를 이동
    -   `window.scrollTo(가로 스크롤바를 이동시킬 위치:정수,
        세로 스코롤바를 이동시킬 위치:정수)


In [48]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager
import time

service = Service(executable_path=ChromeDriverManager().install())
browser = webdriver.Chrome(service=service)
# implicit wait
browser.implicitly_wait(5)  # 로딩될 때 까지 최대 5초 대기. 

browser.maximize_window()
# 유튜브로 이동.
browser.get('https://pokemonkorea.co.kr/pokedex')

time.sleep(2)

# 현재 페이지의 높이 조회 -> javascript
scroll_pane_height = browser.execute_script(
    "return document.documentElement.scrollHeight"
)
# 높이 scrollbar를 페이지의 맨 아래로 내린다. 
# 페이지의 높이가 안변할 때 까지 반복
while True:
    # 스크롤 내리기
    browser.execute_script("window.scrollTo(0, document.documentElement.scrollHeight)")
    # 이동 후 height 를 조회
    time.sleep(1)
    new_scroll_pane_height = browser.execute_script(
        "return document.documentElement.scrollHeight"
    )
    # 이전 높이와 이동 후 높이가 같다면 종료
    if scroll_pane_height == new_scroll_pane_height:
        break
    scroll_pane_height = new_scroll_pane_height

    # 조회
browser.close()