# [Selenium](https://www.selenium.dev/)

-   **웹 브라우저 제어 도구**
    -   원래는 웹 어플리케이션 자동 테스트를 위한 목적으로 만들어진 프레임워크. 웹브라우저에서 새로고침하든, 뒤로가기하든 이런 제어를 위한 코드를 짜놓은 
    -   웹브라우저를 프로그램을 이용해 제어할 수 있다.
-   **requests 모듈의 한계**
    -   Javascript를 이용한 AJAX 기법의 비동기적 요청 처리 페이지 크롤링이 힘들다.
    -   원래 html은 뭔가 요청이 가해졌을때, 항상 전체 페이지가 reroad되는 것, 하지만 javescript는 웹페이지 중 일부만 없앨 수 있는 언어(ex스팸메일함 비우기)
    -   (스크롤해서 내렸을때 새로 나오는 정보들에 대한 크롤링이 어려움)
    -   로그인 후 요청이 가능한 페이지들에 대한 크롤링이 번거롭다.
    -   Selenium을 활용하면 이 두가지 모두 쉽게 처리할 수 있다.
-   **Selenium 단점**
    -   속도가 느림
-   **설치**
    -   `pip install selenium`
-   [튜토리얼](https://selenium-python.readthedocs.io/)
    > -   주의: selenium은 3에서 4버전으로 업그레이드 되면서 드라이버 설정과 element 조회 메서드등이 많이 바뀜.


In [1]:
%pip install selenium

Note: you may need to restart the kernel to use updated packages.


In [2]:
%pip install webdriver-manager

Collecting webdriver-manager
  Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl.metadata (12 kB)
Collecting python-dotenv (from webdriver-manager)
  Downloading python_dotenv-1.1.0-py3-none-any.whl.metadata (24 kB)
Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl (27 kB)
Downloading python_dotenv-1.1.0-py3-none-any.whl (20 kB)
Installing collected packages: python-dotenv, webdriver-manager
Successfully installed python-dotenv-1.1.0 webdriver-manager-4.0.2
Note: you may need to restart the kernel to use updated packages.


# Driver

-   Driver
    -   웹브라우저를 제어하는 프로그램으로 웹 브라우저별로 제공된다.
    -   Selenium 패키지의 Driver객체를 이용해 제어하게 된다.

## 설치

1. **DriverManager 이용**
    - `pip install webdriver-manager`
    - 이걸 설치하면 드라이버 알아서 선택해줌


2. **Hard coding**
    1. 브라우져별로 드라이버를 다운로드 받는다.
        - https://www.selenium.dev/documentation/webdriver/getting_started/install_drivers/#quick-reference
    2. Local 컴퓨터에 설치된 크롬브라우져 버전에 맞는 드라이버 선택


### DriverManager를 이용해 WebDriver 생성


In [3]:
from webdriver_manager.chrome import ChromeDriverManager

driver_path = ChromeDriverManager().install()

In [4]:
driver_path

'C:\\Users\\Playdata\\.wdm\\drivers\\chromedriver\\win64\\135.0.7049.84\\chromedriver-win32/chromedriver.exe'

### 다운 받은 Driver이용해 WebDriver생성
- WebDriver를 생성하면 웹브라우저가 실행 되며 생성된 웹브라우저를 WebDriver를 사용해서 컨트롤한다.
- 페이지 이동
    - `WebDriver.get("이동할 URL 주소")`
- Web browser 끄기
    - `WebDriver.close()`

In [6]:
from selenium.webdriver.chrome.service import Service # Selenium에서 ChromeDriver 실행을 위한 Service 객체를 불러오는 코드
from selenium import webdriver

service = Service(executable_path=driver_path) # driver_path는 크롬 드라이버(chromedriver.exe)의 파일 경로. driver_path를 넣어 웹브라우저를 띄워달라고 요청
browser = webdriver.Chrome(service=service)  # 웹브라우저를 제어할 수 있는 객체를 반환. webdriver.Chrome(service= 까지가 매개변수 이름
# 이렇게 되면 browser가 웹브라우저 하나를 띄운다.

In [7]:
browser.get("https://www.naver.com")
#위의 브라우저에서 네이버 열기

In [None]:
browser.get("https://www.daum.net")

In [8]:
browser.close()
#위의 브라우저 닫기

## WebDriver 주요 속성/메소드

-   **page_source** : 현재 페이지의 html 소스를 반환
    -   page_source로 html을 받아서 BeautifulSoup으로 크롤링할 원소를 찾을 수 있다.
-   **get_screenshot_as_file(파일경로)**
    -   현재 웹브라우저 화면을 지정한 캡처해서 지정한 파일 경로에 저장한다.
-   **set_window_size(width, height)**
    -   웹브라우저 윈도우 크기 조정
-   **maximize_window()**
    -   웹브라우저 화면 최대 크기로 만들기.
-   **get_window_size()**
    -   웹브라우저 윈도우 크기 조회. (width, height)
-   **execute_script("자바스크립트코드")**
    -   문자열로 전달한 **javascript 코드**를 실행시킨다.
-   **quit()**, **close()**
    -   웹브라우저를 종료한다.


## Page의 Element 조회 메소드

-   BeautifulSoup을 이용하지 않고 셀레늄 자체 parser를 이용할 수 있다.
-   **find_element()**: 조건을 만족하는 첫번째 요소를 반환한다.
    -   매개변수
        -   **by**: 검색방식
            -   **By.ID**
            -   **By.CLASS_NAME**
            -   **By.TAG_NAME**
            -   **By.CSS_SELECTOR**
            -   **By.XPATH**
            -   **By.LINK_TEXT**
            -   **By.PARTIAL_LINK_TEXT**
        -   **value**: str - 검색조건
    -   반환타입: **WebElement**
-   **find_elements()**: 조건을 만족하는 모든 요소를 찾는다.
    -   매개변수: find_element()와 동일
    -   반환타입
        -   **list of WebElement**


### WebElement (조회결과) 메소드 / 속성

-   메소드
    -   **get_attribute('속성명')**: 태그의 속성값 조회
    -   **send_keys("문자열")**: 입력폼에 문자열 값을 입력.
    -   **click()**: element를 클릭
    -   **submit()**: element가 Form인 경우 폼 전송
    -   **clear()**: element가 입력폼인 경우 텍스트를 지운다.
    -   위 조회 메소드들 : 하위의 elements들 조회
-   속성
    -   **text**: 태그내의 텍스트
    -   **tag_name**: 태그이름


In [2]:
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

In [3]:
service = Service(executable_path=ChromeDriverManager().install())
browser = webdriver.Chrome(service=service)

browser.get("https://www.naver.com")

In [24]:
html = browser.page_source #html 문서를 str로 반환
print(html[:100]) #str 반환

<html lang="ko" class="fzoom" data-dark="false"><head><script async="" src="https://ntm.pstatic.net/


In [12]:
browser.get_screenshot_as_file("naver_main.png") 
#스크린샷을 찍어서 저장

True

In [None]:
browser.maximize_window() # 화면을 전체화면화 한다.

In [13]:
size = browser.get_window_size()
print(size) #창크기 조회

{'width': 1051, 'height': 798}


In [32]:
browser.execute_script("alert('안녕하세요');")
# 자바스크립트 코드를 실행하는 것
# alert는 자바스크립트에서 웹브라우저에 경고창 띄우는 것
# 위의 기능의 쓰임은 아래와 같다
# 셀레늄은 스크롤 내리는 기능이 없어서, 위의 내용을 이용해서 자바스크립트로서 스크롤 내리기를 한다.

In [25]:
# 페이지 안에서 특정 element를 조회(BS에서 select(), find()의 역할)
#query_textfield는 검색창을 말하는 것
query_textfield = browser.find_element(By.ID, "query") # ID를 query로 갖는 것을 찾는다.
print(type(query_textfield)) #검색창의 타입

print(query_textfield.tag_name)
print(query_textfield.get_attribute("id")) #id의 속성값 확인

<class 'selenium.webdriver.remote.webelement.WebElement'>
input
query


In [26]:
query_textfield.send_keys("날씨 예보") # send_keys: 괄호안의 내용 보내기. 즉 검색창에 날씨 예보 입력
query_textfield.send_keys(Keys.ENTER) # 검색내용 입력 후 엔터치기

In [30]:
query_textfield2 = browser.find_element(By.ID, "nx_query")

query_textfield2.clear() # 클리어해주지 않으면, 이미 날씨예보가 적혀있어서 그 뒤에 미세먼지를 적게된다.
query_textfield2.send_keys("미세먼지")
query_textfield2.send_keys(Keys.ENTER)

In [31]:
# class가 bt_search인 것 클릭하기
# 화면상 돋보기 모양임
search_btn = browser.find_element(By.CLASS_NAME, "bt_search")
search_btn.click()

In [None]:
browser.close()

## 브라우저의 headless 모드를 이용.

-   Headless 브라우저
    -   브라우저의 창을 띄우지 않고 실제 브라우저와 동일하게 동작하도록 하는 방식
    -   화면을 띄우다 보니 메모리를 잡아먹는다. 속도를 높이기 위함.
    -   CLI(command line interface) 기반의 OS (리눅스 서버)를 지원하기 위한 브라우저. 화면을 띄울수 없는 애한테 띄우라고하니 에러가 나기 때문
    -   크롬은 버전 60부터 headless 모드 지원
-   selenium에서 headless 모드
    -   webdriver options에 headless 설정

> -   **Brower Option**: https://www.selenium.dev/documentation/webdriver/drivers/options/


In [35]:
from selenium import webdriver
import time 

option = webdriver.ChromeOptions() #옵션이라는 객체생성. 옵션을 모아두는 자료구조
option.add_argument("--headless") #헤드리스 옵션을 주겠다는 것
service = Service(executable_path=ChromeDriverManager().install())

browser = webdriver.Chrome(service=service,options=option) #options 한 뒤에 위의 옵션을 넣어주면된다.
browser.maximize_window() #전체화면화
browser.get("https://www.daum.net") #daum으로 이동

time.sleep(1) #wlwjdgks n초 만큼 쉰다.
browser.get_screenshot_as_file("daum_main2.png") #스크린샷찍기
browser.close()
print("완료") #끝났는지 확인

완료


# 대기 하기

## Explicit Wait(명시적 대기)

-   특정 조건/상황을 만족할 때 까지 대기
-   `WebDriverWait(browser, 초).until(expected_contition)` 구문 사용 -- expected_contition:내가 찾는 태그 넣기. -- '초'는 최대 시간
-   expected_condition 함수
    -   selenium.webdriver.support.expected_conditions 모듈에 정의된 함수 사용.
        -   https://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.support.expected_conditions

## Implicit Wait(암시적 대기)

-   현재 페이지에 없는 element나 elememt들이 loading 되기를 설정한 시간만큼 기다린다.
-   설정한 시간 이내에 elements가 loading되면 대기가 종료된다.
-   `implicit_wait(초)` 구문 사용 -- 페이지가 로딩되는 시간을 '초'까지 기다린다.
-   한번 설정하면 설정된 WebDriver가 close될때 까지 그 설정이 유지된다.
-   https://selenium-python.readthedocs.io/waits.html

### 예)

```python
browser.implicit_wait(5)
# 페이지 로딩(dom tree완성)될 때까지 최대 5초간 기다린다. (로딩이 되면 5초가 되지 않아도 대기를 끝낸다.)
```

<hr>

```python
from selenium.webdriver.support import expected_conditions as EC

...

try:
    # element가 반환될 때 까지 최대 10초 기다린다.
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "myDynamicElement"))
    )
finally:
    driver.quit()
```


# 무한 스크롤

-   javascript 에서 현재 페이지의 높이(scroll pane(scroll bar가 움직이는 공간)의 길이)
    -   `document.documentElement.scrollHeight`
-   scroll bar를 이동
    -   `window.scrollTo(가로 스크롤바를 이동시킬 위치:정수,
        세로 스코롤바를 이동시킬 위치:정수)
- 현재 페이지의 높이 height를 구해서 그것의 맨 밑으로 스크롤바를 내린다> 그러면 현재 페이지의 길이가 길어진다.> 이전의 페이지 길이와 현재 페이지의 길이가 같은지 확인> 다르다면 다시 스크롤을 맨 아래로 내려준다.> 또다시 이전의 페이지 길이와 현재 페이지 길이 같은지 확인> 이전 페이지 길이와 현재 페이지 길이가 같아질 때까지 진행> 같아지면 stop
- 셀레늄엔 이런 기능이 없어서 자바스크립트 코드로 진행한다.


In [4]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager
import time
import random

service = Service(executable_path=ChromeDriverManager().install())
browser = webdriver.Chrome(service=service)

browser.implicitly_wait(5) # 페이지 띄우고 기다리기
browser.maximize_window() # 전체화면

browser.get('https://pokemonkorea.co.kr/pokedex')
time.sleep(2)

scroll_pane_height = browser.execute_script(
    "return document.documentElement.scrollHeight" # 자바스크립트에서 현재 문서의 height를 반환(return)해주는 것.
    #그 반환된 값을 .execute_script() 메서드에 넣어서 또다시 반환값을 얻고 그걸 scroll_pane_height변수에 넣음
)

while True:
    browser.execute_script("window.scrollTo(0, document.documentElement.scrollHeight)") # 0은 좌우스크롤을 의미.
    # document.documentElement.scrollHeight 이건 아까 자바스크립트를 통해서 얻게된 height 값

    time.sleep(random.uniform(0.5, 1.5)) # 0.5 ~ 1.5의 random한 값 생성. 스크롤을 내린 뒤 0.5~1.5초 사이의 난수를 받아 그만큼 기다린다. 사람이 움직이는 것처럼 보이기 위함
    new_scroll_pane_height = browser.execute_script(
        "return document.documentElement.scrollHeight" # 이동한 후에 다시 길이를 새롭게 잰다.
    )

    if scroll_pane_height == new_scroll_pane_height: # 종국적으로 이동 전 페이지의 길이와 이동 후 페이지의 길이가 같아진 경우 그만한다.(break)
        break
    scroll_pane_height = new_scroll_pane_height

browser.close()

Exception ignored in: <function Service.__del__ at 0x00000156E265E700>
Traceback (most recent call last):
  File "C:\Users\Playdata\AppData\Local\miniconda3\Lib\site-packages\selenium\webdriver\common\service.py", line 201, in __del__
    self.stop()
  File "C:\Users\Playdata\AppData\Local\miniconda3\Lib\site-packages\selenium\webdriver\common\service.py", line 157, in stop
    self.send_remote_shutdown_command()
  File "C:\Users\Playdata\AppData\Local\miniconda3\Lib\site-packages\selenium\webdriver\common\service.py", line 142, in send_remote_shutdown_command
    if not self.is_connectable():
           ^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\Playdata\AppData\Local\miniconda3\Lib\site-packages\selenium\webdriver\common\service.py", line 131, in is_connectable
    return utils.is_connectable(self.port)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\Playdata\AppData\Local\miniconda3\Lib\site-packages\selenium\webdriver\common\utils.py", line 101, in is_connectable
    socket

InvalidSessionIdException: Message: invalid session id: session deleted as the browser has closed the connection
from disconnected: not connected to DevTools
  (Session info: chrome=135.0.7049.85)
Stacktrace:
	GetHandleVerifier [0x009E80E3+60707]
	GetHandleVerifier [0x009E8124+60772]
	(No symbol) [0x00810683]
	(No symbol) [0x007FFED0]
	(No symbol) [0x0081DD3F]
	(No symbol) [0x00883D7F]
	(No symbol) [0x0089E129]
	(No symbol) [0x0087CE46]
	(No symbol) [0x0084C5D3]
	(No symbol) [0x0084D424]
	GetHandleVerifier [0x00C2BBC3+2435075]
	GetHandleVerifier [0x00C27163+2416035]
	GetHandleVerifier [0x00C4350C+2531660]
	GetHandleVerifier [0x009FF1B5+155125]
	GetHandleVerifier [0x00A05B5D+182173]
	GetHandleVerifier [0x009EF9B8+91640]
	GetHandleVerifier [0x009EFB60+92064]
	GetHandleVerifier [0x009DA620+4704]
	BaseThreadInitThunk [0x75B75D49+25]
	RtlInitializeExceptionChain [0x7707CF0B+107]
	RtlGetAppContainerNamedObjectPath [0x7707CE91+561]
