# [Selenium](https://www.selenium.dev/)

- **웹 브라우저 제어 도구**
    - 원래는 웹 어플리케이션 자동 테스트를 위한 목적으로 만들어진 프레임워크.
    - 웹브라우저를 프로그램을 이용해 제어할 수 있다.
- **requests 모듈의 한계**   
    - Javascript를 이용한 AJAX 기법의 비동기적 요청 처리 페이지 크롤링이 힘들다.
    - 로그인 후 요청이 가능한 페이지들에 대한 크롤링이 번거롭다.
    - Selenium을 활용하면 이 두가지 모두 쉽게 처리할 수 있다.
    
- **Selenium 단점** 
    - 속도가 느림
- **설치**
    - `conda install selenium`
    - `pip install selenium`
- [튜토리얼](https://selenium-python.readthedocs.io/)
> - 주의: selenium은 3에서 4버전으로 업그레이드 되면서 드라이버 설정과 element 조회 메서드등이 많이 바뀜.

# Driver

- Driver 
    - 웹브라우저를 제어하는 프로그램으로 웹 브라우저별로 제공된다.
    - Selenium 패키지의 Driver객체를 이용해 제어하게 된다.
    
## 설치
1. **DriverManager 이용**
    - `pip install webdriver-manager` 

2. **Hard coding**
    1. 브라우져별로 드라이버를 다운로드 받는다.
        - https://www.selenium.dev/documentation/webdriver/getting_started/install_drivers/#quick-reference
    2. Local 컴퓨터에 설치된 크롬브라우져 버전에 맞는 드라이버 선택


### DriverManager를 이용해 WebDriver 생성

### 다운 받은 Driver이용해 WebDriver생성

In [5]:
# from webdriver_manager.chrome import ChromeDriverManager
from webdriver_manager.microsoft import EdgeChromiumDriverManager
# from selenium.webdriver.chrome.service import Service
from selenium.webdriver.edge.service import Service
from selenium import webdriver

# driver를 다운로드 받기
# driver = ChromeDriverManager()
driver = EdgeChromiumDriverManager().install() # 다운받은 경로를 반환
print(driver)

C:\Users\SEONGMIN\.wdm\drivers\edgedriver\win64\123.0.2420.97\msedgedriver.exe


In [21]:
service = Service(executable_path=driver) # driver 경로를 넣어서 생성
# browser = webdriver.Chrome(service=service)
browser = webdriver.Edge(service=service)
print(type(browser)) # 웹브라우저(크롬/엣지)을 관리하는 객체

<class 'selenium.webdriver.edge.webdriver.WebDriver'>


In [22]:
browser.get("https://www.naver.com")
# browser.get("https://www.daum.net")

In [23]:
browser.close() # 끄기

## WebDriver 주요 속성/메소드

- **page_source** : 현재 페이지의 html 소스를 반환
    - page_source로 html을 받아서 BeautifulSoup으로 크롤링할 원소를 찾을 수 있다.
- **get_screenshot_as_file(파일경로)**
    - 현재 웹브라우저 화면을 지정한 캡처해서 지정한 파일 경로에 저장한다.
- **set_window_size(width, height)**
    - 웹브라우저 윈도우 크기 조정
- **maximize_window()**
    - 웹브라우저 화면 최대 크기로 만들기.
- **get_window_size()**
    - 웹브라우저 윈도우 크기 조회. (width, height)
- **execute_script("자바스크립트코드")**
    - 문자열로 전달한 **javascript 코드**를 실행시킨다.
- **quit()**, **close()**
    - 웹브라우저를 종료한다.
    

## Page의 Element 조회 메소드
- BeautifulSoup을 이용하지 않고 셀레늄 자체 parser를 이용할 수 있다.
- **find_element()**: 조건을 만족하는 첫번째 요소를 반환한다.
    - 매개변수
        - **by**: 검색방식
            - **By.ID**
            - **By.CLASS_NAME**
            - **By.TAG_NAME**
            - **By.CSS_SELECTOR**
            - **By.XPATH**
            - **By.LINK_TEXT**
            - **By.PARTIAL_LINK_TEXT**
        - **value**: str - 검색조건
    - 반환타입: **WebElement**
- **find_elements()**: 조건을 만족하는 모든 요소를 찾는다.
    - 매개변수: find_element()와 동일
    - 반환타입
        - **list of WebElement**       

### WebElement (조회결과) 메소드 / 속성
- 메소드
    - **get_attribute('속성명')**: 태그의 속성값 조회
    - **send_keys("문자열")**: 입력폼에 문자열 값을 입력.
    - **click()**: element를 클릭
    - **submit()**: element가 Form인 경우 폼 전송
    - **clear()**: element가 입력폼인 경우 텍스트를 지운다.
    - 위 조회 메소드들 : 하위의 elements들 조회
- 속성
    - **text**: 태그내의 텍스트
    - **tag_name**: 태그이름 

In [2]:
from webdriver_manager.microsoft import EdgeChromiumDriverManager
from selenium import webdriver
from selenium.webdriver.edge.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

ModuleNotFoundError: No module named 'webdriver_manager'

In [25]:
# web browser(크롬/엣지)을 실행
service = Service(executable_path=driver)
browser = webdriver.Edge(service=service)

# url로 이동 (naver)
browser.get("https://www.naver.com")

In [27]:
# html 소스코드를 조회 -> BeautifulSoup 이용해서 데이터 추출
html = browser.page_source
print(html[:1000])

<html lang="ko" class="fzoom" data-dark="false"><head><script async="" src="https://ntm.pstatic.net/ex/nlog.js"></script><script async="" src="https://ntm.pstatic.net/scripts/ntm_27291e35193e.js"></script><script async="" type="text/javascript" src="https://ssl.pstatic.net/tveta/libs/ndpsdk/prod/ndp-core.js"></script> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"> <meta name="robots" content="index,nofollow"> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"> <meta name="twitter:card" content="

In [50]:
# 화면 크기를 최대화
browser.maximize_window()

In [37]:
# 화면 캡쳐
browser.get_screenshot_as_file("naver_main.png")

True

In [45]:
browser.set_window_size(1000, 500)

In [49]:
browser.get_window_size()

{'width': 803, 'height': 469}

In [105]:
textfield = browser.find_element(By.ID, "query")
print(type(textfield))
print(textfield.tag_name, textfield.get_attribute("name"))

<class 'selenium.webdriver.remote.webelement.WebElement'>
input query


In [106]:
# 키보드 입력 -> 글자들을 입력
textfield.clear()
textfield.send_keys("날씨")

In [116]:
textfield.send_keys(Keys.ENTER)

In [118]:
textfield2 = browser.find_element(By.ID, "nx_query")
textfield2.clear()
textfield2.send_keys("미세먼지")

In [126]:
submit_btn = browser.find_element(By.CLASS_NAME, "bt_search")
print(submit_btn.tag_name)
submit_btn.click()

button


In [127]:
browser.close()

## TODO: 구글 검색
1. https://www.google.co.kr 페이지로 이동
2. 파이썬을 검색한다.
3. 검색결과 title들을 출력한다.

In [6]:
from webdriver_manager.microsoft import EdgeChromiumDriverManager
from selenium import webdriver
from selenium.webdriver.edge.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

In [303]:
option = webdriver.EdgeOptions()
option.add_argument("--headless")

driver = EdgeChromiumDriverManager().install()
service = Service(executable_path=driver)
browser = webdriver.Edge(service=service) # 브라우저 띄우기
# 구글 이동
browser.get("https://www.google.co.kr/")
# 키워드 입력필드를 조회
keyword_tf = browser.find_element(By.ID, "APjFqb") #(By.NAME, 'q')
# 검색 키워드 입력
keyword_tf.send_keys("python")
keyword_tf.send_keys(Keys.ENTER)

# import time
# time.sleep(5)
# title_list = browser.find_elements(By.CSS_SELECTOR, ".LC20lb.MBeuO.DKV0Md")

# element를 가져올 수 있을 때까지 10초까지 대기
title_list = WebDriverWait(browser, 10).until(
    EC.presence_of_all_elements_located((By.CSS_SELECTOR, ".LC20lb.MBeuO.DKV0Md"))
)

## EC.presence_of_all_elements_located = find_elements()
## EC.presence_of_element_located = find_element()

print(len(title_list))
for tag in title_list:
    print(tag.text)
browser.close()

Welcome to Python.org
Python - 파이썬
1. 파이썬 시작하기 - 왕초보를 위한 Python
Python Tutorial
파이썬 - 위키백과, 우리 모두의 백과사전
Python란 무엇인가요? - Python 언어 설명
Python (programming language)
파이썬 코딩 무료 강의 (기본편) - 6시간 뒤면 여러분도 개발자가 ...


## 브라우저의 headless 모드를 이용.
- Headless 브라우저 
    - 브라우저의 창을 띄우지 않고 실제 브라우저와 동일하게 동작하도록 하는 방식
    - CLI 기반의 OS (리눅스 서버)를 지원하기 위한 브라우저
    - 크롬은 버전 60부터 headless 모드 지원
- selenium에서 headless 모드
    - webdriver options에 headless 설정

In [7]:
# option = webdriver.ChromeOptions()
option = webdriver.EdgeOptions()
option.add_argument("--headless")

service = Service(executable_path=driver)
browser = webdriver.Edge(service=service, options=option)

browser.get("https://www.naver.com")
browser.get_screenshot_as_file("page_image.png")
browser.close()

# 대기 하기

## Explicit Wait
- 특정 조건/상황을 만족할 때 까지 대기
- `WebDriverWait(driver, 초).until(expected_contition)` 구문 사용
- expected_condition 함수
     - selenium.webdriver.support.expected_conditions 모듈에 정의된 함수 사용.
         - https://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.support.expected_conditions
     
## Implicit Wait
- 현재 페이지에 없는 element나 elememt들이 loading 되기를 설정한 시간만큼 기다린다. 
- 설정한 시간 이내에 elements가 loading되면 대기가 종료된다.
- `implicit_wait(초)` 구문 사용
- 한번 설정하면 설정된 WebDriver가 close될때 까지 그 설정이 유지된다.
- https://selenium-python.readthedocs.io/waits.html

### 예)
```python
driver.implicitly_wait(5) 
# 페이지 로딩(dom tree완성)될 때까지 최대 5초간 기다린다. (로딩이 되면 5초가 되지 않아도 대기를 끝낸다.)
```
<hr>

```python
from selenium.webdriver.support import expected_conditions as EC

...

try:
    # element가 반환될 때 까지 최대 10초 기다린다.
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "myDynamicElement"))
    )
finally:
    driver.quit()
```

# 무한스크롤

In [15]:
url = "https://www.youtube.com/results?search_query=music"

driver = EdgeChromiumDriverManager().install()
service = Service(executable_path=driver)
browser = webdriver.Edge(service=service)

In [16]:
import time

browser.maximize_window()
browser.get(url)
# time.sleep(3)
# browser.execute_script("자바스크립트 코드") -> 자바스크립트 코드가 브라우저에서 실행된다.

# document.documentElement.scrollHeight 세로 스크롤 길이 (페이지의 height 길이)
scroll_pane_height = browser.execute_script("return document.documentElement.scrollHeight")
while True:
    # scroll 이동 - window.scrollTo(가로스크롤 이동할 위치, 세로스크롤 이동할 위치)
    browser.execute_script("window.scrollTo(0, document.documentElement.scrollHeight)")
    time.sleep(1)
    # 이동 후 height 길이 조회
    new_scroll_height = browser.execute_script("return document.documentElement.scrollHeight")
    if scroll_pane_height == new_scroll_height:
        break # 스크롤 이동을 멈춘다.
    scroll_pane_height = new_scroll_height

# 페이지에서 원하는 항목 추출
browser.close()

# 트립어드바이저 크롤링

In [38]:
from bs4 import BeautifulSoup

# 1페이지 리뷰 조회
review_list = []

url = "https://www.tripadvisor.co.kr/Restaurant_Review-g294197-d3200324-Reviews-or50-Jungsik-Seoul.html"

service = Service(executable_path=EdgeChromiumDriverManager().install())
browser = webdriver.Edge(service=service)

browser.get(url)

more_btn = WebDriverWait(browser, 10).until(
    EC.presence_of_element_located((By.CSS_SELECTOR, ".taLnk.ulBlueLinks"))
)
more_btn.click()

time.sleep(1) # 내용이 나오기까지 1초 정도 대기
# html -> str 조회
html_txt = browser.page_source
soup = BeautifulSoup(html_txt, 'lxml')

tag_list = soup.select('.partial_entry')
for tag in tag_list:
    review_list.append(tag.get_text().strip())

browser.close()

In [78]:
# 전체 리뷰 조회
review_list = []

url = "https://www.tripadvisor.co.kr/Restaurant_Review-g294197-d3200324-Reviews-or50-Jungsik-Seoul.html"

service = Service(executable_path=EdgeChromiumDriverManager().install())
browser = webdriver.Edge(service=service)
browser.get(url)

# 반복문 안에서 한페이지 리뷰 조회하는 코드를 실행
# 반복문은 '다음' 버튼을 클릭할 수 없을 때까지 반복
while True:
    more_btn = WebDriverWait(browser, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, ".taLnk.ulBlueLinks"))
    )
    more_btn.click()
    
    time.sleep(1) # 내용이 나오기까지 1초 정도 대기
    # html -> str 조회
    html_txt = browser.page_source
    soup = BeautifulSoup(html_txt, 'lxml')
    
    tag_list = soup.select('.partial_entry')
    for tag in tag_list:
        review_list.append(tag.get_text().strip())

    # 다음 버튼 클릭
    try:
        next_btn = WebDriverWait(browser, 5).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "#taplc_location_reviews_list_resp_rr_resp_0 > div > div:nth-child(12) > div > div > a.nav.next.ui_button.primary"))
        )
        next_btn.click()
    except:
        # selector의 다음 버튼이 없다.
        break
    time.sleep(1)

print("종료")

종료


In [80]:
browser.close()
len(review_list)

169