In [2]:
!pip install selenium

Collecting selenium
  Downloading selenium-4.8.3-py3-none-any.whl (6.5 MB)
     ---------------------------------------- 6.5/6.5 MB 69.4 MB/s eta 0:00:00
Collecting trio~=0.17
  Downloading trio-0.22.0-py3-none-any.whl (384 kB)
     ------------------------------------- 384.9/384.9 kB 25.0 MB/s eta 0:00:00
Collecting trio-websocket~=0.9
  Downloading trio_websocket-0.10.2-py3-none-any.whl (17 kB)
Collecting outcome
  Downloading outcome-1.2.0-py2.py3-none-any.whl (9.7 kB)
Collecting async-generator>=1.9
  Downloading async_generator-1.10-py3-none-any.whl (18 kB)
Collecting exceptiongroup>=1.0.0rc9
  Downloading exceptiongroup-1.1.1-py3-none-any.whl (14 kB)
Collecting wsproto>=0.14
  Downloading wsproto-1.2.0-py3-none-any.whl (24 kB)
Collecting h11<1,>=0.9.0
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
     ---------------------------------------- 58.3/58.3 kB 3.0 MB/s eta 0:00:00
Installing collected packages: outcome, h11, exceptiongroup, async-generator, wsproto, trio, trio-webs

In [3]:
!pip install webdriver-manager

Collecting webdriver-manager
  Downloading webdriver_manager-3.8.6-py2.py3-none-any.whl (27 kB)
Collecting python-dotenv
  Downloading python_dotenv-1.0.0-py3-none-any.whl (19 kB)
Installing collected packages: python-dotenv, webdriver-manager
Successfully installed python-dotenv-1.0.0 webdriver-manager-3.8.6


In [5]:
import selenium
from selenium.webdriver.chrome.service import Service
from selenium import webdriver

In [6]:
service = Service(executable_path="chromedriver.exe")
browser = webdriver.Chrome(service=service)

In [7]:
browser.set_window_size(600, 500)

In [8]:
browser.get("https://www.naver.com")

In [9]:
browser.get_screenshot_as_file("naver_main.png")

True

In [10]:
browser.maximize_window()

In [11]:
browser.get_window_size()

{'width': 1936, 'height': 1056}

In [13]:
browser.execute_script("alert(100)")

In [14]:
alert = browser.switch_to.alert
alert.accept()

In [17]:
from selenium.webdriver.common.by import By
browser.find_element(By.ID, "query").send_keys("파이썬")

In [18]:
browser.find_element(By.ID, 'search_btn').click()

In [19]:
browser.close()

In [20]:
selenium.__version__

'4.8.3'

# [Selenium](https://www.selenium.dev/)

- **웹 브라우저 제어 도구**
    - 원래는 웹 어플리케이션 자동 테스트를 위한 목적으로 만들어진 프레임워크.
    - 웹브라우저를 프로그램을 이용해 제어할 수 있다.
- **requests 모듈의 한계**   
    - Javascript를 이용한 AJAX 기법의 비동기적 요청 처리 페이지 크롤링이 힘들다.
    - 로그인 후 요청이 가능한 페이지들에 대한 크롤링이 번거롭다.
    - Selenium을 활용하면 이 두가지 모두 쉽게 처리할 수 있다.
    
- **Selenium 단점** 
    - 속도가 느림
- **설치**
    - `conda install selenium`
    - `pip install selenium`
- [튜토리얼](https://selenium-python.readthedocs.io/)
> - 주의: selenium은 3에서 4버전으로 업그레이드 되면서 드라이버 설정과 element 조회 메서드등이 많이 바뀜.

In [None]:
# requests는 현재 페이지에 있는 것만 가져온다. (각 페이지 url이 다른 페이지들은 가져올 수 있다.)
# 다만, 동적으로 만들어지는 자바스크립트 페이지들은 못가져오니 selenium을 사용하는 것이다.

In [None]:
# ! pip install selenium --upgrade
# ! pip install webdriver-manager
import selenium
selenium.__version__

# Driver

- Driver 
    - 웹브라우저를 제어하는 프로그램으로 웹 브라우저별로 제공된다.
    - Selenium 패키지의 Driver객체를 이용해 제어하게 된다.
    
## 설치
1. **DriverManager 이용**
    - `pip install webdriver-manager` 

2. **Hard coding**
    1. 브라우져별로 드라이버를 다운로드 받는다.
        - https://www.selenium.dev/documentation/webdriver/getting_started/install_drivers/#quick-reference
    2. Local 컴퓨터에 설치된 크롬브라우져 버전에 맞는 드라이버 선택


### DriverManager를 이용해 WebDriver 생성

In [None]:
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium import webdriver

In [None]:
# DriverManager를 통해 다운로드 후 그 저장 경로 받아오기.
driver = ChromeDriverManager().install()
print(type(driver))
driver

### 다운 받은 Driver이용해 WebDriver생성

In [None]:
# 다운받고 그 경로를 문자열로 저장.
driver = "chromedriver"

In [None]:
service = Service(executable_path=driver) # driver 경로를 넣어서 생성
browser = webdriver.Chrome(service=service) # sevice를 넣어서 Web Browser 실행.

In [None]:
# 특정 url로 이동
browser.get("https://www.naver.com")

In [None]:
browser.close() # 웹브라우저 끄기. quit 사용해도 된다고 함.

## WebDriver 주요 속성/메소드

- **page_source** : 현재 페이지의 html 소스를 반환
    - page_source로 html을 받아서 BeautifulSoup으로 크롤링할 원소를 찾을 수 있다.
- **get_screenshot_as_file(파일경로)**
    - 현재 웹브라우저 화면을 지정한 캡처해서 지정한 파일 경로에 저장한다.
- **set_window_size(width, height)**
    - 웹브라우저 윈도우 크기 조정
- **maximize_window()**
    - 웹브라우저 화면 최대 크기로 만들기.
- **get_window_size()**
    - 웹브라우저 윈도우 크기 조회. (width, height)
- **execute_script("자바스크립트코드")**
    - 문자열로 전달한 **javascript 코드**를 실행시킨다.
- **quit()**, **close()**
    - 웹브라우저를 종료한다.
    

## Page의 Element 조회 메소드
- BeautifulSoup을 이용하지 않고 셀레늄 자체 parser를 이용할 수 있다.
- **find_element()**: 조건을 만족하는 첫번째 요소를 반환한다.
    - 매개변수
        - **by**: 검색방식
            - **By.ID**
            - **By.CLASS_NAME**
            - **By.TAG_NAME**
            - **By.CSS_SELECTOR**
            - **By.XPATH**
            - **By.LINK_TEXT**
            - **By.PARTIAL_LINK_TEXT**
        - **value**: str - 검색조건
    - 반환타입: **WebElement**
- **find_elements()**: 조건을 만족하는 모든 요소를 찾는다.
    - 매개변수: find_element()와 동일
    - 반환타입
        - **list of WebElement**       

### WebElement (조회결과) 메소드 / 속성
- 메소드
    - **get_attribute('속성명')**: 태그의 속성값 조회
    - **send_keys("문자열")**: 입력폼에 문자열 값을 입력.
    - **click()**: element를 클릭
    - **submit()**: element가 Form인 경우 폼 전송
    - **clear()**: element가 입력폼인 경우 텍스트를 지운다.
    - 위 조회 메소드들 : 하위의 elements들 조회
- 속성
    - **text**: 태그내의 텍스트
    - **tag_name**: 태그이름 

In [None]:
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

In [None]:
# 브라우저 실행
# service = Service(executable_path="chromedriver")
service = Service(executable_path=ChromeDriverManager().install())
browser = webdriver.Chrome(service=service)

# naver로 이동
browser.get('https://naver.com')

In [None]:
# html 페이지 조회 -> BeautifulSoup을 이용해 크롤링할 경우.
html = browser.page_source
print(html[:500])
print(type(html))

In [None]:
# html 페이지 조회 -> BeautifulSoup을 이용해 크롤링할 경우.
html = browser.page_source
print(html[:500])
print(type(html))

In [None]:
# 스크린 샷
# png => bytes로 저장.
browser.get_screenshot_as_file("naver_main_page.png")

In [None]:
# elements를 조회
query_textfield = browser.find_element(By.ID, "query") # element 1개를 찾음.
print(type(query_textfield))
print(query_textfield.tag_name, query_textfield.get_attribute('id'))
# keyborad 입력
query_textfield.send_keys("날씨") # 입력한 값을 치라는 거임.
query_textfield.send_keys(Keys.ENTER)

In [None]:
# 검색결과 페이지로 이동후 검색 키워드 입력 element 조회
query_textfield2 = browser.find_element(By.ID, "nx_query")
query_textfield2.clear() # 입력되어있는 텍스트 지우기.

In [None]:
# 새로운 키워드로 검색
query_textfield2.send_keys("미세먼지")

In [None]:
query_btn = browser.find_element(By.CLASS_NAME, 'bt_search') # 버튼을 찾은거임
query_btn.click()

In [None]:
# 웹브라우저 종료
# browser.close()
browser.quit()

## TODO: 구글 검색
1. https://www.google.co.kr 페이지로 이동
2. 파이썬을 검색한다.
3. 검색결과 title들을 출력한다.

In [None]:
# 웹 브라우저 실행
service = Service(executable_path=ChromeDriverManager().install()) # 서비스를 만들기.
browser = webdriver.Chrome(service=service) # 크롬을 실행시키면서 서비스를 넣어줌.

In [None]:
# 구글 페이지로 이동
browser.get("https://www.google.co.kr") #

In [None]:
# element 조회
# query_textfield3 = browser.find_element(By.CLASS_NAME, 'gLFyf') 이거도 되는데,
# <태그 name = "XXXX"> 입력 양식 태그의 name 속성값으로 찾기 <-- 이런 방식도 있다.
query_tf = browser.find_element(By.NAME, "q")
# 파이썬 검색
# query_textfield3.send_keys("파이썬")
query_tf.send_keys("파이썬")

In [None]:
# 검색 버튼 누르기
# query_textfield3.send_keys(Keys.ENTER)
query_tf.send_keys(Keys.ENTER)

In [None]:
# 검색결과 title들을 출력하기.
# 제목 리스트
# TAGNAME = H3
# class = .LC20lb.MBeuO.DKV0Md

# query_textfield4 = browser.find_elements(By.TAG_NAME, "h3")
# for i in query_textfield4:
#     print(i.text)

title_list = browser.find_elements(By.TAG_NAME, "h3")
print(len(title_list))

In [None]:
title_list2 = browser.find_elements(By.CSS_SELECTOR, '.LC20lb.MBeuO.DKV0Md')
# class를 여러개 지정해줘서 .으로 구분한거임. 보기엔 ' '으로 나뉘어 보임.
print(len(title_list2))

In [None]:
for title_tag in title_list2:
    # 태그 사이의 값(text-content)를 조회
    if title_tag.text == '':
        continue # 빈칸이면 무시해라. 라는 거임.
    print(title_tag.text)
    print("="*50)

# for title_tag in title_list2:
#     if title_tag.text == '':
#         continue
#     #태그사이이 값(text-content) 조회
#     print(title_tag.text)
#     print("-"*60)
    
# result = browser.find_elements(By.CLASS_NAME,'LC20lb.MBeuO.DKV0Md')
# title_list = [x.text for x in result]
# for x in title_list:
#     if x=='':
#         continue
#     else:
#         print(x)

In [None]:
# 브라우저 종료
browser.close()

## 브라우저의 headless 모드를 이용.
- Headless 브라우저 
    - 브라우저의 창을 띄우지 않고 실제 브라우저와 동일하게 동작하도록 하는 방식
    - CLI 기반의 OS (리눅스 서버)를 지원하기 위한 브라우저
    - 크롬은 버전 60부터 headless 모드 지원
- selenium에서 headless 모드
    - webdriver options에 headless 설정

In [None]:
from selenium import webdriver
import time

option = webdriver.ChromeOptions() # 옵션값을 등록해주는거임.
option.add_argument("--headless") # headless모드 등록

service = Service(executable_path='chromedriver') # 크롬드라이버가 있는 장소를 넣는거임 excutable_path가 ㅇㅇ
browser = webdriver.Chrome(service=service, options=option)

browser.maximize_window()
print(browser.get_window_size())

browser.get("https://www.daum.net")
time.sleep(1)
browser.get_screenshot_as_file("daum_mainpage.png")
browser.close()

# 대기 하기

## Explicit Wait
- 특정 조건/상황을 만족할 때 까지 대기
- `WebDriverWait(driver, 초).until(expected_contition)` 구문 사용
- expected_condition 함수
     - selenium.webdriver.support.expected_conditions 모듈에 정의된 함수 사용.
         - https://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.support.expected_conditions
     
## Implicit Wait
- 현재 페이지에 없는 element나 elememt들이 loading 되기를 설정한 시간만큼 기다린다. 
- 설정한 시간 이내에 elements가 loading되면 대기가 종료된다.
- `implicit_wait(초)` 구문 사용
- 한번 설정하면 설정된 WebDriver가 close될때 까지 그 설정이 유지된다.
- https://selenium-python.readthedocs.io/waits.html

### 예)
```python
driver.implicitly_wait(5) 
# 페이지 로딩(dom tree완성)될 때까지 최대 5초간 기다린다. (로딩이 되면 5초가 되지 않아도 대기를 끝낸다.)
```
<hr>

```python
from selenium.webdriver.support import expected_conditions as EC

...

try:
    # element가 반환될 때 까지 최대 10초 기다린다.
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "myDynamicElement"))
    )
finally:
    driver.quit()
```

# 무한 스크롤 구현
```javascript
// scroll의 길이를 확인하는 코드
document.documentElement.scrollHeight
// scroll 이동시키는 코드
window.scrollTo(가로 스크롤 움직일 위치 : 정수, 세로 스크롤 움직일 위치 : 정수)
```

In [None]:
import time
import selenium
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
# from selenium.webdriver.chrome.webdriver import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

from webdriver_manager.chrome import ChromeDriverManager

# headless 모드 설정
options = webdriver.ChromeOptions()
options.add_argument("--headless")
service = Service(executable_path=ChromeDriverManager().install())

# webdriver 객체 생성
browser = webdriver.Chrome(service=service)
# browser = webdriver.Chrome(service=service, options=options) # headless

# 유튜브로 이동
browser.maximize_window()
browser.get("https://youtube.com")


time.sleep(3)
#execute_script("자바스크립트 코드") => 자바스크립트 코드를 브라우저에서 실행시킨다.
# 현재 scroll의 길이를 조회
scroll_pane_height = browser.execute_script("return document.documentElement.scrollHeight") 
while True: # 더이상 scroll이 움직이지 않을 때 까지 스크롤을 내린다.
    #스크롤 내리기
    browser.execute_script("window.scrollTo(0, document.documentElement.scrollHeight)") # 스크롤이 내려갔다는 이벤트를 발생. -> 서버에 요청
    # time.sleep(1)
    new_scroll_height = browser.execute_script("return document.documentElement.scrollHeight")
    # 이전 scrollpane의 길이와 이동후 scrollpane 길이를 비교
    if scroll_pane_height == new_scroll_height:
        break
    
    scroll_pane_height = new_scroll_height # 바꿔야함. 그래야 다음꺼도 되니까... 루틴같은 개념인듯.

# 크롤링 작업.

browser.close()

In [None]:
browser.close()

In [None]:
# execute_script("자바스크립트 코드") => 자바스크립트 코드를 브라우저에서 실행시킨다.
browser.execute_script("window.scrollTo(0,10000)")
time.sleep(1)
scroll_pane_height = browser.execute_script("return document.documentElement.scrollHeight")
print(scroll_pane_height)
# 이건 이벤트가 한번 생기기에 만까지 가지않고 7000에서 멈추는거고. 이벤트를 여러번 생기게해서 딱 그 스크롤까지 가고싶다면 위에처럼  while문을 써서 해야한다.