# Selenium

- 用來操控瀏覽器的軟體
- 主要用途是網站測試
- 次要用途是可以應用於網站爬蟲
- 因為是模擬操作瀏覽器，速度上會比靜態網頁慢

前置設定

- 更新 Chrome 瀏覽器
- 下載 [Chrome Driver](https://chromedriver.storage.googleapis.com/index.html?path=74.0.3729.6/)

- 建立一個虛擬環境

```bash
conda create -n selenium python=3
```

- 啟動虛擬環境

```bash
conda activate selenium
```

- 安裝一些要用到的套件

```bash
pip install beautifulsoup4 pyquery selenium ipykernel
```

- 建立 selenium kernel

```bash
python -m ipykernel install --user --name selenium --display-name "selenium"
```

- 測試 selenium 是否可以正常作用

```python
from selenium import webdriver

chrome_driver_path = "C:/Users/admin/Downloads/chromedriver.exe"
driver = webdriver.Chrome(executable_path=chrome_driver_path)
driver.get("https://www.imdb.com")
```

- 常用的 `driver` 方法：
    - `.get()`
    - `.send_keys()`
    - `.find_element(s)_by_css_selector()`
    - `.click()`
    - `.forward()`
    - `.back()`
    - `.close()`
    - ...etc.

In [None]:
from selenium import webdriver

# 透過指定的瀏覽器 driver 打開 Chrome
chrome_driver_path = "C:/Users/admin/Downloads/chromedriver.exe"
driver = webdriver.Chrome(executable_path=chrome_driver_path)
#透過瀏覽器取得網頁
driver.get("https://www.imdb.com") 

## 瀏覽器視窗最大化
- 瀏覽器大小會影響網頁結構，且網站根據使用者裝置的大小會有不同的呈現
- 一開始打開瀏覽器的時候並非視窗最大化(建議一般使用情況都先將瀏覽器視窗最大化)

In [None]:
from selenium import webdriver
#透過指定的瀏覽器driver打開Chrome
driver = webdriver.Chrome('C:/selenium_driver_chrome/chromedriver')
#將瀏覽器視窗最大化
driver.maximize_window()

## Selenium定位tag - Beautifulsoup
- 大致上與 Beautifulsoup 定位 tag 的方法相似  
- find_element_by_id()  
- find_element_by_tag_name()  
- find_element_by_class_name()  
``
#e.g 取得id='first'的tag
id_tag = diver.find_element_by_id('first')
print(id_tag)
``

## Selenium定位tag - XPath
- Selenium 還可透過類似路徑寫法的 XPath 定位 tag
- 尋找XPath的方法
   - [Chrome extension: XPath helper](https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl?utm_source=chrome-app-launcher-info-dialog)
   - 透過開發者工具取得XPath。從開發者工具中按Copy XPath複製XPath

### XPath範例
```
#尋找一個html>body>div[2]>div[0]  
driver.find_element_by_xpath('/html/body/div[2]/div[0]')

#尋找網頁中所有的p tag  
from selenium.webdriver.common.by import By  
p = driver.find_elements(By.XPATH, '//p')

#尋找任何一個id = 'first'的tag  
p = driver.find_elements(By.XPATH, '//*[@id="first"]')  

#尋找網頁中id = 'second'或'third'的h2 tag  
p = driver.find_elements(By.XPATH, '//h2[@id="second"]|//h2[@id="third"]')
```