# 動態網頁爬蟲 - 使用 Selenium

* 了解 Selenium 用於動態網頁爬蟲的原理
* 能夠使用 Selenium 撰寫動態網頁爬蟲

## 使用 Requests 爬蟲

#### import requests
from bs4 import BeautifulSoup

r = requests.get("https://hahow.in/courses")
d = BeautifulSoup(r.text, 'lxml')

d.body.text
# 只會爬蟲 JavaScript 語法，沒有網頁內容中的資料

## 動態模擬瀏覽器行為

In [1]:
from selenium import webdriver # 這邊設定會去讀取我們放在相同目錄下的 driver 檔案
from selenium.webdriver.support.ui import Select
from bs4 import BeautifulSoup

# chromedriver
 1.  安裝位置在  /Users/shuwn/opt/anaconda3/bin/chromedriver

In [2]:
browser = webdriver.Chrome(executable_path='chromedriver')
browser.get("https://hahow.in/courses")

In [3]:
# # 取得資料（這裡的資料因為網頁還沒讀取完畢，就被關掉了，所以資料並沒有下載完成）
# html_source = browser.page_source
# soup = BeautifulSoup(html_source, 'html.parser')
# print(soup)

In [4]:
# 解法一、使用 sleep
# 設置等待時間可以確保資料讀取出來，但是一遇到讀取時間超過設定值就會出錯
# from time import sleep
# sleep(3) # 強制等待3秒再執行下一步

In [5]:
# 解法二、隱式等待
# 隱式等待是等頁面加載，不是等元素
# 隱性等待即設置最長等待時間，如果頁面加載完成或者等待時間到才執行下一步，一般只要在初始化時設置一次即可。
# 隱形等待是設置了一個最長等待時間，如果在規定時間內網頁加載完成，則執行下一步，否則一直等到時間截止，然後執行下一步。
# 注意這裡有一個弊端，那就是程序會一直等待整個頁面加載完成，也就是一般情況下你看到瀏覽器標籤欄那個小圈不再轉，才會執行下一步
# 但有時候頁面想要的元素早就在加載完成了，但是因為個別js之類的東西特別慢，仍得等到頁面全部完成才能執行下一步，我想等我要的元素出來之後就下一步怎麼辦？
# 這就要看selenium提供的另一種等待方式——顯性等待wait了
# 另外這也有一個問題，有時候會誤判為提早讀取完成就會直接進入下一步
# from selenium import webdriver
# browser.implicitly_wait(3)  # 隱性等待，最長等3秒，單位:秒

In [6]:
# 解法三、顯式等待
# 一個顯式等待是你定義的一段代碼，用於等待某個條件發生然後再繼續執行後續代碼。顯式等待是等元素加載

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
cheese = browser.find_element_by_class_name('list-container')
# try:
#     element = WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.ID, "meta-description")))
# finally:
#     browser.quit()

<selenium.webdriver.remote.webelement.WebElement (session="39ce185fcc382a97c2a9983ced38fb75", element="cefc7fa0-2a4e-4726-b16a-5c0d53b89266")>

# 顯示解法定位方法
https://selenium-python-zh.readthedocs.io/en/latest/locating-elements.html#class-name

In [7]:

# 取得資料
html_source = browser.page_source
soup = BeautifulSoup(html_source, 'html.parser')
browser.close()
soup.find('h4', class_='title').text
# 改用 selenium 就可以正常取得

'職場必備的 Excel 關鍵技法－進階'

## 作業目標

* 1. 請試著利用 Selenium 開啟 Google 網頁，不要關掉。
* 2. 請利用剛剛開啟的瀏覽器，切換到 這個網址 網頁，取得內文。（URL: https://www.cupoy.com/clubnews/ai_tw/0000016E62FB84E4000000026375706F795F72656C656173654B5741535354434C5542/0000016F69B5DB8C000000266375706F795F72656C656173654B5741535354434C55424E455753 ）
* 3. 將瀏覽器關閉
