# 動態網頁爬蟲 - 使用 Selenium

* 了解 Selenium 用於動態網頁爬蟲的原理
* 能夠使用 Selenium 撰寫動態網頁爬蟲

## 作業目標

* 1. 根據範例使用 selenuim 取出 Hahow 網站中所有課程的資料，並用一個適合的資料結構儲存（Hint: 將所有資料存在一個變數當中取出）
* 2. 剛剛的做法只能取出第一頁，試著取出所有頁面的資料。



### 1. 根據範例使用 selenuim 取出 Hahow 網站中所有課程的資料，並用一個適合的資料結構儲存（Hint: 將所有資料存在一個變數當中取出）

In [1]:
from selenium import webdriver
from selenium.webdriver.support.ui import Select
from bs4 import BeautifulSoup

browser = webdriver.Chrome(executable_path='../other/chromedriver')
browser.get("https://hahow.in/courses")

In [2]:
# 取得資料（等瀏覽器資料出現後才執行）
html_source = browser.page_source
html_source

# 取得資料
html_source = browser.page_source
soup = BeautifulSoup(html_source, 'html.parser')

In [3]:
courses = []
    
for d in soup.find_all('h4', class_='title'):
    courses.append(d.text)

print(courses)

['在家CEO！在家打造量身訂做的個人事業', '王永福教學的技術：翻轉課堂的職業講師祕訣', '職場英文即戰力 :  一步步打造最佳自學途徑', 'IG 風格策展人：創造你的光影烏托邦', '打造動態報表！雲端 Python 爬蟲資料流', '職場溝通管理學：打造團隊好關係與高績效', '深入淺出：專案管理方法-敏捷式開發 Scrum ', '超級業務員的絕學：輕鬆說服任何人的銷售課', '為什麼你的影音內容，OTT 平台不買單?', '遠端工作必備：跨國英語 con-call 實戰力', '產品 x 創新：從需求洞察到產品策略', '用影像收藏人生：學會拍片，認識自己', '大小數據如何協助影視創作', '出門好狗兒：抓住狗狗注意力，提升信任關係', '韓式和菓子自己做：一次學會 12 種造型', '微甜的仲夏氣息：雪莉療癒水彩時光', '從零到專業-成為影片製作師的教學手冊', '不小心就學會！用 UI 設計方法製作網站', '個人品牌變現力：開始打造你的多元收入！', '喬老師模型課：出神入化模型技法｜鋼普拉篇', '職場必備的 Excel 關鍵技法－進階', '用「英文邏輯」溝通說服！職場、生活都適用', '從零開始，Unity3D 射擊遊戲製作真簡單', '手繪珠寶設計入門：完成你的第一件珠寶設計']


In [4]:
browser.close()

### 2. 剛剛的做法只能取出第一頁，試著取出所有頁面的資料。

>[WebDriver API --> Locate elements By](https://selenium-python.readthedocs.io/api.html?highlight=#module-selenium.webdriver.common.by)

In [30]:
from selenium import webdriver
from selenium.webdriver.support.ui import Select
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup

browser = webdriver.Chrome(executable_path='../other/chromedriver')
browser.get("https://hahow.in/courses")

In [31]:
# 取得資料（等瀏覽器資料出現後才執行）=============> 加入判斷頁面是否已載入機制
try:
    element_present = EC.presence_of_element_located((By.CLASS_NAME, 'briefs-container'))
    WebDriverWait(browser, timeout).until(element_present)
except TimeoutException:
    print("Timed out waiting for page to load")
    
html_source = browser.page_source
soup = BeautifulSoup(html_source, 'html.parser')

In [32]:
# 1. 先取出全部有幾頁
    
totalPage = int(soup.find(class_='pagination-container').find_all('li')[-2].text)
totalPage

21

In [33]:
# 2. 每頁都取出資料放入 courses ===> 加入判斷頁面是否已載入機制

courses = []
timeout = 5
for i in range(1, totalPage):
    browser.get("https://hahow.in/courses?page="+str(i))
    try:
        element_present = EC.presence_of_element_located((By.CLASS_NAME, 'briefs-container'))
        WebDriverWait(browser, timeout).until(element_present)
    except TimeoutException:
        print("Timed out waiting for page to load")
    
    for d in soup.find_all('h4', class_='title'):
        courses.append(d.text)

browser.close()

In [34]:
# 3. done!

print(courses)

['在家CEO！在家打造量身訂做的個人事業', '王永福教學的技術：翻轉課堂的職業講師祕訣', '職場英文即戰力 :  一步步打造最佳自學途徑', 'IG 風格策展人：創造你的光影烏托邦', '打造動態報表！雲端 Python 爬蟲資料流', '職場溝通管理學：打造團隊好關係與高績效', '深入淺出：專案管理方法-敏捷式開發 Scrum ', '超級業務員的絕學：輕鬆說服任何人的銷售課', '為什麼你的影音內容，OTT 平台不買單?', '遠端工作必備：跨國英語 con-call 實戰力', '產品 x 創新：從需求洞察到產品策略', '用影像收藏人生：學會拍片，認識自己', '大小數據如何協助影視創作', '出門好狗兒：抓住狗狗注意力，提升信任關係', '韓式和菓子自己做：一次學會 12 種造型', '微甜的仲夏氣息：雪莉療癒水彩時光', '從零到專業-成為影片製作師的教學手冊', '不小心就學會！用 UI 設計方法製作網站', '個人品牌變現力：開始打造你的多元收入！', '喬老師模型課：出神入化模型技法｜鋼普拉篇', '職場必備的 Excel 關鍵技法－進階', '用「英文邏輯」溝通說服！職場、生活都適用', '從零開始，Unity3D 射擊遊戲製作真簡單', '手繪珠寶設計入門：完成你的第一件珠寶設計', '在家CEO！在家打造量身訂做的個人事業', '王永福教學的技術：翻轉課堂的職業講師祕訣', '職場英文即戰力 :  一步步打造最佳自學途徑', 'IG 風格策展人：創造你的光影烏托邦', '打造動態報表！雲端 Python 爬蟲資料流', '職場溝通管理學：打造團隊好關係與高績效', '深入淺出：專案管理方法-敏捷式開發 Scrum ', '超級業務員的絕學：輕鬆說服任何人的銷售課', '為什麼你的影音內容，OTT 平台不買單?', '遠端工作必備：跨國英語 con-call 實戰力', '產品 x 創新：從需求洞察到產品策略', '用影像收藏人生：學會拍片，認識自己', '大小數據如何協助影視創作', '出門好狗兒：抓住狗狗注意力，提升信任關係', '韓式和菓子自己做：一次學會 12 種造型', '微甜的仲夏氣息：雪莉療癒水彩時光', '從零到專業-成為影片製作師的教學手冊', '不小心就學會！用 UI 設計方法製作網站', '個人品牌變現力：開始打造