# 動態網頁爬蟲 - 使用 Selenium

* 了解 Selenium 用於動態網頁爬蟲的原理
* 能夠使用 Selenium 撰寫動態網頁爬蟲

## 作業目標

1. 根據範例使用 selenuim 取出 Hahow 網站中所有課程的資料，並用一個適合的資料結構儲存（Hint: 將所有資料存在一個變數當中取出）
2. 剛剛的做法只能取出第一頁，試著取出所有頁面的資料。



### 1. 根據範例使用 selenuim 取出 Hahow 網站中所有課程的資料，並用一個適合的資料結構儲存
（Hint: 將所有資料存在一個變數當中取出）

In [1]:
import time

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
# import selenium.webdriver.support.expected_conditions as EC
# from selenium.webdriver.support.wait import WebDriverWait

In [2]:
# 模擬使用者滾動至網頁底部，以載入所有課程資料
def scroll_to_bottom(driver): 
    total_height = int(driver.execute_script("return document.body.scrollHeight"))
    for i in range(1, total_height, 200):
        driver.execute_script(f"window.scrollTo(0, {i});")
        time.sleep(0.5)  

In [3]:
opt = webdriver.ChromeOptions()
browser = webdriver.Remote(command_executor='http://selenium:4444/wd/hub', options=opt)
browser.maximize_window()
browser.get("https://hahow.in/courses")

scroll_to_bottom(browser)

In [4]:
# 取得資料（等瀏覽器資料出現後才執行）
html_source = browser.page_source
soup = BeautifulSoup(html_source, 'html.parser')

In [5]:
courses = []
for d in soup.find_all('h2', class_='sc-qi852n-5 cwHEyV'):
    courses.append(d.text)
print(courses)

['課程MBTI 情境應用學｜開啟天賦力量 X 打造你要的人生', '課程睡眠心療法｜每日 10 分鐘，身心放鬆、深層入眠', '課程找回身體最佳狀態｜動力鏈：人人必修的身體使用說明書', '課程Gina 的全方位芳香療法課｜精油—你身心靈的舒緩解方', '課程陳的故事行銷課 學會就能活下去の本事', '課程掌握鉤針編織邏輯：五種針法自造生活小物', '課程產品設計實戰：用Figma打造絕佳UI/UX', '課程唱出你的特色！蔡佩軒的歌唱訓練課', '課程Notion 實戰課程：打造專屬數位工作術', '課程【開運占卜術】工作、愛情、人際、選擇問題迎刃而解｜李嘟 X 占星之門', '課程占星之門安格斯｜十二宮位找出人生攻略', '課程Python 入門特訓 - 基礎實作到證照攻略', '課程跟 YouTuber 莫彩曦學美國道地的說話習慣', '課程AI 時代人人必學：用 ChatGPT 全面升級你的工作流程', '課程用 Python 理財：打造小資族選股策略', '課程電商人妻 IG 增粉攻略！三大領域經營術', '課程Canva 入門到進階實戰｜零基礎做質感設計', '課程RyuuuTV看動漫看日劇，零到N4道地說日文', '課程邏輯表達力-周震宇的口語邏輯優化課', '課程Excel 新手入門必修課：從 0 開始', '課程曾寶儀——從心開始的溝通術', '課程戰爭來了怎麼辦？黑熊學院民防基礎線上課', '課程仙女穿戴甲全攻略-從基礎實作到市場經營', '課程劉奕酉的職場致勝賽局—從洞察、突圍到創造有利局面']


In [6]:
browser.quit()

### (2) 剛剛的做法只能取出第一頁，試著取出所有頁面的資料。

In [7]:
browser = webdriver.Remote(command_executor='http://selenium:4444/wd/hub', options=opt)
browser.maximize_window()
browser.get("https://hahow.in/courses")
scroll_to_bottom(browser)

In [8]:
# 取得資料（等瀏覽器資料出現後才執行）
html_source = browser.page_source
soup = BeautifulSoup(html_source, 'html.parser')

In [9]:
# 1. 先計算全部有幾頁
p = soup.find_all('li', class_='rc-pagination-item')[-1].text
p

'45'

In [10]:
# 2. 每頁都取出資料放入 courses
courses = []

for i in range(1, int(p)+1)[:5]:  # 範例只印出前5頁
    browser.get(f"https://hahow.in/courses?page={i}")

    scroll_to_bottom(browser)

    # 取得頁面解析
    html_source = browser.page_source
    soup = BeautifulSoup(html_source, 'html.parser')

    # 等待課程資料都載入
    # course_block = WebDriverWait(browser, 3).until(
        # EC.presence_of_element_located((By.XPATH, '//h2[@class="sc-qi852n-5 cwHEyV"]'))
    # )

    for d in soup.find_all('h2', class_='sc-qi852n-5 cwHEyV'):
        courses.append(d.text)

In [11]:
browser.quit()

In [12]:
# 3. done!
for i, v in enumerate(courses):
    print(i, v)

0 課程MBTI 情境應用學｜開啟天賦力量 X 打造你要的人生
1 課程睡眠心療法｜每日 10 分鐘，身心放鬆、深層入眠
2 課程找回身體最佳狀態｜動力鏈：人人必修的身體使用說明書
3 課程Gina 的全方位芳香療法課｜精油—你身心靈的舒緩解方
4 課程陳的故事行銷課 學會就能活下去の本事
5 課程掌握鉤針編織邏輯：五種針法自造生活小物
6 課程產品設計實戰：用Figma打造絕佳UI/UX
7 課程唱出你的特色！蔡佩軒的歌唱訓練課
8 課程Notion 實戰課程：打造專屬數位工作術
9 課程【開運占卜術】工作、愛情、人際、選擇問題迎刃而解｜李嘟 X 占星之門
10 課程占星之門安格斯｜十二宮位找出人生攻略
11 課程Python 入門特訓 - 基礎實作到證照攻略
12 課程跟 YouTuber 莫彩曦學美國道地的說話習慣
13 課程AI 時代人人必學：用 ChatGPT 全面升級你的工作流程
14 課程用 Python 理財：打造小資族選股策略
15 課程電商人妻 IG 增粉攻略！三大領域經營術
16 課程Canva 入門到進階實戰｜零基礎做質感設計
17 課程RyuuuTV看動漫看日劇，零到N4道地說日文
18 課程邏輯表達力-周震宇的口語邏輯優化課
19 課程Excel 新手入門必修課：從 0 開始
20 課程曾寶儀——從心開始的溝通術
21 課程戰爭來了怎麼辦？黑熊學院民防基礎線上課
22 課程仙女穿戴甲全攻略-從基礎實作到市場經營
23 課程劉奕酉的職場致勝賽局—從洞察、突圍到創造有利局面
24 課程直球對決你的工作焦慮！劉軒的 50 堂職場心理學
25 課程讓插畫走入生活－Procreate 文創物實作！
26 課程減法攝影，感官加乘：逐格收藏觀景窗裡的世界
27 課程【AI 深度學習】新手入門應用篇
28 課程聲入人心-周震宇的人聲必修課
29 課程AutoCAD 電腦繪圖2D基礎篇－紮實入門
30 課程Procreate人體繪畫入門－扎實基礎養成
31 課程SQL的五十道練習：初學者友善的資料庫入門
32 課程VOFAN 色彩流動秘訣：「光」與「影」的氣氛美學
33 課程Procreate 插畫入門－從素描到風格
34 課程跟著韓娛學韓文！發音到初級文法一次掌握
35 課程Power BI數據分析實戰-邏輯與資料視覺化
36 課程動畫互動網頁程式入門 