# 動態網頁爬蟲 - 使用 Selenium

* 了解 Selenium 用於動態網頁爬蟲的原理
* 能夠使用 Selenium 撰寫動態網頁爬蟲

## 作業目標

1. 根據範例使用 selenuim 取出 Hahow 網站中所有課程的資料，並用一個適合的資料結構儲存（Hint: 將所有資料存在一個變數當中取出）
2. 剛剛的做法只能取出第一頁，試著取出所有頁面的資料。



### 1. 根據範例使用 selenuim 取出 Hahow 網站中所有課程的資料，並用一個適合的資料結構儲存
（Hint: 將所有資料存在一個變數當中取出）

In [4]:
!pip install -U selenium
!pip install webdriver_manager
!pip install fake-useragent



In [15]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
import time

# **1️⃣ 設定 Selenium WebDriver**
chrome_options = Options()
chrome_options.add_argument("--headless")  # 可關閉無頭模式
chrome_options.add_argument("--disable-gpu")
chrome_options.add_argument("--window-size=1920x1080")

# **2️⃣ 啟動 WebDriver**
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service, options=chrome_options)

# **3️⃣ 進入 Hahow 課程頁面**
driver.get("https://hahow.in/courses")

# **4️⃣ 設定 WebDriverWait**
wait = WebDriverWait(driver, 20)

# **5️⃣ 等待課程主區塊加載**
wait.until(EC.presence_of_element_located((By.TAG_NAME, "main")))

# **6️⃣ 自動滾動以加載所有課程**
def scroll_down():
    last_height = driver.execute_script("return document.body.scrollHeight")
    while True:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(3)  # **等待新課程載入**
        new_height = driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            break
        last_height = new_height

scroll_down()

# **7️⃣ 確保課程標題載入（使用 h2 而不是 h3/h4）**
wait.until(EC.presence_of_all_elements_located((By.XPATH, "//h2[contains(@class, 'sc-qi852n-5')]")))

# **8️⃣ 抓取所有課程名稱**
course_list = []
courses = driver.find_elements(By.XPATH, "//h2[contains(@class, 'sc-qi852n-5')]")  # **這是最新的 XPath**
for course in courses:
    course_name = course.text.strip()
    if course_name and course_name not in course_list:
        course_list.append(course_name)

# **🔟 關閉瀏覽器**
driver.quit()

# **✅ 輸出結果**
print(f"✅ 成功爬取 {len(course_list)} 個課程：")
for i, name in enumerate(course_list, 1):
    print(f"{i}. {name}")


✅ 成功爬取 24 個課程：
1. 課程
沙發上的插畫課｜用 iPad 畫出你的可愛風格
2. 課程
日常生活的榮格心理學｜開啟生命潛能Ｘ活出完整人生
3. 課程
11 週打造插畫週邊Ｘ客訂商品：用 Procreate 創造第二收入！
4. 課程
兒福聯盟－給父母的青少年心理健康成長指南
5. 課程
全球頂尖企業都在用！零錯誤思維 2.0
6. 課程
資料變決策！Excel x AI 升級職場數據分析力
7. 課程
找回身體最佳狀態｜動力鏈：人人必修的身體使用說明書
8. 課程
青春不該 EMO 一樣－青少年心理健康成長指南
9. 課程
掌握鉤針編織邏輯：五種針法自造生活小物
10. 課程
子麵的商標設計課！創造高價值 Logo 的 50 種方法
11. 課程
Procreate 插畫入門－從素描到風格
12. 課程
Canva 入門到進階實戰｜零基礎做質感設計
13. 課程
Amber 生活日文課， 28 單元開啟自學之旅
14. 課程
讓插畫走入生活－Procreate 文創物實作！
15. 課程
安心育兒之旅：治療師專為爸媽設計！0-3 歲寶寶引導技巧課
16. 課程
Python 入門特訓 - 基礎實作到證照攻略
17. 課程
AI 時代人人必學：用 ChatGPT 全面升級你的工作流程
18. 課程
產品設計實戰：用Figma打造絕佳UI/UX
19. 課程
Notion 實戰課程：打造專屬數位工作術
20. 課程
占星之門安格斯｜跟著占星學十二宮位找出人生攻略
21. 課程
曾寶儀——從心開始的溝通術
22. 課程
減法攝影，感官加乘：逐格收藏觀景窗裡的世界
23. 課程
Notion 最新中文課：3 小時快速上手！打造個人數位工作站
24. 課程
【AI 深度學習】新手入門應用篇
