# Day28
## 動態載入網站的爬蟲策略
- 瞭解網站的動態載入機制
- 瞭解靜態網頁和動態網頁的差異
- 瞭解何謂非同步網頁載入（Ajax）
- 學習動態載入網頁的爬蟲策略

## 作業說明
- 判斷哪些網站是需要 JavaScript 動態載入
- 找出使用 JavaScript 動態載入的網站，其資料來源的資源（例如回傳 JSON 格式資料的 API Endpoint）

In [1]:
import requests
from bs4 import BeautifulSoup

### (1) 鉅亨網 - 即時頭條列表

- 目標網址： https://news.cnyes.com/news/cat/headline
- 文章列表資料是否需要 JavaScript 載入？
![](https://i.imgur.com/sJrd5kC.png)

- 承上題，若是，文章列表資料來源是從哪一個網址產生？


In [2]:
# Hint: 觀察網站是否為 JavaScript 載入

url = "https://news.cnyes.com/news/cat/headline"
r = requests.get(url)
r.encoding = "utf-8"
print(r.status_code, "\n\n", r.text[:500])


200 

 <!DOCTYPE html><html lang="zh-TW" data-version="4.132.8"><head><meta charSet="utf-8"/><meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1, viewport-fit=cover"/><link rel="preload" as="image" href="/assets/icons/search/icon-search-new.svg"/><link rel="preload" as="image" href="/assets/icons/menu/menu.svg"/><link rel="preload" as="image" href="/assets/icons/logo/anue-logo-colorful.svg"/><link rel="preload" as="image" href="/assets/icons/search/search.svg"/><link rel


- Hint: 選一個網站上有的文章標題

![](https://i.imgur.com/ZjOlF3L.png)

In [3]:
# Hint

soup = BeautifulSoup(r.content, "html.parser")

# 查找看看回傳的內容中，有沒有課程標題文字
soup.find("p", string="洪士琪任台灣盧森堡經濟合作委員會主席 為台盧雙邊合作開啟新契機")



---


### (2) Cupoy AI 學習社群

- 目標網址： https://www.cupoy.com/
- 首頁活動卡資料是否需要 JavaScript 載入？
![](https://i.imgur.com/GnDMLHe.png)

- 承上題，若是，文章列表資料來源是從哪一個網址產生？
  - Hint: 使用 Network Panel 搜尋任一活動標題的字段，即可找到包含活動資訊的資源連結

In [4]:
# Hint: 觀察網站是否為 JavaScript 載入

url = "https://www.cupoy.com/"
r = requests.get(url)
r.encoding = "utf-8"
print(r.status_code, "\n\n", r.text[:500])


200 

 <!doctype html><html><head><meta charset="utf-8"><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1,user-scalable=0,shrink-to-fit=no"><meta http-equiv="X-UA-Compatible" content="IE=edge"><meta http-equiv="Content-Language" content="zh-tw"/><meta property="og:title" content="Cupoy AI 學習社群｜AI 工程師全職業學習平台"/><meta property="og:description" content="系統化課程+產學實務訓練 &#61; AI工程師全職業養成平台&#10;&#10;未來的職業都將導入大量AI技術，AI相關職缺呈爆炸性的成長，然而，AI是一門包含軟體開發、數學統計與產業知識的跨領域學科，無法一蹴可幾，Cupoy匯集了一群優秀的業


- Hint: 選一個網站上有的活動標題 測試查找
![](https://i.imgur.com/3tSU3qx.png)

In [9]:
pip install selenium


Collecting selenium
  Using cached selenium-4.29.0-py3-none-any.whl.metadata (7.1 kB)
Collecting trio~=0.17 (from selenium)
  Using cached trio-0.29.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket~=0.9 (from selenium)
  Using cached trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting attrs>=23.2.0 (from trio~=0.17->selenium)
  Using cached attrs-25.3.0-py3-none-any.whl.metadata (10 kB)
Collecting outcome (from trio~=0.17->selenium)
  Using cached outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Using cached wsproto-1.2.0-py3-none-any.whl.metadata (5.6 kB)
Using cached selenium-4.29.0-py3-none-any.whl (9.5 MB)
Using cached trio-0.29.0-py3-none-any.whl (492 kB)
Using cached trio_websocket-0.12.2-py3-none-any.whl (21 kB)
Using cached attrs-25.3.0-py3-none-any.whl (63 kB)
Using cached outcome-1.3.0.post0-py2.py3-none-any.whl (10 kB)
Using cached wsproto-1.2.0-py3-none-any.whl (24 kB)
In

In [10]:
import selenium
print(selenium.__file__)  # 確保 selenium 存在


c:\Users\a7890\anaconda3\Lib\site-packages\selenium\__init__.py


In [12]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import time

# 設定 Selenium
options = Options()
options.add_argument("--headless")  # 不開啟瀏覽器
driver = webdriver.Chrome(service=Service("C:\Program Files\Google\Chrome\Application\\chrome.exe"), options=options)  # 修改 chromedriver 路徑

# 開啟網頁
driver.get("https://www.cupoy.com/")

# 等待 JavaScript 載入
time.sleep(5)

# 解析 HTML
soup = BeautifulSoup(driver.page_source, "html.parser")

# 查找標題
spans = soup.find_all("span")
for span in spans:
    if "AI Agent 開發特訓營" in span.get_text(strip=True):
        print("找到標題:", span.get_text(strip=True))

# 關閉瀏覽器
driver.quit()


  driver = webdriver.Chrome(service=Service("C:\Program Files\Google\Chrome\Application\\chrome.exe"), options=options)  # 修改 chromedriver 路徑
  driver = webdriver.Chrome(service=Service("C:\Program Files\Google\Chrome\Application\\chrome.exe"), options=options)  # 修改 chromedriver 路徑


WebDriverException: Message: Can not connect to the Service C:\Program Files\Google\Chrome\Application\chrome.exe
