# Day18
## 網頁結構解析：使用網頁結構定位工具
- 複習網頁結構組成
- 使用定位工具擷取網頁節點
  - CSS Selector
  - XPath

## 作業說明
請跟著引導填空程式碼，練習以下題目
1. 使用 CSS Selector 定位元素 （搭配 `BeautifulSoup` 套件使用）
2. 使用 XPath 定位元素 （搭配 `lxml` 套件使用）

題目網站：自由時報文章列表

https://search.ltn.com.tw/list?keyword=%E5%B7%9D%E6%99%AE

In [1]:
from bs4 import BeautifulSoup
import lxml.html
import requests

### `GET` Request

In [3]:
url = "https://search.ltn.com.tw/list"
headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Accept-Language": "zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7", 
    "Cookie": "ReaderInfo=51a1000537218; _fbp=fb.2.1641781316862.230877472; _ss_pp_id=2af7c2b8b7f6cf3091f1641752516979; fcmToken=0; start_time=20220109; end_time=20220110; type=%E5%85%A8%E9%83%A8; date=%E4%B8%8D%E9%99%90%E6%99%82%E9%96%93; ltnTagDate=20220523; sort=%E4%BE%9D%E9%97%9C%E8%81%AF%E6%80%A7; keyword=%E5%B7%9D%E6%99%AE; ltnSession=1653298877265; ltnSessionLast=1653298880029", 
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.64 Safari/537.36", 
}
params = {
    "keyword": "川普"
}

r = requests.get(url, headers=headers, params=params )
r.encoding = 'utf-8'
print(r.status_code, "\n\n", r.text[500:1500])

200 

 meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />
<meta property="og:site_name" name="application-name" content="自由時報電子報" />
<meta name="author" itemprop="author" content="自由時報電子報" />
<meta name="dcterms.rightsHolder" content="自由時報電子報" />
<meta name="copyright" content="自由時報電子報" />
<meta property="og:title" itemprop="name" content="川普 - 全域查詢 - 自由時報電子報" />
<meta name="title" itemprop="headline" content="川普 - 全域查詢 - 自由時報電子報" />
<meta name="keywords" content="川普" />
<meta name="news_keywords" itemprop="keywords" content="川普" />
<meta property="og:image" itemprop="image" content="https://www.ltn.com.tw/assets/images/1200_LTN.png" />
<meta property="og:image:type" content="image/png" />
<meta property="article:section" name="section" itemprop="articleSection" content="LTN" />
<meta name="description" itemprop="description" content="自由時報的搜尋機制，協助讀者以關鍵字迅速找到相關新聞和文章。搜尋結果會按時間或相關性排序，並可依新聞分類篩選，精確定位所需資料。有助於讀者快速找到最新或特定主題的新聞報導。" />
<meta property="og:description" itemprop="descrip

### (1) 使用 CSS Selector 定位元素

#### 定位文章列表處


In [5]:
# 轉為 BeautifulSoup 物件
soup = BeautifulSoup(r.text, "html.parser")
# 使用 CSS Selector 定位
soup.find("ul", {"data-desc": "列表"})


<ul class="list boxTitle" data-desc="列表">
<li>
<a class="ph" data-desc="P:0:Emmy時間》川普非常手段救美財政 台灣財務健全強大" href="https://talk.ltn.com.tw/article/breakingnews/4976920" title="Emmy時間》川普非常手段救美財政 台灣財務健全強大">
<img alt="Emmy時間》川普非常手段救美財政 台灣財務健全強大" class="lazy_imgs" data-src="https://img.ltn.com.tw/Upload/talk/page/400S/2025/03/12/phpYgBFWe.jpg" onerror="setDefault(this)" src="https://news.ltn.com.tw/assets/images/default.png" title="Emmy時間》川普非常手段救美財政 台灣財務健全強大"/>
</a>
<div class="cont" href="https://talk.ltn.com.tw/article/breakingnews/4976920">
<a class="tit" data-desc="T:0:Emmy時間》川普非常手段救美財政 台灣財務健全強大" href="https://talk.ltn.com.tw/article/breakingnews/4976920" title="Emmy時間》川普非常手段救美財政 台灣財務健全強大">Emmy時間》川普非常手段救美財政 台灣財務健全強大</a>
<i class="immtag chan1" href="https://talk.ltn.com.tw/article/breakingnews/4976920">評論</i>
<span class="time">2分鐘前</span>
<a class="http" data-desc="T:0:Emmy時間》川普非常手段救美財政 台灣財務健全強大" href="https://talk.ltn.com.tw/article/breakingnews/4976920" title="Emmy時間》川普非常手段救美財政 台灣財務健全強大"

#### 獲取每篇文章標題、連結

In [9]:
item_list = soup.find("ul", {"data-desc": "列表"}).find_all("li")

article_list = []
for item in item_list:
  piece = item.find("a", {"class": "ph"})  # 獲取 class 屬性為 ph 的 <a> 
  title = piece.get("title")  # 獲取 <a> 的 title 屬性
  url = piece.get("href")  # 獲取 <a> 的 href 屬性
  article_list.append(title)
  article_list.append(url)


article_list

['Emmy時間》川普非常手段救美財政 台灣財務健全強大',
 'https://talk.ltn.com.tw/article/breakingnews/4976920',
 '路透 : 美股市值已蒸發4兆美元 市場巨大警鐘',
 'https://ec.ltn.com.tw/article/breakingnews/4977001',
 '美股已進入「危險區」！為何這次別指望川普和Fed救市？',
 'https://ec.ltn.com.tw/article/breakingnews/4976982',
 '市場恐慌蔓延 川普淡化經濟衰退疑慮',
 'https://ec.ltn.com.tw/article/breakingnews/4976981',
 '台股早盤》台積電大漲喊衝 指數漲逾200點',
 'https://ec.ltn.com.tw/article/breakingnews/4977019',
 '美股暴跌過度反應！「華爾街神算子」：本週4關鍵數據止跌',
 'https://ec.ltn.com.tw/article/breakingnews/4976986',
 '挺川普！馬斯克：特斯拉在未來2年內讓美國產量翻倍',
 'https://ec.ltn.com.tw/article/breakingnews/4977012',
 '美元指數挫至4個月低點 國際油價小幅上漲',
 'https://ec.ltn.com.tw/article/breakingnews/4977036',
 '買進一輛Model S！川普：針對特斯拉的暴力行動是恐怖主義',
 'https://ec.ltn.com.tw/article/breakingnews/4976976',
 '黃金重回2900美元！專家曝持續上漲有條件',
 'https://ec.ltn.com.tw/article/breakingnews/4976995',
 '一天內翻雲覆雨！加拿大停收電力附加費 川普撤回鋼鋁50％關稅',
 'https://ec.ltn.com.tw/article/breakingnews/4976952',
 'CNN：川普在短短20天 讓美國從繁榮轉入衰退恐慌',
 'https://ec.ltn.com.tw/article/breakingne

### (2) 使用 XPath 定位元素

#### 定位文章列表處


In [10]:
# 轉為 Element 物件
tree = lxml.html.fromstring(r.text)
# 使用 XPath 定位
tree.xpath('//ul[@data-desc="列表"]')[0].text_content()


'\n                \n            \n                \n            \n            \n                Emmy時間》川普非常手段救美財政 台灣財務健全強大\n                評論\n                2分鐘前\n                https://talk.ltn.com.tw/article/breakingnews/4976920\n                川普到目前為止各種匪夷所思的舉動，看起來就是要拯救失控的美國財政，美國政府舉債36兆多美元，已經是GDP的120%，新冠疫情是非常嚴重的打擊了美國政府的財政。2019年美國的政府債務大致還跟GDP相當，維持在100%的水準，當時已經被很嚴厲的批評了，例如橋水基金的Ray Dalio不但多次痛批，還出\n            \n        \n\n                \n            \n                \n            \n            \n                路透 : 美股市值已蒸發4兆美元 市場巨大警鐘\n                財經\n                10分鐘前\n                https://ec.ltn.com.tw/article/breakingnews/4977001\n                歐祥義／核稿編輯美國川普總統推進新關稅計畫，美股已經連日下行，在美國經濟陷入衰退疑慮下，三大指數昨（11日）拋售加劇，單日市值蒸發超過1.3兆美元（約新台幣42.7兆元）。《路透》指出，標普500指數自2月19日的高點下挫，不到1個月市值已蒸發了4兆美元（約新台幣131.6兆元）。\n            \n        \n\n                \n            \n                \n            \n            \n                美股已進入「危險區」！為何這次別指望川普和Fed救市？\n                財經\n           

#### 獲取每篇文章標題、連結


In [14]:
item_list = tree.xpath('//ul[@data-desc="列表"]')[0].xpath("./li")

article_list = []
for item in item_list:
  piece = item.xpath('./a[@class="ph"]')[0]  # 獲取 class 屬性為 ph 的 <a> 
  title = piece.xpath("./@title")[0]  # 獲取 <a> 的 title 屬性
  url = piece.xpath("./@href")[0]  # 獲取 <a> 的 href 屬性
  article_list.append((title, url))

article_list


[('Emmy時間》川普非常手段救美財政 台灣財務健全強大',
  'https://talk.ltn.com.tw/article/breakingnews/4976920'),
 ('路透 : 美股市值已蒸發4兆美元 市場巨大警鐘',
  'https://ec.ltn.com.tw/article/breakingnews/4977001'),
 ('美股已進入「危險區」！為何這次別指望川普和Fed救市？',
  'https://ec.ltn.com.tw/article/breakingnews/4976982'),
 ('市場恐慌蔓延 川普淡化經濟衰退疑慮', 'https://ec.ltn.com.tw/article/breakingnews/4976981'),
 ('台股早盤》台積電大漲喊衝 指數漲逾200點',
  'https://ec.ltn.com.tw/article/breakingnews/4977019'),
 ('美股暴跌過度反應！「華爾街神算子」：本週4關鍵數據止跌',
  'https://ec.ltn.com.tw/article/breakingnews/4976986'),
 ('挺川普！馬斯克：特斯拉在未來2年內讓美國產量翻倍',
  'https://ec.ltn.com.tw/article/breakingnews/4977012'),
 ('美元指數挫至4個月低點 國際油價小幅上漲',
  'https://ec.ltn.com.tw/article/breakingnews/4977036'),
 ('買進一輛Model S！川普：針對特斯拉的暴力行動是恐怖主義',
  'https://ec.ltn.com.tw/article/breakingnews/4976976'),
 ('黃金重回2900美元！專家曝持續上漲有條件',
  'https://ec.ltn.com.tw/article/breakingnews/4976995'),
 ('一天內翻雲覆雨！加拿大停收電力附加費 川普撤回鋼鋁50％關稅',
  'https://ec.ltn.com.tw/article/breakingnews/4976952'),
 ('CNN：川普在短短20天 讓美國從繁榮轉入衰退恐慌',
  'https:/