# Day18
## 網頁結構解析：使用網頁結構定位工具
- 複習網頁結構組成
- 使用定位工具擷取網頁節點
  - CSS Selector
  - XPath

## 作業說明
請跟著引導填空程式碼，練習以下題目
1. 使用 CSS Selector 定位元素 （搭配 `BeautifulSoup` 套件使用）
2. 使用 XPath 定位元素 （搭配 `lxml` 套件使用）

題目網站：自由時報文章列表

https://search.ltn.com.tw/list?keyword=%E5%B7%9D%E6%99%AE

In [1]:
from bs4 import BeautifulSoup
import lxml.html
import requests

### `GET` Request

In [2]:
url = "https://search.ltn.com.tw/list"
headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Accept-Language": "zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7", 
    "Cookie": "ReaderInfo=51a1000537218; _fbp=fb.2.1641781316862.230877472; _ss_pp_id=2af7c2b8b7f6cf3091f1641752516979; fcmToken=0; start_time=20220109; end_time=20220110; type=%E5%85%A8%E9%83%A8; date=%E4%B8%8D%E9%99%90%E6%99%82%E9%96%93; ltnTagDate=20220523; sort=%E4%BE%9D%E9%97%9C%E8%81%AF%E6%80%A7; keyword=%E5%B7%9D%E6%99%AE; ltnSession=1653298877265; ltnSessionLast=1653298880029", 
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.64 Safari/537.36", 
}
params = {
    "keyword": "川普"
}

r = requests.get(url, headers=headers, params=params)
r.encoding = 'utf-8'
print(r.status_code, "\n\n", r.text[500:1500])

200 

 chrome=1" />
<meta property="og:site_name" name="application-name" content="自由時報電子報" />
<meta name="author" itemprop="author" content="自由時報電子報" />
<meta name="dcterms.rightsHolder" content="自由時報電子報" />
<meta name="copyright" content="自由時報電子報" />
<meta property="og:title" itemprop="name" content="川普 - 全域查詢 - 自由時報電子報" />
<meta name="title" itemprop="headline" content="川普 - 全域查詢 - 自由時報電子報" />
<meta name="keywords" content="川普" />
<meta name="news_keywords" itemprop="keywords" content="川普" />
<meta property="og:image" itemprop="image" content="https://www.ltn.com.tw/assets/images/250_ltn.png?upload=20191119" />
<meta property="og:image:type" content="image/jpeg" />
<meta property="article:section" name="section" itemprop="articleSection" content="LTN" />
<meta name="description" itemprop="description" content="自由時報，為網友提供重要的新聞訊息，提供第一手全球各地最即時的突發事件報導，為網友精準掌握新聞脈動，配合時事不定時推出各類新聞專區，服務廣大網友" />
<meta property="og:description" itemprop="description" content="自由時報，為網友提供重要的新聞訊息，提供第一手全球各地最即時的突發事

### (1) 使用 CSS Selector 定位元素

#### 定位文章列表處


In [3]:
# 轉為 BeautifulSoup 物件
soup = BeautifulSoup(r.content, 'html.parser')
# 使用 CSS Selector 定位
soup.find("ul", {"class": "list boxTitle"})


<ul class="list boxTitle" data-desc="列表">
<li>
<a class="ph" data-desc="P:0:川普被定罪面臨136年監禁 企業大亨：沒人想在紐約做生意了" href="https://ec.ltn.com.tw/article/breakingnews/4692027" title="川普被定罪面臨136年監禁 企業大亨：沒人想在紐約做生意了">
<img alt="川普被定罪面臨136年監禁 企業大亨：沒人想在紐約做生意了" class="lazy_imgs" data-src="https://img.ltn.com.tw/Upload/business/page/400S/2024/06/01/phpcmMIf8.jpg" onerror="setDefault(this)" src="https://news.ltn.com.tw/assets/images/default.png" title="川普被定罪面臨136年監禁 企業大亨：沒人想在紐約做生意了"/>
</a>
<div class="cont" href="https://ec.ltn.com.tw/article/breakingnews/4692027">
<a class="tit" data-desc="T:0:川普被定罪面臨136年監禁 企業大亨：沒人想在紐約做生意了" href="https://ec.ltn.com.tw/article/breakingnews/4692027" title="川普被定罪面臨136年監禁 企業大亨：沒人想在紐約做生意了">川普被定罪面臨136年監禁 企業大亨：沒人想在紐約做生意了</a>
<i class="immtag chan" href="https://ec.ltn.com.tw/article/breakingnews/4692027">財經</i>
<span class="time">8小時前</span>
<a class="http" data-desc="T:0:川普被定罪面臨136年監禁 企業大亨：沒人想在紐約做生意了" href="https://ec.ltn.com.tw/article/breakingnews/4692027" title="川普被定罪面臨136

#### 獲取每篇文章標題、連結

In [4]:
item_list = soup.find("ul", {"class": "list boxTitle"}).find_all("li")

article_list = []
for item in item_list:
  piece = item.find("a", {"class": "ph"})  # 獲取 class 屬性為 ph 的 <a> 
  title = piece.get("title")  # 獲取 <a> 的 title 屬性
  url = piece.get("href")  # 獲取 <a> 的 href 屬性
  article_list.append((title, url))

article_list

[('川普被定罪面臨136年監禁 企業大亨：沒人想在紐約做生意了',
  'https://ec.ltn.com.tw/article/breakingnews/4692027'),
 ('川普被定罪 小額募款24小時衝17億', 'https://news.ltn.com.tw/news/world/paper/1649265'),
 ('一週大事》立法院通過藍白國會擴權法案', 'https://news.ltn.com.tw/news/politics/paper/1649179'),
 ('川普被定罪眾口喧騰 官司要角「暴風女」不吭聲',
  'https://news.ltn.com.tw/news/world/breakingnews/4691903'),
 ('川普被定罪激發支持群眾 小額募款1天內衝17億台幣',
  'https://news.ltn.com.tw/news/world/breakingnews/4691898'),
 ('美防長奧斯汀：唯有亞洲安全 美國才能安全',
  'https://news.ltn.com.tw/news/world/breakingnews/4691783'),
 ('川普被定罪質疑審判不公 痛罵法官暴君魔鬼',
  'https://news.ltn.com.tw/news/world/breakingnews/4691621'),
 ('川普封口費案有罪 10％共和黨選民意向動搖',
  'https://news.ltn.com.tw/news/world/breakingnews/4691647'),
 ('川普不服定罪 外國盟友同仇敵愾其他政要觀望',
  'https://news.ltn.com.tw/news/world/breakingnews/4691587'),
 ('新書「沸騰的護城河」美前副國安顧問博明建議台灣要有全新軍隊文化',
  'https://news.ltn.com.tw/news/politics/breakingnews/4691548'),
 ('06/01 各報重點新聞一覽', 'https://news.ltn.com.tw/news/life/breakingnews/4691412'),
 ('川普被判有罪 美兩黨全力動員號召支持者\r',
  'htt

### (2) 使用 XPath 定位元素

#### 定位文章列表處


In [5]:
# 轉為 Element 物件
tree = lxml.html.fromstring(r.text)
# 使用 XPath 定位
tree.xpath('//ul[@class="list boxTitle"]')[0].text_content()


'\n                \n            \n                \n            \n            \n                川普被定罪面臨136年監禁 企業大亨：沒人想在紐約做生意了\n                財經\n                8小時前\n                https://ec.ltn.com.tw/article/breakingnews/4692027\n                吳孟峰／核稿編輯美國紐約陪審團認定前總統川普「封口費案」34項罪名全數有罪，知名企業高層警告稱，在川普被判有罪後，更多的紐約企業及其領導人可能會成為「法治缺失」的受害者；他們擔心「沒有人想在紐約做生意了」。川普被控在2016年總統大選前偽造商務紀錄以掩蓋支付成人片女星封口費一事，紐約陪審團裁決相關3\n            \n        \n\n                \n            \n                \n            \n            \n                川普被定罪 小額募款24小時衝17億\n                國際\n                10小時前\n                https://news.ltn.com.tw/news/world/paper/1649265\n                美國前總統川普因為在上次大選選戰期間付給成人片女星封口費案，遭紐約州法院陪審團判決卅四項罪名都有罪。川普的競選團隊五月卅一日說，宣判後廿四小時內網路小額捐款募得將近五三○○萬美元，打破其選戰募款紀錄，判決結果「前所未有地」激發了支持群眾。激發支持者 打破川普募款紀錄\n            \n        \n\n                \n            \n                \n            \n            \n                一週大事》立法院通過藍白國會擴權法案\n                政治\n                10小時前\n           

#### 獲取每篇文章標題、連結


In [6]:
item_list = tree.xpath('//ul[@class="list boxTitle"]')[0].xpath("./li")

article_list = []
for item in item_list:
  piece = item.xpath('./a[@class="ph"]')[0]  # 獲取 class 屬性為 ph 的 <a> 
  title = piece.xpath("./@title")[0]  # 獲取 <a> 的 title 屬性
  url = piece.xpath("./@href")[0]  # 獲取 <a> 的 href 屬性
  article_list.append((title, url))

article_list


[('川普被定罪面臨136年監禁 企業大亨：沒人想在紐約做生意了',
  'https://ec.ltn.com.tw/article/breakingnews/4692027'),
 ('川普被定罪 小額募款24小時衝17億', 'https://news.ltn.com.tw/news/world/paper/1649265'),
 ('一週大事》立法院通過藍白國會擴權法案', 'https://news.ltn.com.tw/news/politics/paper/1649179'),
 ('川普被定罪眾口喧騰 官司要角「暴風女」不吭聲',
  'https://news.ltn.com.tw/news/world/breakingnews/4691903'),
 ('川普被定罪激發支持群眾 小額募款1天內衝17億台幣',
  'https://news.ltn.com.tw/news/world/breakingnews/4691898'),
 ('美防長奧斯汀：唯有亞洲安全 美國才能安全',
  'https://news.ltn.com.tw/news/world/breakingnews/4691783'),
 ('川普被定罪質疑審判不公 痛罵法官暴君魔鬼',
  'https://news.ltn.com.tw/news/world/breakingnews/4691621'),
 ('川普封口費案有罪 10％共和黨選民意向動搖',
  'https://news.ltn.com.tw/news/world/breakingnews/4691647'),
 ('川普不服定罪 外國盟友同仇敵愾其他政要觀望',
  'https://news.ltn.com.tw/news/world/breakingnews/4691587'),
 ('新書「沸騰的護城河」美前副國安顧問博明建議台灣要有全新軍隊文化',
  'https://news.ltn.com.tw/news/politics/breakingnews/4691548'),
 ('06/01 各報重點新聞一覽', 'https://news.ltn.com.tw/news/life/breakingnews/4691412'),
 ('川普被判有罪 美兩黨全力動員號召支持者\r',
  'htt