# Day18
## 網頁結構解析：使用網頁結構定位工具
- 複習網頁結構組成
- 使用定位工具擷取網頁節點
  - CSS Selector
  - XPath

## 作業說明
請跟著引導填空程式碼，練習以下題目
1. 使用 CSS Selector 定位元素 （搭配 `BeautifulSoup` 套件使用）
2. 使用 XPath 定位元素 （搭配 `lxml` 套件使用）

題目網站：自由時報文章列表

https://search.ltn.com.tw/list?keyword=%E5%B7%9D%E6%99%AE

## Self Memo

- [HTMLのスクレイピング：lxmlを使う](https://hiroronn.hatenablog.jp/entry/20180511/1526044297)
- [lxml の基本的な使用方法](https://python.keicode.com/advanced/xml-lxml-1.php)

In [1]:
from bs4 import BeautifulSoup
import lxml.html
import requests

### `GET` Request

In [2]:
##### Get

url = 'https://search.ltn.com.tw/list'
headers = {
    'Accept'    : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7', 
    'Cookie'    : 'ReaderInfo=51a1000537218; _fbp=fb.2.1641781316862.230877472; _ss_pp_id=2af7c2b8b7f6cf3091f1641752516979; fcmToken=0; start_time=20220109; end_time=20220110; type=%E5%85%A8%E9%83%A8; date=%E4%B8%8D%E9%99%90%E6%99%82%E9%96%93; ltnTagDate=20220523; sort=%E4%BE%9D%E9%97%9C%E8%81%AF%E6%80%A7; keyword=%E5%B7%9D%E6%99%AE; ltnSession=1653298877265; ltnSessionLast=1653298880029', 
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.64 Safari/537.36', 
}

params = {
    'keyword'   : '川普'
}

r = requests.get(url, headers=headers, params=params)
r.encoding = 'utf-8'
print(r.status_code)
print(r.text[:1500])

200
<!DOCTYPE html>
<html>
<head>
    <script> var pvDomain = 'pv.ltn.com.tw'; </script>
<script> var pvServer = 'pv.ltn.com.tw'; </script>
<script>var interstitialSlot;</script>
<script>var staticSlot = false;</script>
<script src="https://cache.ltn.com.tw/js/c.js"></script>
    <title>川普 - 全域查詢 - 自由時報電子報</title>
<meta charset="utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=2.0, minimum-scale=1.0" />
<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />
<meta property="og:site_name" content="自由時報電子報" />
<meta name="author" content="自由時報電子報" />
<meta name="dcterms.rightsHolder" content="自由時報電子報" />
<meta name="copyright" content="自由時報電子報" />
<meta property="og:title" content="川普 - 全域查詢 - 自由時報電子報" />
<meta name="keywords" content="川普" />
<meta name="news_keywords" content="川普" />
<meta property="og:image" content="https://www.ltn.com.tw/assets/images/250_ltn.png?upload=20191119" />
<meta property="og:image:type" content="image/jp

### (1) 使用 CSS Selector 定位元素

#### 定位文章列表處


In [3]:
##### Use soup

soup = BeautifulSoup(r.text)
soup.find("ul", {"class": "list boxTitle"})

<ul class="list boxTitle" data-desc="列表">
<li>
<a class="ph" data-desc="P:0:美學者：比起裴洛西訪台 中國更怕拿不到晶片" href="https://ec.ltn.com.tw/article/breakingnews/4011898" title="美學者：比起裴洛西訪台 中國更怕拿不到晶片">
<img alt="美學者：比起裴洛西訪台 中國更怕拿不到晶片" class="lazy_imgs" data-src="https://img.ltn.com.tw/Upload/business/page/400S/2022/08/02/4011898_1.jpg" onerror="setDefault(this)" src="https://news.ltn.com.tw/assets/images/default.png" title="美學者：比起裴洛西訪台 中國更怕拿不到晶片"/>
</a>
<div class="cont" href="https://ec.ltn.com.tw/article/breakingnews/4011898">
<a class="tit" data-desc="T:0:美學者：比起裴洛西訪台 中國更怕拿不到晶片" href="https://ec.ltn.com.tw/article/breakingnews/4011898" title="美學者：比起裴洛西訪台 中國更怕拿不到晶片">美學者：比起裴洛西訪台 中國更怕拿不到晶片</a>
<i class="immtag chan" href="https://ec.ltn.com.tw/article/breakingnews/4011898">財經</i>
<span class="time">4小時前</span>
<a class="http" data-desc="T:0:美學者：比起裴洛西訪台 中國更怕拿不到晶片" href="https://ec.ltn.com.tw/article/breakingnews/4011898" title="美學者：比起裴洛西訪台 中國更怕拿不到晶片">https://ec.ltn.com.tw/article/breakingnews/4011898<

#### 獲取每篇文章標題、連結

In [4]:
item_list = soup.find("ul", {"class": "list boxTitle"}).find_all("a")

print(type(item_list))
print(len(item_list))

<class 'bs4.element.ResultSet'>
60


In [5]:
##### Collect title and url

article_list = []

for item in item_list:
    if 'ph' in item.get('class'):
        title = item.get('title')
        url   = item.get('href')
        article_list.append((title, url))

article_list

[('美學者：比起裴洛西訪台 中國更怕拿不到晶片',
  'https://ec.ltn.com.tw/article/breakingnews/4011898'),
 ('趙少康︰歡迎裴洛西訪台 台灣要小心不被利用',
  'https://news.ltn.com.tw/news/politics/breakingnews/4011677'),
 ('自由廣場》裴洛西揭穿了中國「國王的新衣」', 'https://talk.ltn.com.tw/article/paper/1532013'),
 ('研調：美國晶片法案加碼對中限制 將影響28、40奈米擴產',
  'https://ec.ltn.com.tw/article/breakingnews/4010769'),
 ('自由開講》其實根本可以不用賣面子給臉書的！',
  'https://talk.ltn.com.tw/article/breakingnews/4010429'),
 ('ASML 總裁大聊EUV避談中國  中芯想拿貨「作夢」？',
  'https://ec.ltn.com.tw/article/breakingnews/4009807'),
 ('自由廣場》裴洛西來不來的推算', 'https://talk.ltn.com.tw/article/paper/1531860'),
 ('社論》誰在玩火自焚？', 'https://talk.ltn.com.tw/article/paper/1531846'),
 ('自由廣場》中國青年談裴洛西訪台', 'https://talk.ltn.com.tw/article/paper/1531627'),
 ('中國開抖音帳號 偷渡大外宣', 'https://news.ltn.com.tw/news/world/paper/1531677'),
 ('紐時：布林肯抗拒將俄羅斯列為「支持恐怖主義國家」',
  'https://news.ltn.com.tw/news/world/breakingnews/4009219'),
 ('裴洛西訪台 川普批：她只會讓事情更糟',
  'https://news.ltn.com.tw/news/world/breakingnews/4008573'),
 ('裴洛西不訪台將「三輸一贏」 范世平：台灣

### (2) 使用 XPath 定位元素

#### 定位文章列表處


In [6]:
##### String to lxml element

tree = lxml.html.fromstring(r.text)
#tree.xpath('//ul[@class="list boxTitle"]')[0].text_content()

#### 獲取每篇文章標題、連結


In [7]:
article_list_lxml = []

for i in tree.xpath('//ul[@class="list boxTitle"]')[0].xpath('//a[@class="ph"]'):
    title = i.attrib['title']
    url   = i.attrib['href']
    ### using attrib
    #print(i.attrib['href'])
    #print(type(i.attrib['href']))
    ### using Xpath
    #print(i.xpath('./@href')[0])
    #print(type(i.xpath('./@href')[0]))
    article_list_lxml.append((title, url))

article_list_lxml

[('美學者：比起裴洛西訪台 中國更怕拿不到晶片',
  'https://ec.ltn.com.tw/article/breakingnews/4011898'),
 ('趙少康︰歡迎裴洛西訪台 台灣要小心不被利用',
  'https://news.ltn.com.tw/news/politics/breakingnews/4011677'),
 ('自由廣場》裴洛西揭穿了中國「國王的新衣」', 'https://talk.ltn.com.tw/article/paper/1532013'),
 ('研調：美國晶片法案加碼對中限制 將影響28、40奈米擴產',
  'https://ec.ltn.com.tw/article/breakingnews/4010769'),
 ('自由開講》其實根本可以不用賣面子給臉書的！',
  'https://talk.ltn.com.tw/article/breakingnews/4010429'),
 ('ASML 總裁大聊EUV避談中國  中芯想拿貨「作夢」？',
  'https://ec.ltn.com.tw/article/breakingnews/4009807'),
 ('自由廣場》裴洛西來不來的推算', 'https://talk.ltn.com.tw/article/paper/1531860'),
 ('社論》誰在玩火自焚？', 'https://talk.ltn.com.tw/article/paper/1531846'),
 ('自由廣場》中國青年談裴洛西訪台', 'https://talk.ltn.com.tw/article/paper/1531627'),
 ('中國開抖音帳號 偷渡大外宣', 'https://news.ltn.com.tw/news/world/paper/1531677'),
 ('紐時：布林肯抗拒將俄羅斯列為「支持恐怖主義國家」',
  'https://news.ltn.com.tw/news/world/breakingnews/4009219'),
 ('裴洛西訪台 川普批：她只會讓事情更糟',
  'https://news.ltn.com.tw/news/world/breakingnews/4008573'),
 ('裴洛西不訪台將「三輸一贏」 范世平：台灣