### **XPath 常用語法簡潔版**

---

### **1. 基本節點選擇**
- `/`：選擇直接子節點。
  - **範例**：`/html/body/div` → 選擇 `<body>` 下的 `<div>`。
- `//`：選擇所有匹配節點（全局）。
  - **範例**：`//div` → 選擇文檔中所有 `<div>`。
- `.`：當前節點，限定相對範圍。
  - **範例**：`.//p` → 選擇當前節點內的所有 `<p>`。
- `..`：父節點。
  - **範例**：`//p/..` → 選擇 `<p>` 的父節點。

---

### **2. 屬性選擇**
- `@屬性名`：選擇屬性值。
  - **範例**：`//@class` → 選擇所有 `class` 屬性。
- `[@屬性名='值']`：基於屬性值篩選節點。
  - **範例**：`//div[@id='content']` → 選擇 id 為 `content` 的 `<div>`。
- `contains(@屬性, '值')`：篩選包含某值的屬性。
  - **範例**：`//a[contains(@href, 'example')]` → 選擇 href 包含 `example` 的 `<a>`。
- `starts-with(@屬性, '值')`：篩選屬性以某值開頭。
  - **範例**：`//a[starts-with(@href, 'https')]` → 選擇 href 以 `https` 開頭的 `<a>`。

---

### **3. 節點索引**
- `[1]`：選擇第一個匹配節點。
  - **範例**：`//li[1]` → 選擇第一個 `<li>`。
- `[last()]`：選擇最後一個匹配節點。
  - **範例**：`//li[last()]` → 選擇最後一個 `<li>`。
- `[position()<=n]`：選擇前 n 個匹配節點。
  - **範例**：`//li[position()<=3]` → 選擇前 3 個 `<li>`。

---

### **4. 文字選擇**
- `/text()`：選擇節點的文字內容。
  - **範例**：`//h1/text()` → 提取 `<h1>` 的文字。
- `[text()='值']`：篩選文字等於某值的節點。
  - **範例**：`//p[text()='Hello']` → 選擇文字為 `Hello` 的 `<p>`。
- `contains(text(), '值')`：篩選包含某文字的節點。
  - **範例**：`//p[contains(text(), 'Welcome')]` → 選擇文字包含 `Welcome` 的 `<p>`。

---

### **5. 邏輯運算**
- `and`：多條件且。
  - **範例**：`//div[@class='item' and @id='unique']` → 同時滿足 class 和 id 的條件。
- `or`：多條件或。
  - **範例**：`//a[@class='btn' or @id='submit']` → 滿足任意條件。

---

### **6. 特殊節點選擇**
- `//comment()`：選擇註解節點。
  - **範例**：`//comment()` → 匹配所有註解。
- `//node()`：選擇所有類型的節點（元素、屬性、文字等）。
  - **範例**：`//node()` → 匹配整個文檔中的所有節點。
- `*`：通配符，匹配所有節點。
  - **範例**：`//div/*` → 匹配 `<div>` 的所有子節點。

---

### **7. 組合範例**
1. **提取第一個 `<h1>` 的文字**
   - `//h1[1]/text()`
2. **提取所有超連結的 href**
   - `//a/@href`
3. **選擇 class 包含 `item` 的所有節點**
   - `//*[contains(@class, 'item')]`
4. **提取列表中第一個項目文字**
   - `//ul/li[1]/text()`
5. **選擇下一頁按鈕的鏈接**
   - `//a[@class='next']/@href`

---

### **簡單總結**
1. **路徑選擇**：
   - `/` → 單層。
   - `//` → 全局多層。
   - `.` → 當前節點。
   - `..` → 父節點。
2. **屬性**：`@屬性名`。
3. **文字內容**：`/text()`。
4. **條件篩選**：`[條件]`。
5. **索引**：`[1]`, `[last()]`。

這些是 XPath 最常用的語法，搭配 Scrapy 使用，可以靈活提取網頁數據！

簡化重點：**`/` 定路徑，`@` 取屬性，`[]` 加條件，`text()` 抓文字，`//` 到處找。**

以下是一個示例 HTML 文件，並對其進行註解，說明各部分的節點結構和類型。

---

### **HTML 文件範例**

```html
<!-- 根節點: 整個 HTML 文件 -->
<html> 
  <!-- 頭部節點 -->
  <head> 
    <!-- 元數據節點 -->
    <title>Example Page</title> <!-- <title> 是元素節點，"Example Page" 是文字節點 -->
  </head>
  
  <!-- 主體節點 -->
  <body> 
    <!-- 標題節點 -->
    <h1 class="main-title">Welcome to the Example Page</h1> <!-- <h1> 是元素節點, "Welcome to..." 是文字節點, class 是屬性節點 -->

    <!-- 清單容器節點 -->
    <div id="content"> <!-- <div> 是元素節點，id 是屬性節點 -->
      <!-- 列表項目節點 -->
      <ul> <!-- <ul> 是元素節點 -->
        <li>Item 1</li> <!-- <li> 是元素節點，"Item 1" 是文字節點 -->
        <li>Item 2</li>
        <li>Item 3</li>
      </ul>
    </div>

    <!-- 超連結節點 -->
    <a href="https://example.com" class="external-link">Visit Example</a> <!-- <a> 是元素節點, href 和 class 是屬性節點 -->

    <!-- 註解節點 -->
    <!-- This is a comment -->

    <!-- 圖片節點 -->
    <img src="example.jpg" alt="Example Image" /> <!-- <img> 是元素節點, src 和 alt 是屬性節點 -->
  </body>
</html>
```

---

### **節點解釋**

#### **根節點**
- `<html>` 是根節點，包含整個文檔。

#### **元素節點**
- `<head>`, `<title>`, `<body>`, `<h1>`, `<div>`, `<ul>`, `<li>`, `<a>`, `<img>` 都是元素節點。
- 每個標籤本身是一個元素節點。

#### **屬性節點**
- 標籤內的屬性如 `class`, `id`, `href`, `src`, `alt` 是屬性節點，描述元素的屬性。

#### **文字節點**
- 位於標籤之間的文字，如 `<title>Example Page</title>` 中的 `"Example Page"` 是文字節點。

#### **註解節點**
- `<!-- This is a comment -->` 是註解節點，不會影響顯示內容。

---

### **XPath 查詢練習**

1. **提取標題文字**
   - XPath: `//h1/text()`
   - 結果: `Welcome to the Example Page`

2. **提取清單內容**
   - XPath: `//ul/li/text()`
   - 結果: `['Item 1', 'Item 2', 'Item 3']`

3. **提取第一個列表項文字**
   - XPath: `//ul/li[1]/text()`
   - 結果: `Item 1`

4. **提取超連結的 href 屬性**
   - XPath: `//a/@href`
   - 結果: `https://example.com`

5. **提取圖片的 alt 屬性**
   - XPath: `//img/@alt`
   - 結果: `Example Image`

---
