### 

### **BeautifulSoup 使用课件**

#### 课程目标：

通过本次课，学生将学习如何使用 `BeautifulSoup` 库来解析 HTML 文档，提取有用的内容。课程将涵盖 `BeautifulSoup` 的基础用法、元素查找、文档树遍历及实际应用示例。

---

### **1. 什么是 BeautifulSoup？**

`BeautifulSoup` 是 Python 的一个库，用于从 HTML 或 XML 文档中提取数据。它将复杂的 HTML 文档转换为易于处理的 Python 对象，如标签、列表等。常用于网络爬虫的数据解析。

---

### **2. 环境设置**

- 安装 `BeautifulSoup4`：

  ```bash
  pip install beautifulsoup4
  pip install lxml
  ```

  **说明**：

  - `beautifulsoup4` 是解析 HTML 的核心库。
  - `lxml` 是 HTML 解析器，推荐用于高效、宽容的解析。

---

### **3. BeautifulSoup 的基本使用方法**

通过 `BeautifulSoup`，我们可以非常方便地解析和提取 HTML 文档中的数据。

#### 例子：解析 HTML 文档

In [11]:
from bs4 import BeautifulSoup

# 示例 HTML 内容
html_content = '''
<html>
  <head>
    <title>示例页面</title>
  </head>
  <body>
    <h1>欢迎来到示例页面11</h1>
    <div class="movie">
        <h2>电影名称: 夺冠</h2>
        <span class="rating_num">8.5</span>
    </div>
    <div class="movie">
        <h2>电影名称: 八佰</h2>
        <span class="rating_num">7.9</span>
    </div>
  </body>
</html>
'''

# 创建 BeautifulSoup 对象并解析 HTML 内容
soup = BeautifulSoup(html_content, 'lxml')

# 查找网页标题
page_title = soup.title.text
print(f"页面标题: {page_title}")

# 查找第一个 <h1> 标签的内容
h1_text = soup.h1.text
print(f"主标题: {h1_text}")

# 查找所有电影信息
movies = soup.find_all('div', class_='movie')

for movie in movies:
    # 提取电影名称
    title = movie.find('h2').text
    # 提取电影评分
    rating = movie.find('span', class_='rating_num').text
    print(f"电影: {title}, 评分: {rating}")


页面标题: 示例页面
主标题: 欢迎来到示例页面11
电影: 电影名称: 夺冠, 评分: 8.5
电影: 电影名称: 八佰, 评分: 7.9


### **4. 查找 HTML 元素**

#### **4.1 使用 `find()` 查找单个元素**

In [12]:
# 查找第一个 <h2> 标签
first_h2 = soup.find('h2').text
print(f"第一个电影标题: {first_h2}")


第一个电影标题: 电影名称: 夺冠


**4.2 使用 `find_all()` 查找所有符合条件的元素**

In [13]:
# 查找所有电影的标题
all_h2 = soup.find_all('h2')
for movie in all_h2:
    print(f"电影名称: {movie.text}")


电影名称: 电影名称: 夺冠
电影名称: 电影名称: 八佰


**4.3 查找特定属性的元素**

In [4]:
# 查找所有评分
ratings = soup.find_all('span', class_='rating_num')
for rating in ratings:
    print(f"评分: {rating.text}")


评分: 8.5
评分: 7.9


### **5. 遍历文档树**

- `.parent`：找到当前标签的父节点
- `.children`：遍历当前标签的子节点
- `.next_sibling` / `.previous_sibling`：查找兄弟节点

In [14]:
# 查找 <h2> 标签的父节点
parent_tag = soup.h2.parent
print(f"父标签: {parent_tag.name}")

# 遍历 <div> 标签中的子节点
div_tag = soup.div
for child in div_tag.children:
    print(child)


父标签: div


<h2>电影名称: 夺冠</h2>


<span class="rating_num">8.5</span>




### **6. 提取标签内容和属性**

#### **6.1 获取标签中的纯文本**

In [6]:
# 获取第一个电影标题中的文本
movie_title = soup.h2.get_text()
print(f"电影名称: {movie_title}")


电影名称: 电影名称: 夺冠


**6.2 提取标签属性**

In [15]:
# 示例 HTML 中的链接
html_with_links = '''
<a href="https://example.com">Example</a>
<a href="https://another.com">Another Example</a>
'''

soup_links = BeautifulSoup(html_with_links, 'lxml')
links = soup_links.find_all('a')

# 提取每个链接的 href 属性
for link in links:
    print(f"链接: {link.get('href')}")


链接: https://example.com
链接: https://another.com


In [17]:
from bs4 import BeautifulSoup
import requests

# 设置请求的 URL
url = "https://movie.douban.com/top250"

# 定义请求头，模拟浏览器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# 发送 GET 请求，获取页面内容
response = requests.get(url, headers=headers)

# 检查请求是否成功
if response.status_code == 200:
    html_content = response.text  # 获取网页 HTML 内容
    
    # 使用 BeautifulSoup 解析 HTML 内容
    soup = BeautifulSoup(html_content, 'lxml')
    
    # 查找所有的电影条目
    movies = soup.find_all('div', class_='item')
    
    # 遍历每个电影条目，提取相关信息
    for movie in movies:
        # 提取电影标题
        title = movie.find('span', class_='title').text
        
        # 提取评分
        rating = movie.find('span', class_='rating_num').text
        
        # 提取导演和主演信息
        director = movie.find('p').text.strip().split('\n')[0].strip()
        
        # 提取简短评论，如果有的话
        quote = movie.find('span', class_='inq')
        if quote:
            quote = quote.text
        else:
            quote = "暂无简评"
        
        # 输出电影信息
        print(f"电影: {title}")
        print(f"评分: {rating}")
        print(f"导演: {director}")
        print(f"简评: {quote}")
        print("-" * 40)

else:
    print(f"请求失败，状态码: {response.status_code}")


电影: 肖申克的救赎
评分: 9.7
导演: 导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins /...
简评: 暂无简评
----------------------------------------
电影: 霸王别姬
评分: 9.6
导演: 导演: 陈凯歌 Kaige Chen   主演: 张国荣 Leslie Cheung / 张丰毅 Fengyi Zha...
简评: 暂无简评
----------------------------------------
电影: 泰坦尼克号
评分: 9.5
导演: 导演: 詹姆斯·卡梅隆 James Cameron   主演: 莱昂纳多·迪卡普里奥 Leonardo...
简评: 暂无简评
----------------------------------------
电影: 阿甘正传
评分: 9.5
导演: 导演: 罗伯特·泽米吉斯 Robert Zemeckis   主演: 汤姆·汉克斯 Tom Hanks / ...
简评: 暂无简评
----------------------------------------
电影: 千与千寻
评分: 9.4
导演: 导演: 宫崎骏 Hayao Miyazaki   主演: 柊瑠美 Rumi Hîragi / 入野自由 Miy...
简评: 暂无简评
----------------------------------------
电影: 美丽人生
评分: 9.5
导演: 导演: 罗伯托·贝尼尼 Roberto Benigni   主演: 罗伯托·贝尼尼 Roberto Beni...
简评: 暂无简评
----------------------------------------
电影: 这个杀手不太冷
评分: 9.4
导演: 导演: 吕克·贝松 Luc Besson   主演: 让·雷诺 Jean Reno / 娜塔莉·波特曼 ...
简评: 暂无简评
----------------------------------------
电影: 星际穿越
评分: 9.4
导演: 导演: 克里斯托弗·诺兰 Christopher Nolan   主演: 马修·麦康纳 Matthew Mc...
简评: 暂无简评
--

### 代码解析：

1. **请求页面**：通过 `requests.get` 发送 GET 请求到豆瓣的 `Top 250` 页面，并模拟一个浏览器的请求头，以防止被阻止。
2. **解析 HTML**：使用 `BeautifulSoup` 解析 HTML 内容，并提取电影条目列表。
3. **提取信息**：
   - **电影标题**：通过查找 `span` 标签，提取其中的电影标题。
   - **评分**：通过 `span` 标签中的 `class_='rating_num'`，提取评分信息。
   - **导演及主演**：通过电影条目中的 `<p>` 标签提取导演和主演的信息。
   - **简评**：尝试查找 `span` 标签中的简评内容，如果没有，则显示 "暂无简评"。
4. **输出**：打印每部电影的详细信息，包括标题、评分、导演和简评。

In [9]:
from bs4 import BeautifulSoup
import requests

# 设置请求的 URL
url = "https://movie.douban.com/top250"

# 定义请求头，模拟浏览器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# 发送 GET 请求，获取页面内容
response = requests.get(url, headers=headers)

# 检查请求是否成功
if response.status_code == 200:
    html_content = response.text  # 获取网页 HTML 内容
    
    # 使用 BeautifulSoup 解析 HTML 内容
    soup = BeautifulSoup(html_content, 'lxml')
    
    # 使用 CSS 选择器提取所有电影的标题
    movie_titles = soup.select('#content div.article ol li div.info div.hd a span.title')
    
    # 打印所有提取到的电影标题
    for title in movie_titles:
        print(f"电影名称: {title.text}")
else:
    print(f"请求失败，状态码: {response.status_code}")


电影名称: 肖申克的救赎
电影名称:  / The Shawshank Redemption
电影名称: 霸王别姬
电影名称: 泰坦尼克号
电影名称:  / Titanic
电影名称: 阿甘正传
电影名称:  / Forrest Gump
电影名称: 千与千寻
电影名称:  / 千と千尋の神隠し
电影名称: 美丽人生
电影名称:  / La vita è bella
电影名称: 这个杀手不太冷
电影名称:  / Léon
电影名称: 星际穿越
电影名称:  / Interstellar
电影名称: 盗梦空间
电影名称:  / Inception
电影名称: 楚门的世界
电影名称:  / The Truman Show
电影名称: 辛德勒的名单
电影名称:  / Schindler's List
电影名称: 忠犬八公的故事
电影名称:  / Hachi: A Dog's Tale
电影名称: 海上钢琴师
电影名称:  / La leggenda del pianista sull'oceano
电影名称: 三傻大闹宝莱坞
电影名称:  / 3 Idiots
电影名称: 疯狂动物城
电影名称:  / Zootopia
电影名称: 放牛班的春天
电影名称:  / Les choristes
电影名称: 机器人总动员
电影名称:  / WALL·E
电影名称: 无间道
电影名称:  / 無間道
电影名称: 控方证人
电影名称:  / Witness for the Prosecution
电影名称: 大话西游之大圣娶亲
电影名称:  / 西遊記大結局之仙履奇緣
电影名称: 熔炉
电影名称:  / 도가니
电影名称: 触不可及
电影名称:  / Intouchables
电影名称: 教父
电影名称:  / The Godfather
电影名称: 寻梦环游记
电影名称:  / Coco
电影名称: 当幸福来敲门
电影名称:  / The Pursuit of Happyness


In [None]:
#content > div > div.article > ol > li:nth-child(1) > div > div.info > div.hd > a > span:nth-child(1)
#content > div > div.article > ol > li:nth-child(2) > div > div.info > div.hd > a > span.title
#content > div > div.article > ol > li:nth-child(3) > div > div.info > div.hd > a > span:nth-child(1)


两个 CSS 选择器中，分别针对页面中的第一个和第二个电影标题进行定位。通过分析这两个选择器，我们可以推导出所有电影标题的通用选择器。以下是对这两个选择器的解释，并解释如何推导出通用的选择器来提取所有的电影标题。

### 选择器 1 和 2：

- **选择器 1**: `#content > div > div.article > ol > li:nth-child(1) > div > div.info > div.hd > a > span:nth-child(1)`
  - 这个选择器用于提取第一个电影的标题。
  - `nth-child(1)` 是关键，它表示在页面中的第一个电影条目。
  - `span:nth-child(1)` 选择的是电影标题的 `span` 标签。

- **选择器 2**: `#content > div > div.article > ol > li:nth-child(2) > div > div.info > div.hd > a > span.title`
  - 这个选择器用于提取第二个电影的标题。
  - `nth-child(2)` 表示第二个电影条目。
  - `span.title` 用于选择标题的 `span` 标签，它是 `.title` 类名的 `span`。

### 通用选择器的推导：

#### 分析关键部分：

- `#content > div > div.article > ol > li:nth-child(n) > div > div.info > div.hd > a > span.title`
  - `#content > div > div.article > ol > li`：`li` 代表每个电影条目，它位于 `ol` 标签中，并包含多个 `li` 项。
  - `div.info`：这是每个电影条目的包含电影信息的 `div`。
  - `div.hd > a > span.title`：这是包含电影标题的元素路径。

#### 观察共同点：

- 选择器 1 和 2 的唯一不同之处在于 `li:nth-child(n)` 的值（`nth-child(1)` 和 `nth-child(2)`）。这表示每个电影标题都遵循相同的结构，而 `li:nth-child(n)` 只是定位某个特定的电影条目。

#### 通用选择器：

通过移除 `nth-child(n)`，我们可以得到一个适用于所有电影条目的通用选择器：

```css
#content > div > div.article > ol > li > div > div.info > div.hd > a > span.title
```

该选择器会选中所有电影的标题，而不仅仅是第一个或第二个。

### 推导后的代码解释：

使用通用选择器，我们可以通过 `BeautifulSoup` 提取所有电影的标题：

```python
from bs4 import BeautifulSoup
import requests

# 设置请求的 URL
url = "https://movie.douban.com/top250"

# 定义请求头，模拟浏览器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# 发送 GET 请求，获取页面内容
response = requests.get(url, headers=headers)

# 检查请求是否成功
if response.status_code == 200:
    html_content = response.text  # 获取网页 HTML 内容
    
    # 使用 BeautifulSoup 解析 HTML 内容
    soup = BeautifulSoup(html_content, 'lxml')
    
    # 使用通用的 CSS 选择器提取所有电影的标题
    movie_titles = soup.select('#content > div > div.article > ol > li > div > div.info > div.hd > a > span.title')
    
    # 打印所有提取到的电影标题
    for title in movie_titles:
        print(f"电影名称: {title.text}")
else:
    print(f"请求失败，状态码: {response.status_code}")
```

### 解释：

- 通过 CSS 选择器 `#content > div > div.article > ol > li > div > div.info > div.hd > a > span.title`，我们可以提取所有电影条目中的标题，而不再局限于某个特定的电影条目。
- `li` 是所有电影条目的通用选择器，因此我们可以用它循环遍历所有电影标题。

### 结论：

通过分析 `nth-child(1)` 和 `nth-child(2)` 的选择器，我们发现每个电影的结构相同，并通过通用选择器可以抓取所有电影标题。

