# 复习

请求方法在请求头(Requests Headers)中，浏览器发送HTTP请求时，要告诉服务器此次请求的方法类型。

# 分析网页

想要获取网页中的数据，首先要获取网页 HTML 代码，再把数据从中提取出来。

我们要向网页的服务器发送请求，服务器返回的响应就是网页 HTML 代码。

现在我们获取到了网页的 HTML 代码，该如何获取数据呢？🤔

在之前的课程中，我们学习过切片，可以按照字符个数提取相关内容。在右图代码中，按照切片提取出 h1 标签节点

但是，如果 HTML代码很长，想要获取的节点又不是相连的，用切片的方法就行不通了。

# Beautiful Soup 解析库

## bs4的安装

对于一个网页的节点来说，它可以定义id、class或其他属性，而且节点之间还有层级关系。

我们可以借助网页节点的结构和属性，提取想要的信息。在这里，我们来学习一个强大的解析工具——BeautifulSoup

**网页中的每个部分都可以叫做节点。例如：html标签、属性、文本等都是一个节点**。

BeautifulSoup 是 Python 的一个 HTML 或 XML 的解析模块，可以用它来从网页中提取想要的数据。    

BeautifulSoup不是一个内置模块，所以在使用前要先通过代码 pip install bs4 在终端中进行安装

XML用来传送和携带数据信息，并不展现或者表现数据，HTML用来表示数据

## lxml的安装

网络爬虫的最终目的就是**过滤选取网络信息**，最重要的部分可以说是解析器。解析器的优劣决定了爬虫的速度和效率。

Beautiful Soup 官方推荐我们使用的是 lxml 解析器，原因是它具有更高的效率，所以我们也将采用lxml解析器。

lxml 不是一个内置模块，所以在使用前要先通过代码 pip install lxml 在终端中进行安装。

安装完成后，我们需要使用 bs4 模块中的 BeautifulSoup 类。

这就要使用 from...import 从 bs4 中导入 BeautifulSoup 。

## 创建BeautifulSoup 对象

调用 BeautifulSoup() 初始化函数，用于构建一个 BeautifulSoup 对象。    

在创建一个 BeautifulSoup 对象时，需要传入两个参数：

第一个参数
是需要解析的 HTML 文本，在这里我们传入变量 html。

第二个参数
是解析器的类型，这里我们使用的是lxml。     

然后，将 BeautifulSoup 对象赋值给变量 soup，就可以调用 soup 解析这串 HTML 代码。

在输出的结果中包含了 html 和 head节点。

也就是说 BeautifulSoup 把不标准的 HTML 代码重新进行了**自动更正**。    

```
soup = BeautifulSoup(html, "lxml")
```

In [1]:
# 使用from...import从bs4模块中导入BeautifulSoup
from bs4 import BeautifulSoup

# 定义html
html = '''
<title>网络爬虫课程</title>
<body>
    <h1 align="center">我的第一个标题-居中显示</h1>
    <h2>我的第二个标题，不居中显示</h2>
    <p>我的第一个段落
    </p>
'''

# TODO 使用BeautifulSoup()读取html，添加lxml解析器，赋值给soup
soup = BeautifulSoup(html, "lxml")

# TODO 使用print()输出soup
print(soup)

<html><head><title>网络爬虫课程</title>
</head><body>
<h1 align="center">我的第一个标题-居中显示</h1>
<h2>我的第二个标题，不居中显示</h2>
<p>我的第一个段落
    </p>
</body></html>


# 解析网页

In [2]:
# 使用import导入requests模块
import requests

# 从bs4中导入BeautifulSoup
from bs4 import BeautifulSoup

# 将URL地址赋值给变量url
url = "https://nocturne-spider.baicizhan.com/2020/08/07/1/"

# 将变量url传入requests.get()，赋值给response
response = requests.get(url)

# 将服务器响应内容转换为字符串形式，赋值给html
html = response.text

# 使用BeautifulSoup()读取html，添加lxml解析器，赋值给soup
soup = BeautifulSoup(html, "lxml")

# 使用print输出soup
print(soup)

<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1, maximum-scale=2" name="viewport"/>
<meta content="#222" name="theme-color"/>
<meta content="Hexo 5.1.1" name="generator"/>
<link href="/images/apple-touch-icon-next.png" rel="apple-touch-icon" sizes="180x180"/>
<link href="/images/favicon-32x32-next.png" rel="icon" sizes="32x32" type="image/png"/>
<link href="/images/favicon-16x16-next.png" rel="icon" sizes="16x16" type="image/png"/>
<link color="#222" href="/images/logo.svg" rel="mask-icon"/>
<link href="/css/main.css" rel="stylesheet"/>
<link href="/lib/font-awesome/css/all.min.css" rel="stylesheet"/>
<script id="hexo-configurations">
    var NexT = window.NexT || {};
    var CONFIG = {"hostname":"nocturne-spider.baicizhan.com","root":"/","scheme":"Muse","version":"7.8.0","exturl":false,"sidebar":{"position":"left","display":"always","padding":18,"offset":12,"onmobile":false},"copycode":{"enable":false,"show_result":

# 内容定位

定位内容所在节点查看提取内容在源代码中的位置：    

右键选择`检查`，用鼠标点击右上角的`箭头`，该箭头的功能就是通过鼠标去选择页面上某个元素，定位在代码中的位置。    

鼠标滑动到一段台词的位置，显示出高亮。在HTML代码中，显示出代码位置。

## 查询符合条件的节点

仔细观察一下文本所在的位置，它们是包含在`<em>XXX</em>`这样的节点中，它们都有相同的标签。

在这里，我们可以使用 BeautifulSoup 中的 find_all() 函数，获取所有符合指定条件的节点。     

em标签的作用是把这段文字用斜体来显示。     

BeautifulSoup 中的 find_all() 函数，可以根据标签名，获取soup中的节点。变量 soup 是一个 BeautifulSoup 对象，调用 soup 使用 find_all() 函数就能查找 HTML 中的内容。find_all() 函数可以查询 soup 中所有符合条件的元素，组成一个列表赋值给ps。    

find_all(name="标签") 根据标签名查询节点

示例代码中，如果我们想要获取 h1 标签所在的节点，可以在 find_all() 中，传入 name 参数，其参数值为 h1 。

由于 name 可以省略，我们也可以直接传入参数值。    

将返回的结果，赋值给一个变量。输出的结果是包含所有 h1 节点的列表。

In [4]:
from bs4 import BeautifulSoup
html = '''
<title>网络爬虫课程</title>
<body>
    <h1 align="center">我的第一个标题-居中显示</h1>
    <h2>我的第二个标题，不居中显示</h2>
    <p>我的第一个段落
    </p>
'''
soup = BeautifulSoup(html, "lxml")
ps = soup.find_all(name = "h1")
print(ps)

[<h1 align="center">我的第一个标题-居中显示</h1>]


In [3]:
# 使用import导入requests模块
import requests

# 从bs4中导入BeautifulSoup
from bs4 import BeautifulSoup

# 将URL地址赋值给变量url
url = "https://nocturne-spider.baicizhan.com/2020/08/07/1/"

# 将变量url传入requests.get()，赋值给response
response = requests.get(url)

# 将服务器响应内容转换为字符串形式，赋值给html
html = response.text

# 使用BeautifulSoup()读取html，添加lxml解析器，赋值给soup
soup = BeautifulSoup(html, "lxml")

# 使用find_all()查询soup中em的节点，赋值给content_all
content_all = soup.find_all(name = "em")

# 使用print输出content_all
print(content_all)

[<em>这几天你总是围着我转圈圈。</em>, <em>我好奇地问你在干什么。</em>, <em>你说：“我在环游世界。”</em>]


在HTML代码中，我们可以看到三句台词位置都在 `<em> `标签内。

在这里，我们在 find_all() 函数中，传入 name 参数，其参数值为 em 。

将返回的由所有 em 节点组成的列表，赋值给变量 content_all。

# 总结

1. 导入 BeautifulSoup ；
2. 使用 BeautifulSoup() 函数对相应内容进行解析；
3. 使用 find_all() 提取网页节点。     

请求网站、分析节点、提取内容

# 题目

## 疯狂原始人     

静静学习了今天的课程后，想要学以致用获取“疯狂原始人”这部电影的人物介绍，网页URL地址在下方，要提取的内容在标记的红色框内，这该怎么实现呢？

首先需要获取网页的HTML代码；接着使用 BeautifulSoup 解析网页，使用 find_all() 根据标签提取节点内容并输出。

网页地址：https://nocturne-spider.baicizhan.com/2020/08/14/2/

In [5]:
# TODO 使用import导入requests模块

import requests
# TODO 从bs4中导入BeautifulSoup

from bs4 import BeautifulSoup
# TODO 将URL地址赋值给变量url
url = "https://nocturne-spider.baicizhan.com/2020/08/14/2/"

# TODO 将变量url传入requests.get()，赋值给response
response = requests.get(url)

# TODO 将服务器响应内容转换为字符串形式，赋值给html
html = response.text

# TODO 使用BeautifulSoup()读取html，添加lxml解析器，赋值给soup

soup = BeautifulSoup(html, "lxml")
# TODO 使用find_all()查询soup中em的节点，赋值给content_all
content_all = soup.find_all(name = "em")

# TODO 使用print输出content_all
print(content_all)    

[<em>介绍</em>, <em>瓜哥（Grug Crood）疯狂原始人的领导，充满力量的山洞人，一直尽心尽力保护家族，害怕接触新事物，对小伊亲近阿盖感到担忧及不满。最后收养了一只像猫的老虎。</em>, <em>小伊（Eep Crood）瓜哥与乌嘎的大女儿，对世界充满好奇，对一直都只能住在山洞感到不满，在某一晚偷溜出山洞，结识了阿盖。</em>, <em>阿盖（Guy）可爱的摩登人，失去了家庭。虽然不是很强壮，但是很聪明友善并懂得生火及制作陷阱，偶然遇上偷走出山洞的小伊。养有一只叫“皮带”的树懒做助手。</em>, <em>皮带（Belt）树懒，阿盖的宠物。</em>, <em>乌嘎（Ugga Crood）古鲁的老婆。</em>, <em>坦克（Thunk Crood）瓜哥与乌嘎的二儿子，小伊的弟弟，圆圆的身躯，总是战战竞竞听从父亲的说话。不是很聪明但是心地善良。收养了一只叫“道格拉斯”的鳄鱼狗做宠物。</em>, <em>奶奶（Gran）瓜哥的岳母，乌嘎的母亲。与女婿瓜哥关系不好，经常数落瓜哥。</em>, <em>小珊（Sandy Crood）瓜哥与乌嘎的三女儿，是个野人小孩，不会说话，后学会对父亲瓜哥的第一句话“把拔”。</em>]
