# 解析数据的BeautifulSoup模块

In [33]:
#官方文件：
# https://www.crummy.com/software/BeautifulSoup/bs4/doc/
#https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

In [34]:
'''
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.
它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.
'''

'\nBeautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.\n它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.\n'

## 9.1使用BeautifulSoup解析数据

### 9.1.1 BeautifulSoup的安装

In [35]:
#pip install beautifulsoup4

### 9.1.2 解析器

In [36]:
'''
推荐使用lxml作为解析器,因为效率更高
'''

'\n推荐使用lxml作为解析器,因为效率更高\n'

### 9.1.2 BeautifulSoup的简单运用

In [37]:
from bs4 import BeautifulSoup  # 导入BeautifulSoup库
import re                      # 导入正则表达式模块

In [38]:
# 创建模拟HTML代码的字符串
html_doc = """
<html>
<head>
<title>第一个 HTML 页面</title>
</head>
<body>
<p>body 元素的内容会显示在浏览器中。</p>
<p>title 元素的内容会显示在浏览器的标题栏中。</p>
</body>
</html>
"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml") #指定解析器为lxml
print(soup)                  # 打印解析的HTML代码
print(type(soup))            # 打印数据类型

<html>
<head>
<title>第一个 HTML 页面</title>
</head>
<body>
<p>body 元素的内容会显示在浏览器中。</p>
<p>title 元素的内容会显示在浏览器的标题栏中。</p>
</body>
</html>

<class 'bs4.BeautifulSoup'>


In [39]:
#创建BEautifulSoup对象打开需要解析的HTML文件
soup=BeautifulSoup(open('index.html'),'html5lib')
print(soup.prettify())#打印格式化后的代码

<!DOCTYPE html>
<html>
 <head>
 </head>
 <body>
  <title1>
   第一个 HTML 页面
  </title1>
  <p>
   body 元素的内容会显示在浏览器中。
  </p>
  <p>
   title 元素的内容会显示在浏览器的标题栏中。
  </p>
 </body>
</html>


## 9.2 获取节点内容

### 9.2.1 获取节点对应的代码

In [40]:
# 创建模拟HTML代码的字符串
html_doc = """
<html>
<head>
<title>第一个 HTML 页面</title>
</head>
<body>
<p>body 元素的内容会显示在浏览器中。</p>
<p>title 元素的内容会显示在浏览器的标题栏中。</p>
</body>
</html>
"""

# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print('head节点内容为：\n',soup.head)               # 打印head节点
'''
<head>
<title>第一个 HTML 页面</title>
</head>
'''
print('body节点内容为：\n',soup.body)               # 打印body节点
'''
<body>
<p>body 元素的内容会显示在浏览器中。</p>
<p>title 元素的内容会显示在浏览器的标题栏中。</p>
</body>
'''
print('title节点内容为：\n',soup.title)              # 打印title节点
#<title>第一个 HTML 页面</title>
print('p节点内容为：\n',soup.p)                  # 打印p节点
#<p>body 元素的内容会显示在浏览器中。</p>  #只打印了第一个节点，说明多个节点时只会打印第一个节点，可以用loop实现

head节点内容为：
 <head>
<title>第一个 HTML 页面</title>
</head>
body节点内容为：
 <body>
<p>body 元素的内容会显示在浏览器中。</p>
<p>title 元素的内容会显示在浏览器的标题栏中。</p>
</body>
title节点内容为：
 <title>第一个 HTML 页面</title>
p节点内容为：
 <p>body 元素的内容会显示在浏览器中。</p>


In [41]:
#获取节点名称
print(soup.head.name)
print(soup.body.name)
print(soup.title.name)
print(soup.p.name)

head
body
title
p


### 9.2.2 获取节点属性

In [42]:
'''
Build fast, responsive sites with Bootstrap
Quickly design and customize responsive mobile-first sites with Bootstrap, 
the world’s most popular front-end open source toolkit,
 featuring Sass variables and mixins, responsive grid system,
  extensive prebuilt components, and powerful JavaScript plugins.
'''

'\nBuild fast, responsive sites with Bootstrap\nQuickly design and customize responsive mobile-first sites with Bootstrap, \nthe world’s most popular front-end open source toolkit,\n featuring Sass variables and mixins, responsive grid system,\n  extensive prebuilt components, and powerful JavaScript plugins.\n'

In [43]:
# 创建模拟HTML代码的字符串
html_doc = """
<html>
<head>
    <title>横排响应式登录</title>
    <meta http-equiv="Content-Type" content="text/html" charset="utf-8"/>
    <meta name="viewport" content="width=device-width"/>
    <link href="font/css/bootstrap.min.css" type="text/css" rel="stylesheet">
    <link href="css/style.css" type="text/css" rel="stylesheet">
</head>
<body>
<h3>登录</h3>
<div class="glyphicon glyphicon-envelope"><input type="text" placeholder="请输入邮箱"></div>
<div class="glyphicon glyphicon-lock"><input type="password" placeholder="请输入密码"></div>
</body>
</html>
"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print('meta节点中属性如下：\n',soup.meta.attrs)
# {'http-equiv': 'Content-Type', 'content': 'text/html', 'charset': 'utf-8'}
print('link节点中属性如下：\n',soup.link.attrs)
#{'href': 'font/css/bootstrap.min.css', 'type': 'text/css', 'rel': ['stylesheet']}
print('div节点中属性如下：\n',soup.div.attrs)
#{'class': ['glyphicon', 'glyphicon-envelope']}
#type为字典

meta节点中属性如下：
 {'http-equiv': 'Content-Type', 'content': 'text/html', 'charset': 'utf-8'}
link节点中属性如下：
 {'href': 'font/css/bootstrap.min.css', 'type': 'text/css', 'rel': ['stylesheet']}
div节点中属性如下：
 {'class': ['glyphicon', 'glyphicon-envelope']}


In [44]:
print('meta节点中http-equiv属性对应的值为：\n',soup.meta.attrs['http-equiv'])
print('meta节点中http-equiv属性对应的值为：\n',soup.meta['http-equiv'])

meta节点中http-equiv属性对应的值为：
 Content-Type
meta节点中http-equiv属性对应的值为：
 Content-Type


### 9.2.3获取节点包含的文本内容

In [45]:
#获取节点包含的文本内容，节点名称后面添加string属性
print('title节点所包含的文本内容为',soup.title.string)
print('h3节点所包含的文本内容为',soup.h3.string)

title节点所包含的文本内容为 横排响应式登录
h3节点所包含的文本内容为 登录


### 9.2.4 嵌套获取节点内容

In [46]:
# 创建模拟HTML代码的字符串
html_doc = """
<html>
<head>
    <title>横排响应式登录</title>
    <meta http-equiv="Content-Type" content="text/html" charset="utf-8"/>
    <meta name="viewport" content="width=device-width"/>
    <link href="font/css/bootstrap.min.css" type="text/css" rel="stylesheet">
    <link href="css/style.css" type="text/css" rel="stylesheet">
</head>
</html>
"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print('head节点内容如下：\n',soup.head)
'''
 <head>
<title>横排响应式登录</title>
<meta charset="utf-8" content="text/html" http-equiv="Content-Type"/>
<meta content="width=device-width" name="viewport"/>
<link href="font/css/bootstrap.min.css" rel="stylesheet" type="text/css"/>
<link href="css/style.css" rel="stylesheet" type="text/css"/>
</head>
'''
print('head节点数据类型为：',type(soup.head))
# <class 'bs4.element.Tag'>
print('head节点中title节点内容如下：\n',soup.head.title)
# <title>横排响应式登录</title>
print('head节点中title节点数据类型为：',type(soup.head.title))
#<class 'bs4.element.Tag'>
print('head节点中title节点中的文本内容为：',soup.head.title.string)
#横排响应式登录
print('head节点中title节点中文本内容的数据类型为：',type(soup.head.title.string))
#<class 'bs4.element.NavigableString'>

head节点内容如下：
 <head>
<title>横排响应式登录</title>
<meta charset="utf-8" content="text/html" http-equiv="Content-Type"/>
<meta content="width=device-width" name="viewport"/>
<link href="font/css/bootstrap.min.css" rel="stylesheet" type="text/css"/>
<link href="css/style.css" rel="stylesheet" type="text/css"/>
</head>
head节点数据类型为： <class 'bs4.element.Tag'>
head节点中title节点内容如下：
 <title>横排响应式登录</title>
head节点中title节点数据类型为： <class 'bs4.element.Tag'>
head节点中title节点中的文本内容为： 横排响应式登录
head节点中title节点中文本内容的数据类型为： <class 'bs4.element.NavigableString'>


### 9.2.5 关联节点

#### 1.获取子节点 children centents

In [47]:
#寻找节点为中心对应的子节点，孙节点，父节点以及兄弟节点

# 创建模拟HTML代码的字符串
html_doc = """
<html>
<head>
    <title>关联获取演示</title>
    <meta charset="utf-8"/>
</head>
</html>
"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup.head.contents)           # 列表形式打印head下所有子节点
print(soup.head.children)           # 可迭代对象形式打印head下所有子节点 list_iterator

['\n', <title>关联获取演示</title>, '\n', <meta charset="utf-8"/>, '\n']
<list_iterator object at 0x10f90e970>


In [48]:
# for loop 遍历节点

print(list(soup.head.children)) #打印将迭代对象转换为列表形式的所有节点

for i in soup.head.children: #循环遍历可迭代对象中的所有子节点
    print(i)  

['\n', <title>关联获取演示</title>, '\n', <meta charset="utf-8"/>, '\n']


<title>关联获取演示</title>


<meta charset="utf-8"/>




#### 获取孙节点 defendants

In [49]:
# 创建模拟HTML代码的字符串
html_doc = """
<html>
…此处省略…
<body>
<div id="test1">
    <div id="test2">
        <ul>
            <li class="test3" value = "user1234">
                此处为演示信息
            </li>
        </ul>
    </div>
</div>
</body>
</html>
"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup.body.descendants,'打印body节点下所有子孙节点内容的generator对象\n')          # 打印body节点下所有子孙节点内容的generator对象
for i in soup.body.descendants:       # 循环遍历generator对象中的所有子孙节点
    print(i)                            # 打印子孙节点内容

<generator object Tag.descendants at 0x10f92e4a0> 打印body节点下所有子孙节点内容的generator对象

<p>
…此处省略…
</p>

…此处省略…



<div id="test1">
<div id="test2">
<ul>
<li class="test3" value="user1234">
                此处为演示信息
            </li>
</ul>
</div>
</div>


<div id="test2">
<ul>
<li class="test3" value="user1234">
                此处为演示信息
            </li>
</ul>
</div>


<ul>
<li class="test3" value="user1234">
                此处为演示信息
            </li>
</ul>


<li class="test3" value="user1234">
                此处为演示信息
            </li>

                此处为演示信息
            










#### 获取父节点 parents

In [50]:
# 创建模拟HTML代码的字符串
html_doc = """
<html>
<head>
    <title>关联获取演示</title>
    <meta charset="utf-8"/>
</head>
</html>
"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup.title.parent,'\n')                # 打印title节点的父节点内容
print(soup.title.parents,'\n')               # 打印title节点的父节点及以上内容的generator对象
for i in soup.title.parents:           # 循环遍历generator对象中的所有父节点及以上内容
    print(i.name)                       # 打印父节点及祖先节点名称
    #[document]表示文档对象，是整个HTML文档，也是BeautifulSoup对象

<head>
<title>关联获取演示</title>
<meta charset="utf-8"/>
</head> 

<generator object PageElement.parents at 0x10f929cf0> 

head
html
[document]


#### 获取兄弟节点 next_sibling precious_silbing

In [51]:
# 创建模拟HTML代码的字符串
html_doc = """
<html>
<head>
    <title>关联获取演示</title>
    <meta charset="utf-8"/>
</head>
<body>
<p class="p-1" value = "1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>
第一个p节点下文本
<div class="div-1" value = "2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></div>
<p class="p-3" value = "3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>
<div class="div-2" value = "4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></div>
</body>
</html>
"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup.p.next_sibling)               # 打印第一个p节点下一个兄弟节点（文本节点内容）
#第一个p节点下文本
print(list(soup.p.next_sibling))         # 以列表形式打印文本节点中的所有元素
div = soup.p.next_sibling.next_sibling  # 获取p节点同级的第一个div节点
print(div)                               # 打印第一个div节点内容
print(div.previous_sibling)              # 打印第一个div节点上一个兄弟节点（文本节点内容）


第一个p节点下文本

['\n', '第', '一', '个', 'p', '节', '点', '下', '文', '本', '\n']
<div class="div-1" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></div>

第一个p节点下文本



In [52]:
print('获取p节点后面所有兄弟节点如下： \n',list(soup.p.next_siblings))
print('获取p节点前面所有兄弟节点如下： \n',list(soup.p.previous_siblings))

获取p节点后面所有兄弟节点如下： 
 ['\n第一个p节点下文本\n', <div class="div-1" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></div>, '\n', <p class="p-3" value="3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>, '\n', <div class="div-2" value="4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></div>, '\n']
获取p节点前面所有兄弟节点如下： 
 ['\n']


## 9.3 方法获取内容

### 9.3.1 find_all() 获取所有符合条件的内容

#### 1.name参数

In [53]:
# 创建模拟HTML代码的字符串
html_doc = """
<html>
<head>
    <title>关联获取演示</title>
    <meta charset="utf-8"/>
</head>

<body>
<p class="p-1" value = "1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>
<p class="p-2" value = "2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>
<p class="p-3" value = "3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>
<div class="div-2" value = "4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></div>
</body>
</html>
"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup.find_all(name='p'))           # 打印名称为p的所有节点内容
print(type(soup.find_all(name='p')))     # 打印数据类型

[<p class="p-1" value="1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>, <p class="p-2" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>, <p class="p-3" value="3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>]
<class 'bs4.element.ResultSet'>


In [54]:
print(type(soup.find_all(name='p')[0]))
print(soup.find_all(name='p')[0])
print(soup.find_all(name='p')[0].find_all(name='a'))

<class 'bs4.element.Tag'>
<p class="p-1" value="1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>
[<a href="https://item.jd.com/12353915.html">零基础学Python</a>]


#### 2.attrs参数

In [55]:
# 创建模拟HTML代码的字符串
html_doc = """
<html>
<head>
    <title>关联获取演示</title>
    <meta charset="utf-8"/>
</head>
<body>
<p class="p-1" value = "1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>
<p class="p-1" value = "2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>
<p class="p-3" value = "3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>
<div class="div-2" value = "4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></div>
</body>
</html>
"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print('字典参数结果如下：')
print(soup.find_all(attrs={'value':'1'}))        # 打印value值为1的所有内容，字典参数
print('赋值参数结果如下：')
print(soup.find_all(class_='p-1'))               # 打印class为p-1的所有内容，赋值参数
print(soup.find_all(value='3'))                  # 打印value值为3的所有内容，赋值参数

字典参数结果如下：
[<p class="p-1" value="1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>]
赋值参数结果如下：
[<p class="p-1" value="1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>, <p class="p-1" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>]
[<p class="p-3" value="3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>]


#### 3.text参数

In [56]:
# 创建模拟HTML代码的字符串
html_doc = """
<html>
<head>
    <title>关联获取演示</title>
    <meta charset="utf-8"/>
</head>
<body>
<p class="p-1" value = "1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>
<p class="p-1" value = "2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>
<p class="p-3" value = "3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>
<div class="div-2" value = "4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></div>
</body>
</html>
"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print('指定字符串所获取的内容如下：')
print(soup.find_all(text='零基础学Python'))         # 打印指定字符串所获取的内容
print('指定正则表达式对象所获取的内容如下：')
print(soup.find_all(text=re.compile('Python')))    # 打印指定正则表达式对象所获取的内容

指定字符串所获取的内容如下：
['零基础学Python']
指定正则表达式对象所获取的内容如下：
['零基础学Python', 'Python从入门到项目实践', 'Python项目开发案例集锦', 'Python编程锦囊']


### 9.2.3 find()获取第一个匹配的节点内容

In [57]:
# 创建模拟HTML代码的字符串
html_doc = """
<html>
<head>
    <title>关联获取演示</title>
    <meta charset="utf-8"/>
</head>
<body>
<p class="p-1" value = "1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>
<p class="p-1" value = "2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>
<p class="p-3" value = "3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>
<div class="div-2" value = "4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></div>
</body>
</html>
"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup.find(name='p'))                  # 打印第一个name为p的节点内容
print(soup.find(class_='p-3'))              # 打印第一个class为p-3的节点内容
print(soup.find(attrs={'value':'4'}))       # 打印第一个value为4的节点内容
print(soup.find(text=re.compile('Python'))) # 打印第一个文本中包含Python的文本信息

<p class="p-1" value="1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>
<p class="p-3" value="3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>
<div class="div-2" value="4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></div>
零基础学Python


## 9.3 CSS选择器

In [58]:
#https://www.w3schools.com/cssref/css_selectors.asp
#In CSS, selectors are patterns used to select the element(s) you want to style.
# https://www.w3school.com.cn/cssref/css_selectors.ASP
#CSS是Cascading Style Sheets的简称，中文称为层叠样式表，对html标签的渲染和布局
#CSS 规则由两个主要的部分构成：选择器，以及一条或多条声明。

In [59]:
# 创建模拟HTML代码的字符串
html_doc = """
<html>
<head>
    <title>关联获取演示</title>
    <meta charset="utf-8"/>
</head>
<body>
    <div class="test_1" id="class_1"> 
        <p class="p-1" value = "1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>
        <p class="p-2" value = "2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>
        <p class="p-3" value = "3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>
        <p class="p-4" value = "4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></p>
    </div>
    <div class="test_2" id="class_2">
        <p class="p-5"><a href="https://item.jd.com/12185501.html">零基础学Java（全彩版）</a></p>
        <p class="p-6"><a href="https://item.jd.com/12199033.html">零基础学Android（全彩版）</a></p>
        <p class="p-7"><a href="https://item.jd.com/12250414.html">零基础学C语言（全彩版）</a></p>
    </div>    
</body>
</html>
"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup.select('p'))                # 打印所有p节点内容
print('所有p节点内容如下：')
'''
[<p class="p-1" value="1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>, 
<p class="p-2" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>, 
<p class="p-3" value="3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>, 
<p class="p-4" value="4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></p>, 
<p class="p-5"><a href="https://item.jd.com/12185501.html">零基础学Java（全彩版）</a></p>, 
<p class="p-6"><a href="https://item.jd.com/12199033.html">零基础学Android（全彩版）</a></p>, 
<p class="p-7"><a href="https://item.jd.com/12250414.html">零基础学C语言（全彩版）</a></p>]
'''
print('所有p节点中的第二个p节点内容如下：')
print(soup.select('p')[1])             # 打印所有p节点中的第二个p节点
#<p class="p-2" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>
print('逐层获取的title节点如下：')
print(soup.select('html head title'))  # 打印逐层获取的title节点
#[<title>关联获取演示</title>]
print('类名为test_2所对应的节点如下：')
print(soup.select('.test_2'))          # 打印类名为test_2所对应的节点
'''
[<div class="test_2" id="class_2">
<p class="p-5"><a href="https://item.jd.com/12185501.html">零基础学Java（全彩版）</a></p>
<p class="p-6"><a href="https://item.jd.com/12199033.html">零基础学Android（全彩版）</a></p>
<p class="p-7"><a href="https://item.jd.com/12250414.html">零基础学C语言（全彩版）</a></p>
</div>]
'''
print('id值为class_1所对应的节点如下：')
print(soup.select('#class_1'))         # 打印id值为class_1所对应的节点
'''
[<div class="test_1" id="class_1">
<p class="p-1" value="1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>
<p class="p-2" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>
<p class="p-3" value="3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>
<p class="p-4" value="4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></p>
</div>]
'''
print(soup.select_one('a'))         # 打印a节点的第一个内容
#<a href="https://item.jd.com/12353915.html">零基础学Python</a>

[<p class="p-1" value="1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>, <p class="p-2" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>, <p class="p-3" value="3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>, <p class="p-4" value="4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></p>, <p class="p-5"><a href="https://item.jd.com/12185501.html">零基础学Java（全彩版）</a></p>, <p class="p-6"><a href="https://item.jd.com/12199033.html">零基础学Android（全彩版）</a></p>, <p class="p-7"><a href="https://item.jd.com/12250414.html">零基础学C语言（全彩版）</a></p>]
所有p节点内容如下：
所有p节点中的第二个p节点内容如下：
<p class="p-2" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>
逐层获取的title节点如下：
[<title>关联获取演示</title>]
类名为test_2所对应的节点如下：
[<div class="test_2" id="class_2">
<p class="p-5"><a href="https://item.jd.com/12185501.html">零基础学Java（全彩版）</a></p>
<p class="p-6"><a href="https://item.jd.com/12199033.html">零基础学Android（全彩版）</a></p>
<p cla

## test

In [60]:
import time               # 导入时间模块
import random             # 导入随机模块
import requests           # 导入网络请求模块
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
# 处理字符串中的空白符，并拼接字符串
def processing(strs):
    s = ''  # 定义保存内容的字符串
    for n in strs:
        n = ''.join(n.split())  # 去除空字符
        s = s + n  # 拼接字符串
    return s      # 返回拼接后的字符串

# 获取电影信息
def get_movie_info(url):
    response = requests.get(url,headers=header)                    # 发送网络请求
    soup = BeautifulSoup(response.text, "lxml")
    #html = etree.HTML(response.text)                               # 解析html字符串
    div_all = soup.find_all('div', class_='info')
    #div_all = html.xpath('//div[@class="info"]')
    for div in div_all:
        names = div.find('div', class_='hd').a.span.text   # 获取电影名字相关信息
        name = processing(names)                                    # 处理电影名称信息
        infos = div.find('div', class_='bd').p.text         # 获取导演、主演等信息
        info = processing(infos)                                   # 处理导演、主演等信息
        score = div.find('span', class_='rating_num').text     # 获取电影评分
        evaluation = div.find('div', class_='star').contents[7].text # 获取评价人数
        # 获取电影总结文字
        try:
            summary = div.find('span', class_='inq').text
        except:
            summary=''
        print('电影名称：',name)
        print('导演与演员：',info)
        print('电影评分：',score)
        print('评价人数：',evaluation)
        print('电影总结：',summary)
        print('--------分隔线--------')
if __name__ == '__main__':
    for i in range(0,250,25):    # 每页25为间隔，实现循环，共10页
        # 通过format替换切换页码的url地址
        url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
        get_movie_info(url)                      # 调用爬虫方法,获取电影信息
        time.sleep(random.randint(1,3))          # 等待1至3秒随机时间

电影名称： 肖申克的救赎
导演与演员： 导演:弗兰克·德拉邦特FrankDarabont主演:蒂姆·罗宾斯TimRobbins/...1994/美国/犯罪剧情
电影评分： 9.7
评价人数： 2480275人评价
电影总结： 希望让人自由。
--------分隔线--------
电影名称： 霸王别姬
导演与演员： 导演:陈凯歌KaigeChen主演:张国荣LeslieCheung/张丰毅FengyiZha...1993/中国大陆中国香港/剧情爱情同性
电影评分： 9.6
评价人数： 1843753人评价
电影总结： 风华绝代。
--------分隔线--------
电影名称： 阿甘正传
导演与演员： 导演:罗伯特·泽米吉斯RobertZemeckis主演:汤姆·汉克斯TomHanks/...1994/美国/剧情爱情
电影评分： 9.5
评价人数： 1863841人评价
电影总结： 一部美国近现代史。
--------分隔线--------
电影名称： 这个杀手不太冷
导演与演员： 导演:吕克·贝松LucBesson主演:让·雷诺JeanReno/娜塔莉·波特曼...1994/法国美国/剧情动作犯罪
电影评分： 9.4
评价人数： 2027038人评价
电影总结： 怪蜀黍和小萝莉不得不说的故事。
--------分隔线--------
电影名称： 泰坦尼克号
导演与演员： 导演:詹姆斯·卡梅隆JamesCameron主演:莱昂纳多·迪卡普里奥Leonardo...1997/美国墨西哥澳大利亚加拿大/剧情爱情灾难
电影评分： 9.4
评价人数： 1825593人评价
电影总结： 失去的才是永恒的。 
--------分隔线--------
电影名称： 美丽人生
导演与演员： 导演:罗伯托·贝尼尼RobertoBenigni主演:罗伯托·贝尼尼RobertoBeni...1997/意大利/剧情喜剧爱情战争
电影评分： 9.6
评价人数： 1142598人评价
电影总结： 最美的谎言。
--------分隔线--------
电影名称： 千与千寻
导演与演员： 导演:宫崎骏HayaoMiyazaki主演:柊瑠美RumiHîragi/入野自由Miy...2001/日本/剧情动画奇幻
电影评分： 9.4
评价人数： 1944720人评价
电影总结： 最好的宫崎骏，最好的久石