# 49. 【Python学习分享文章】\_webCrawler_beutifulSoup

## 综述  

一个第三方库，不需要使用麻烦的正则方法，就可以进行网页 HTML 内容的操作。

【注意】  
终端的安装包名字和软件名字是不一样的，终端的安装名字是 bs4，如下：
```
pip install bs4
```

【建议】  
一个比较好用的依赖的第三方库 ```lxml``` 也可以进行安装，如下：
```
pip install lxml
```

## 目录

### - 格式整理
### - 常用方法
### - 例子：抓取 infoQ 新闻站的新闻
### - 总结

## 格式整理

### - 问题背景

编程查看的源代码，如果不进行整理，格式比较混乱，为了输出标准的 HTML 格式，所以可以使用 ```lxml``` 这个第三方库。

### - 未整理的 HTML 源代码

例子如下：
```
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The dormouse's story</b></p>

<p class="story">Once upon a time there wereadfjaldkfjadkfaskddjf,whatever is all OK
<a href="http://example.com/elsie" class="sister" id="linkSister1">Elsie</a>,
<a href="http://example.com/john" class="sister" id="linkSister2">John</a> and 
<a href="http://example.com/amily" class="sister" id="linkSister3">Amily</a>;

<p class="story:>...</p>
```

这个不是标准的 HTML 语言格式，会比较难寻找到对应标签、结构，所以需要使用 lxml 进行整理。

### - 整理得到标准 HTML 格式

code 如下：

In [1]:
# 认为建立一个例子
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The dormouse's story</b></p>

<p class="story">Once upon a time there wereadfjaldkfjadkfaskddjf,whatever is all OK
<a href="http://example.com/elsie" class="sister" id="linkSister1">Elsie</a>,
<a href="http://example.com/john" class="sister" id="linkSister2">John</a> and 
<a href="http://example.com/amily" class="sister" id="linkSister3">Amily</a>;

<p class="story:>...</p>
"""

from bs4 import BeautifulSoup

# 使用 BeautifulSoup 进行处理
soup = BeautifulSoup(html_doc, 'lxml')  # 第一个参数：导入；第二个参数：按照什么格式解析 HTML 代码。
print(soup.prettify())  # 进行整理格式进行输出。

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there wereadfjaldkfjadkfaskddjf,whatever is all OK
   <a class="sister" href="http://example.com/elsie" id="linkSister1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/john" id="linkSister2">
    John
   </a>
   and
   <a class="sister" href="http://example.com/amily" id="linkSister3">
    Amily
   </a>
   ;
  </p>
  <p class="story:&gt;...&lt;/p&gt; ">
  </p>
 </body>
</html>


【结果分析】  
整理后的排版就是标准的 HTML 格式，可以通过缩进很方便找到对应的区块。

## 常用方法

1. title  
找到 title 的标签。
2. 获取 p 标签
3. 获取 a 标签
4. 找到特定名称的链接标签
5. 找到文档中所有文本的内容

### - 1. title

- 常规操作

如下：

In [2]:
print(soup.title)

<title>The Dormouse's story</title>


- 去掉都为的标记符号

方法如下：

In [3]:
print(soup.title.string)

The Dormouse's story


### - 2. 获取 p 标签

- 常规操作

如下：

In [4]:
print(soup.p)

<p class="title"><b>The dormouse's story</b></p>


- 找到 class 的名字

如下：

In [5]:
print(soup.p['class'])

['title']


### - 3. 获取 a 标签

- 常规操作

如下：

In [6]:
print(soup.a)

<a class="sister" href="http://example.com/elsie" id="linkSister1">Elsie</a>


- 找到所有 a 标签

如下：

In [7]:
print(soup.find_all('a'))

[<a class="sister" href="http://example.com/elsie" id="linkSister1">Elsie</a>, <a class="sister" href="http://example.com/john" id="linkSister2">John</a>, <a class="sister" href="http://example.com/amily" id="linkSister3">Amily</a>]


### - 4. 找到特定名字的链接的标签

- 常规操作

找到 id 为 linkX 的标签，如下：

In [9]:
print(soup.find(id='linkSister3'))

<a class="sister" href="http://example.com/amily" id="linkSister3">Amily</a>


- 找到所有 <a\> 标签的链接

如下：

In [10]:
for link in soup.find_all('a'):
    print(link.get('href'))

http://example.com/elsie
http://example.com/john
http://example.com/amily


### - 5. 找到文档中所有文本的内容

- 常规操作

如下：

In [11]:
print(soup.get_text())

The Dormouse's story

The dormouse's story
Once upon a time there wereadfjaldkfjadkfaskddjf,whatever is all OK
Elsie,
John and 
Amily;




## 例子；抓取 infoQ 新闻站的新闻

总体框架：
- 使用requests 抓取内容
- 使用 beautifulSoup 筛选内容

### - 分析网页内容

在例子网站中，在浏览器页面右键-“显示页面源文件”（Safari）/“检查”（Chrome）。查看源代码的时候不需要逐行阅读寻找，只要使用特定方式即可快速定位对应内容的代码。

- Safari
使用搜索内容即可跳转到对应部分。
- Chrome
在对应元素上右键-“检查”，就可以在代码区域跳转到对应部分。

【问题分析】  
除了我们想要找到的对应的主体内容之外，还有其他的，比如“logo”等等我们不需要的内容，所以我们需要进行代码的差异寻找。

【方法】  
在跳转到的对应部分向上寻找代码内容，找到一个```div``` 的标签，找到后面的```class```的名字。

【结果分析】  
所有新闻的主体是放在这个 div 的 class 是相同名字的模块里面。  
所以找到这类的标签，下面的内容就是我们想要提取的新闻。  
现在（2019年3月22日）的情况是，所有新闻主体的内容是放在 div 标签中，class 名字是 list-item image-position-right 的模块中。

### - 搭建 code

- 基础处理

目的：导入库，伪装成浏览器。如下：

In [3]:
from bs4 import BeautifulSoup
import requests

header_i = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
    "Cache-Control": "no-cache",
    "Connection": "keep-alive",
    "Cookie": "_ga=GA1.2.236308595.1542204557; _itt=1; GCID=7d9c08f-e052716-92486ca-1ef06ad-cd; GCESS=BAQEAC8NAAMEbUWUXAIEbUWUXAEEmV4PAAoEAAAAAAYE1hDl2gcEjYGeiwkBAQgBAwsCBAAMAQEFBAAAAAA-; Hm_lvt_094d2af1d9a57fd9249b3fa259428445=1553224053; Hm_lpvt_094d2af1d9a57fd9249b3fa259428445=1553227368; SERVERID=1fa1f330efedec1559b3abbcb6e30f50|1553227540|1553224054",
    "DNT": "1",
    "Host": "www.infoq.cn",
    "Pragma": "no-cache",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36",
}

url = 'https://www.infoq.cn'

# 将获取新闻标题功能的部分做成一个函数
# def craw2(url):
#     response = requests.get(url, headers=header_i)
    
#     soup = BeautifulSoup(response.text, 'lxml')
    
#     for title_href in soup.find_all('div', class_='info'):
#         print([title.a.string
#               for title in title_href.find_all('a')])
        
# craw2(url)

response = requests.get(url, headers=header_i)

soup = BeautifulSoup(response.text, 'lxml')

print(soup.prettify())

# for title_href in soup.find_all('div', class_='info'):
#     print("find" for title in title_href.find_all('a') if title_href.class_='com-article-title')

<!DOCTYPE html>
<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width,initial-scale=1,maximum-scale=1,minimum-scale=1,user-scalable=no" name="viewport"/>
  <link href="//static001.infoq.cn/static/infoq/favicon/favicon-32x32.png" rel="icon" sizes="32x32" type="image/png"/>
  <link href="//static001.infoq.cn/static/infoq/favicon/favicon-16x16.png" rel="icon" sizes="16x16" type="image/png"/>
  <meta content="InfoQ,InfoQä¸­æç«,InfoQä¸­å½,æ¶æ,äºè®¡ç®,AI,åç«¯,è¿ç»´,å¼æº,Java,.NET,.net,Ruby,SOA,ææ·,ä¼ä¸,è½¯ä»¶å¼å,å¼å,ç¼ç¨" id="metakeywords" name="Keywords"/>
  <meta content="InfoQ æ¯ä¸ä¸ªå®è·µé©±å¨çç¤¾åºèµè®¯ç«ç¹ï¼è´åäºä¿è¿è½¯ä»¶å¼åé¢åç¥è¯ä¸åæ°çä¼ æ­ã" id="metadesc" name="description"/>
  <meta content="wvSZwd5oTf" name="baidu-site-verification"/>
  <meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
  <meta content="telephone=no" name="format-detection"/>
  <title>
   InfoQ - ä¿è¿è½¯ä»¶å¼åé¢

In [5]:
import urllib

page = urllib.urlopen(url)
contents = page.read()
soup = BeautifulSoup(contents, "html.parser")
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width,initial-scale=1,maximum-scale=1,minimum-scale=1,user-scalable=no" name="viewport"/>
  <link href="//static001.infoq.cn/static/infoq/favicon/favicon-32x32.png" rel="icon" sizes="32x32" type="image/png"/>
  <link href="//static001.infoq.cn/static/infoq/favicon/favicon-16x16.png" rel="icon" sizes="16x16" type="image/png"/>
  <meta content="InfoQ,InfoQ中文站,InfoQ中国,架构,云计算,AI,前端,运维,开源,Java,.NET,.net,Ruby,SOA,敏捷,企业,软件开发,开发,编程" id="metakeywords" name="Keywords"/>
  <meta content="InfoQ 是一个实践驱动的社区资讯站点，致力于促进软件开发领域知识与创新的传播。" id="metadesc" name="description"/>
  <meta content="wvSZwd5oTf" name="baidu-site-verification"/>
  <meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
  <meta content="telephone=no" name="format-detection"/>
  <title>
   InfoQ - 促进软件开发领域知识与创新的传播
  </title>
  <script src="//res.wx.qq.com/open/js/jweixin-1.4.0.js" type="text/javascript">
  </script>
  <script src="//at.alicdn

## 总结

beautifulSoup 的使用是十分灵活的，可以根据自己需要找到指定的内容。

---
注：  
个人微信公众号：codeAndWrite