# 第九章 网站信息爬取

- Python 语言发展中有一个里程碑式的应用事件，即美国谷歌（GOOGLE）公司在搜索引擎后端采用Python 语言进行链接处理和开发，这是该语言发展成熟的重要标志。Python 语言的简洁性和脚本特点非常适合链接和网页处理。  
- 万维网（WWW）的快速发展带来了大量获取和提交网络信息的需求，这产生了“网络爬虫”等一系列应用。  
- Python 语言提供了很多类似的函数库，包括urllib、urllib2、urllib3、wget、scrapy、<span class="burk">requests</span> 等。这些库作用不同、使用方式不同、用户体验不同。  
- 对于爬取回来的网页内容，可以通过<span class="burk">re（正则表达式）</span>、<span class="burk">beautifulsoup</span>4等函数库来处理，随着该领域各函数库的发展，本章将详细介绍其中最重要且最主流的两个函数库：<span class="burk">requests 和beautifulsoup4</span>，它们都是第三方库。  
- 网络爬虫应用一般分为两个步骤：（1）<span class="girk">通过网络连接获取网页内容</span>（2）<span class="girk">对获得的网页内容进行处理</span>。  
- 这两个步骤分别使用不同的函数库：requests 和beautifulsoup4  

## 数据来源
- 交易数据
- 移动通讯数据
- 机器和传感器数据
- <span class="burk">互联网上的“开放数据”</span>

## 预备知识-浏览网页的基本过程和爬虫的基本工作原理
### 浏览网页的过程
- 输入网址
- 通过DNS服务器解析域名，找到服务器对应的IP地址
- 向服务器发送URL请求
- 服务器相应请求，发送HTML到客户端
- 客户端浏览器解析HTML，显示结果

### 爬虫的基本工作原理
- <span class="burk">获取网页HTML</span>
- <span class="burk">解析HTML，提取所需的数据</span>
- 数据预处理
- 数据存储
- 数据分析

### 网页爬虫
- 使用Python 语言实现网络爬虫和信息提交是非常简单的事情，代码行数很少，也无须知道网络通信等方面知识，非常适合非专业读者使用。然而，肆意的爬取网络数据并不是文明现象，通过程序自动提交内容争取竞争性资源也不公平。就像那些肆意的推销电话一样，他们无视接听者意愿，不仅令人讨厌也有可能引发法律纠纷。  
- 拓展：Robots 排除协议  

### 安装相关库
- pip install <span class="burk">requests</span>  
- pip install <span class="burk">beautifulsoup4</span>  

### requests库的使用
- requests 库是一个简洁且简单的处理HTTP请求的第三方库。  
- requests的最大优点是程序编写过程更接近正常URL 访问过程。  
- request 库支持非常丰富的链接访问功能，包括：国际域名和URL 获取、HTTP 长连接和连接缓存、HTTP 会话和Cookie 保持、浏览器使用风格的SSL 验证、基本的摘要认证、有效的键值对Cookie 记录、自动解压缩、自动内容解码、文件分块上传、HTTP(S)代理功能、连接超时处理、流数据下载等。  
- requests 库中的网页请求函数get()是获取网页最常用的方式，在调用requests.get()函数后，返回的网页内容会保存为一个Response 对象，其中，get()函数的参数url 必须链接采用HTTP 或HTTPS方式访问。  
- 通过Response 对象的属性获取网页内容。text 属性是请求的页面内容，以字符串形式展示。
- encoding 属性非常重要，它给出了返回页面内容的编码方式，可以通过对encoding 属性赋值更改编码方式，以便于处理中文字符。    
- Response对象的raise_for_status()方法能在非成功响应后产生异常，即只要返回的请求状态status_code 不是200，这个方法会产生一个异常，用于try…except 语句。

In [9]:
# requests的get使用举例，获取学校首页
import requests
url = "https://www.szpt.edu.cn"
r = requests.get(url)
r.encoding = r.apparent_encoding
#print(r.status_code)
#print(r.text)

<!DOCTYPE html><html lang="en"><head><title>深圳职业技术学院</title><META Name="keywords" Content="深圳职业技术学院" />





<meta charset="UTF-8">
<meta content="IE=edge" http-equiv="X-UA-Compatible">
<meta name="360-site-verification" content="e568f20d9eccbbe26677079e6ca45884">
<meta name="viewport" content="width=device-width, initial-scale=1"><link rel="stylesheet" href="css/bootstrap.min.css"><link rel="stylesheet" type="text/css" href="css/style.css" media="screen"><script src="js/jquerya.js"></script><script src="js/jquery.js" type="text/javascript"></script><script type="text/javascript" src="js/SuperSlide.js"></script><script type="text/javascript" src="js/jquery.niceHover.js"></script>

<!--Announced by Visual SiteBuilder 9-->
<link rel="stylesheet" type="text/css" href="_sitegray/_sitegray_d.css" />
<script language="javascript" src="_sitegray/_sitegray.js"></script>
<!-- CustomerNO:77656262657232307c78475d50525742000000004457 -->
<link rel="stylesheet" type="text/css" href="

In [1]:
# 异常处理


### requests获取网页的练习
- 豆瓣电影250

In [11]:
# 获取豆瓣电影250首页
import requests
url = "https://movie.douban.com/top250"
head = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36"}
r = requests.get(url, headers=head)
r.encoding = r.apparent_encoding
print(r.text)

<!DOCTYPE html>
<html lang="zh-CN" class="ua-windows ua-webkit">
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
    <meta name="renderer" content="webkit">
    <meta name="referrer" content="always">
    <meta name="google-site-verification" content="ok0wCgT20tBBgo9_zat2iAcimtN4Ftf5ccsh092Xeyw" />
    <title>
豆瓣电影 Top 250
</title>
    
    <meta name="baidu-site-verification" content="cZdR4xxR7RxmM4zE" />
    <meta http-equiv="Pragma" content="no-cache">
    <meta http-equiv="Expires" content="Sun, 6 Mar 2005 01:00:00 GMT">
    
    <link rel="apple-touch-icon" href="https://img3.doubanio.com/f/movie/d59b2715fdea4968a450ee5f6c95c7d7a2030065/pics/movie/apple-touch-icon.png">
    <link href="https://img3.doubanio.com/f/shire/859dba5cddc7ed1435808cf5a8ddde5792cd6e0c/css/douban.css" rel="stylesheet" type="text/css">
    <link href="https://img3.doubanio.com/f/shire/db02bd3a4c78de56425ddeedd748a6804af60ee9/css/separation/_all.css" rel="stylesheet" type="text/

#### 正则表达式解析

In [None]:
# 

### beautifulsoup4库的使用
- beautifulsoup4 库是一个解析和处理HTML 和XML 的第三方库。  
- 使用requests 库获取HTML 页面并将其转换成字符串后，需要进一步解析HTML页面格式，提取有用信息，这需要处理HTML 和XML 的函数库。  
- beautifulsoup4 库，也称为Beautiful Soup 库或bs4 库，用于解析和处理HTML和XML。  
- beautifulsoup4 库将专业的Web 页面格式解析部分封装成函数，提供了若干有用且便捷的处理函数。  
- 可以用from…import 方式从库中直接引用BeautifulSoup 类，方法如下。  
> from bs4 import BeautifulSoup


#### BeautifulSoup类的常用属性

In [3]:
# 以学校首页为例
# title、a、div等标签属性


#### BeautifulSoup类常用的查找函数
- find
- find_all
- select

#### beautifulsoup4库的应用

In [15]:
# 爬取学校首页的深职要闻
import requests
from bs4 import BeautifulSoup
url = "https://www.szpt.edu.cn/"
r = requests.get(url)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, "lxml")
print(soup.title)
print(soup.title.string)
print(soup.title.get_text())
print(soup.a)

<title>深圳职业技术学院</title>
深圳职业技术学院
深圳职业技术学院
<a href="http://english.szpt.edu.cn/" onclick='_addDynClicks("wburl", 1409161160, 37988)' title="">English</a>


In [21]:
soup.find("li", class_="bg_03").find("a").get_text()

'教工'

In [25]:
soup.find_all("a", target="_blank")

[<a href="http://email.szpt.edu.cn" onclick='_addDynClicks("wburl", 1409161160, 37992)' target="_blank" title="">教师邮箱</a>,
 <a href="http://mail.mail.szpt.edu.cn/" onclick='_addDynClicks("wburl", 1409161160, 37993)' target="_blank" title="">学生邮箱</a>,
 <a href="http://www.lib.szpt.edu.cn" target="_blank" title="图书馆">图书馆</a>,
 <a href="http://szytx.szpt.edu.cn/" target="_blank" title="深职院通讯">深职院通讯</a>,
 <a href="http://jpkc.szpt.edu.cn/rcpy/2016/" target="_blank" title="质量年报">质量年报</a>,
 <a href="http://whyr.szpt.edu.cn" target="_blank" title="文化育人">文化育人</a>,
 <a href="http://lhdjt.szpt.edu.cn" target="_blank" title="丽湖大讲堂">丽湖大讲堂</a>,
 <a href="http://www.lib.szpt.edu.cn/xzfc/" target="_blank" title="深职学者">深职学者</a>,
 <a href="http://zjs.szpt.edu.cn" target="_blank" title="技术与职业教育研究所">技术与职业教育研究所</a>,
 <a href="http://xb.szpt.edu.cn" target="_blank" title="深职学报">深职学报</a>,
 <a href="https://zhaosheng.szpt.edu.cn/" target="_blank" title="高考招生">高考招生</a>,
 <a href="https://zhaosheng.szpt.edu.cn

In [28]:
# 爬取学校首页的深职要闻
import requests
from bs4 import BeautifulSoup
url = "https://www.szpt.edu.cn/"
r = requests.get(url)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, "lxml")
div = soup.find("div", class_="list clearfix")
for item in div.find_all("a"):
    print(item.string)

学校获评“学习强国”深圳学习平台先进单位荣誉称号
水贝珠宝集团董事长卢礼杭受聘为我校客座教授
我校七项作品获全省高校学生心理健康教育系列活...
学校召开党委理论学习中心组（扩大）学习会
我校举行“一站式”学生社区党群服务中心揭牌仪式
我校举行“书记、校长下午茶”活动


In [7]:
import requests
from bs4 import BeautifulSoup
url = "https://www.szpt.edu.cn/"
r = requests.get(url)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, "lxml")
ul = soup.find("ul", class_ = "infoList")
for item in ul.find_all("a"):
    print(item.string)

[学习强国]点亮技能之光|深圳职业技术学院让梦想...
[学习强国]【校园风采】省委书记李希、省长马兴...
[宝安日报]传统工艺精品艺术展开幕
[深圳新闻网]为“有备而老”培养新生力量 深职院...
[羊城派]深职院：老年服务与管理专业开学
[晶报APP]深职院举行“抗疫艺术作品展”，展现新...
[深圳特区报]深职院首届老年服务与管理专业开学
[深圳商报]深圳有了自己培养的“养老”专才
[读特]深职院首届老年服务与管理专业开学啦！
[晶报APP]老有颐养！深职院首届老年服务与管理专...


## 豆瓣电影Top250数据爬取项目实战
### 项目分析
- 获取网页-requests
- 解析网页-beautifulsoup4
- 数据存储-文本文件
- 数据输出-格式化

### 项目实现

In [8]:
# 导入相应的包
import requests
from bs4 import BeautifulSoup
import time
url = "https://movie.douban.com/top250?start="
head = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36"}
html = ""
# 获取网页
for i in range(10):
    urli = url + str(i*25) + "&filter="
    r = requests.get(urli, headers=head)
    r.encoding = "utf8"
    html += r.text
    time.sleep(1)
print(html)

<!DOCTYPE html>
<html lang="zh-CN" class="ua-windows ua-webkit">
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
    <meta name="renderer" content="webkit">
    <meta name="referrer" content="always">
    <meta name="google-site-verification" content="ok0wCgT20tBBgo9_zat2iAcimtN4Ftf5ccsh092Xeyw" />
    <title>
豆瓣电影 Top 250
</title>
    
    <meta name="baidu-site-verification" content="cZdR4xxR7RxmM4zE" />
    <meta http-equiv="Pragma" content="no-cache">
    <meta http-equiv="Expires" content="Sun, 6 Mar 2005 01:00:00 GMT">
    
    <link rel="apple-touch-icon" href="https://img3.doubanio.com/f/movie/d59b2715fdea4968a450ee5f6c95c7d7a2030065/pics/movie/apple-touch-icon.png">
    <link href="https://img3.doubanio.com/f/shire/859dba5cddc7ed1435808cf5a8ddde5792cd6e0c/css/douban.css" rel="stylesheet" type="text/css">
    <link href="https://img3.doubanio.com/f/shire/db02bd3a4c78de56425ddeedd748a6804af60ee9/css/separation/_all.css" rel="stylesheet" type="text/

In [10]:
with open("data/html.txt","w", encoding="utf8") as f:
    f.write(html)

In [12]:
with open("data/html.txt","r", encoding="utf8") as f:
    htxt = f.read()
print(htxt)

<!DOCTYPE html>
<html lang="zh-CN" class="ua-windows ua-webkit">
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
    <meta name="renderer" content="webkit">
    <meta name="referrer" content="always">
    <meta name="google-site-verification" content="ok0wCgT20tBBgo9_zat2iAcimtN4Ftf5ccsh092Xeyw" />
    <title>
豆瓣电影 Top 250
</title>
    
    <meta name="baidu-site-verification" content="cZdR4xxR7RxmM4zE" />
    <meta http-equiv="Pragma" content="no-cache">
    <meta http-equiv="Expires" content="Sun, 6 Mar 2005 01:00:00 GMT">
    
    <link rel="apple-touch-icon" href="https://img3.doubanio.com/f/movie/d59b2715fdea4968a450ee5f6c95c7d7a2030065/pics/movie/apple-touch-icon.png">
    <link href="https://img3.doubanio.com/f/shire/859dba5cddc7ed1435808cf5a8ddde5792cd6e0c/css/douban.css" rel="stylesheet" type="text/css">
    <link href="https://img3.doubanio.com/f/shire/db02bd3a4c78de56425ddeedd748a6804af60ee9/css/separation/_all.css" rel="stylesheet" type="text/

In [18]:
# 数据解析
from pprint import pprint
soup = BeautifulSoup(html, "html.parser")
items = soup.find_all("div", class_="info")
movies = []
for item in items:
    # 爬取电影名称
    t = item.find("span", class_="title").get_text()
    # 评分
    r = item.find("span", class_="rating_num").get_text()
    # 评价人数
    p = item.find("div", class_="star").find_all("span")[-1].get_text()[:-3]
# 数据存储
    movies.append([t,r,p])
# 数据格式化输出
pprint(movies)

[['肖申克的救赎', '9.7', '2223449'],
 ['霸王别姬', '9.6', '1650142'],
 ['阿甘正传', '9.5', '1675111'],
 ['这个杀手不太冷', '9.4', '1859817'],
 ['泰坦尼克号', '9.4', '1633264'],
 ['美丽人生', '9.5', '1036303'],
 ['千与千寻', '9.4', '1748323'],
 ['辛德勒的名单', '9.5', '854759'],
 ['盗梦空间', '9.3', '1627122'],
 ['忠犬八公的故事', '9.4', '1112237'],
 ['星际穿越', '9.3', '1298755'],
 ['海上钢琴师', '9.3', '1324793'],
 ['楚门的世界', '9.3', '1211382'],
 ['三傻大闹宝莱坞', '9.2', '1482067'],
 ['机器人总动员', '9.3', '1045074'],
 ['放牛班的春天', '9.3', '1028342'],
 ['大话西游之大圣娶亲', '9.2', '1188402'],
 ['熔炉', '9.3', '727267'],
 ['疯狂动物城', '9.2', '1433618'],
 ['无间道', '9.2', '977267'],
 ['教父', '9.3', '726419'],
 ['龙猫', '9.2', '991729'],
 ['当幸福来敲门', '9.1', '1192678'],
 ['怦然心动', '9.1', '1394478'],
 ['触不可及', '9.2', '772678'],
 ['控方证人', '9.6', '331620'],
 ['蝙蝠侠：黑暗骑士', '9.2', '809135'],
 ['活着', '9.3', '628762'],
 ['末代皇帝', '9.3', '601906'],
 ['寻梦环游记', '9.1', '1207717'],
 ['乱世佳人', '9.3', '533883'],
 ['何以为家', '9.1', '763401'],
 ['指环王3：王者无敌', '9.2', '588683'],
 ['摔跤吧！爸爸', '9.0', '1223727

In [20]:
with open("data/movies.csv", "w", encoding="gbk") as f:
    f.write("电影名称,评分,评价人数\n")
    for m in movies:
        f.write(",".join(m) + "\n")

In [None]:
from lxml import etree


In [None]:
//*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]
//*[@id="content"]/div/div[1]/ol/li[2]/div/div[2]/div[1]/a/span[1]
//*[@id="content"]/div/div[1]/ol/li[3]/div/div[2]/div[1]/a/span[1]

//*[@id="content"]/div/div[1]/ol/li[*]/div/div[2]/div[1]/a/span[1]

## 总结与提高

In [6]:
# 正则表达式


In [7]:
# requests库的参数


In [8]:
# 网页内容的分页处理


## 巩固与应用

In [9]:
# 中国大学排名爬虫


In [10]:
# 天气预报爬虫


In [11]:
# 豆瓣读书新书快递爬虫


In [29]:
import csv
import requests
from bs4 import BeautifulSoup
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
r = requests.get("https://book.douban.com/latest?icn=index-latestbook-al",headers=header)
soup = BeautifulSoup(r.text,"lxml")
names = []
scores = []
authors = []
comps = []
dates = []
for res in soup.find_all("div",class_="detail-frame"):
    names.append(res.h2.a.string)
    score = res.p.find("span",class_="font-small color-lightgray").string.replace("\n","")
    if score.strip()=="":
        score = "未知"
    scores.append(score.strip())
    strs = res.find("p",class_="color-gray").string.split("/")
    authors.append(strs[0].strip())
    comps.append(strs[1].strip())
    dates.append(strs[2].strip())
results = [list(i) for i in zip(names,scores,authors,comps,dates)]
print(results)
# for line in results:
#     print(",".join(line))
with open("data/douban_books.csv","w",errors ='ignore',newline ='') as fp: 
    fp.write("作者,评分,作者,出版社,出版日期\n")
    #csv.writer(fp).writerows(list(results))
    for line in results:
        fp.write(",".join(line)+"\n")
    #fp.close()
#print(scores)

[['喷火器', '评价人数不足', '[阿根廷] 罗伯特·阿尔特', '四川文艺出版社', '2021-1'], ['彩虹几度', '评价人数不足', '[日] 川端康成', '上海译文出版社', '2020-11'], ['恶土', '评价人数不足', '[美] 安妮·普鲁', '人民文学出版社', '2020-11'], ['乘战车的人', '评价人数不足', '[澳] 帕特里克·怀特', '浙江文艺出版社', '2021-1'], ['查泰莱夫人的情人', '未知', '(英国)  D.H.劳伦斯', '译林出版社', '2021-1'], ['我的朋友阿波罗', '7.5', '[美] 西格丽德·努涅斯', '上海译文出版社', '2020-11'], ['活在鱼缸里的她', '未知', '（英国）苏•哈伯德', '译林出版社', '2020-11'], ['沉默的病人', '未知', '[英]亚历克斯·麦克利兹', '河南文艺出版社', '2020-12-6'], ['藏狐砂冈先生', '未知', '（日）Q桑', '四川美术出版社', '2020-12-1'], ['熟年', '评价人数不足', '伊北', '中信出版集团·文艺社', '2021-1-1'], ['六十个故事', '未知', '[意] 迪诺·布扎蒂', '宝琴文化|北京联合出版公司', '2020-11-1'], ['战后风景', '评价人数不足', '[比] 菲利普·德·皮埃尔庞 编', '埃里克·朗贝 绘', '后浪丨上海文化出版社'], ['梦之囚徒：降维', '未知', '[法] 马克-安托万·马修', '后浪 | 上海文化出版社', '2020-12'], ['失落世界狂想曲', '评价人数不足', '[法] 尼古拉·德克雷西', '后浪丨湖南美术出版社', '2020-12'], ['诱惑者日记', '评价人数不足', '［丹麦］索伦•克尔凯郭尔', '外语教学与研究出版社', '2020-12'], ['致命尖端', '未知', '[美] 托马斯·品钦', '译林出版社', '2020-11'], ['火神被杀', '未知', '[日] 松本清张', '江苏凤凰文艺出版社', '2020-12'], ['伊藤润二短篇精选集', '未知', '[日] 伊藤润二', '新星出

18

40

37

36

40

39

41

35

40

34

33

44

49

46

47

45

33

35

36

52

32

37

40

41

35

35

55

30

35

32

46

28

70

30

26

39

32

28

37

44

47