# 什么是爬虫？
爬虫，从本质上来说，就是利用程序在网上拿到对我们有价值的数据。

爬虫能做很多事，能做商业分析，也能做生活助手，比如：分析北京近两年二手房成交均价是多少？深圳的Python工程师平均薪资是多少？北京哪家餐厅粤菜最好吃？等等。

搜索引擎——百度和谷歌，它们的核心技术之一也是爬虫，而且是**超级爬虫**。

# 浏览器的工作原理
浏览器和服务器之间，先请求，后响应。

当服务器把数据响应给浏览器之后，浏览器并不会直接把数据丢给你。因为这些数据是用计算机的语言写的，浏览器还要把这些数据翻译成你能看得懂的样子，这是浏览器做的另一项工作**解析数据**。
<img src="pics/browser_principle.png" width="50%">

# 爬虫的工作原理
<img src="pics/spider_principle.png" width="50%">

## 爬虫的4个步骤：

- **获取数据**:爬虫程序会根据我们提供的网址，向服务器发起请求，然后返回数据。
- **解析数据**:爬虫程序会把服务器返回的数据解析成我们能读懂的格式。
- **提取数据**:爬虫程序再从中提取出我们需要的数据。
- **储存数据**:爬虫程序把这些有用的数据保存起来，便于你日后的使用和分析。

## 爬虫学习的重点：

- 爬虫的工作原理；
- HTML基础知识，达到读懂和修改HTML文档的水平；
- 解析数据和提取数据，不同的发起请求的方式；
- 存储数据；
- 实战项目训练；
- 学会cookies，让浏览器记住你；
- 学习控制浏览器，来应对爬虫中一些更复杂的情况；
- 爬虫变得更自动化；
- 升级爬虫，爬虫为你消灭重复劳动，高效获取信息，创造出更多价值。

# requests库

In [3]:
import requests  # 引入requests库

url = 'https://www.baidu.com'
res = requests.get(url)   # requests.get是在调用requests库中的get()方法，它向服务器发送了一个请求
# 括号里的参数是你需要的数据所在的网址，然后服务器对请求作出了响应。
# 我们把这个响应返回的结果赋值在变量res上。

## response对象的常用属性

<img src="pics/requests.png" width="50%">
Python是一门面向对象编程的语言，而在爬虫中，理解数据是什么对象是非常、特别、以及极其重要的一件事。因为只有知道了数据是什么对象，我们才知道对象有什么属性和方法可供我们操作。
res是一个对象，属于requests.models.Response类。既然已经知道res是一个Response对象了，我们也就可以去了解它的相应属性和方法了。
<img src="pics/response_attr.png" width="50%">

In [4]:
#打印变量res的数据类型
print(type(res))

<class 'requests.models.Response'>


## status_code
<img src="pics/status_code.png" width="50%">

In [5]:
print(res.status_code)
#打印变量res的响应状态码，以检查请求是否成功，显示200即代表成功

200


## response.content

把Response对象的内容以二进制数据的形式返回，适用于图片、音频、视频的下载。

In [7]:
import requests

url = 'https://res.pandateacher.com/2018-12-18-10-43-07.png'
res = requests.get(url)                # 发出请求，并把返回的结果放在变量res中
pic=res.content                        # 把Reponse对象的内容以二进制数据的形式返回
photo = open('result/ppt.jpg','wb')    # 新建了一个文件ppt.jpg，这里的文件没加路径，它会被保存在程序运行的当前目录下。
#图片内容需要以二进制wb读写。

photo.write(pic)                       # 获取pic的二进制内容
photo.close()                          # 关闭文件

## response.text

text属性可以把Response对象的内容以字符串的形式返回，适用于文字、网页源代码的下载。

In [13]:
url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md'
res = requests.get(url)         # 下载《三国演义》第一回，我们得到一个对象，它被命名为res
novel=res.text                  # 把Response对象的内容以字符串的形式返回
print(novel[:99])               # 查看文本信息。

## 三国演义

作者：罗贯中

### 第一回 宴桃园豪杰三结义 斩黄巾英雄首立功

> 滚滚长江东逝水，浪花淘尽英雄。
> 是非成败转头空。
> 青山依旧在，几度夕阳红。　　



## response.encoding

它能帮我们定义Response对象的编码。

目标数据本身是什么编码是未知的。用requests.get()发送请求后，我们会取得一个Response对象，其中，requests库会对数据的编码类型做出自己的判断。但是这个判断有可能准确，也可能不准确。

如果它判断准确的话，我们打印出来的response.text的内容就是正常的、没有乱码的，那就用不到res.encoding；

如果判断不准确，就会出现一堆乱码，那我们就可以去查看目标数据的编码，然后再用res.encoding把编码定义成和目标数据一致的类型即可。

> 遇上文本的**乱码问题**，才考虑用res.encoding。

In [14]:
url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md'
res = requests.get(url)       # 下载《三国演义》第一回，我们得到一个对象，它被命名为res
res.encoding='gbk'            # 定义Response对象的编码为gbk
novel=res.text                # 把Response对象的内容以字符串的形式返回
print(novel[:99])

## 涓夊浗婕斾箟

浣滆�咃細缃楄疮涓�

### 绗�涓�鍥� 瀹存�冨洯璞�鏉颁笁缁撲箟 鏂╅粍宸捐嫳闆勯�栫珛鍔�

> 婊氭粴闀挎睙涓滈�濇按锛屾氮鑺辨窐灏借嫳闆勩��
> 


# 爬虫伦理
服务器其实就是一个超级电脑，拥有这个服务器的公司，对爬虫其实也有明确的态度。

通常情况下，服务器不太会在意小爬虫，但是，服务器会拒绝频率很高的大型爬虫和恶意爬虫，因为这会给服务器带来极大的压力或伤害。

服务器在通常情况下，对搜索引擎是欢迎的态度。当然，这是有条件的，而这些条件会写在**Robots协议**。

Robots协议是互联网爬虫的一项公认的道德规范，它的全称是**网络爬虫排除标准（Robots exclusion protocol）**，这个协议用来告诉爬虫，哪些页面是可以抓取的，哪些不可以。

在网站的域名后加上`/robots.txt`就可以查看网站的robots协议。

淘宝的robots协议 （ [http://www.taobao.com/robots.txt）](http://www.taobao.com/robots.txt%EF%BC%89)。

爬虫就像是核技术，人们可以利用它去做有用的事，也能利用它去搞破坏。

恶意消耗别人的服务器资源，是一件不道德的事，恶意爬取一些不被允许的数据，还可能会引起严重的法律后果。

当你在爬取网站数据的时候，别忘了先看看网站的<font color="#dd0000">**Robots协议是否允许**</font><br /> 你去爬取。

限制好<font color="#dd0000">**爬虫的速度**</font><br /> ，对提供数据的服务器心存感谢，避免给它造成太大压力，维持良好的互联网秩序，也是我们该做的事。

爬虫的本质是利用程序帮我们获取有价值的信息，爬虫程序可以消灭重复劳动，并且创造价值。