# 从零开始学Python网络爬虫

In [1]:
## format（）， 格式化函数
# 在 str.format() 调用时使用关键字参数，可以通过参数名来引用值
print('This {food} is {adjective}.'.format(food='spam', adjective='absolutely horrible'))

print("{:.2f}".format(3.1415926))

"{} {}".format("hello", "world")    # 不设置指定位置，按默认顺序

path = 'https://{}/{}'.format("bd", "com")
print(path)

url = ['http://abc/p{}/'.format(number) for number in range(1,10)]
print(url)

This spam is absolutely horrible.
3.14
https://bd/com
['http://abc/p1/', 'http://abc/p2/', 'http://abc/p3/', 'http://abc/p4/', 'http://abc/p5/', 'http://abc/p6/', 'http://abc/p7/', 'http://abc/p8/', 'http://abc/p9/']


### 爬虫原理
网络连接需要一次Requests请求和服务器端的Response回应。爬虫原理：  
- 模拟电脑对服务器发起Requests请求
- 接收服务器端的Response的内容并解析、提取所需信息  

常用的两种爬虫的流程：多页面和跨页面爬虫流程。
![](./note/flow.png)

### 爬虫三大库
- Requests  
Requests库的错误和异常。
 - ConnectionError：网络连接错误异常，如DNS查询失败、拒绝连接等
 - HTTPError：HTTP错误异常，比如网页不存在，返回404
 - URLRequired：URL缺失异常
 - TooManyRedirects：超过最大重定向次数，产生重定向异常
 - ConnectTimeout：连接远程服务器超时异常
 - Timeout：请求URL超时，产生超时异常
- BeautifulSoup  
解析器： html.parser、lxml等，用法: BeautifulSoup(url.text, "html.parser"),BeautifulSoup(url.text, "lxml")
- Lxml

In [2]:
## requests
import requests

# 加入请求头，伪装成浏览器
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
}

def get_links(url):
    wb_data = requests.get(url,headers=headers)
    print(wb_data.status_code)
    try:
        print(wb_data)
        # print(wb_data.text)
    except ConnectonError:
        print('Requests Error')

# test    
url = "http://www.baidu.com"
get_links(url)

200
<Response [200]>


In [3]:
## BeautifulSoup， select方法
from bs4 import BeautifulSoup
import requests
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
}
url = "http://bj.xiaozhu.com/"
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
# 选择房价的元素的路径（右键 > Copy Selector），得到房价值
prices = soup.select('#page_list > ul > li > div.result_btm_con.lodgeunitname > div > span > i')
for price in prices:
    print(price, "\t", price.get_text())

<i>488</i> 	 488
<i>498</i> 	 498
<i>498</i> 	 498
<i>340</i> 	 340
<i>498</i> 	 498
<i>458</i> 	 458
<i>528</i> 	 528
<i>430</i> 	 430
<i>388</i> 	 388
<i>278</i> 	 278
<i>498</i> 	 498
<i>388</i> 	 388
<i>369</i> 	 369
<i>300</i> 	 300
<i>598</i> 	 598
<i>608</i> 	 608
<i>408</i> 	 408
<i>398</i> 	 398
<i>278</i> 	 278
<i>298</i> 	 298
<i>428</i> 	 428
<i>278</i> 	 278
<i>418</i> 	 418
<i>609</i> 	 609


In [4]:
## BeautifulSoup
# 需要的url如下， 
# <a target="_blank" href="http://bj.xiaozhu.com/fangzi/29968007503.html" class="resule_img_a">
# Element的Selector： page_list > ul > li:nth-child(1) > a
url = "http://bj.xiaozhu.com/search-duanzufang-p2-0/"
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, "lxml")
link = soup.select('#page_list > ul > li > a')
## 用相同的select方法，得到了该级元素的内容，即<a...</a>
#+ 然后用get(element_name)方法，获得"href"的属性值
print(link[0], 2*"\n", link[0].get("href"))

## 同时，我们可以进一步用相同的方法提取： title、img等信息

<a class="resule_img_a" href="http://bj.xiaozhu.com/fangzi/29968007503.html" target="_blank">
<img alt="实木北欧品质两居，近十里河地铁，肿瘤医院" class="lodgeunitpic" data-growing-title="29968007503" lazy_src="https://image.xiaozhustatic3.com/12/14,0,92,4210,3000,2000,a7296326.jpg" src="../images/lazy_loadimage.png" title="实木北欧品质两居，近十里河地铁，肿瘤医院"/>
</a> 

 http://bj.xiaozhu.com/fangzi/29968007503.html


### 实践Task： 爬取酷狗Top500的数据
- url： https://www.kugou.com/yy/rank/home/1-8888.html?from=rank
- 代码： [kugou.py](./book_src/kugou.py),用Python3运行 （修复了原代码书中的一个bug）
- 思路： (1)观察翻页的各页url主入口如何获取； (2)分别在各页爬取，方法是： requests+BeautifulSoup

### 正则表达式： Python re模块
- search()
- sub()
- findall()  

可以用正则表达式直接解析返回的html文件，得到有用的信息。

In [5]:
import re
## re.search()
a = "one1two2three3"
info = re.search('\D+', a)
print(info, "\n", info.group(), "\n")

## re.sub()
new_info = re.sub('\d+', ' ', a)
print(new_info)

## re.findall()
infos = re.findall('\D+', a)
print("\n", infos)

a= "<a>123</a><a>456</a><a>789</a>"
## 边界匹配，括号里的内容作为返回结果
infos = re.findall('<a>(.*?)</a>', a)
print("\n", infos)

##

<_sre.SRE_Match object; span=(0, 3), match='one'> 
 one 

one two three 

 ['one', 'two', 'three']

 ['123', '456', '789']


### 实践Task： 爬取《斗破苍穹》全文小说
- url: http://www.doupoxs.com/doupocangqiong/
- 代码： [doupo_xiaoshuo.py](./book_src/doupo_xiaoshuo.py),用Python3运行
- `content.decode('utf-8')`
- `re.S`， re修饰符， 匹配包含换行在内的所有字符
- `time.sleep(1)`， 防止请求频率过快导致爬虫失败  
注： **最好加入一个try/except判断，如果请求因过快被拒绝，则重新连接， 保证数据的完整性。**

### 实践Task： 爬取糗事百科的段子
- url: https://www.qiushibaike.com/text/
- 代码： [qiushibaike.py](./book_src/qiushibaike.py),用Python3运行
- P.S. 对段子中的`"</br>"`字符串，需要替换删除