# 从零开始学Python网络爬虫

In [1]:
## format（）， 格式化函数
# 在 str.format() 调用时使用关键字参数，可以通过参数名来引用值
print('This {food} is {adjective}.'.format(food='spam', adjective='absolutely horrible'))

print("{:.2f}".format(3.1415926))

"{} {}".format("hello", "world")    # 不设置指定位置，按默认顺序

path = 'https://{}/{}'.format("bd", "com")
print(path)

url = ['http://abc/p{}/'.format(number) for number in range(1,10)]
print(url)

This spam is absolutely horrible.
3.14
https://bd/com
['http://abc/p1/', 'http://abc/p2/', 'http://abc/p3/', 'http://abc/p4/', 'http://abc/p5/', 'http://abc/p6/', 'http://abc/p7/', 'http://abc/p8/', 'http://abc/p9/']


### 爬虫原理
网络连接需要一次Requests请求和服务器端的Response回应。爬虫原理：  
- 模拟电脑对服务器发起Requests请求
- 接收服务器端的Response的内容并解析、提取所需信息  

常用的两种爬虫的流程：多页面和跨页面爬虫流程。
![](./note/flow.png)

### 爬虫三大库
- Requests  
Requests库的错误和异常。
 - ConnectionError：网络连接错误异常，如DNS查询失败、拒绝连接等
 - HTTPError：HTTP错误异常，比如网页不存在，返回404
 - URLRequired：URL缺失异常
 - TooManyRedirects：超过最大重定向次数，产生重定向异常
 - ConnectTimeout：连接远程服务器超时异常
 - Timeout：请求URL超时，产生超时异常
- BeautifulSoup  
解析器： html.parser、lxml等，用法: BeautifulSoup(url.text, "html.parser"),BeautifulSoup(url.text, "lxml")
- Lxml

In [2]:
## requests
import requests

# 加入请求头，伪装成浏览器
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
}

def get_links(url):
    wb_data = requests.get(url,headers=headers)
    try:
        print(wb_data)
        # print(wb_data.text)
    except ConnectonError:
        print('Requests Error')
    
url = "http://www.baidu.com"
get_links(url)

<Response [200]>


In [3]:
## BeautifulSoup， select方法
from bs4 import BeautifulSoup
import requests
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
}
url = "http://bj.xiaozhu.com/"
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
# 选择房价的元素的路径（右键 > Copy Selector），得到房价值
prices = soup.select('#page_list > ul > li > div.result_btm_con.lodgeunitname > div > span > i')
for price in prices:
    print(price, "\t", price.get_text())

<i>488</i> 	 488
<i>498</i> 	 498
<i>498</i> 	 498
<i>340</i> 	 340
<i>498</i> 	 498
<i>528</i> 	 528
<i>430</i> 	 430
<i>388</i> 	 388
<i>458</i> 	 458
<i>278</i> 	 278
<i>498</i> 	 498
<i>388</i> 	 388
<i>300</i> 	 300
<i>369</i> 	 369
<i>598</i> 	 598
<i>608</i> 	 608
<i>408</i> 	 408
<i>398</i> 	 398
<i>278</i> 	 278
<i>298</i> 	 298
<i>428</i> 	 428
<i>278</i> 	 278
<i>418</i> 	 418
<i>609</i> 	 609


In [4]:
## BeautifulSoup
# 需要的url如下， 
# <a target="_blank" href="http://bj.xiaozhu.com/fangzi/29968007503.html" class="resule_img_a">
# Element的Selector： page_list > ul > li:nth-child(1) > a
url = "http://bj.xiaozhu.com/search-duanzufang-p2-0/"
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, "lxml")
link = soup.select('#page_list > ul > li > a')
## 用相同的select方法，得到了该级元素的内容，即<a...</a>
#+ 然后用get(element_name)方法，获得"href"的属性值
print(link[0], 2*"\n", link[0].get("href"))

<a class="resule_img_a" href="http://bj.xiaozhu.com/fangzi/29968007503.html" target="_blank">
<img alt="实木北欧品质两居，近十里河地铁，肿瘤医院" class="lodgeunitpic" data-growing-title="29968007503" lazy_src="https://image.xiaozhustatic3.com/12/14,0,92,4210,3000,2000,a7296326.jpg" src="../images/lazy_loadimage.png" title="实木北欧品质两居，近十里河地铁，肿瘤医院"/>
</a> 

 http://bj.xiaozhu.com/fangzi/29968007503.html
