# 编写第一个网络爬虫

抓取网站数据，我们首先得下载包含有感兴趣数据的网页，这个过程称之为爬取（crawling）。

爬取一个网站方法有很多，而哪种网站更合适取决于我们所选择网站的结构。本文中我们首先会探讨如何安全地下载网页，然后会介绍如下3种爬取网站的常见方法：   
爬取网站地图  
使用数据库ID遍历每个网页  
跟踪网页链接

接下来让我们先定义这两种方法的相似点和不同点。

## 一、抓取与爬取的对比

根据我们所关注的信息和站点内容、结构的不同，可能需要进行网络抓取或是网站爬取。

那么它们有什么区别呢？

网络抓取通常针对特定网站，并在这些站点上获取指定信息。网络抓取用于访问这些特定的页面，如果站点发生变化或者站点中的信息位置发生变化的话，则需要进行修改。例如，你可能想要通过网络抓取查看你喜欢的当地餐厅的每日特色菜，为了实现该目的，你需要抓取其网站中日常更新该信息的部分。  
与之不同的是，网络爬取通常是以通用的方式构建的，其目标是一系列顶级域名的网站或是整个网络。爬取可以用来收集更具体的信息，不过更常见的情况是爬取网络，从许多不同的站点或页面中获取小而通用的信息，然后跟综链接到其他页面中。  
除了爬取和抓取外，我们还会在第8章中介绍网络爬虫。爬虫可以用来爬取指定的一系列网站，或是在多个站点移至整个互联网中送行更广泛的爬取。  
一般来说，我们会使用特定的术语反映我们的用例。在你开发网络爬虫时，可能会注意到它们在你想要使用的技术、库和包中的区别。在这些情况下，你对不同术语的理解，可以帮助你基于所使用的术语选择适当的包或技术。

例如：是否只用于抓取？是否也适用于爬虫？

## 二、下载网页

我们要想抓取网页的话，首先需要将其下载下来。示例脚本使用urllib模块下载URL。

In [1]:
import urllib.request
def download(url):
    return urllib.request.urlopen(url).read()

传入URL参数时，该函数将会下载网页并返回其HTML。不过，这个代码片段存在一个问题，当我们下载网页时，可能会遇到一些无法控制的错误，比如请求的页面可能不存在。这个时候urllib会抛出异常，然后退出脚本。

安全起见，下面再给出一个更稳建的版本，可以捕获这些异常。

In [4]:
import urllib.request
from urllib.error import URLError,HTTPError,ContentTooShortError

def download(url):
    print('Downloading:',url)
    try:
        html = urllib.request.urlopen(url).read()
    except (URLError,HTTPError,ContentTooShortError) as e:
        print('Download error:',e.reason)
        html = None
    return html

现在，当出现下载或URL错误时，该函数能够捕获到异常，然后返回None。

## 三、重试下载

我们在下载时遇到的错误一般都是临时性的，例如服务器过载时返回的503 Service Unavailable错误。

对于此类错误，我们可以在短暂等待后尝试重新下载，因为这个服务器问题现在可能已经解决。不过，我们不需要对所有错误都尝试重新下载。如果服务器返回的是404 Not Found这种惜误，则说明该网页目前并不存在，再次尝试同样的请求一般也不会出现不同的结果。  
互联网工程任务组(lnternet Engineering Task Force)定义了HTTP错误的完整列表，从中可以了解到4xx错误发生在请求存在问题时，而5xx错误则发生在服务端存在问题时。所以，我们只需要确保download函数在发生5xx错误时重试下载即可。

下面是支持重试下载功能的新版本代码：

In [7]:
def download(url,num_returies = 2):
    print('Downloading:',url)
    try:
        html = urllib.request.urlopen(url).read()
    except (URLError,HTTPError,ContentTooShortError) as e:
        print('Download error:',e.reason)
        html = None
        if num_returies > 0:
            if hasattr(e,'code') and 500 <= e.code <600:
                return download(url,num_returies - 1)
    return html

现在，在download函数遇到5xx错误码时，会递归调用函数本身来重试。该函数还增加了一个参数，用于设定重试下载的次数，默认为两次。之所以在这里限制网页下载尝试次数，可能是服务器错误暂时还木有恢复。想要测这个该函数，可以尝试下载http://httpstat.us/500 ，这个网址会始终返回500错误码。

In [8]:
download('http://httpstat.us/500')

Downloading: http://httpstat.us/500
Download error: Internal Server Error
Downloading: http://httpstat.us/500
Download error: Internal Server Error
Downloading: http://httpstat.us/500
Download error: Internal Server Error


从返回的结果可以看出，download函数的行为和预期一致，先尝试下载网页，在接收到500错误后，又进行了两次重试才放弃。

## 四、设置用户代理

在默认情况下urllib使用Python-urllib/``3.x作为用户代理下载网页内容，3.x是正在使用的Python版本号。

如果能使用可辨识的用户代理则更好，这样可以避免我们的网络爬虫碰到一些问题。此外，也许是因为曾经历过质量不佳的Python网络爬虫造成的服务器过载，一些网站还会封禁这个默认的用户代理。   
因此，为了使下载网站更加可靠，我们需要控制用户代理的设定。下面的代码对download函数进行了修改，设定了一个默认的用户代理‘wswp’。

即Web Scraping with Python的首字母缩写

In [9]:
def download(url,user_agent = 'wswp',num_returies = 2):
    print('Downloading:',url)
    request = urllib.request.Request(url)
    request.add_header('User-agent',user_agent)
    try:
        html = urllib.request.urlopen(url).read()
    except (URLError,HTTPError,ContentTooShortError) as e:
        print('Download error:',e.reason)
        html = None
        if num_returies > 0:
            if hasattr(e,'code') and 500 <= e.code <600:
                return download(url,num_returies - 1)
    return html

现在再次访问meetup.com，就可以看到一个合法的HTML了。下载函数在后续代码中可以得到复用，这个函数能够捕获异常，在可能的情况下重试网站以及设置用户代理。

## 五、网站地图爬虫

在第一个简单的爬虫中，我们将使用示例网站robots.txt文件中发现的网站地图来下载所有网页。为了解析网站地图，就用一个简单的正则表达式，从<loc>标签中提取出URL。需要更新代码以处理编码转换，因为目前的download函数只是简单地返回了字节。

代码：

In [13]:
import re

def download(url,user_agent = 'wswp',num_retries = 2,charset = 'utf-8'):
    print('Downloading:',url)
    request = urllib.request.Request(url)
    request.add_header('User-agent',user_agent)
    try:
        resp = urllib.request.urlopen(request)
        cs = resp.headers.get_content_charset()
        if not cs:
            cs = charset
        html = resp.read().decode(cs)
    except (URLError,HTTPError,ContentTooShortError) as e:
        print('Download error:',e.reason)
        html = None
        if num_retries > 0:
            if hasattr(e,'code') and 500 <= e.code < 600:
                #recursively retury 5xx HTTP error
                return download(url,num_retries - 1)
    return html

def crawl_sitemap(url):
    #download the sitemap file
    sitemap = download(url)
    #extract the sitemap links
    links = re.findall('<loc>(.*?)</loc>',sitemap)
    #download each link
    for link in links:
        html = download(link)
        #scrape html here
        #...

现在运行网站地图爬虫，从示例网站中下载所有国家或地区页面。

In [18]:
crawl_sitemap('http://example.python-scraping.com/sitemap.xml')

Downloading: http://example.python-scraping.com/sitemap.xml
Downloading: http://example.python-scraping.com/places/default/view/Afghanistan-1
Downloading: http://example.python-scraping.com/places/default/view/Aland-Islands-2
Downloading: http://example.python-scraping.com/places/default/view/Albania-3
Downloading: http://example.python-scraping.com/places/default/view/Algeria-4
Downloading: http://example.python-scraping.com/places/default/view/American-Samoa-5
Downloading: http://example.python-scraping.com/places/default/view/Andorra-6
Downloading: http://example.python-scraping.com/places/default/view/Angola-7
Downloading: http://example.python-scraping.com/places/default/view/Anguilla-8
Downloading: http://example.python-scraping.com/places/default/view/Antarctica-9
Downloading: http://example.python-scraping.com/places/default/view/Antigua-and-Barbuda-10
Downloading: http://example.python-scraping.com/places/default/view/Argentina-11
Downloading: http://example.python-scraping.co

Downloading: http://example.python-scraping.com/places/default/view/Iraq-101
Downloading: http://example.python-scraping.com/places/default/view/Ireland-102
Downloading: http://example.python-scraping.com/places/default/view/Isle-of-Man-103
Downloading: http://example.python-scraping.com/places/default/view/Israel-104
Downloading: http://example.python-scraping.com/places/default/view/Italy-105
Downloading: http://example.python-scraping.com/places/default/view/Ivory-Coast-106
Downloading: http://example.python-scraping.com/places/default/view/Jamaica-107
Downloading: http://example.python-scraping.com/places/default/view/Japan-108
Downloading: http://example.python-scraping.com/places/default/view/Jersey-109
Downloading: http://example.python-scraping.com/places/default/view/Jordan-110
Downloading: http://example.python-scraping.com/places/default/view/Kazakhstan-111
Downloading: http://example.python-scraping.com/places/default/view/Kenya-112
Downloading: http://example.python-scrapi

Downloading: http://example.python-scraping.com/places/default/view/Slovenia-201
Downloading: http://example.python-scraping.com/places/default/view/Solomon-Islands-202
Downloading: http://example.python-scraping.com/places/default/view/Somalia-203
Downloading: http://example.python-scraping.com/places/default/view/South-Africa-204
Downloading: http://example.python-scraping.com/places/default/view/South-Georgia-and-the-South-Sandwich-Islands-205
Downloading: http://example.python-scraping.com/places/default/view/South-Korea-206
Downloading: http://example.python-scraping.com/places/default/view/South-Sudan-207
Downloading: http://example.python-scraping.com/places/default/view/Spain-208
Downloading: http://example.python-scraping.com/places/default/view/Sri-Lanka-209
Downloading: http://example.python-scraping.com/places/default/view/Sudan-210
Downloading: http://example.python-scraping.com/places/default/view/Suriname-211
Downloading: http://example.python-scraping.com/places/default

正如上面代码中的download方法所示，我们必须更新字符编码才能利用正则表达式处理网站响应。

Python的read方法返回字节，而正则表达式期望的则是字符串。我们的代码依赖于网站维护者在响应头中包含适当的字符编码。如果没有返回字符编码头部，我们将会把它设置为默认值UTF-8，并抱有最大的希望。当然，如果返回头中的编码不正确，或是编码没有设置并且也不是UTF-8的话，则会抛出错误。  
还有一些更复杂的方式用于猜测编码(参见https://pypi.python.org/pypi/chardet )，该方法非常容易实现。到目前为止，网站地图爬虫已经符合预期。不过正如前文所述，我们无法依靠Sitemap文件提供每个网页的链接。

下一节中，我们将会介绍另一个简单的爬虫，该爬虫不再依赖于Sitemap文件。

## 六、ID遍历爬虫

本节中利用网站结构的弱点，更加轻松地访问所有内容。

下面是一些示例国家(或地区)的URL  
http://example.python-scraping.com/view/Afghanisten-1  
http://example.python-scraping.com/view/Australia-2  
http://example.python-scraping.com/view/Brazil-3  
可以看出，这些URL只在URL路径的最后一部分有所区别，包括国家(或地区)名(作为页面别名)和ID.在URL中包含页面别名是非常普遍的做法，可以对搜索引擎优化起到帮助作用。一般情况下，Web服务器会忽略这个字符串，只使用ID来匹配数据库中的相关记录。下面我们将其移除，查看http://example.python-scraping.com/view/1 ，测试示例网站中的链接是否仍然可用。

网页还是可以加载成功，也就是说这个方法是有用的。现在我们就可以忽略页面别名，只利用数据库ID来下载所有国家（或地区）的页面了。

来看看使用了该技巧的代码片段

In [19]:
import itertools

def crawl_site(url):
    for page in itertools.count(1):
        pg_url = '{}{}'.format(url,page)
        html = download(pg_url)
        if html is None:
            break
        #success - can scrape the result

我们现在可以使用该函数传入基础URL

In [20]:
crawl_site('http://example.python-scraping.com/view/-')

Downloading: http://example.python-scraping.com/view/-1
Downloading: http://example.python-scraping.com/view/-2
Downloading: http://example.python-scraping.com/view/-3
Downloading: http://example.python-scraping.com/view/-4
Downloading: http://example.python-scraping.com/view/-5
Downloading: http://example.python-scraping.com/view/-6
Downloading: http://example.python-scraping.com/view/-7
Downloading: http://example.python-scraping.com/view/-8
Downloading: http://example.python-scraping.com/view/-9
Downloading: http://example.python-scraping.com/view/-10
Downloading: http://example.python-scraping.com/view/-11
Downloading: http://example.python-scraping.com/view/-12
Downloading: http://example.python-scraping.com/view/-13
Downloading: http://example.python-scraping.com/view/-14
Downloading: http://example.python-scraping.com/view/-15
Downloading: http://example.python-scraping.com/view/-16
Downloading: http://example.python-scraping.com/view/-17
Downloading: http://example.python-scrap

Downloading: http://example.python-scraping.com/view/-145
Downloading: http://example.python-scraping.com/view/-146
Downloading: http://example.python-scraping.com/view/-147
Downloading: http://example.python-scraping.com/view/-148
Downloading: http://example.python-scraping.com/view/-149
Downloading: http://example.python-scraping.com/view/-150
Downloading: http://example.python-scraping.com/view/-151
Downloading: http://example.python-scraping.com/view/-152
Downloading: http://example.python-scraping.com/view/-153
Downloading: http://example.python-scraping.com/view/-154
Downloading: http://example.python-scraping.com/view/-155
Downloading: http://example.python-scraping.com/view/-156
Downloading: http://example.python-scraping.com/view/-157
Downloading: http://example.python-scraping.com/view/-158
Downloading: http://example.python-scraping.com/view/-159
Downloading: http://example.python-scraping.com/view/-160
Downloading: http://example.python-scraping.com/view/-161
Downloading: h

在这段代码中对ID进行遍历，直到出现下载错误再停止，假设抓取已到达最后一个国家的页面。  

但这种实现方式是有缺陷的，那就是某些记录可能已被删除，数据库ID之间并不是连续的。这个时候只要访问到某个间隔点，爬虫就会马上退出。以下是这段代码的改进版本，在这个版本中连续发生多次下载错误后才会退出程序。

In [21]:
def crawl_site(url,max_errors = 5):
    for page in itertools.count(1):
        pg_url = '{}{}'.format(url,page)
        html = download(pg_url)
        if html is None:
            num_errors += 1
            if num_errors == max_eerrors:
                #max errors reached,exit loop
                break
        else:
            num_errors = 0
            #success - can scrape the result

以上代码中实现的爬虫得连续5次下载错误才会停止遍历，这样就极大地降低了遇到记录被删除或隐藏时过早停止遍历的风险。

在爬取网站时，遍历ID是一个很便捷的方法，但是和网站地图爬虫一样，这种方法也无法保证始终可用。比如，一些网站会检查页面别名是否在URL中，如果不是，则会返回404Not Found错误。而另一些网站则会使用非连续大数作为ID，或是不使用数值作为ID,此时遍历就难以发挥其作用了。例如，Amazon使用ISBN作为可用图书的ID,这种编码包含至少10位数宇。使用ID对ISBN进行遍历需要测试数十亿次可能的组合，因此这种方法肯定不是抓取该站内害最高效的方法。  
正如你一直关注的那样，你可能已经注意到一些TOO MANY REQUESTS下载错误信息。现在无须担心它，我们将会在1.5节的"高级功能"部分中介绍更多处理该类型错误的方法。

## 七、链接爬虫

只要这两种技术可用，就应当使用它们进行自取，因为这两种方法将需要下载的网页数量降至最低。不过，对于另一些网站，我们需要让爬虫表现得更像普通用户，跟踪链接，访问感兴趣的内容。  
通过跟踪每个链接的方式，我们可以很容易地下载整个网站的页面。但是，这种方法可能会下载很多并不需要的网页。例如，我们想要从一个在线论坛中抓取用户账号详情页，那么此则我们只需要下载账号页，而不需要下载讨论贴的页面。本文使用的链接爬虫将使用正则表达式来确定应当下载哪些页面。下面是这段代码的初始版本。

In [23]:
import re

def link_crawler(start_url,link_regex):
    """Crawl from the given start URL fallowing links matches by link_regex
    """
    crawl_queue = [start_url]
    while crawl_queue:
        url = crawl_queue.pop()
        html = download(url)
        if html is not None:
            continue
        #filteer for links matching our regular expression
        for link in get_links(html):
            if re.match(link_reegex,link):
                crawl_queue.append(link)

def get_links(html):
    """Return a list of links from html
    """
    #a reegular expression to eextract all links from the webpage
    webpage_regex = re.compile("""<a[^>]+herf=["'](.*?)["']""",re.IGNORECASE)
    #list of all links from the webpage
    return webpage_regex.findall(html)

要运行这段代码，只需要调用link_crawler函数，并传入两个参数。  

要爬取的网站URL  

用于匹配你想跟踪的链接的正则表达式  

对于示例网站来说，我们想要爬取的是国家（或地区）列表索引页和国家（或地区）页面。

我们查看站点可以得知索引页链接遵循如下格式  
http://example.python-scraping.com/index/1  
http://example.python-scraping.com/index/2  
国家(或地区)页遵循如下格式  
http://example.python-scraping.com/view/Afghanistan-1  
http://example.python-scraping.com/view/Aland-Islands-2    
因此，我们可以用/(index|view)/这个简单的正则表达式来匹配这两类网页。当爬虫使用这些输入参数运行时会发生什么呢?

你会得到如下所示的下载错误：

In [24]:
link_crawler('http://example.python-scraping.com','/(index|view)/')

Downloading: http://example.python-scraping.com


可以看出，问题出在下载/index/1时，链接只有网页的路径部分没有协议和服务器部分，这是一个相对链接。

由于浏览器知道你正在浏览哪个网页，并且能够采取必要的步骤处理这些链接，因此在浏览器浏览时，相对链接是能够正常工作的。但是，urllib并没有上下文。为了让urllib能够定位网页，我们需要将链接转推为绝对链接的形式，以便包含定位网页的所有细节。如你所愿，Python的urllib中有一个横块可以用来实现该功能，该横块名为parse。下面是link_crawler的改进板本，使用了urljoin方法来创建绝对路径。

In [25]:
from urllib.parse import urljoin

def link_craeler(start_url,link_regex):
    """Crawl from the given start URL following links matched by link_regex
    """
    crawl_queue = [start_url]
    while crawl_queue:
        url = crawl_queue.pop()
        html = download(url)
        if not html:
            continue
        for link in get_links(html):
            if re.match(link_regex,link):
                abs_link = urljoin(start_url,link)
                crawl_queue.append(abs_link)

我们在运行这段代码时，虽然下载了匹配的网页，但是同样的地点会被不断重复下载到。

产生该行为的原因是这些地点相互之间存在链接。  
比如，澳大利亚链接到了南极洲，而南极洲又链接回了澳大利亚，此时爬虫就会继续将这些URL放入队列，永远不会到达队列尾部。要想避免重复爬取相同的链接，我们需要记录哪些链接已经被爬取过。下面是修改后的link_crawler函数，具备了存储已发现URL的功能，可以避免重复下载。

In [26]:
def link_crawler(start_url,link_regex):
    crawl_queue = [start_url]
    #keep track which URL's have seen before
    seen = set(crawl_queue)
    while crawl_queue:
        url = crawl_queue.pop()
        html = download(url)
        if not html:
            continue
        for link in get_links(html):
            #check if link matches expected regex
            if re.match(link_regex,link):
                abs_link = urljoin(start_url,link)
            #check if have already seen this link
            if abs_link not in seen:
                seen.add(abs_link)
                crawl_queue.append(abs_link)

我们运行这个脚本的时候它会爬取所有地点，并且能够如期停止。最终得到了一个可用的链接爬虫。