### 逆向工程

 根据联合国全球网站可访问性审计报告 ， 73%的主流网站都在其重要功能中依赖JavaScript。和单页面应用的简单表单事件不同 ，使用 JavaScript 时，不再是加载后立即下载所有页面内容 。这样就会造成许多网页在浏览器中展示的内容不会出现在 HTML源代码中，对于这种依赖JavaScript的动态网站， 介绍两种抓取其数据的方法，分别是

1、 JavaScript 逆向工程

2、 渲染JavaScript


### 查看动态网页示例

示例网站有一个搜索表单， 可以通过

http://example.webscraping.com/places/default/search

进行访问，该页面用于查询国家。比如说，我们想要查找所有起始字母为 A 的国家。

如果使用Chrome浏览器，先按F12键，我们单击结果部分， 可以发现结果被存储在ID为 “result” 的div元素中，让我们尝试使用lxml模块抽取这些结果


In [1]:
import urllib2
import random
import urlparse
from datetime import datetime
import time

class Downloader:

    def __init__(self,delay=5,user_agent="Mozilla/5.0",proxies=None,num_retries=1,cache=None):
        self.throttle = Throttle(delay)
        self.user_agent = user_agent
        self.proxies = proxies
        self.num_retries = num_retries
        self.cache = cache

    def __call__(self, url):
        '''
        在该方法中我们实现了下载前检查缓存的功能。该方法首先会检
        查缓存是否已经定义 。如果已经定义 ，则检查之前是否已经缓存了该URL 。
        如果该 URL 己被缓存 ， 则检查之前的下载中是否遇到了服务端错误 。
        最后 ，如果也没有发生过服务端错误，则表明该缓存结果可用
        '''

        result = None
        if self.cache:
            try:
                result = self.cache[url]
            except KeyError:
                # 地址不在缓存中
                pass
            else:
                # 如果之前服务器出现错误，忽略缓存中的数据，重新下载
                if self.num_retries >0 and 500 <= result['code'] < 600:
                    result = None

        # 结果没有从缓存中加载，所以要重新下载
        if result is None:
            self.throttle.wait(url)
            proxy = random.choice(self.proxies) if self.proxies else None
            header = {'User-agent':self.user_agent}
            result = self.download(url,header,proxy,self.num_retries)

            if self.cache:
                # 保存结果缓存
                self.cache[url]=result

        return result['html']





    def download(self,url, headers, proxy, num_retries, data=None):
        '''
        download 方法和之前的 download 函数基本一样 ，只是在返回下载
        的 HTML 时额外返回了HTTP 状态码,以便在缓存中存储错误码。当然，如
        果你只需要一个简单的下载功能,而不需要限速或缓存的话，可以直接调用
        该方法,这样就不会通过call方法调用了 。
        :param url:
        :param headers:
        :param proxy:
        :param num_retries:
        :param data:
        :return:
        '''
        print 'Downloading:', url
        request = urllib2.Request(url, data, headers)
        opener = None
        if proxy:
            proxy_handler = urllib2.ProxyHandler({"http" : "http://%(host)s:%(port)d" % proxy})
            opener = urllib2.build_opener(proxy_handler)
        else:
            opener = urllib2.build_opener()
        try:
            response = opener.open(request)
            html = response.read()
            code = response.code
        except urllib2.URLError as e:
            print 'Download error:', e.reason
            html = ''
            if hasattr(e, 'code'):
                code = e.code
                if num_retries > 0 and 500 <= code < 600:

                    return self.download(url, headers, proxy, num_retries-1, data)
            else:
                code = None

        return {'html':html,'code':code}

class Throttle:
    """设置下载速度
    """
    def __init__(self, delay):

        self.delay = delay

        self.domains = {}

    def wait(self, url):
        domain = urlparse.urlparse(url).netloc
        last_accessed = self.domains.get(domain)

        if self.delay > 0 and last_accessed is not None:
            sleep_secs = self.delay - (datetime.now() - last_accessed).seconds
            if sleep_secs > 0:
                time.sleep(sleep_secs)
        self.domains[domain] = datetime.now()

import lxml.html

D = Downloader()


In [2]:
html = D('http://example.webscraping.com/places/default/search')
tree = lxml.html.fromstring(html)
print tree.cssselect('div#results a')

Downloading: http://example.webscraping.com/places/default/search
[]


### 什么也没有