## Lxml
    Lxml是基于 libxml2 这一 XML 解析哭的Python 封装， 可以将不合法的HTML解析为统一格式。如下面这个例子：lxml正确的解析了属性两侧缺失的引号，并闭合标签。

In [3]:
import lxml.html
broken_html = '<ul class = country><li>Area<li>Population</ul>'
tree = lxml.html.fromstring(broken_html)
fixed_html = lxml.html.tostring(tree, pretty_print=True)
print fixed_html

<Element ul at 0x10edc6c00>


### 先通过lxml解析网页，再通过CSS选择器提取对应元素，抽取特定的数据。方法如下：

In [13]:
import urllib2

def download(url):
    return urllib2.urlopen(url).read()

html = download('http://example.webscraping.com/places/default/view/American-Samoa-5')
# print html

import lxml.html
# 用 fromstring 解析下载到的html
tree = lxml.html.fromstring(html)
print 'tree:', tree

# 用 cssselect 选择器找到ID 为 places_population__row 的表格行元素，然后选择class为 w2p_fw 的表格数据子标签。
td = tree.cssselect('tr#places_area__row > td.w2p_fw')[0]
print 'td:', td
# 将其文本内容赋值给 area并打印
area = td.text_content()
print area


tree: <Element html at 0x10ec47628>
td: <Element td at 0x10ec47940>
199 square kilometres


#### 在Google浏览器中选中国家位置，右键，点击“检查”。  可看到页面HTML的层次结构。
     如这个例子所示，当选择国家面积这一属性时，可以看到，这个值包含在class为“w2p_fw”的 <td> 元素中，而 <td> 元素又是ID为places_area__row 的 <tr> 元素的子元素。
       <tr id="places_area__row">
           <td class="w2p_fl"><label class="readonly" for="places_area" id="places_area__label">Area: </label></td>
           <td class="w2p_fw">199 square kilometres</td>
           <td class="w2p_fc"></td>
           </tr>

## CSS 选择器
    css选择器表示选择元素所使用的模型，下面是一些常用的选择器示例：
        选择所有标签： *
        选择<a>标签： a
        选择所有class=“link”的元素： .link
        选择class="link"的<a>标签： a.link
        选择id="home"的<a>标签： a#home
        选择父元素为<a>标签的所有<span>子标签： a > span
        选择<a>标签内部的所有<span>标签： a span
        选择 title 属性为"home"的所有 <a> 标签： a[title=home]

## 抓取国家数据，并将得到的结果保存到CSV表格中。

In [None]:
#coding:utf-8
import urllib2
import re
import lxml.html

def download(url, scrape_callback=None):
    # url = 'http://example.webscraping.com/places/default/view/American-Samoa-5'
    html = urllib2.urlopen(url).read()
    print 'url:', url
    # print 'html:', html

    if scrape_callback:
        scrape_callback(url, html)


import csv

# 构造一个 ScrapCallback类，来实现抓取行为。
class ScrapCallback:
    def __init__(self):
        # 'w'是写  'r'是读  reader = csv.reader(open(".csv", 'r'))
        self.writer =csv.writer(open('country_test.csv', 'w'))
        self.fields = ('area','population','country')
        self.writer.writerow(self.fields)

    # 构造 __call__方法。 call是一个特殊的方法，在对象作为函数被调用时会调用该方法。
    def __call__(self, url, html):
        # re.sarch() 函数将对整个字符串进行搜索，并返回第一个匹配的字符串的match对象。
        if re.search('/view/',url):
            tree = lxml.html.fromstring(html)
            row = []
            for field in self.fields:
                row.append(tree.cssselect('table > tr#places_{}__row > td.w2p_fw'.format(field))[0].text_content())

            self.writer.writerow(row)



if __name__ == '__main__':
    download('http://example.webscraping.com/places/default/view/American-Samoa-5', scrape_callback=ScrapCallback())