In [2]:
import lxml.html

### 一. 入门示例

In [3]:
source = '''
<html>
    <head>
      <title>测试</title>
  </head>
  <body>
      <div class="useful">
          <ul>
            <li class="info">我需要的信息1</li>
            <li class="info">我需要的信息2</li>
            <li class="info">我需要的信息3</li>
          </ul>
      </div>
      <div class="useless">
          <ul>
            <li class="info">垃圾1</li>
            <li class="info">垃圾2</li>
          </ul>
      </div>
    </body>
</html>
'''
selector = lxml.html.fromstring(source)
info = selector.xpath('//div[@class="useful"]/ul/li/text()')
print(info)

['我需要的信息1', '我需要的信息2', '我需要的信息3']


### 二. starts-with 用法

In [4]:
source = '''
<! DOCTYPE html>
<html>
    <head lang="en">
        <meta charset="UTF-8">
        <title></title>
    </head>
    <body>
        <div id="test-1">需要的内容1</div>
        <div id="test-2">需要的内容2</div>
        <div id="testfault">需要的内容3</div>
        <div id="useless">这是我不需要的内容</div>
    </body>
</html>
'''
selector = lxml.html.fromstring(source)
info = selector.xpath('//div[starts-with(@id, "test")]/text()')
print(info)

['需要的内容1', '需要的内容2', '需要的内容3']


### 三. contains 用法

In [5]:
source = '''
<! DOCTYPE html>
<html>
    <head lang="en">
        <meta charset="UTF-8">
        <title></title>
    </head>
    <body>
        <div id="abc-key-x">需要的内容1</div>
        <div id="123-key-000">需要的内容2</div>
        <div id="haha-key">需要的内容3</div>
        <div id="useless">这是我不需要的内容</div>
    </body>
</html>
'''
selector = lxml.html.fromstring(source)
info = selector.xpath('//div[contains(@id, "key")]/text()')
print(info)

['需要的内容1', '需要的内容2', '需要的内容3']


### 四. 对XPath返回的对象执行XPath

In [6]:
source = '''
<html>
    <head>
      <title>测试</title>
  </head>
  <body>
      <div class="useful">
          <ul>
            <li class="info">我需要的信息1</li>
            <li class="info">我需要的信息2</li>
            <li class="info">我需要的信息3</li>
          </ul>
      </div>
      <div class="useless">
          <ul>
            <li class="info">垃圾1</li>
            <li class="info">垃圾2</li>
          </ul>
      </div>
    </body>
</html>
'''
selector = lxml.html.fromstring(source)
useful = selector.xpath('//div[@class="useful"]')
info_list = useful[0].xpath('ul/li/text()')
print(info_list)

['我需要的信息1', '我需要的信息2', '我需要的信息3']


> 需要注意的是，在对XPath返回的对象再次执行XPath的时候，子XPath开头不需要添加斜线，直接以标签名开始即可。

### 五. 不同标签下的文字

In [7]:
source = '''
<! DOCTYPE html>
<html>
    <head lang="en">
        <meta charset="UTF-8">
        <title></title>
    </head>
    <body>
        <div id="test3">
          我左青龙，
          <span id="tiger">
              右白虎，
              <ul>上朱雀，
                  <li>下玄武。</li>
              </ul>
              老牛在当中，
          </span>
          龙头在胸口。
        </div>
    </body>
</html>
'''
selector = lxml.html.fromstring(source)
# XPath不会自动把子标签的文字提取出来
info = selector.xpath('//div[@id="test3"]/text()')
print(info)

['\n          我左青龙，\n          ', '\n          龙头在胸口。\n        ']


In [9]:
# 正确写法
data = selector.xpath('//div[@id="test3"]')[0]
info = data.xpath('string(.)')
print(info)


          我左青龙，
          
              右白虎，
              上朱雀，
                  下玄武。
              
              老牛在当中，
          
          龙头在胸口。
        


### 六. 使用Google Chrome辅助构造XPath

在高亮的源代码上单击右键并选择“Copy”→“Copy XPath”命令

Google Chrome给出的XPath是当前高亮的这一个标签的XPath，被lxml执行以后，也只能得到这一个标签的信息。为了得到一类标签的信息，例如得到所有帖子的标题，就需要将Google Chrome给出的XPath为参考，手动构造范围更大的且更容易读的XPath。例如，Google Chrome给出了一个标志性的id，它的属性值为“thread_list”，那么拥有这个属性的标签就可以作为XPath的起始标签。现在，在Google Chrome给出的这个标签和需要提取的内容之间进行人工分析，可以进一步缩小XPath的范围。