# 1. XPath语法和lxml模块
### 什么是XPath？
xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。

### XPath开发工具
1. Chrome插件XPath Helper
2. Firefox插件Try XPath

# xpath语法：

### 1.选取节点
1. nodename 选取此节点的所有子节点
2. / 如果是在最前面，代表从根节点寻去。否则选择某节点下的某个节点
3. // 从全局节点中选择节点，随便在哪个位置
4. @ 选取某个节点的属性

/bookstore/book 查找bookstore节点下的book子节点  
//book 查找所有的book节点  
//book//price 获取所有book下的所有price标签 
.//price 获取当前节点下的所有price标签  
//book[@price] 选取拥有price属性的book元素 

### 2.谓语（指定条件）
中括号里的东西
1. /bookstore/book[1] 选取bookstore下的第一个子元素
2. /bookstore/book[last()] 选取bookstore下的最后一个元素
3. /bookstore/book[position()<3] 选取bookstore下前面两个子元素
4. //book[@price] 选取拥有price属性的book元素
5. //book[@price=10] 选取所有属性price等于10的book元素
6. //book[contains(@class, "fl")] **模糊匹配**。选取class属性中包含"fl"的素有book元素

### 3.通配符（任意）
1. \* 匹配任意节点
2. @\* 匹配节点中的任何属性  
/bookstore/\* 选取bookstore下的所有子元素。  
//book[@\*] 选取所有带有属性的book元素。

### 4.选取多个路径
1. |  
//bookstore/book | //book/title 选取所有  
//dd[@class='job_bt'] | //dd[@class="job-advantage" 获取所有带有class是job_bot或者clas是job-advantage属性的dd元素

### 5.运算符
1. or
2. and
3. +
4. -
5. \>
6. <
7. =
8. \>=
9. ...

(//dl[@class="job_detail" and @id="job_detial"])

## 总结: xpath语法：

### 使用方式：
使用//获取整个页面当中的元素，然后写标签名，然后再写谓词进行提取。比如：
```
//div[@class='abc']
```

### 需要注意的知识点：
1. /和//的区别：/代表只获取直接子节点。//获取子孙节点。一般//用得比较多。当然也要视情况而定。
2. contains：有时候某个属性中包含了多个值，那么可以使用`contains`函数。示例代码如下：
    ```
    //div[contains(@class,'job_detail')]
    ```
3. 谓词中的下标是从1开始的，不是从0开始的。

# 2. 使用lxml解析HTML代码：
1. 解析html字符串：使用`lxml.etree.HTML`进行解析。示例代码如下：
    ```python
    htmlElement = etree.HTML(text)
    print(etree.tostring(htmlElement,encoding='utf-8').decode("utf-8"))
    ```
2. 解析html文件：使用`lxml.etree.parse`进行解析。示例代码如下：
    ```python
    htmlElement = etree.parse("tencent.html")
    print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))
    ```
    这个函数默认使用的是`XML`解析器，所以如果碰到一些不规范的`HTML`代码的时候就会解析错误，这时候就要自己创建`HTML`解析器。
    ```python
    parser = etree.HTMLParser(encoding='utf-8')
    htmlElement = etree.parse("lagou.html",parser=parser)
    print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))
    ```

    ## lxml结合xpath注意事项：
    1. 使用`xpath`语法。应该使用`Element.xpath`方法。来执行xpath的选择。示例代码如下：
        ```python
        trs = html.xpath("//tr[position()>1]")
        ```
    `xpath函数`返回来的永远是一个列表。
    2. 获取某个标签的属性：
        ```python
        href = html.xpath("//a/@href")
        # 获取a标签的href属性对应的值
        ```
    3. 获取文本，是通过`xpath`中的`text()`函数。示例代码如下：
        ```python
        address = tr.xpath("./td[4]/text()")[0]
        ```
    4. 在某个标签下，再执行xpath函数，获取这个标签下的子孙元素，那么应该在斜杠之前加一个点，代表是在当前元素下获取。示例代码如下：
        ```python
         address = tr.xpath("./td[4]/text()")[0]
        ```


### 使用lxml解析HTML代码

In [48]:
from lxml import etree #c语言写的

In [19]:
text = """
<table class="tablelist" cellpadding="0" cellspacing="0">
    <tbody>
        <tr class="h">
            <td class="l" width="374">职位名称</td>
            <td>职位类别</td>
            <td>人数</td>
            <td>地点</td>
            <td>发布时间</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=33824&keywords=python&tid=87&lid=2218">22989-金融云区块链高级研发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=29938&keywords=python&tid=87&lid=2218">22989-金融云高级后台开发</a></td>
            <td>技术类</td>
            <td>2</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=31236&keywords=python&tid=87&lid=2218">SNG16-腾讯音乐运营开发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>2</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=31235&keywords=python&tid=87&lid=2218">SNG16-腾讯音乐业务运维工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=34531&keywords=python&tid=87&lid=2218">TEG03-高级研发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=34532&keywords=python&tid=87&lid=2218">TEG03-高级图像算法研发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=31648&keywords=python&tid=87&lid=2218">TEG11-高级AI开发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>4</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=32218&keywords=python&tid=87&lid=2218">15851-后台开发工程师</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=32217&keywords=python&tid=87&lid=2218">15851-后台开发工程师</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=34511&keywords=python&tid=87&lid=2218">SNG11-高级业务运维工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
    </tbody>
</table>
"""

<class 'str'>


In [17]:
#用HTML这个类去解析html字符串
htmlElement = etree.HTML(text) #解析字符串html
print(type(html)) #是一个Element的对象

<class 'lxml.etree._Element'>


In [28]:
# 转换成html对象并解码
print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))
## 将htmlElement转换成html代码
## 进行了规范化，比如：<html><body>等等等

<html><body><table class="tablelist" cellpadding="0" cellspacing="0">
    <tbody>
        <tr class="h">
            <td class="l" width="374">职位名称</td>
            <td>职位类别</td>
            <td>人数</td>
            <td>地点</td>
            <td>发布时间</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=33824&amp;keywords=python&amp;tid=87&amp;lid=2218">22989-金融云区块链高级研发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=29938&amp;keywords=python&amp;tid=87&amp;lid=2218">22989-金融云高级后台开发</a></td>
            <td>技术类</td>
            <td>2</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=31236&amp;keyword

In [47]:
# 我们定义一个函数
def parse_text():
    htmlElement = etree.HTML(text) #.HTML:这里的话会默认用HTML解析器
    print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

def parse_file():
    parser = etree.HTMLParser(encoding='utf-8') #因为默认的是XML解析器，我们要的是HTML
    htmlElement = etree.parse("lagou.html",parser=parser)
    print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))
    
if __name__ == '__main__':
    parse_file()

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><body><ul class="item_con_list" style="display: block;">&#13;
    &#13;
    <li class="con_list_item first_row default_list" data-index="0" data-positionid="5077501" data-salary="8k-15k" data-company="猎户星空" data-positionname="培训专员/经理" data-companyid="172285" data-hrid="8705749" data-tpladword="0">&#13;
        &#13;
        <div class="list_item_top">&#13;
            <div class="position">&#13;
                <div class="p_top">&#13;
                    <a class="position_link" href="https://www.lagou.com/jobs/5077501.html" target="_blank" data-index="0" data-lg-tj-id="8E00" data-lg-tj-no="&#13;&#10;                &#13;&#10;                    &#13;&#10;                    0101&#13;&#10;                    &#13;&#10;                &#13;&#10;                " data-lg-tj-cid="5077501" data-lg-tj-abt="dm-csearch-useUserAllInterest|0">&#13;
                        <h3 style=

### lxml结合xpath注意事项

In [54]:
# 用腾讯招聘作为例子
parser = etree.HTMLParser(encoding='utf-8')
html = etree.parse("tencent.html", parser=parser)

# 1.获取所有的tr标签
# //tr
# xpath函数返回的是一个列表
trs = html.xpath("//tr")
for tr in trs:
    print(etree.tostring(tr, encoding='utf-8').decode('utf-8')) 
    #将element对象转换成html

<tr class="h">&#13;
            <td class="l" width="374">职位名称</td>&#13;
            <td>职位类别</td>&#13;
            <td>人数</td>&#13;
            <td>地点</td>&#13;
            <td>发布时间</td>&#13;
        </tr>&#13;
        
<tr class="even">&#13;
            <td class="l square"><a target="_blank" href="position_detail.php?id=33824&amp;keywords=python&amp;tid=87&amp;lid=2218">22989-金融云区块链高级研发工程师（深圳）</a></td>&#13;
            <td>技术类</td>&#13;
            <td>1</td>&#13;
            <td>深圳</td>&#13;
            <td>2017-11-25</td>&#13;
        </tr>&#13;
        
<tr class="odd">&#13;
            <td class="l square"><a target="_blank" href="position_detail.php?id=29938&amp;keywords=python&amp;tid=87&amp;lid=2218">22989-金融云高级后台开发</a></td>&#13;
            <td>技术类</td>&#13;
            <td>2</td>&#13;
            <td>深圳</td>&#13;
            <td>2017-11-25</td>&#13;
        </tr>&#13;
        
<tr class="even">&#13;
            <td class="l square"><a target="_blank" href="position_detail.p

In [59]:
# 2.获取第2个tr标签
trs = html.xpath("//tr[2]")[0] #取这个列表中的第一个元素，这里也只有一个，但是xpath返回的是list
print(etree.tostring(tr, encoding='utf-8').decode('utf-8'))

<tr class="even">&#13;
            <td class="l square"><a target="_blank" href="position_detail.php?id=33824&amp;keywords=python&amp;tid=87&amp;lid=2218">22989-金融云区块链高级研发工程师（深圳）</a></td>&#13;
            <td>技术类</td>&#13;
            <td>1</td>&#13;
            <td>深圳</td>&#13;
            <td>2017-11-25</td>&#13;
        </tr>&#13;
        


In [62]:
# 3.获取所有class等于even的tr标签
trs = html.xpath("//tr[@class='even']")
for tr in trs:
    print(etree.tostring(tr, encoding='utf-8').decode('utf-8')) 

<tr class="even">&#13;
            <td class="l square"><a target="_blank" href="position_detail.php?id=33824&amp;keywords=python&amp;tid=87&amp;lid=2218">22989-金融云区块链高级研发工程师（深圳）</a></td>&#13;
            <td>技术类</td>&#13;
            <td>1</td>&#13;
            <td>深圳</td>&#13;
            <td>2017-11-25</td>&#13;
        </tr>&#13;
        
<tr class="even">&#13;
            <td class="l square"><a target="_blank" href="position_detail.php?id=31236&amp;keywords=python&amp;tid=87&amp;lid=2218">SNG16-腾讯音乐运营开发工程师（深圳）</a></td>&#13;
            <td>技术类</td>&#13;
            <td>2</td>&#13;
            <td>深圳</td>&#13;
            <td>2017-11-25</td>&#13;
        </tr>&#13;
        
<tr class="even">&#13;
            <td class="l square"><a target="_blank" href="position_detail.php?id=34531&amp;keywords=python&amp;tid=87&amp;lid=2218">TEG03-高级研发工程师（深圳）</a></td>&#13;
            <td>技术类</td>&#13;
            <td>1</td>&#13;
            <td>深圳</td>&#13;
            <td>2017-11-24</td>&#13;
 

In [64]:
# 4.获取所有a标签的href属性
aList = html.xpath("//a/@href") #获得href对于的值
# 注意：html.path("//a/[@href]") 获取a下所有含有href属性的标签

for a in aList:
    print(a) 
#但是这是https://hr.tencent.com/position_detail.php?id=43871&keywords=&tid=87&lid=0
#后面的部分, 所以我们还需要前面这部分。
#因为点击跳转是在当前域名的基础上进行组合的。

position_detail.php?id=33824&keywords=python&tid=87&lid=2218
position_detail.php?id=29938&keywords=python&tid=87&lid=2218
position_detail.php?id=31236&keywords=python&tid=87&lid=2218
position_detail.php?id=31235&keywords=python&tid=87&lid=2218
position_detail.php?id=34531&keywords=python&tid=87&lid=2218
position_detail.php?id=34532&keywords=python&tid=87&lid=2218
position_detail.php?id=31648&keywords=python&tid=87&lid=2218
position_detail.php?id=32218&keywords=python&tid=87&lid=2218
position_detail.php?id=32217&keywords=python&tid=87&lid=2218
position_detail.php?id=34511&keywords=python&tid=87&lid=2218


In [66]:
# 那么，如何获取网址的url呢？
for a in aList:
    print("https://hr.tencent.com/" + a)

https://hr.tencent.com/position_detail.php?id=33824&keywords=python&tid=87&lid=2218
https://hr.tencent.com/position_detail.php?id=29938&keywords=python&tid=87&lid=2218
https://hr.tencent.com/position_detail.php?id=31236&keywords=python&tid=87&lid=2218
https://hr.tencent.com/position_detail.php?id=31235&keywords=python&tid=87&lid=2218
https://hr.tencent.com/position_detail.php?id=34531&keywords=python&tid=87&lid=2218
https://hr.tencent.com/position_detail.php?id=34532&keywords=python&tid=87&lid=2218
https://hr.tencent.com/position_detail.php?id=31648&keywords=python&tid=87&lid=2218
https://hr.tencent.com/position_detail.php?id=32218&keywords=python&tid=87&lid=2218
https://hr.tencent.com/position_detail.php?id=32217&keywords=python&tid=87&lid=2218
https://hr.tencent.com/position_detail.php?id=34511&keywords=python&tid=87&lid=2218


In [72]:
# 5.获取所有的职位信息（纯文本）
# 发现所有的职位信息都是在tr标签下
# 第一个tr标签不需要，因为第一个是类别名称
trs = html.xpath("//tr[position()>1]")
for tr in trs:
    href = tr.xpath("//a")
    print(href)
    break
#？为什么呢，应该只有一个才对。因为//a会在整个网页中寻找，会忽视
# 之前的//tr标签

[<Element a at 0x10951d748>, <Element a at 0x10951dc48>, <Element a at 0x10951dcc8>, <Element a at 0x10951dd48>, <Element a at 0x10951ddc8>, <Element a at 0x10951de88>, <Element a at 0x10951df08>, <Element a at 0x10951df88>, <Element a at 0x109535048>, <Element a at 0x10951de48>]


In [107]:
# 所以
positions = []
for tr in trs:
    # 在某个标签下，再执行xpath函数，获取这个标签下的子孙元素
    # 那么应该在//之前加一个点，代表是在当前元素下获取
    href = tr.xpath(".//a/@href")[0]
    fullurl = 'https://hr.tencent.com/' + href
    # text() 获取该标签下的所有文本信息
    title = tr.xpath("./td[1]//text()")[0] #或者.//a/text()
    category = tr.xpath("./td[2]//text()")[0]
    address = tr.xpath("./td[4]//text()")[0]
    pubtime = tr.xpath("./td[5]//text()")[0]
    
    #组装成一个字典
    position = {
        'url': fullurl,
        'title': title,
        'category': category,
        'address': address,
        'pubtime': pubtime
    }
    #加入列表
    positions.append(position)

In [108]:
print(positions)

[{'url': 'https://hr.tencent.com/position_detail.php?id=33824&keywords=python&tid=87&lid=2218', 'title': '22989-金融云区块链高级研发工程师（深圳）', 'category': '技术类', 'address': '深圳', 'pubtime': '2017-11-25'}, {'url': 'https://hr.tencent.com/position_detail.php?id=29938&keywords=python&tid=87&lid=2218', 'title': '22989-金融云高级后台开发', 'category': '技术类', 'address': '深圳', 'pubtime': '2017-11-25'}, {'url': 'https://hr.tencent.com/position_detail.php?id=31236&keywords=python&tid=87&lid=2218', 'title': 'SNG16-腾讯音乐运营开发工程师（深圳）', 'category': '技术类', 'address': '深圳', 'pubtime': '2017-11-25'}, {'url': 'https://hr.tencent.com/position_detail.php?id=31235&keywords=python&tid=87&lid=2218', 'title': 'SNG16-腾讯音乐业务运维工程师（深圳）', 'category': '技术类', 'address': '深圳', 'pubtime': '2017-11-25'}, {'url': 'https://hr.tencent.com/position_detail.php?id=34531&keywords=python&tid=87&lid=2218', 'title': 'TEG03-高级研发工程师（深圳）', 'category': '技术类', 'address': '深圳', 'pubtime': '2017-11-24'}, {'url': 'https://hr.tencent.com/position_detail.php?