# xpath工具（解析）
- xpath
    - 在XML文档中查找信息的语言,同样适用于HTML文档的检索
- xpath辅助工具
    - Chrome插件 ：XPath Helper
        - 打开 ：Ctrl + Shift + X
        - 关闭 ：Ctrl + Shift + X
    - Firefox插件 ：XPath checker
    - XPath表达式编辑工具 ：XML quire

## xpath匹配规则
- 匹配演示
  1. 查找bookstore下所有节点：`/bookstore`
  2. 查找所有的book节点：`//book`
  3. 查找所有book下的title节点中,lang属性为"en"的节点
      - `//book/title[@lang="en"]`
  4. 查找bookstore下的第2个book节点下的title节点:
      - `/bookstore/book[2]/title/text()`
- 选取节点
  - / ：从根节点开始选取 
  - //：从整个文档中查找节点
      - `//price  、  /bookstore/book//price`
  - @ ：选取某个节点的属性
      - `//title[@lang="en"]`
- @的使用
  - 选取1个节点：`//title[@lang="en"]`
  - 选取N个节点：`//title[@lang]`
  - 选取节点的属性值：`//title/@lang`
      - `<a class=....,src="http://..."`
- 匹配多路径
  - 符号：`|`
  - 获取所有book节点下的 title节点和price节点
      - `//book/title | //book/price`
- 函数
  - `contains()`：匹配一个属性值中包含某些字符串的节点
      - `//title[contains(@lang,"e")]`
  - `text()`
      - `//title[contains(@lang,"e")]/text()`

## lxml库及xpath使用
### lxml库 ：HTML/XML解析库
- 安装 
    - `python -m pip install lxml`
    - `conda install lxml`
- 使用流程
    1. 导模块
        - `from lxml import etree`
    2. 利用lxml库的etree模块创建解析对象
        - `parseHtml = etree.HTML(html)`
    3. 解析对象调用xpath工具定位节点信息
        - `r_list = parseHtml.xpath('xpath表达式')`
>只要调用了xpath,结果一定是列表 
    4. 如何获取节点对象的内容
        - `节点对象.text`

In [None]:
from lxml import etree

html = """<div class="wrapper">
	<i class="iconfont icon-back" id="back"></i>
	<a href="/" id="channel">新浪社会</a>
	<ul id="nav">
		<li><a href="http://domestic.firefox.sina.com/" title="国内">国内</a></li>
		<li><a href="http://world.firefox.sina.com/" title="国际">国际</a></li>
		<li><a href="http://mil.firefox.sina.com/" title="军事">军事</a></li>
		<li><a href="http://photo.firefox.sina.com/" title="图片">图片</a></li>
		<li><a href="http://society.firefox.sina.com/" title="社会">社会</a></li>
		<li><a href="http://ent.firefox.sina.com/" title="娱乐">娱乐</a></li>
		<li><a href="http://tech.firefox.sina.com/" title="科技">科技</a></li>
		<li><a href="http://sports.firefox.sina.com/" title="体育">体育</a></li>
		<li><a href="http://finance.firefox.sina.com/" title="财经">财经</a></li>
		<li><a href="http://auto.firefox.sina.com/" title="汽车">汽车</a></li>
	</ul>
	<i class="iconfont icon-liebiao" id="menu"></i>
</div>"""
# 构造解析对象
parseHtml = etree.HTML(html)
# 利用解析对象调用xpath匹配
r1 = parseHtml.xpath('//a/@href')
#print(r1)

# 获取 /
r2 = parseHtml.xpath('//a[@id="channel"]/@href')
#print(r2)

# 获取非 /
r3 = parseHtml.xpath('//ul[@id="nav"]//a/@href')
#print(r3)
# 获取所有 a 节点的文本内容
r4 = parseHtml.xpath('//a/text()')
#print(r4)
# 获取 图片、军事 ... 
r5 = parseHtml.xpath('//ul[@id="nav"]//a')
for i in r5:
    print(i.text)

### 案例1 ：抓取百度贴吧帖子里面所有的图片
- 目标：抓取指定贴吧所有图片
- 思路：
    - 获取贴吧主页URL,下一页：找URL规律
    - 获取1页中每个帖子的URL
    - 对每个帖子URL发请求,获取帖子里图片URL
    - 对图片URL发请求,以wb方式写入本地文件
- 步骤
    1. 获取贴吧主页URL
        - `http://tieba.baidu.com/f? + 查询参数`
    2. 找到页面中所有帖子的URL
        - src : 完整链接
        - href : 和主URL进行拼接
            - /p/5926064184
            - http://tieba.baidu.com/p/5926064184
        - xpath匹配链接：
            - 写法1：`//div[@class="col2_right j_threadlist_li_right"]/div/div/a/@href`

            - 写法2(推荐)：`//div[@class="t_con cleafix"]/div/div/div/a/@href`
    3. 找每个帖子中图片URL
        - Xpath匹配：`//img[@class="BDE_Image"]/@src`
    4. 代码实现

### 案例2：糗事百科-xpath
- 目标 ：用户昵称、段子内容、好笑数、评论数
- 步骤
    - 找URL
        - `https://www.qiushibaike.com/8hr/page/1/`
    - xpath匹配
        - 基准xpath：`//div[contains(@id,"qiushi_tag_")]`
            - 用户昵称：`./div/a/h2`
            - 段子内容：`.//div[@class="content"]/span`
            - 好笑数量：`.//i`
            - 评论数量：`.//i`