In [17]:
from lxml import etree

html = """
<html>
<body>
<bookstore>
  <book>
    <title lang="en">Harry Potter</title>
    <price>29.99</price>
  </book>
  <book>
    <title lang="en">Learning XML</title>
    <price>39.95</price>
  </book>
</bookstore>
</body>
</html>
"""

xpath_data = etree.HTML(html)

In [32]:
result = xpath_data.xpath('//bookstore/book[1]/title/text()')
print(result)

['Harry Potter']


In [33]:
result = xpath_data.xpath('//bookstore/book[last()]/title/text()')
print(result)

['Learning XML']


In [34]:
result = xpath_data.xpath('//bookstore/book[last()-1]/title/text()')
print(result)

['Harry Potter']


In [36]:
result = xpath_data.xpath('//title[@lang]/text()')
print(result)

['Harry Potter', 'Learning XML']


In [39]:
result = xpath_data.xpath('//bookstore/book[price>35.00]/price/text()')
print(result)

['39.95']


In [40]:
result = xpath_data.xpath('//title[@*]/text()')
print(result)

['Harry Potter', 'Learning XML']


In [56]:
html = """
    <html>
    <body>
    <ul>
     <li>1
         <a href="">子1</a>
     </li>
     <li>2
        <a href="">子2</a>
     </li>
     <li>3
        <a href="">子3</a>
     </li>
     <li>4
         <a href="">子</a>
     </li>
     <li>5
        <a href="">子</a>
     </li>
     
 </ul>
 </body>
 </html>
"""
# 1. transform to xpath data
xpath_data = etree.HTML(html)

result = xpath_data.xpath('//li[5]/text()')
print(result)

['5\n        ', '\n     ']


In [57]:
result = xpath_data.xpath('/html/body/ul/li/a/text()')
print(result)

['子1', '子2', '子3', '子', '子']


In [60]:
result = xpath_data.xpath('//li[3]/a/text()')
print(result)

['子3']


## Exercise

In [62]:
import requests
# pip install lxml
from lxml import etree

url = 'http://news.baidu.com/'

headers = {
    "User-Agent": 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
}

data = requests.get(url, headers=headers).content.decode('utf-8')
# 1. get xpath data
xpath_data = etree.HTML(data)

# xpath syntax
# 1. node : /
# 2. cross node : //
# 3. specific tag : //a[@attribute="value"]
# 4. content in tag : text()
# 5. attribute : @href
# xpath -- list


# 2. xpath method 
result = xpath_data.xpath('/html/head/title/text()')
print(result)

['百度新闻——海量中文资讯平台']


In [63]:
result = xpath_data.xpath("//a/text()")
print(result)

['网页', '贴吧', '知道', '音乐', '图片', '视频', '地图', '文库', '\n', '\n', '\n', '\n', '帮助', '首页', '国内', '国际', '军事', '财经', '娱乐', '体育', '互联网', '科技', '游戏', '女人', '汽车', '房产', '首页', '国内', '国际', '军事', '财经', '娱乐', '体育', '互联网', '科技', '游戏', '女人', '汽车', '房产', '\n', '\n', '热点要闻', '追梦新时代 习近平“典”燃奋斗信心', '东航空难第一部黑匣子搜寻过程', '救援现场', '“天宫课堂”又上新！', '太空看到的月亮有什么不同？', '东航客机坠毁地卫星遥感影像公布', '搜寻，与风雨赛跑', '国家药监局已批准19个新冠病毒抗原检测试剂', '双标 浮标 无标——俄乌冲突暴露西方多重丑态', '更大规模留抵退税 企业迎来超万亿“真金白银”', '打牢全年粮食丰收基础 各地各部门多措并举抓春耕', '国际锐评｜所谓“人权卫道士”又想背信弃义？', '冰墩墩上太空了！王亚平和冰墩墩在中国空间站同框', '国务院安委办、应急管理部：立即开展民航安全隐患排查', '直播：MU5735坠机事故现场 全力搜寻第二个黑匣子', '武警穿雨衣在核心区清理飞机残骸 踩竹排进行传递搬运摆放', '坠机乘客亲属现场祭拜：接受现实，暂未收到遗物', '坠机核心区黑色蝴蝶结疑似云南女孩所留 好友：曾见她戴过', '美撤销中信国际在美公司214牌照 中方：坚决反对', '美国恢复部分中国进口商品的关税豁免', '航拍俄乌交战中的马里乌波尔：满目疮痍不见人迹', '俄罗斯驱逐美驻俄外交官:任何敌对行动都将得到强有力回应', '俄乌冲突30日：乌近1/4人口流离，克宫称作战目标未达成', '因制裁俄罗斯 英国名菜"炸鱼薯条"陷入断供 炸鱼店被迫关门', '法国一研究中心：新冠感染或导致不育和大脑老化', '现场!朴槿惠出狱后首个公开行程:参拜父母墓地 深深三鞠躬', '张文宏：新冠没有那么吓人，但是仗很难打', '31省区市3月23日新增本土确诊2010例，本土无症状2722例', '上海3月23日新增本土确诊4例，本土无症状感染者979例', '甘肃一托育中心被曝虐

In [64]:
result = xpath_data.xpath('//a[@target="_blank"]/text()')
print(result)

['追梦新时代 习近平“典”燃奋斗信心', '东航空难第一部黑匣子搜寻过程', '救援现场', '“天宫课堂”又上新！', '太空看到的月亮有什么不同？', '东航客机坠毁地卫星遥感影像公布', '搜寻，与风雨赛跑', '国家药监局已批准19个新冠病毒抗原检测试剂', '双标 浮标 无标——俄乌冲突暴露西方多重丑态', '更大规模留抵退税 企业迎来超万亿“真金白银”', '打牢全年粮食丰收基础 各地各部门多措并举抓春耕', '国际锐评｜所谓“人权卫道士”又想背信弃义？', '冰墩墩上太空了！王亚平和冰墩墩在中国空间站同框', '国务院安委办、应急管理部：立即开展民航安全隐患排查', '直播：MU5735坠机事故现场 全力搜寻第二个黑匣子', '武警穿雨衣在核心区清理飞机残骸 踩竹排进行传递搬运摆放', '坠机乘客亲属现场祭拜：接受现实，暂未收到遗物', '坠机核心区黑色蝴蝶结疑似云南女孩所留 好友：曾见她戴过', '美撤销中信国际在美公司214牌照 中方：坚决反对', '美国恢复部分中国进口商品的关税豁免', '航拍俄乌交战中的马里乌波尔：满目疮痍不见人迹', '俄罗斯驱逐美驻俄外交官:任何敌对行动都将得到强有力回应', '俄乌冲突30日：乌近1/4人口流离，克宫称作战目标未达成', '因制裁俄罗斯 英国名菜"炸鱼薯条"陷入断供 炸鱼店被迫关门', '法国一研究中心：新冠感染或导致不育和大脑老化', '现场!朴槿惠出狱后首个公开行程:参拜父母墓地 深深三鞠躬', '张文宏：新冠没有那么吓人，但是仗很难打', '31省区市3月23日新增本土确诊2010例，本土无症状2722例', '上海3月23日新增本土确诊4例，本土无症状感染者979例', '甘肃一托育中心被曝虐待儿童 官方:涉事机构停业多部门介入', '发文称“女人脚臭是男人的5倍”，宝洁被曝侮辱女性', '腾讯2021年全年净利润2248.2亿元 同比增长41%', '测核酸时不要再“啊”了！专家提醒5个细节', '北大毕业博士入职发电集团，诈骗2600万获刑10年', '大学生逃票进庐山景区坠亡，家属索赔90多万，法院判了！', '90后女生腰疼发现两腿相差1.5厘米：长期跷二郎腿', '为救人95后辅警一路咆哮狂奔 网友：奔跑的身影真帅！', '膜法世家“诡异”海豚广告翻车！公司：决定撤掉', '中国为什么

In [65]:
result = xpath_data.xpath('//a[@target="_blank"]/@href')
print(result)

['https://news.cctv.com/2022/03/22/ARTIsV5aP3s2zcUIxhwHa7ey220317.shtml', 'https://news.cctv.com/2022/03/23/ARTIbSiRf7qvDw1yL7VdoWrr220323.shtml', 'https://mp.weixin.qq.com/s/edkdRFUclmllMciOjr98_g', 'https://content-static.cctvnews.cctv.com/snow-book/index.html?toc_style_id=feeds_default&share_to=wechat&item_id=13998097437982736501&track_id=6D3196BD-7896-4CAF-9CA3-A6DA9D6B1DF0_669741838110', 'https://mp.weixin.qq.com/s/ylEJEvlUEUc-_xs6aoACeA', 'https://content-static.cctvnews.cctv.com/snow-book/index.html?item_id=14341851558748645271&toc_style_id=feeds_default&share_to=copy_url&track_id=e8845d59-fbc4-49f8-997e-d32f5c24f496', 'https://content-static.cctvnews.cctv.com/snow-book/index.html?item_id=3347052456315076496&t=1648032260015&toc_style_id=feeds_default&share_to=copy_url&track_id=c6e534ea-f333-474d-b30c-7216e1d9ace7', 'https://content-static.cctvnews.cctv.com/snow-book/index.html?item_id=3815618978145153846&t=1648016019571&toc_style_id=feeds_default&share_to=copy_url&track_id=316cd

In [66]:
result = xpath_data.xpath('//li/a/text()')
print(result)

['网页', '贴吧', '知道', '音乐', '图片', '视频', '地图', '文库', '首页', '国内', '国际', '军事', '财经', '娱乐', '体育', '互联网', '科技', '游戏', '女人', '汽车', '房产', '首页', '国内', '国际', '军事', '财经', '娱乐', '体育', '互联网', '科技', '游戏', '女人', '汽车', '房产', '热点要闻', '双标 浮标 无标——俄乌冲突暴露西方多重丑态', '更大规模留抵退税 企业迎来超万亿“真金白银”', '打牢全年粮食丰收基础 各地各部门多措并举抓春耕', '国际锐评｜所谓“人权卫道士”又想背信弃义？', '冰墩墩上太空了！王亚平和冰墩墩在中国空间站同框', '国务院安委办、应急管理部：立即开展民航安全隐患排查', '直播：MU5735坠机事故现场 全力搜寻第二个黑匣子', '武警穿雨衣在核心区清理飞机残骸 踩竹排进行传递搬运摆放', '坠机乘客亲属现场祭拜：接受现实，暂未收到遗物', '坠机核心区黑色蝴蝶结疑似云南女孩所留 好友：曾见她戴过', '美撤销中信国际在美公司214牌照 中方：坚决反对', '美国恢复部分中国进口商品的关税豁免', '航拍俄乌交战中的马里乌波尔：满目疮痍不见人迹', '俄罗斯驱逐美驻俄外交官:任何敌对行动都将得到强有力回应', '俄乌冲突30日：乌近1/4人口流离，克宫称作战目标未达成', '因制裁俄罗斯 英国名菜"炸鱼薯条"陷入断供 炸鱼店被迫关门', '法国一研究中心：新冠感染或导致不育和大脑老化', '现场!朴槿惠出狱后首个公开行程:参拜父母墓地 深深三鞠躬', '张文宏：新冠没有那么吓人，但是仗很难打', '31省区市3月23日新增本土确诊2010例，本土无症状2722例', '上海3月23日新增本土确诊4例，本土无症状感染者979例', '甘肃一托育中心被曝虐待儿童 官方:涉事机构停业多部门介入', '发文称“女人脚臭是男人的5倍”，宝洁被曝侮辱女性', '腾讯2021年全年净利润2248.2亿元 同比增长41%', '测核酸时不要再“啊”了！专家提醒5个细节', '北大毕业博士入职发电集团，诈骗2600万获刑10年', '大学生逃票进庐山景区坠亡，家属索赔90多万，法院判了！', '90后女生腰疼发现两