# XPath语法

# lxml.etree 库

## 解析得到可分析的html代码

### html 字符串解析

In [11]:
from lxml import etree
text='''
<html>
<body>

<h2>HTML Links</h2>
    <p>HTML links are defined with the a tag:</p>

    <a href="https://www.w3schools.com">This is a link</a>

<h2>HTML Images</h2>
    <p>HTML images are defined with the img tag:</p>

    <img src="w3schools.jpg" alt="W3Schools.com" width="104" height="142">

<h2>HTML Buttons</h2>
    <p>HTML buttons are defined with the button tag:</p>

    <button>点我</button>

<h2>An Unordered HTML List</h2>

    <ul>
      <li>Coffee</li>
      <li>Tea</li>
      <li>Milk</li>
    </ul>  

<h2>An Ordered HTML List</h2>

    <ol>
      <li>Coffee</li>
      <li>Tea</li>
      <li>Milk</li>
    </ol> 

<h2 title="I'm a header">The title Attribute</h2>

    <p title="I'm a tooltip">Mouse over this paragraph, to display the title attribute as a tooltip.</p>

</body>
</html>
'''
with open ('sample.html','w',encoding='utf-8') as fp:
    fp.write(text)

In [20]:
# html 字符串解析
def parse_text(text):
    htmlElement=etree.HTML(text) #这是一个element对象
    return etree.tostring(htmlElement,encoding='utf-8').decode('utf-8') #转换成html的代码
    
parse_text(text)   

'<html>\n<body>\n\n<h2>HTML Links</h2>\n    <p>HTML links are defined with the a tag:</p>\n\n    <a href="https://www.w3schools.com">This is a link</a>\n\n<h2>HTML Images</h2>\n    <p>HTML images are defined with the img tag:</p>\n\n    <img src="w3schools.jpg" alt="W3Schools.com" width="104" height="142"/>\n\n<h2>HTML Buttons</h2>\n    <p>HTML buttons are defined with the button tag:</p>\n\n    <button>点我</button>\n\n<h2>An Unordered HTML List</h2>\n\n    <ul>\n      <li>Coffee</li>\n      <li>Tea</li>\n      <li>Milk</li>\n    </ul>  \n\n<h2>An Ordered HTML List</h2>\n\n    <ol>\n      <li>Coffee</li>\n      <li>Tea</li>\n      <li>Milk</li>\n    </ol> \n\n<h2 title="I\'m a header">The title Attribute</h2>\n\n    <p title="I\'m a tooltip">Mouse over this paragraph, to display the title attribute as a tooltip.</p>\n\n</body>\n</html>'

### 从文件中读取html代码

In [25]:
from lxml import etree

#读取外部文件sample.html
def parse_file(file):
    parser = etree.HTMLParser(encoding='utf-8')
    html=etree.parse(file,parser=parser)       # parse方法默认xml解析器，容错性差,所以需要指定parser的编码方法
    return etree.tostring(html,encoding='utf-8',pretty_print=True).decode('utf-8') 

parse_file('sample.html')

'<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">\n<html>\n<body>\n\n<h2>HTML Links</h2>\n    <p>HTML links are defined with the a tag:</p>\n\n    <a href="https://www.w3schools.com">This is a link</a>\n\n<h2>HTML Images</h2>\n    <p>HTML images are defined with the img tag:</p>\n\n    <img src="w3schools.jpg" alt="W3Schools.com" width="104" height="142"/>\n\n<h2>HTML Buttons</h2>\n    <p>HTML buttons are defined with the button tag:</p>\n\n    <button>点我</button>\n\n<h2>An Unordered HTML List</h2>\n\n    <ul>\n      <li>Coffee</li>\n      <li>Tea</li>\n      <li>Milk</li>\n    </ul>  \n\n<h2>An Ordered HTML List</h2>\n\n    <ol>\n      <li>Coffee</li>\n      <li>Tea</li>\n      <li>Milk</li>\n    </ol> \n\n<h2 title="I\'m a header">The title Attribute</h2>\n\n    <p title="I\'m a tooltip">Mouse over this paragraph, to display the title attribute as a tooltip.</p>\n\n</body>\n</html>\n'

## lxml结合xpath语法获取html中的data

In [91]:
from lxml import etree 
parser=etree.HTMLParser(encoding='utf-8')
html = etree.parse('tencent.html',parser=parser)   #选中html源码，右键copy outer html

# 1.获取所有的a标签 [//a]
alist=html.xpath('//a[@data-v-288d7ecc=""]')       # xpath函数返回的是一个列表，列表里是element对象 #末尾取text()无用
for a in alist:                                    # element对象都要用这个方法解码，至少有一个子对象则为element，不然是node
    print(etree.tostring(div,encoding='utf-8').decode('utf-8')) 
    break


<a data-v-288d7ecc="" class="recruit-list-link"><h4 data-v-288d7ecc="" class="recruit-title">19332-SaaS产品开发工程师(腾讯云全资子公司)</h4> <p data-v-288d7ecc="" class="recruit-tips"><span data-v-288d7ecc="">CSIG</span> |
                  <span data-v-288d7ecc="">西安,中国</span> |
                  <span data-v-288d7ecc="">技术</span> |
                  <span data-v-288d7ecc="">腾讯云</span> |
                   <span data-v-288d7ecc="">2020年07月08日</span></p> <p data-v-288d7ecc="" class="recruit-text">负责ToB SaaS业务的系统架构设计、Web代码及后台服务程序研发； 
负责运营支持系统的建设和研发工作，确保相关系统稳定可靠运行； 
参与系统的需求分析、评审、运营及业务运维。</p></a> 


In [89]:
# 2.获取所有h4标签
h4list=html.xpath('//h4[@class="recruit-title"]/text()') #从全局用属性定位获取,能用text()是因为h4里面只有一条text元素
for h4 in h4list:
    print(h4)
#     print(etree.tostring(h4,encoding='utf-8').decode('utf-8'))
    break
    

19332-SaaS产品开发工程师(腾讯云全资子公司)


# **示例：爬取腾讯招聘**

## 方法一：lxml和xpath解析html爬取数据

In [146]:
# 3.获取所有职位信息纯文本

parser=etree.HTMLParser(encoding='utf-8')
html = etree.parse('tencent.html',parser=parser)   #选中html源码，右键copy outer html

alist=html.xpath('//a[@data-v-288d7ecc=""]')       #返回带有职位信息的list，带有data-v-288d7ecc=""属性的a标签
positions=[]
for a in alist:
    joblist=a.xpath('.//h4/text()')[0]             #加个‘.’意味着在当前标签下去获取这个标签，而不是全局获取
    detail=a.xpath('.//p[@class="recruit-text"][1]/text()')[0]
    loc=a.xpath('.//span/text()')[1]               #text()已经是str格式，打印不需要编码etree.tostring()
    category=a.xpath('.//span/text()')[2]
    
    try:                                          #并不是每一个职位都写了公司，所以设置try
        company=a.xpath('.//span/text()')[3]
        date=a.xpath('.//span/text()')[4]
    except:
        date=a.xpath('.//span/text()')[3]
        
    if date==company: 
        company='Unknown'
    
    position={
        'position':joblist,
        'location':loc,
        'category':category,
        'company':company,
        'date':date,
        'detail':detail.strip().replace('\n','') # 去除空格和\n
    }
    positions.append(position)                   # 列表格式

positions[2:4]


[{'position': '22989-存储Web前端开发',
  'location': '深圳,中国',
  'category': '技术',
  'company': '腾讯云',
  'date': '2020年07月08日',
  'detail': '1. 负责腾讯云存储产品中心前端工作，包括COS、CI、CHDFS、CSG等产品控制台开发和产品特性2. 负责存储内部运营运维一体化的平台架构设计和开发（运营分析、运维管控、监控告警）3. 负责前端架构建设和公共组件开发，以及新技术的落地实践'},
 {'position': '22989-数据库云平台高级研发工程师（腾讯云全资子公司）（西安）',
  'location': '西安,中国',
  'category': '技术',
  'company': 'Unknown',
  'date': '2020年07月08日',
  'detail': '1.负责关系型数据库周边生态产品和工具研发；2.负责腾讯云自研数据库oracle兼容性功能研发； 3.对预研性数据库产品提供方案设计和支持； 4.提升数据库国产化产品演进，推动项目落地；'}]

In [145]:
#列表直接转化成dataframe
pd.DataFrame(positions).head(3)

Unnamed: 0,category,company,date,detail,location,position
0,技术,腾讯云,2020年07月08日,负责ToB SaaS业务的系统架构设计、Web代码及后台服务程序研发； 负责运营支持系统的建...,"西安,中国",19332-SaaS产品开发工程师(腾讯云全资子公司)
1,技术,QQ看点,2020年07月08日,负责看点快报Android平台软件设计与开发工作； 负责产品相关技术攻坚及性能优化,"深圳,中国",14703-看点快报Android开发工程师
2,技术,腾讯云,2020年07月08日,1. 负责腾讯云存储产品中心前端工作，包括COS、CI、CHDFS、CSG等产品控制台开发和...,"深圳,中国",22989-存储Web前端开发


### 列表转换后写入json文件

In [161]:
with open('tencent方法一.json','w',encoding='utf-8') as fp: # positions列表写入json文件
    fp.write(json.dumps(positions)) # write方法必须写入str，json.dumps(处理字符串) 转str

with open('tencent方法一.json','r',encoding='utf-8') as fp:
    info=fp.read()                  # read出来是个str
    data=json.loads(info)           # json.loads(处理字符串) 转成json

data[2:4]   

[{'position': '22989-存储Web前端开发',
  'location': '深圳,中国',
  'category': '技术',
  'company': '腾讯云',
  'date': '2020年07月08日',
  'detail': '1. 负责腾讯云存储产品中心前端工作，包括COS、CI、CHDFS、CSG等产品控制台开发和产品特性2. 负责存储内部运营运维一体化的平台架构设计和开发（运营分析、运维管控、监控告警）3. 负责前端架构建设和公共组件开发，以及新技术的落地实践'},
 {'position': '22989-数据库云平台高级研发工程师（腾讯云全资子公司）（西安）',
  'location': '西安,中国',
  'category': '技术',
  'company': 'Unknown',
  'date': '2020年07月08日',
  'detail': '1.负责关系型数据库周边生态产品和工具研发；2.负责腾讯云自研数据库oracle兼容性功能研发； 3.对预研性数据库产品提供方案设计和支持； 4.提升数据库国产化产品演进，推动项目落地；'}]

## 方法二：requests请求query包（需要认真看network找到正确的文件）

In [165]:
#请求href query
import requests
import json

url='https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1594250702528&countryId=&cityId=&bgIds=&productId=&categoryId=40001001,40001002,40001003,40001004,40001005,40001006&parentCategoryId=&attrId=&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn'
headers={             
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
    ,'Referer': 'https://careers.tencent.com/search.html?query=ot_40001001,ot_40001002,ot_40001003,ot_40001004,ot_40001005,ot_40001006'
}
response=requests.get(url,headers=headers) # 包装request请求返回Query？包，内涵所有职位信息
result=response.content.decode('utf-8') # 返回 str type 
d=json.loads(result) # 把str转换成json
d

{'Code': 200,
 'Data': {'Count': 2801,
  'Posts': [{'Id': 0,
    'PostId': '1281100158540455936',
    'RecruitPostId': 63780,
    'RecruitPostName': '29912-微视增长web前端开发工程师（北京） ',
    'CountryName': '中国',
    'LocationName': '北京',
    'BGName': 'PCG',
    'ProductName': '微视',
    'CategoryName': '技术',
    'Responsibility': '负责微视内容运营管理平台开发、多终端运营开发;',
    'LastUpdateTime': '2020年07月09日',
    'PostURL': 'http://careers.tencent.com/jobdesc.html?postId=0',
    'SourceID': 1,
    'IsCollect': False,
    'IsValid': True},
   {'Id': 0,
    'PostId': '1281092101169225728',
    'RecruitPostId': 63779,
    'RecruitPostName': 'CSIG15-智能平台部--高级数据分析师/数据分析专家（北京）',
    'CountryName': '中国',
    'LocationName': '北京',
    'BGName': 'CSIG',
    'ProductName': '',
    'CategoryName': '技术',
    'Responsibility': '负责产业互联网大数据项目的数据方案架构设计与实施。\n1、负责产业互联网数据平台产品的方案设计和数据体系建设；\n2、负责产业互联网大数据项目的数据治理、挖掘与应用；\n3、负责产业互联网大数据应用标准的研究与制定。',
    'LastUpdateTime': '2020年07月09日',
    'PostURL': 'http://careers.tencent.com/jobdesc.

In [149]:
# json直接转换dataframe
pd.DataFrame(d['Data']['Posts']).head(2)

Unnamed: 0,BGName,CategoryName,CountryName,Id,IsCollect,IsValid,LastUpdateTime,LocationName,PostId,PostURL,ProductName,RecruitPostId,RecruitPostName,Responsibility,SourceID
0,CSIG,技术,中国,0,False,True,2020年07月08日,西安,1280876751001493504,http://careers.tencent.com/jobdesc.html?postId=0,腾讯云,63767,19332-SaaS产品开发工程师(腾讯云全资子公司),负责ToB SaaS业务的系统架构设计、Web代码及后台服务程序研发； \n负责运营支持系统...,1
1,PCG,技术,中国,0,False,True,2020年07月08日,深圳,1280872448106962944,http://careers.tencent.com/jobdesc.html?postId=0,QQ看点,63766,14703-看点快报Android开发工程师,负责看点快报Android平台软件设计与开发工作； \n负责产品相关技术攻坚及性能优化,1


In [167]:
#读取json文件，并转换成dataframe
with open('tencent方法二.json','w',encoding='utf-8') as fp:
    fp.write(json.dumps(d['Data']['Posts']))                          #result是requests返回后解码的str
    
with open('tencent方法二.json','r',encoding='utf-8') as fp:
    info=fp.read()
    data = json.loads(info)              #把str转码成json
    
pd.DataFrame(data)[2:4]

Unnamed: 0,BGName,CategoryName,CountryName,Id,IsCollect,IsValid,LastUpdateTime,LocationName,PostId,PostURL,ProductName,RecruitPostId,RecruitPostName,Responsibility,SourceID
2,WXG,技术,中国,0,False,True,2020年07月09日,广州,1278158473892208640,http://careers.tencent.com/jobdesc.html?postId...,,63456,WXG07-微信广研-微盘前端开发工程师,为国内企业提供优质的网盘协同办公服务；打造效率协同工具的同时负责相关领域的技术难点攻关，技术...,1
3,PCG,技术,中国,0,False,True,2020年07月09日,深圳,1234672825659297792,http://careers.tencent.com/jobdesc.html?postId...,微视,58150,29912-微视直播后台开发工程师（深圳）,负责微视直播后台能力建设。 搭建微视直播基础能力， 支撑微视直播开播、观看、弹幕、送礼以及各...,1


# json相关

## json格式的数据调取

In [140]:
d['Data']['Posts'][1]  # [中括号]层层定位

{'Id': 0,
 'PostId': '1280872448106962944',
 'RecruitPostId': 63766,
 'RecruitPostName': '14703-看点快报Android开发工程师',
 'CountryName': '中国',
 'LocationName': '深圳',
 'BGName': 'PCG',
 'ProductName': 'QQ看点',
 'CategoryName': '技术',
 'Responsibility': '负责看点快报Android平台软件设计与开发工作； \n负责产品相关技术攻坚及性能优化',
 'LastUpdateTime': '2020年07月08日',
 'PostURL': 'http://careers.tencent.com/jobdesc.html?postId=0',
 'SourceID': 1,
 'IsCollect': False,
 'IsValid': True}

In [141]:
d['Data']['Posts'][1]['RecruitPostName']

'14703-看点快报Android开发工程师'

## json文件的读取与写入

In [None]:
# Writing JSON data
with open('data.json', 'w') as f:
    json.dump(data, f)

# Reading data back
with open('data.json', 'r') as f:
    data = json.load(f)

## json字符串的读取与写入

In [None]:
# Writing JSON data
with open('data.json', 'w') as f:
    f.write(json.dumps(data))           # write方法必须写入str，json.dumps(处理字符串) 转str

# Reading data back
with open('data.json', 'r') as f:
    info=f.read()                       # read出来是个str
    data = json.loads(info)             # json.loads(处理字符串) 转成json
