# 开始使用Xpath
从某种意义上来说，HTML就是XML的一种特殊形式。因此XPath可以处理XML文件，也可以处理HTML文件。  
为了验证XPath语法，在这里使用的是lxml模块，安装命令：`pip install lxml`（anaconda已包含）

## 常见的HTML操作

In [1]:
# HTML文件内容
<html>
<body>
<a>link</a>
<div class='container' id='divone'>
<p class='common' id='enclosedone'>Element One</p>
<p class='common' id='enclosedone'>Element Two</p>
</div>
</body>
</html>

SyntaxError: invalid syntax (18084047.py, line 2)

运行结果如图：  
<img src='1.png' width='50%' height='50%'/>  
先将网页标准化：

In [2]:
from lxml import etree
str='''<html>
<body>
<a>link</a>
<div class='container' id='divone'>
<p class='common' id='enclosedone'>Element One</p>
<p class='common' id='enclosedone'>Element Two</p>
</div>
</body>
</html>'''
html = etree.HTML(str)  # 自动修正为标准html
print(html)

<Element html at 0x218e3c0d780>


对数据进行提取的案例如下：

In [4]:
# 在整个页面中查找具有特定id的元素
res1 = html.xpath("//*[@id='first']")

# 通过绝对路径查找具有特定id的元素
res2 = html.xpath("/html/body/div/p[@id='two']")

# 选择同时具有特定id和class的元素
res3 = html.xpath("//p[@id='two' and @class='common']")

# 选择特定元素的文本
res4 = html.xpath("/html/body/div/p[@id='three']/text()")
res5 = html.xpath("//p[@id='three']/text()")

[]
[]
[]
[]
[]


## 常见的XML操作

In [5]:
# XML
<r>
<e a="1"/>
<f a="2" b="1">hello python</f>
<f/>
<g>
<i c="2">hello xpath</i>
世界你好
<j>I love you</j>
</g>
</r>

SyntaxError: invalid syntax (3648972592.py, line 2)

In [6]:
# 第一步：对XML文件内容标准化
from lxml import etree
str='''<r>
<e a="1"/>
<f a="2" b="1">hello python</f>
<f/>
<g>
<i c="2">hello xpath</i>
世界你好
<j>I love you</j>
</g>
</r>'''
xml = etree.XML(str)
print(xml)

<Element r at 0x218e4afae80>


In [7]:
# 标准化后，使用几个案例来加强学习
# eg1:选择一个元素
res1 = xml.xpath('/r/e')
print(res1)

# eg2:选择元素中的文字
res2 = xml.xpath('/r/f/text()')
print(res2)

# eg3:选择具有此字符串值的文本结点
res3 = xml.xpath('string(/r/f)')
print(res3)

[<Element e at 0x218e4b58dc0>]
['hello python']
hello python


## 浏览器使用Xpath调试
步骤：  
1. 按`F12`键进入控制台  
2. 使用快捷键`Ctrl+F`进入搜索框  
3. 将编写好的XPath语法输入搜索框，按回车键后查看是否匹配到内容  
[示例网址](https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343)
<img src='2.png' width='75%' height='75%'/>
<img src='3.png' width='75%' height='75%'/>

## 谷歌插件的安装与XPath Helper的使用
Xpath Helper是谷歌插件  
安装：（自行搜索下载）  
使用：打开/关闭：`Crtl+Shift+X`（会在上面显示两个黑框）（一直按住shift键，鼠标移动到哪里，上面的黑色框都会定位出来，松开shift键即停止）  
左侧框为绝对路径的XPath，右侧框是鼠标停下来定位的内容。  
可以通过左侧黑色框写的XPath语法来检测是否定位成功。

## 浏览器复制XPath
定位所需位置，单击鼠标右键，选择“复制”，复制XPath/复制完整XPath（一般选择前面一个）  
上述方法适合定位单个位置   
<img src="4.png" width='75%' height='75%'/>

由于HTML是XML的一种特殊形式，因此，介绍一些常见的XML语法：  
- `*`星号用于选择所有子元素  
- `.`点用于选择当前结点  
- `//`用于在当前元素的所有下级中选择所有下级元素  
- `..`用于选择父元素  
- `[@attrib]`选择属性为attrib的所有元素  
- `[@attrib='value']`选择给定属性具有给定值的所有元素  
- `[@attrib!='value']`选择给定属性不具有给定值的所有元素  
- `[position]`选择位于给定位置的所有元素。可以是一个整数（1表示首位），一个表达式（last()末位），或者相对于末位的位置（last()-1） 
- `tag`选择所有包含tag子元素的元素  
常用的函数：  
* `./text()`表示只取当前结点中的文本内容  
* `//div[contains(@id,'stu')]`为模糊匹配，表示选择属性id中包含'stu'字符串的所有div结点  
* `//input[start-with(@id,'s')]`匹配id属性以s开头的元素  
* `//input[ends-with(@id,'t')]`匹配id属性以t结尾的元素

# 属性的匹配

In [None]:
<place>
<name>zhangsan</name>
<plan name="北京" type="first"/>
<plan name="上海" type="second"/>
<place/>

In [16]:
# 标准化
from lxml import etree
str = '''<place>
<name>zhangsan</name>
<plan name="北京" type="first"/>
<plan name="上海" type="second"/>
</place>'''
xml = etree.XML(str)
print(xml)

<Element place at 0x218e521a540>


**注意区别** etree.XML()和etree.HTML()

## 根据具体属性匹配

In [17]:
# 匹配所有name属性的标签
# xml.xpath('/Galaxy/*[@name]')
res1 = xml.xpath('/place/*[@name]')
print(res1)
# 绝对路径
res2 = xml.xpath('//*[@name]')
print(res2)

[<Element plan at 0x218e4b4eb40>, <Element plan at 0x218e4b4c4c0>]
[<Element plan at 0x218e4b4eb40>, <Element plan at 0x218e4b4c4c0>]


**知识点**：属性读取用`@`，读取所有则用`*`

## 通过属性值的字段匹配
是否包含某字段

In [20]:
res3 = xml.xpath(r"/place/*[contains(@name,'北')]")
# contains()包含，查找place路径下，所有name属性中含有“北”的结点
print(res3)
res4 = xml.xpath("//*[contains(@name,'北')]")
print(res4)

[<Element plan at 0x218e4b4eb40>]
[<Element plan at 0x218e4b4eb40>]


## 属性值获取
属性匹配的格式还可以为：@+属性名。  
**注意:** 属性匹配是限定某个属性，属性获取是得到某个标签下的属性值。一个是限定，一个是获取值

In [21]:
res5 = xml.xpath('//place/plan/@name')
print(res5)

['北京', '上海']


# XPath处理HTML常用方法
一些常见语法：  
1. `/`用于从当前节点选取直接子节点  
2. `//`用于从当前节点选取子孙节点  
3. `.`用于选取当前节点  
4. `..`用于选取当前节点的父节点  
5. `@`用于选取属性
6. `*`用于选取所有

In [None]:
<div>
    <ul>
         <li class="first"><a href="https://www.csdn.net/">CSDN</a></li>
         <li class="two"><a href="https://www.zhihu.com/hot">zhihu</a></li>
         <li class="three"><a href="https://www.runoob.com/linux/linux-tutorial.html" class="linux">linux</a></li>
         <li class="four"><a href="https://leetcode-cn.com/">leecode</a></li>
         <li class="five"><a href="https://www.facebook.com/">facebook</a></li>
         <li class="six"><a href="https://www.bilibili.com/">bilibili</a></li>
     </ul>
 </div>'''

In [1]:
from lxml import etree
html ='''
<div>
    <ul>
         <li class="first"><a href="https://www.csdn.net/">CSDN</a></li>
         <li class="two"><a href="https://www.zhihu.com/hot">zhihu</a></li>
         <li class="three"><a href="https://www.runoob.com/linux/linux-tutorial.html" class="linux">linux</a></li>
         <li class="four"><a href="https://leetcode-cn.com/">leecode</a></li>
         <li class="five"><a href="https://www.facebook.com/">facebook</a></li>
         <li class="six"><a href="https://www.bilibili.com/">bilibili</a></li>
     </ul>
 </div>
 '''
# 数据转换成标签树的方式
html_tree = etree.HTML(html)
# print(html_tree)
# 看一下html_tree里面的数据
print(etree.tostring(html_tree).decode('utf-8'))

<html><body><div>
    <ul>
         <li class="first"><a href="https://www.csdn.net/">CSDN</a></li>
         <li class="two"><a href="https://www.zhihu.com/hot">zhihu</a></li>
         <li class="three"><a href="https://www.runoob.com/linux/linux-tutorial.html" class="linux">linux</a></li>
         <li class="four"><a href="https://leetcode-cn.com/">leecode</a></li>
         <li class="five"><a href="https://www.facebook.com/">facebook</a></li>
         <li class="six"><a href="https://www.bilibili.com/">bilibili</a></li>
     </ul>
 </div>
 </body></html>


In [23]:
# eg1:获取所有li节点
li = html_tree.xpath('//li')
print(li)

[<Element li at 0x218e55a3e40>, <Element li at 0x218e55a2600>, <Element li at 0x218e55a35c0>, <Element li at 0x218e55a3ac0>, <Element li at 0x218e55a0200>, <Element li at 0x218e55a3880>]


**知识点:** `//`用于获取所有节点，`XPath`返回数据是列表，格式为`[Element li 内存地址]`

In [24]:
# eg2:获取属性为two的文本
li2 = html_tree.xpath('//li[@class="two"]')
print(li2[0].xpath(".//a/text()"))

['zhihu']


**知识点：** Xpath返回的是一个列表，由于属性为`two`的标签只有一个，所以索引用`li2[0]`，返回的是`Element`。  
定位到标签后，再次使用XPath，定位到标签a，用text()获得文本

In [25]:
# eg3:查询class属性不等于'first'的标签
li3 = html_tree.xpath('//li[@class!="first"]')
print(li3)

[<Element li at 0x218e55a2600>, <Element li at 0x218e55a35c0>, <Element li at 0x218e55a3ac0>, <Element li at 0x218e55a0200>, <Element li at 0x218e55a3880>]


**知识点：** 属性定位用`@`符号，由于是选取不等于的内容，所以使用`!=`

In [27]:
# eg4:查询li标签class包含tw字符串的标签
li4 = html_tree.xpath('//li[contains(@class,"tw")]')
print(li4)

[<Element li at 0x218e55a2600>]


In [28]:
# eg5:获取eg4的li4结果的href属性
h = li4[0].xpath('./a/@href')
print(h)

['https://www.zhihu.com/hot']


**知识点：** href属性在a标签下，href是a标签的属性，属性读取用@

In [29]:
# eg6:获取所有a标签中的href属性
c = html_tree.xpath('//li/a/@*')
print(c)

['https://www.csdn.net/', 'https://www.zhihu.com/hot', 'https://www.runoob.com/linux/linux-tutorial.html', 'linux', 'https://leetcode-cn.com/', 'https://www.facebook.com/', 'https://www.bilibili.com/']


**知识点：** a标签都在li标签下，所以//li选取所有li的子节点，然后读取下面的a标签，@选取属性，*表示所有

In [2]:
# eg7:查询li标签中不包含tw字符串的标签
li5 = html_tree.xpath('//li[not(contains(@class,"tw"))]')
print(li5)
print(etree.tostring(li5[0]).decode('utf-8'))

[<Element li at 0x2a8cf2bc640>, <Element li at 0x2a8cf2bc8c0>, <Element li at 0x2a8cf2bd800>, <Element li at 0x2a8cf2bc900>, <Element li at 0x2a8cf2bd5c0>]
<li class="first"><a href="https://www.csdn.net/">CSDN</a></li>
         


**知识点：** 选取内容用`contains`，选取不包含内容，则在前面加`not`。 `etree.tostring()`是以文本形式打印的意思，可以显示出元素的具体内容。

In [5]:
# eg8:对li标签进行查询，class不包含f字符串，同时包含属性three
li6 = html_tree.xpath('//li[not(contains(@class,"f"))][@class="three"]')
print(li6)
print(etree.tostring(li6[0]).decode('utf-8'))

[<Element li at 0x2a8cf2bc8c0>]
<li class="three"><a href="https://www.runoob.com/linux/linux-tutorial.html" class="linux">linux</a></li>
         


**知识点：** 同时满足两种情况时，每种情况分别用括号表示

In [6]:
# eg9:查找根目录下所有的li
ll = html_tree.xpath('/html/body/div/ul/li')  # 绝对路径
ll2 = html_tree.xpath('//li')  # 相对路径
print(ll)
print(ll2)

[<Element li at 0x2a8cf2bc640>, <Element li at 0x2a8cf285ac0>, <Element li at 0x2a8cf2bc8c0>, <Element li at 0x2a8cf2bd800>, <Element li at 0x2a8cf2bc900>, <Element li at 0x2a8cf2bd5c0>]
[<Element li at 0x2a8cf2bc640>, <Element li at 0x2a8cf285ac0>, <Element li at 0x2a8cf2bc8c0>, <Element li at 0x2a8cf2bd800>, <Element li at 0x2a8cf2bc900>, <Element li at 0x2a8cf2bd5c0>]


In [8]:
#eg10:查询最后一个li标签
li7 = html_tree.xpath('//li[last()]')
li8 = html_tree.xpath('//li[5]')
print(li7)
print(li8)

[<Element li at 0x2a8cf2bd5c0>]
[<Element li at 0x2a8cf2bc900>]


**知识点：** 第一种方法是在列表中传入last()表示最后一个；第二种方法是看出最后一个的位置（数量少的时候使用）

In [9]:
# eg11:查询li标签倒数第二个具体内容
li9 = html_tree.xpath('//li[last()-1]')
print(etree.tostring(li9[0]).decode('utf-8'))

<li class="five"><a href="https://www.facebook.com/">facebook</a></li>
         


**知识点：** `last()-n`就是倒数第n+1个

In [11]:
# eg12:查询位置小于3的标签
li10 = html_tree.xpath('//li[position()<3]')
print(li10)

[<Element li at 0x2a8cf2bc640>, <Element li at 0x2a8cf285ac0>]


**知识点：** 一个列表中，分别对应第一、第二的位置为1、2，以此类推。`position()`可以得到它们的具体位置

# 实战学习：房产网站爬取
[目标网址:西安58同城-万科城一期](https://xa.58.com/ershoufang/?comm_id=844336&q=万科城%28一期%29)  
选择‘检查’命令，查看网页代码--》可以看到信息放在一个列表list中  
<img src='5.png' width='85%' height='85%'/>  
可以看到，每一套房屋信息都在一个标签中，再细化分析，定位具体价格  
定位标题时发现都在h3标签中，对应的class为`property-content-title-name`  
<img src='6.png' width='85%' height='85%'/>

In [5]:
from lxml import etree
import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0'
}
url = 'https://xa.58.com/ershoufang/?q=%E4%B8%87%E7%A7%91%E5%9F%8E'
# 请求获取代码
page_text = requests.get(url=url,headers=headers).text
# 标准化
html_tree = etree.HTML(page_text)
# print(etree.tostring(html_tree).decode('utf-8'))
if __name__=='__main__':
    div_list = html_tree.xpath('//section[@class="list"]/div')
    fp = open('.西安万科城二手房.txt','w',encoding='utf-8')
    for div in div_list:
        title = div.xpath('.//div[@class="property-content-title"]/h3/text()')[0]
#         print(title)
        price = str('总价格为：'+ div.xpath('.//div[@class="property-price"]/p/span[@class="property-price-total-num"]/text()')[0])+'万元'
#         print(price)
#         fp.write(title + '\t' + price + '\n' + '\n')
        formatted_line = f'{title:{chr(12288)}<30}\t{price:{chr(12288)}>15}'  # 对齐标题和价格
        print(formatted_line)
        fp.write(formatted_line + '\n')
    fp.close()

二期 高楼层采光充足 产权清晰 小区新 带电梯 装修好　　　	　　　　　总价格为：198万元
南北通透 精装可拎包入住 有电梯 低密度社区 双卫 钥匙房　	　　　　　总价格为：198万元
理想　　　　　　　　　　　　　　　　　　　　　　　　　　　　	　　　　　总价格为：159万元
公寓住宅 3室2厅2卫 110m 朝南北　　　　　　　　　　	　　　　　总价格为：207万元
业主急售 　　　　　　　　　　　　　　　　　　　　　　　　　	　　　　　总价格为：130万元
好赞必看房 9成新南北通透   无忧 品牌家具家电 领包入住	　　　　　总价格为：139万元
(一期) 精装可拎包入住 带电梯 小区新 临地铁　　　　　　	　　　　　总价格为：215万元
主　　　　　　　　　　　　　　　　　　　　　　　　　　　　　	　　　　　总价格为：134万元
价格可谈 　　　　　　　　　　　　　　　　　　　　　　　　　	　　　　　总价格为：165万元
高楼层丨采光充足丨小三居丨小区绿化高丨板楼丨精装修丨商品房　	　　　　　总价格为：170万元
理想　　　　　　　　　　　　　　　　　　　　　　　　　　　　	　　　　　总价格为：161万元
龙湖云璟 尽享便捷优享双地铁三环内曲江东双地铁低密改善　　　	　　　　　总价格为：225万元
3号线地铁口 　　　　　　　　　　　　　　　　　　　　　　　	　　　　　总价格为：158万元
大学　　　　　　　　　　　　　　　　　　　　　　　　　　　　	　　　　　总价格为：190万元
双卫 精装好房 南北通透 房龄新 有电梯 超低密度　　　　　	　　　　　总价格为：170万元
交大旁新房双地铁兴庆公园旁准现房面积大小可选　　　　　　　　	　　　　　总价格为：135万元
买三室得四室 长安 　　　　　　　　　　　　　　　　　　　　	　　　　　总价格为：226万元
房龄新 带电梯 高楼层采光充足 南北通透 精装可拎包入住　　	　　　　　总价格为：207万元
满二双支标丨三室两卫丨全明边户丨中层采光好丨　　　　　　　　	　　　　　总价格为：205万元
西安2.5环，龙湖品质，特价13000多，110~196平米	　　　　　总价格为：180万元
洋房 三室 好户型 南北通透 满两年　　　　　　　　　　　　	　　　　　总价格为：169万元
理想　　　　　　　　　　　

另外一个例子：[北京58同城](https://bj.58.com/ershoufang)

In [6]:
import requests
from lxml import etree
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0'
}
url = 'https://bj.58.com/ershoufang'
page_text = requests.get(url=url,headers=headers).text
html_tree = etree.HTML(page_text)
title = html_tree.xpath('//h3[@class="property-content-title-name"]/text()')
price = html_tree.xpath('//span[@class="property-price-total-num"]/text()')
for i,j in zip(title,price):
    print(i,j)

双井 急售2居 首付167w 全屋采光 开阔无遮挡 看房随时 558
新增！东三环 国贸 高层西向大两居 业主换房 方便看 599
国风美唐，入门级两居，商五一，急售，8和13地铁旁，集中供暖 446
地铁站300米（97平特价480萬）准现房，精装三居 605
双井 东南2居 能大谈 可代350w 高层 视野开阔 国贸 520
常营管庄热点小区南向两居好楼层可商贷 518
新出！东三环独门独院，次顶层，采光时间长，商本，价格空间大 580
中海城，2012年社区，西向2居，采光无遮挡，满五年，价可谈 489
北京新天地五期 2室2厅 全南向 中楼层 精装修 中间位置 518
下套成交房源！有钥匙随时看，业主已定房，急售！ 327
东四环朝青板块  方正两居  客厅带落地飘窗阳台 满五年一套 525
业主自住好房 户型方正保养好 中间楼层 视野开阔 349
有钥匙 双井苹果社区南区 正规一居室 高层 户型方正 无浪费 415
买房0.5，丰益东区，满五年，无遮挡，板楼电梯，西南两居 495
业主自住装修 浅色调符合年轻人审美！玺源台 西城次新盘 湾子 698
聚焦房源！中心位置，价格大谈，全明户型，拎包入住，近软件园 520
业主已经订到房源 价格不是问题 只要你能看  详情可以联系 574
龙腾南北两居，价格可大谈，首F140W，看房随时，急售 419
交易有保单 安心购 无遮挡，有钥匙随时看可大聊 530
新龙城M1户型，高楼层，近地铁 558
收费0.1 交易有保单 板楼南北通透2居 带电梯，紧临地铁 480
西山林语（必看好房）全南3居（博洛尼装修）价可大聊 580
东四环 近七号线地铁口
 保利精装三房 特价599w 667
西南向一览无余  业主变现 空房方便看 随时可配合 615
九龙花园 南北通透 商业配套成熟 大两居 近地铁 装修好 504
总价低！看2.5万平园林，环境好 满五年一套  好位置好楼层 650
东南两居，10号线双井九龙山，国贸一站地，步行200米三环 586
出售海淀嘉郡，南北1层两居，没出租过，近北斗星通 399
全南向小三居 大面宽 采光无遮挡 出让方便 548
常营 六号线 北辰福第 无遮挡 满五年  可谈 445
西园三区 南向2居  1梯3户 12层小板楼 650
南湖中园一区 板楼南北两居室 满五   装修好 495


**注意：** 由于很多网站反爬能力特别强，会对IP进行限制，可以进行尝试代理IP，如果被反爬，得到的结果就是一个空列表

# 多线程爬虫
当需要爬取的数据量比较大，且急需很快获取到数据的时候，可以考虑将单线程的爬虫写成多线程的爬虫

## 进程和线程
进程：可以理解为是正在运行的程序的实例。  
进程是拥有资源的独立单位，而线程不是独立的单位。  
由于每一次调度进程的开销比较大，为此才引入线程。  
一个进程可以拥有多个线程，一个进程中可以同时存在多个线程，这些线程共享该进程的资源，线程的切换消耗是很小的。  
因此在操作系统中引入进程的目的是**更好地使多道程序并发执行，提高资源利用率和系统吞吐量**；  
而引入线程的目的则是**减小程序在并发执行时所付出的时空开销，提高操作系统的并发性能。**

## Python中的多线程与单线程
一般来说，如果爬取的资源不是特别大，使用单线程即可。且在Python中，默认情况是单线程的----代码是按顺序依次运行的  
`threading`模块是Python中专门用来做多线程编程的模块，它对`thread`进行了封装，使用更加方便

In [12]:
# 例：需要对写代码和玩游戏两个事件使用多线程
import threading 
import time
# 定义第一个
def coding():
    for x in range(3):
        print("%s正在写代码\n"%x)
        time.sleep(1)
# 定义第二个
def playing():
    for x in range(3):
        print("%s正在玩游戏\n"%x)
        time.sleep(1)
# 如果使用多线程执行
def multi_thread():
    start = time.time()
    # thread创建第一个线程，target参数为参数名
    t1 = threading.Thread(target=coding)
    t1.start()  # 启动线程
    # 创建第二个线程
    t2 = threading.Thread(target=playing)
    t2.start()
    # join确保thread子线程执行完毕后，才能执行下一个线程
    t1.join()
    t2.join()
    end = time.time()
    running_time = end - start
    print('总共运行时间：%.5f秒'%running_time)
# 执行
if __name__=='__main__':
    multi_thread()  # 执行单线程

0正在写代码

0正在玩游戏

1正在写代码
1正在玩游戏


2正在玩游戏

2正在写代码

总共运行时间：3.00631秒


In [18]:
# 单线程
import time
# 定义第一个
def coding():
    for x in range(3):
        print("%s正在写代码\n"%x)
        time.sleep(1)
# 定义第二个
def playing():
    for x in range(3):
        print("%s正在玩游戏\n"%x)
        time.sleep(1)
def single_thread():
    start = time.time()
    coding()
    playing()
    end = time.time()
    running_time = end - start
    print('总共运行时间：%.5f秒'% running_time)
# 执行
if __name__=="__main__":
    single_thread()

0正在写代码

1正在写代码

2正在写代码

0正在玩游戏

1正在玩游戏

2正在玩游戏

总共运行时间：6.00339秒


**注：** 从时间上看，当执行工作量少时，单线程与多线程只有细微的区别，当执行工作量大的时候，使用多线程消耗的时间会更小

## 单线程修改为多线程
以某直播的图片爬取为例

In [33]:
import requests
from lxml import etree
import time
import os

dirpath = '图片/'
if not os.path.exists(dirpath):
    os.mkdir(dirpath)  # 创建文件夹
    
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0'
}

def get_photo():
    url = 'https://www.huya.com/g/100023'  # 目标网站
    response = requests.get(url=url,headers=headers)  # 发送请求
    data = etree.HTML(response.text)  # 转化为HTML格式
    return data

def jiexi():
    data = get_photo()
    image_url = data.xpath('//a//img//@data-original')
    image_name = data.xpath('//a//img[@class="pic"]//@alt')
    for ur, name in zip(image_url, image_name):
        url = ur.replace('?imageview/4/0/w/338/h/190/blur/1','')  #移除URL中不必要的部分
        if not url.startswith('http'):
            url = 'https:' + url  # 假设你想要使用 HTTPS 协议
        title = name + '.jpg'
        response = requests.get(url=url,headers=headers)  # 在此发送新的请求
        with open(dirpath + title, 'wb') as f:
            f.write(response.content)
        print("下载成功："+name)
        time.sleep(2)
        
if __name__=='__main__':
    jiexi()

TypeError: jiexi() missing 1 required positional argument: 'thread'

下改为多线程爬虫：(实践的结果有点奇怪，用时很长？？？)

In [42]:
import requests
from lxml import etree
import threading
import time
import os

dirpath = '图片/'
if not os.path.exists(dirpath):
    os.mkdir(dirpath)  # 创建文件夹
    
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0'
}

# 全局变量用于存储已下载的图片链接
downloaded_images = []

def get_photo():
    url = 'https://www.huya.com/g/100023'  # 目标网站
    response = requests.get(url=url,headers=headers)  # 发送请求
    data = etree.HTML(response.text)  # 转化为HTML格式
    return data

def jiexi():
    data = get_photo()
    image_url = data.xpath('//a//img//@data-original')
    image_name = data.xpath('//a//img[@class="pic"]//@alt')
    for ur, name in zip(image_url, image_name):
        url = ur.replace('?imageview/4/0/w/338/h/190/blur/1','')  #移除URL中不必要的部分
        if not url.startswith('http'):
            url = 'https:' + url  # 假设你想要使用 HTTPS 协议
        title = name + '.jpg'
        if title in downloaded_images:
            continue
        else:
            downloaded_images.append(title)
        response = requests.get(url=url,headers=headers)  # 在此发送新的请求
        with open(dirpath + title, 'wb') as f:
            f.write(response.content)
        print("下载成功："+name)
        time.sleep(2)

if __name__=='__main__':
    threads = []
    start = time.time()
    # 创建四个线程
    for i in range(1, 5):
        thread = threading.Thread(target=jiexi(),args=(i,)) 
        threads.append(thread)
        thread.start()
    for thread in threads:
        thread.join()
    end = time.time()
    running_time = end - start
    print('总共消耗时间：%.5f秒'% running_time)
    print("全部完成！")

下载成功：Zz1tai姿态的直播
下载成功：Uzi的直播
下载成功：CSBOY的直播
下载成功：kRYST4L的直播
下载成功：DANK1NG的直播
下载成功：神超的直播
下载成功：虎牙英雄联盟赛事的直播
下载成功：Chalice的直播
下载成功：Maybeee111的直播
下载成功：英雄联盟赛事副舞台的直播
下载成功：AG宠儿的直播
下载成功：瓦莉拉的直播
下载成功：V1ncent丶文森特的直播
下载成功：老中医的直播
下载成功：老实人sask的直播
下载成功：WE957的直播
下载成功：未来运动会电竞主舞台的直播
下载成功：天众丶桃子【K】的直播
下载成功：傲辰-唐轩宇的直播
下载成功：AzZ丶阿飞512的直播
下载成功：聆听丶虎神的直播
下载成功：依一【709】的直播
下载成功：屿水吸血鬼的直播
下载成功：微竞-叶神吸血鬼的直播
下载成功：飞段的直播
下载成功：女战神梧桐的直播
下载成功：云彩上的翅膀的直播
下载成功：Sccc丶的直播
下载成功：春哥再就业的直播
下载成功：WH-罗安琪【527】的直播
下载成功：赏金术士的直播
下载成功：是大蕊蕊呀的直播
下载成功：MAX-小样儿的直播
下载成功：GL学员-甜贝贝【天使】的直播
下载成功：盛世-十四剑姬的直播
下载成功：一只小糖宝丶的直播
下载成功：烟雨丶文酱的直播
下载成功：大熊小清新的直播
下载成功：虎牙-烟雨妹的直播
下载成功：乖的直播
下载成功：Puff123的直播
下载成功：小飞Lcr的直播
下载成功：维妮-小狐狸的直播
下载成功：久帝-周虎的直播
下载成功：BTM-青柠的直播
下载成功：仙女鹿【微胖战神】的直播
下载成功：90121鬼虎的直播
下载成功：MAX-卡美的直播
下载成功：6341-闪亮的直播
下载成功：三千丶新娘-53511的直播
下载成功：零度-64g小狐仙的直播
下载成功：烟雨-九引【9ing】的直播
下载成功：盛世-莱昂凯SHYEARKMIU的直播
下载成功：嘉泰-青甜的直播
下载成功：高能-想里的直播
下载成功：AH、肝帝的直播
下载成功：nada的直播
下载成功：解说元宝的直播
下载成功：盛世-叫我久哥哥【GLZ】的直播
下载成功：风华-文少蛮王的直播
下载成功：奶粉的日常的直播
下载成功：WH-炫炫宝宝的直播
下载成功：OBG-汤圆的直播
下载成功：天众丶军爷的直播
下载成功

# 作业习题
使用Xpath爬取以下网址中的图片：[站长素材](https://sc.chinaz.com/tupian/fengjing.html)

In [65]:
import requests
from lxml import etree
import urllib.request
import os

# 创建名为 "photo" 的文件夹
if not os.path.exists('./photo'):
    os.mkdir('./photo')

url = 'https://sc.chinaz.com/tupian/fengjing.html'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0'
}

response = requests.get(url=url,headers=headers)
response.encoding = 'utf-8'
html = response.text
html_tree = etree.HTML(html)
# print(etree.tostring(html_tree, pretty_print=True, encoding='gbk').decode('gbk'))
src = html_etree.xpath('//div[@class="item"]/img/@data-original')
# print(src)
i = 1
for img_url in src:
    name = str(i) + '.jpg'
    u = "https:" + img_url
    i = i + 1
    urllib.request.urlretrieve(u, filename='./photo/%s'% (name))  # urlretrieve将指定的 URL 表示的网络对象复制到本地文件
    # 上一行代码会将从 u 指定的 URL 下载的图片保存到本地文件夹中，文件名为 name
    print("下载图片%s成功！"% (name))

下载图片1.jpg成功！
下载图片2.jpg成功！
下载图片3.jpg成功！
下载图片4.jpg成功！
下载图片5.jpg成功！
下载图片6.jpg成功！
下载图片7.jpg成功！
下载图片8.jpg成功！
下载图片9.jpg成功！
下载图片10.jpg成功！
下载图片11.jpg成功！
下载图片12.jpg成功！
下载图片13.jpg成功！
下载图片14.jpg成功！
下载图片15.jpg成功！
下载图片16.jpg成功！
下载图片17.jpg成功！
下载图片18.jpg成功！
下载图片19.jpg成功！
下载图片20.jpg成功！
下载图片21.jpg成功！
下载图片22.jpg成功！
下载图片23.jpg成功！
下载图片24.jpg成功！
下载图片25.jpg成功！
下载图片26.jpg成功！
下载图片27.jpg成功！
下载图片28.jpg成功！
下载图片29.jpg成功！
下载图片30.jpg成功！
下载图片31.jpg成功！
下载图片32.jpg成功！
下载图片33.jpg成功！
下载图片34.jpg成功！
下载图片35.jpg成功！
下载图片36.jpg成功！
下载图片37.jpg成功！
下载图片38.jpg成功！
下载图片39.jpg成功！
下载图片40.jpg成功！


In [74]:
# 多页下载

# ！！！！！！！！！！以下代码有问题

import urllib.parse
import urllib.request
import requests
from lxml import etree
import time
import os

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0',
    }

def qingqiu(url, page):
    if page == 1:
        url = url.format('')  # 填写空
    else:
        url = url.format('_' + str(page))  # 填写下划线加页码
    response = requests.get(url=url,headers=headers)
    return response


def download(image_src):
    # 创建名为 "photo" 的文件夹
    if not os.path.exists('./Photo'):
        os.mkdir('./Photo')
    # 创建文件名
    filename = os.path.basename(image_src)
    # 图片路径
    filepath = os.path.join(dirpath, filename)
    # 发送请求，保存图片
    response = requests.get(url=image_src, headers=headers)
    with open(filepath, 'wb') as fp:
        fp.write(response.read())


def jiexi(content):
    # 生成对象
    tree = etree.HTML(content)
    image_list = tree.xpath('//div[@class="item"]/img/@data-original')
    # 遍历列表，依次下载图片
    for image_src in image_list:
        image_src = 'http:' + image_src
        download(image_src)


if __name__ == "__main__":
    url = 'https://sc.chinaz.com/tupian/taikongkexuetupian{}.html'

    start_page = int(input("请输入开始页码："))
    end_page = int(input("请输入结束页码："))

    for page in range(start_page, end_page + 1):
        print("第%s页开始下载······" % page)
        response = qingqiu(url, page)
        response.encoding = 'utf-8'
        content = response.text
        # 解析内容
        jiexi(content)
        time.sleep(5)  # 避免被反爬，不能爬太快
        print("第%s页下载完毕······" % page)
    print("下载完成！")

请输入开始页码：1
请输入结束页码：1
第1页开始下载······


AttributeError: 'Response' object has no attribute 'read'

In [105]:
import requests
from lxml import etree
import time
import os

dirpath = '图片Photo/'
if not os.path.exists(dirpath):
    os.mkdir(dirpath)  # 创建文件夹
        
base_url = 'https://sc.chinaz.com/tupian/taikongkexuetupian{}.html'

start_page = int(input("请输入开始页码："))
end_page = int(input("请输入结束页码："))
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0',
    }
for page in range(start_page, end_page+1):
    print("第%s页开始下载······" % page)
    if page == 1:
        url = base_url.format('')  # 填写空
    else:
        url = base_url.format('_' + str(page))  # 填写下划线加页码
        
    response = requests.get(url=url,headers=headers)
    response.encoding = 'utf-8'
    html = response.text
    html_tree = etree.HTML(html)
#     print(tree.tostring(html_tree, pretty_print=True, encoding='gbk').decode('gbk'))
    image_list = html_tree.xpath('//div[@class="item"]/img/@data-original')
    image_name = html_tree.xpath('//div[@class="item"]/img/@alt')
#     print(image_list)
#     print(image_name)

    for url, name in zip(image_list, image_name):
        if not url.startswith('http'):
            url = 'https:' + url
        title = name + '.jpg'
        response = requests.get(url=url,headers=headers)  # 在此发送新的请求
        with open(dirpath + title, 'wb') as f:
            f.write(response.content)
        time.sleep(0.15)
    time.sleep(5)  # 避免被反爬，不能爬太快
    print("第%s页下载完毕······" % page)
print("下载完成！")

请输入开始页码：2
请输入结束页码：4
第2页开始下载······
第2页下载完毕······
第3页开始下载······
第3页下载完毕······
第4页开始下载······
第4页下载完毕······
下载完成！
