作者:Nong-Yi
版本:1.1.0
版权:©️Nong-Yi
模块使用了re、httpx、time这些库
httpx模块是一个可以发送网络请求的模块,他与requests库相似但有一个requests库没有的功能,就是httpx可以发送http2协议的请求
re库是一个正则表达式的一个工具
关于这两个库大家可以去官网了解我就不过多介绍了
# 安装方式(安装了可以跳过):
pip install httpx
# 上面安装的httpx没办法使用http2请求我们还需要继续安装下面这个
pip install httpx['http2']
# 这样就可以使用http2协议进行请求了
pip install re
接下来我们需要分析一下,分析什么呢?分析我们需要的数据在哪个接口,有没有加密,有没有表单需要写的
首先在爬取之前我们肯定需要知道数据在哪里是吧,俗话说:工欲善其事,必先利其器。那么我们需要的数据又在哪里呢?非常简单跟着我走就行。
首先我们打开网站然后随便选择一个商品,然后按F12打开我们熟知的开发者工具,然后刷新一下按ctrl+f打开搜索复制一个评论进行搜索。
然后我们查看表单进行分析
通过图片我们可以知道除了我画的这三个其他的都没有动,但是在第二页的api中会添加一个新的键具体可以看我的代码
知道这些那么我们就知道需要解决的表单的键有哪些了,时间戳可以使用time模块,而productid就是页面的编码,具体操作看代码我就不细说了
接下来就可以编写代码了
代码在旁边的文件里大家可以自行观看学习,代码的拓展性还是有的我并没有写完整比如保存,这些需要大家自己动动脑子了。因为我的讲解是面向有一定基础的同学的,如果有不会的可以到我的网站一样的教学文章底下评论区处进行留言我看见一定给大家解答~
感谢大家观看^_^
我的网站地址:www.nong-yi.cn
本文章仅用于教学目的,不对使用此教程所提供的示例代码而产生的任何结果负责。在文章中出现的url(网址)、用户名等等的出现都属于碰巧我们不负任何责任如果有侵犯您的权益可联系我更改或删除谢谢您的理解。在实际使用中,请遵守相关法律法规,并确保获得了合法的许可。对于任何因使用本教程而导致的问题,我们概不负责。


