Releases: shengchenyang/AyugeSpiderTools
Releases · shengchenyang/AyugeSpiderTools
1.0.7
更新内容:
- 添加
mysql
存储场景下的去重查询方法- 在
Utils
的ToolsForAyu
中添加filter_data_before_yield
方法 - 修改对应
templates
中basic.tmpl
的去重查询示例
- 在
- 整理代码结构
1.0.6
更新内容:
- 去除
Pipelines
中默认的create_time
字段,存储时不再自动添加此字段。
注:可自行在 item
中添加此字段即可
1.0.5
更新内容:
- 修改依赖库
- 修改 poetry 的依赖文件,
poetry.lock
,pyproject.toml
的文件
- 修改 poetry 的依赖文件,
- 修改
mysql_engine
开关名称- 将
mysql_engine_off
配置名改为mysql_engine_enabled
- 同样修改模板
basic.tmpl
和AyugeSpider
文件中其对应的参数
- 将
1.0.4rc1
更新内容:
- 优化在
json
解析字段时的场景:- 比如一条数据可以在多个字段中皆可取,字段释义模糊且其各字段中不一定哪个会出现没有值的情况。
推荐以下写法:
# 这里指优先从 s_data_decode 的 titleUrl 中取值,若其值为空,则依次往下取,再取 s_data_decode 中 source 下的 url 值
url = ToolsForAyu.extract_with_json(json_data=s_data_decode, query=["titleUrl", ["source", "url"]])
1.0.3
修复 --version
命令出错的问题,优化部分代码结构。
1.0.2
增加了 version
的 cmdline
的命令支持,可使用 ayugespidertools version
来查看库的版本信息。
注意:此版本在 ayugespidertools --version
时会报错,请不要下载此版本!!!
1.0.1rc1
开天辟地,项目基本成型,主推功能已基本实现。