Skip to content
/ DS Public

一个Qt开发的可以替代爬虫的网页数据采集软件,它最重要的特点就是,降低了采集网页数据的门槛,由至少必须掌握一门编程语言降低到只要会操作电脑即可。

License

Notifications You must be signed in to change notification settings

beixiaocai/DS

Repository files navigation

DS

软件介绍

  • 这是一个Qt开发的可以替代爬虫的网页数据采集软件,它最重要的特点就是,降低了采集网页数据的门槛,由至少掌握一门编程语言降低到只要会操作电脑即可。

关于DS

  • 2023.3.18:DS 来自 Data Spider ,几年前写过一个类似的工具软件,但当时受限于个人水平,那个软件在逻辑上存在许多bug,所以一直都搁置了。 直到几个月前,我决定重新完善一下,因为那个软件虽然存在很多bug,但思路非常好,搁置着太可惜,之后我重新复习了一下Qt,又经历挺长一段时间,终于在最近完成一个可用的版本。

软件主界面.png

软件的使用教程

安装开发环境需要注意的几点

  • 这个软件内嵌了一个谷歌浏览器,是基于Qt自带的QWebView控件实现的, Qt中只有MSVC编译器才能使用这个控件,MinGW的编译器是不可以使用的, 所以大家想要运行这个软件,一定要确保自己的电脑安装了MSVC系列的编译器。
  • 强烈建议大家先安装VS再安装Qt,如果先安装Qt再安装VS,需要手动配置编译器,很麻烦。
  • 如何安装MSVC系列的编译器?
  • 在安装Qt之前,首先安装Visual Studio,这样在安装Qt时才能够勾选MSVC,并正常安装。
  • 作者尝试过的Qt与MSVC编译器的可用组合
  • Qt5.14.2 + VS2019 和 VS2017
  • Qt5.15.2 + VS2019
  • Qt6.4.3 + VS2019
  • Qt6.6 + VS2019
  • Qt6.7 + VS2019

版本历史

v1.9

  • 发布时间 2024.04.09
  • (1)兼容Qt6.7
  • (2)chromium内核升级至V122.0.6261.128,提高渲染和采集性能
V1.8

发布时间:2023.8.26
更新内容:
(1)升级内置浏览器内核版本。
(2)优化执行器的执行逻辑。
(3)新增导出csv格式的数据(对于有些用户的电脑无法导出excel,可以使用csv)。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11 DS.v1.8.x64.2023.08.26.exe
win7/win8   暂未编译,可自行编译
mac/linux   暂未编译,可自行编译


V1.7
发布时间:2023.4.16
更新内容:
(1)内置浏览器支持系统VPN。
(2)内置浏览器支持数据缓存。
(3)优化部分系统崩溃问题。
(4)优化数据导出功能。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11 DS.v1.7.x64.2023.04.16.exe
win7/win8   暂未编译,可自行编译
mac/linux   暂未编译,可自行编译


V1.6
发布时间:2023.4.13
更新内容:
(1)优化下载文件功能。
(2)优化日志记录和清理功能。
(3)优化崩溃问题。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11 DS.v1.6.x64.2023.04.13.exe
win7/win8   DS.v1.6.x64.win7.win8.2023.04.13.zip
mac/linux   暂未编译,可自行编译


V1.5
发布时间:2023.4.8
更新内容:
(1)新增图片下载功能。
(2)优化程序代码结构,提升性能。
(3)修复采集执行器执行时的页数显示问题。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11 DS.v1.5.x64.2023.04.08.exe
win7/win8   暂未编译,可自行编译
mac/linux   暂未编译,可自行编译


V1.4
发布时间:2023.4.1
更新内容:
(1)新新增定时启动任务的功能。
(2)优化任务执行时的回调机制。
(3)修复导入任务无法更新的bug。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11 DS.v1.4.x64.2023.04.01.exe
win7/win8   暂未编译,可自行编译
mac/linux   暂未编译,可自行编译


V1.3
发布时间:2023.3.26
更新内容:
(1)兼容Qt6.4.3,内置浏览器内核更新至最新,预计性能提升20%。
(2)优修复了网络请求可能导致的崩溃。
(3)优化execl数据的导出。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11 DS.v1.3.x64.2023.03.26.exe
win7/win8   暂未编译,可自行编译
mac/linux   暂未编译,可自行编译


V1.2
发布时间:2023.3.22
更新内容:
1)修复了删除任务的bug。
2)关闭了内置浏览器的调试,提升性能。
3)引入日志库。
4)兼容高分辨率屏幕。
5)获取admin权限,解决部分系统盘无法写入任务的问题。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11/win7/win8 DS.v1.2.x64.2023.03.22.exe
mac/linux   暂未编译,可自行编译


V1.1
发布时间:2023.3.21
更新内容:
1)修复了删除任务的bug。
2)关闭了内置浏览器的调试,提升性能。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11/win7/win8 DS.v1.1.x64.2023.03.21.exe
mac/linux   暂未编译,可自行编译


V1.0
发布时间:2023.3.18
更新内容:
1)首次发布
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11/win7/win8 DS.v1.0.x64.2023.03.18.exe
mac/linux   暂未编译,可自行编译

一直以来我开发这个软件的初衷

  • 当今时代,无处不存在对数据获取的需求。对于企业来说, 可以通过招聘开发人员专门进行数据采集。 但对于大部分 需要数据,但不懂开发的个人来说,获取数据则是困难的, 很显然,他们是不可能通过编程开发进而获取数据的。

  • 编写报告, 撰写论文,从事分析相关的研究人员,政府公务人员,销售人员,运营人员, 学生等,在日常工作生活都有面临采集网页数据的需求。 但很多时候,大部分人仅仅是需要一批网页数据,通过分析得出一些结论。 但是由于获取数据的成本较高,还需要额外学编程语言开发采集, 这对于他们来说是极其痛苦的,因为不能把有限的时间放在最有价值的事情上。

  • 虽然开发程序采集数据,这对于开发人员来说,是比较简单的, 但是对于一个不懂编程的人,这是困难的, 而且即使是开发人员,可能也不愿意编写程序采集数据,因为太浪费时间。

对DS的展望和计划

  • 希望DS能够成为一款类似于office,WPS 一样的一个办公必备软件,每一位有需要的职场人员,都可以使用DS进行采集数据,来应对日常工作

  • DS将永久开源,所有功能永久免费,我会保持更新,也希望有兴趣的开发者能够一起完善,并希望大家多提意见或建议,

软件声明

  • 本产品只是采集数据的工具,我们不对数据版权负责。我们尊重版权,您必须在采集之前联系数据所有者取得授权, 任何因数据授权产生的问题由使用者负生部责任,另外对于数据的使用请严格遭守《国家网络安全法》, 使用本软件即代表悠同意此声明

授权协议

  • 本项目自有代码使用宽松的MIT协议,在保留版权信息的情况下可以自由应用于各自商用、非商业的项目。 但是本项目也零碎的使用了一些其他的第三方库,包括使用了Qt, 由于使用本项目而产生的商业纠纷或侵权行为一概与本项目及开发者无关,请自行承担法律风险。 在使用本项目代码时,也应该在授权协议中同时表明本项目依赖的第三方库的协议,以及遵循相应的规定。

About

一个Qt开发的可以替代爬虫的网页数据采集软件,它最重要的特点就是,降低了采集网页数据的门槛,由至少必须掌握一门编程语言降低到只要会操作电脑即可。

Topics

Resources

License

Stars

Watchers

Forks

Packages

No packages published