这是一个用于抓取 AI Tools Directory 网站上 AI 工具信息的爬虫脚本。该脚本可以自动收集所有工具的详细信息,包括名称、官方网站、访问模式、定价模式、行业和类别等。
- 自动分页抓取
- 智能网站链接提取
- 支持数据导出为 JSON 和 CSV 格式
- 实时进度保存
- 详细的日志记录
- 错误处理和重试机制
- Python 3.7+
- crawl4ai
- beautifulsoup4
- asyncio
- 克隆仓库:
git clone git@github.com:springwq/scrape_ai_tools.git
cd crawl4ai
- 安装依赖:
pip install -r requirements.txt
运行脚本:
python scrape_ai_tools.py
脚本会生成两个输出文件:
ai_tools.json
:包含完整的工具信息,JSON 格式ai_tools.csv
:表格形式的工具信息,CSV 格式
name
: 工具名称detail_url
: 工具详情页链接website_url
: 官方网站链接access_model
: 访问模式pricing_model
: 定价模式industry
: 所属行业categories
: 工具类别(逗号分隔)
- 脚本运行日志保存在
scraper.log
文件中 - 控制台会实时显示抓取进度
- 请遵守目标网站的爬虫政策
- 建议设置适当的延迟时间,避免对服务器造成压力
- 部分工具可能需要更长的加载时间,脚本设置了 60 秒的超时时间
- 脚本包含完整的错误处理机制
- 如果某个工具抓取失败,会记录错误并继续处理下一个
- 定期保存进度,支持断点续抓
欢迎提交 Issue 和 Pull Request 来改进这个项目。
MIT License