AI Tools Directory Scraper

这是一个用于抓取 AI Tools Directory 网站上 AI 工具信息的爬虫脚本。该脚本可以自动收集所有工具的详细信息，包括名称、官方网站、访问模式、定价模式、行业和类别等。

功能特点

自动分页抓取
智能网站链接提取
支持数据导出为 JSON 和 CSV 格式
实时进度保存
详细的日志记录
错误处理和重试机制

环境要求

Python 3.7+
crawl4ai
beautifulsoup4
asyncio

安装

克隆仓库：

git clone git@github.com:springwq/scrape_ai_tools.git
cd crawl4ai

安装依赖：

pip install -r requirements.txt

使用方法

运行脚本：

python scrape_ai_tools.py

输出文件

脚本会生成两个输出文件：

ai_tools.json：包含完整的工具信息，JSON 格式
ai_tools.csv：表格形式的工具信息，CSV 格式

数据字段说明

name: 工具名称
detail_url: 工具详情页链接
website_url: 官方网站链接
access_model: 访问模式
pricing_model: 定价模式
industry: 所属行业
categories: 工具类别（逗号分隔）

日志

脚本运行日志保存在 scraper.log 文件中
控制台会实时显示抓取进度

注意事项

请遵守目标网站的爬虫政策
建议设置适当的延迟时间，避免对服务器造成压力
部分工具可能需要更长的加载时间，脚本设置了 60 秒的超时时间

错误处理

脚本包含完整的错误处理机制
如果某个工具抓取失败，会记录错误并继续处理下一个
定期保存进度，支持断点续抓

贡献

欢迎提交 Issue 和 Pull Request 来改进这个项目。

许可证

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
requirements.txt		requirements.txt
scrape_ai_tools.py		scrape_ai_tools.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

AI Tools Directory Scraper

功能特点

环境要求

安装

使用方法

输出文件

数据字段说明

日志

注意事项

错误处理

贡献

许可证

About

Uh oh!

Releases

Packages

Uh oh!

Languages

springwq/scrape_ai_tools

Folders and files

Latest commit

History

Repository files navigation

AI Tools Directory Scraper

功能特点

环境要求

安装

使用方法

输出文件

数据字段说明

日志

注意事项

错误处理

贡献

许可证

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages