Skip to content

springwq/scrape_ai_tools

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 

Repository files navigation

AI Tools Directory Scraper

这是一个用于抓取 AI Tools Directory 网站上 AI 工具信息的爬虫脚本。该脚本可以自动收集所有工具的详细信息,包括名称、官方网站、访问模式、定价模式、行业和类别等。

功能特点

  • 自动分页抓取
  • 智能网站链接提取
  • 支持数据导出为 JSON 和 CSV 格式
  • 实时进度保存
  • 详细的日志记录
  • 错误处理和重试机制

环境要求

  • Python 3.7+
  • crawl4ai
  • beautifulsoup4
  • asyncio

安装

  1. 克隆仓库:
git clone git@github.com:springwq/scrape_ai_tools.git
cd crawl4ai
  1. 安装依赖:
pip install -r requirements.txt

使用方法

运行脚本:

python scrape_ai_tools.py

输出文件

脚本会生成两个输出文件:

  1. ai_tools.json:包含完整的工具信息,JSON 格式
  2. ai_tools.csv:表格形式的工具信息,CSV 格式

数据字段说明

  • name: 工具名称
  • detail_url: 工具详情页链接
  • website_url: 官方网站链接
  • access_model: 访问模式
  • pricing_model: 定价模式
  • industry: 所属行业
  • categories: 工具类别(逗号分隔)

日志

  • 脚本运行日志保存在 scraper.log 文件中
  • 控制台会实时显示抓取进度

注意事项

  1. 请遵守目标网站的爬虫政策
  2. 建议设置适当的延迟时间,避免对服务器造成压力
  3. 部分工具可能需要更长的加载时间,脚本设置了 60 秒的超时时间

错误处理

  • 脚本包含完整的错误处理机制
  • 如果某个工具抓取失败,会记录错误并继续处理下一个
  • 定期保存进度,支持断点续抓

贡献

欢迎提交 Issue 和 Pull Request 来改进这个项目。

许可证

MIT License

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages