Skip to content

HanphoneJan/crawler

Repository files navigation

Python 爬虫项目集合

作者:寒枫
最后更新:2026-04

📁 项目结构

crawler/
├── docs/                       # 项目文档
│   ├── Python爬虫--寒枫.md         # 完整爬虫教程(推荐阅读)
│   ├── 使用爬虫项目.md             # 实用爬虫项目推荐
│   └── 自动化脚本应用场景.md        # 自动化应用场景
│
├── data/                       # 数据文件存储
│
├── tools/                      # 工具脚本
│   ├── webdriver_manager.py       # 浏览器驱动自动管理
│   └── webdriver_requirements.txt
│
├── douban-movie/               # 豆瓣电影爬虫
│   ├── film.py                    # 爬取豆瓣Top250电影
│   └── README.md
│
├── taobao-products/            # 淘宝商品爬虫
│   ├── taobao.py                  # Selenium爬取商品信息
│   ├── auto_get_cookies.py        # 自动获取cookies
│   └── README.md
│
├── netease-music/              # 网易云音乐爬虫
│   ├── wyy.py                     # 下载热歌榜歌曲
│   └── README.md
│
├── people-cn-search/           # 人民网讲话搜索爬虫
│   ├── renmin.py                  # 关键词搜索爬虫
│   └── README.md
│
├── bilibili/                   # B站视频爬虫
│   └── README.md                  # 详细说明见下方
│
├── requirements.txt            # 项目依赖
└── README.md                  # 本文件

🚀 快速开始

1. 安装依赖

pip install -r requirements.txt

2. 安装浏览器驱动(如需使用Selenium)

python tools/webdriver_manager.py

或使用 Playwright:

playwright install

📖 项目说明

douban-movie/ - 豆瓣电影爬虫

  • 功能:爬取豆瓣电影Top250
  • 技术:requests + BeautifulSoup
  • 特点:静态页面爬取、分页处理
  • 运行python douban-movie/film.py

taobao-products/ - 淘宝商品爬虫

  • 功能:爬取淘宝商品信息(标题、价格、销量等)
  • 技术:Selenium + PyQuery
  • 特点:动态页面、反爬处理、Excel导出
  • 运行python taobao-products/taobao.py
  • 注意:需要手动处理登录和验证码

netease-music/ - 网易云音乐爬虫

  • 功能:下载网易云热歌榜歌曲
  • 技术:requests + 正则表达式
  • 特点:媒体文件下载、批量处理
  • 运行python netease-music/wyy.py

people-cn-search/ - 人民网讲话搜索爬虫

  • 功能:搜索特定关键词的讲话内容
  • 技术:requests + BeautifulSoup
  • 特点:Session管理、分页爬取、多格式导出
  • 运行python people-cn-search/renmin.py

bilibili/ - B站视频爬虫

  • 来源:第三方开源项目 ddddavid-he/Bilibili-Scraper
  • 功能:B站视频下载、首页监控、UP主视频抓取
  • 技术:Playwright + yt-dlp
  • 特点:并发下载、断点续传、Cookie持久化
  • 运行:详见 bilibili/README.md

tools/ - 工具脚本

  • webdriver_manager.py:自动检测浏览器版本并下载对应驱动
  • 支持 Windows/macOS/Linux

📚 学习资源

新手入门

  1. 阅读 docs/Python爬虫--寒枫.md(完整教程)
  2. douban-movie/film.py 开始实践(最简单)
  3. 学习 netease-music/wyy.py(媒体下载)

进阶学习

  1. 学习 taobao-products/taobao.py(动态页面、Selenium)
  2. 学习 people-cn-search/renmin.py(Session管理、分页)
  3. 参考 docs/ 目录下的其他文档

高级主题

  • 反爬虫策略
  • JS逆向
  • 分布式爬虫
  • 详见教程文档

⚠️ 注意事项

  1. 遵守法律法规:仅用于学习和研究,不得用于商业用途
  2. 尊重robots.txt:遵守网站的爬取规则
  3. 控制频率:避免对服务器造成压力
  4. 数据安全:不爬取个人隐私信息
  5. 版权意识:合理使用爬取的数据

🔧 常见问题

Q: Chrome版本不匹配?

A: 运行 python tools/webdriver_manager.py 自动下载匹配的驱动

Q: 被反爬虫拦截?

A:

  • 添加随机延迟
  • 使用代理IP
  • 轮换User-Agent
  • 参考 docs/Python爬虫--寒枫.md 中的反爬策略

Q: 数据乱码?

A: 检查编码设置,一般使用 utf-8utf-8-sig

📝 更新日志

  • 2026-04:整理项目结构,添加统一依赖管理
  • 2024:初始版本

📄 许可证

MIT License


如有问题或建议,欢迎反馈!

About

寒枫的爬虫程序

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages