作者:寒枫
最后更新:2026-04
crawler/
├── docs/ # 项目文档
│ ├── Python爬虫--寒枫.md # 完整爬虫教程(推荐阅读)
│ ├── 使用爬虫项目.md # 实用爬虫项目推荐
│ └── 自动化脚本应用场景.md # 自动化应用场景
│
├── data/ # 数据文件存储
│
├── tools/ # 工具脚本
│ ├── webdriver_manager.py # 浏览器驱动自动管理
│ └── webdriver_requirements.txt
│
├── douban-movie/ # 豆瓣电影爬虫
│ ├── film.py # 爬取豆瓣Top250电影
│ └── README.md
│
├── taobao-products/ # 淘宝商品爬虫
│ ├── taobao.py # Selenium爬取商品信息
│ ├── auto_get_cookies.py # 自动获取cookies
│ └── README.md
│
├── netease-music/ # 网易云音乐爬虫
│ ├── wyy.py # 下载热歌榜歌曲
│ └── README.md
│
├── people-cn-search/ # 人民网讲话搜索爬虫
│ ├── renmin.py # 关键词搜索爬虫
│ └── README.md
│
├── bilibili/ # B站视频爬虫
│ └── README.md # 详细说明见下方
│
├── requirements.txt # 项目依赖
└── README.md # 本文件
pip install -r requirements.txtpython tools/webdriver_manager.py或使用 Playwright:
playwright install- 功能:爬取豆瓣电影Top250
- 技术:requests + BeautifulSoup
- 特点:静态页面爬取、分页处理
- 运行:
python douban-movie/film.py
- 功能:爬取淘宝商品信息(标题、价格、销量等)
- 技术:Selenium + PyQuery
- 特点:动态页面、反爬处理、Excel导出
- 运行:
python taobao-products/taobao.py - 注意:需要手动处理登录和验证码
- 功能:下载网易云热歌榜歌曲
- 技术:requests + 正则表达式
- 特点:媒体文件下载、批量处理
- 运行:
python netease-music/wyy.py
- 功能:搜索特定关键词的讲话内容
- 技术:requests + BeautifulSoup
- 特点:Session管理、分页爬取、多格式导出
- 运行:
python people-cn-search/renmin.py
- 来源:第三方开源项目 ddddavid-he/Bilibili-Scraper
- 功能:B站视频下载、首页监控、UP主视频抓取
- 技术:Playwright + yt-dlp
- 特点:并发下载、断点续传、Cookie持久化
- 运行:详见
bilibili/README.md
- webdriver_manager.py:自动检测浏览器版本并下载对应驱动
- 支持 Windows/macOS/Linux
- 阅读
docs/Python爬虫--寒枫.md(完整教程) - 从
douban-movie/film.py开始实践(最简单) - 学习
netease-music/wyy.py(媒体下载)
- 学习
taobao-products/taobao.py(动态页面、Selenium) - 学习
people-cn-search/renmin.py(Session管理、分页) - 参考
docs/目录下的其他文档
- 反爬虫策略
- JS逆向
- 分布式爬虫
- 详见教程文档
- 遵守法律法规:仅用于学习和研究,不得用于商业用途
- 尊重robots.txt:遵守网站的爬取规则
- 控制频率:避免对服务器造成压力
- 数据安全:不爬取个人隐私信息
- 版权意识:合理使用爬取的数据
A: 运行 python tools/webdriver_manager.py 自动下载匹配的驱动
A:
- 添加随机延迟
- 使用代理IP
- 轮换User-Agent
- 参考
docs/Python爬虫--寒枫.md中的反爬策略
A: 检查编码设置,一般使用 utf-8 或 utf-8-sig
- 2026-04:整理项目结构,添加统一依赖管理
- 2024:初始版本
MIT License
如有问题或建议,欢迎反馈!