Python 爬虫项目集合

作者：寒枫
最后更新：2026-04

📁 项目结构

crawler/
├── docs/                       # 项目文档
│   ├── Python爬虫--寒枫.md         # 完整爬虫教程（推荐阅读）
│   ├── 使用爬虫项目.md             # 实用爬虫项目推荐
│   └── 自动化脚本应用场景.md        # 自动化应用场景
│
├── data/                       # 数据文件存储
│
├── tools/                      # 工具脚本
│   ├── webdriver_manager.py       # 浏览器驱动自动管理
│   └── webdriver_requirements.txt
│
├── douban-movie/               # 豆瓣电影爬虫
│   ├── film.py                    # 爬取豆瓣Top250电影
│   └── README.md
│
├── taobao-products/            # 淘宝商品爬虫
│   ├── taobao.py                  # Selenium爬取商品信息
│   ├── auto_get_cookies.py        # 自动获取cookies
│   └── README.md
│
├── netease-music/              # 网易云音乐爬虫
│   ├── wyy.py                     # 下载热歌榜歌曲
│   └── README.md
│
├── people-cn-search/           # 人民网讲话搜索爬虫
│   ├── renmin.py                  # 关键词搜索爬虫
│   └── README.md
│
├── bilibili/                   # B站视频爬虫
│   └── README.md                  # 详细说明见下方
│
├── requirements.txt            # 项目依赖
└── README.md                  # 本文件

🚀 快速开始

1. 安装依赖

pip install -r requirements.txt

2. 安装浏览器驱动（如需使用Selenium）

python tools/webdriver_manager.py

或使用 Playwright：

playwright install

📖 项目说明

douban-movie/ - 豆瓣电影爬虫

功能：爬取豆瓣电影Top250
技术：requests + BeautifulSoup
特点：静态页面爬取、分页处理
运行：python douban-movie/film.py

taobao-products/ - 淘宝商品爬虫

功能：爬取淘宝商品信息（标题、价格、销量等）
技术：Selenium + PyQuery
特点：动态页面、反爬处理、Excel导出
运行：python taobao-products/taobao.py
注意：需要手动处理登录和验证码

netease-music/ - 网易云音乐爬虫

功能：下载网易云热歌榜歌曲
技术：requests + 正则表达式
特点：媒体文件下载、批量处理
运行：python netease-music/wyy.py

people-cn-search/ - 人民网讲话搜索爬虫

功能：搜索特定关键词的讲话内容
技术：requests + BeautifulSoup
特点：Session管理、分页爬取、多格式导出
运行：python people-cn-search/renmin.py

bilibili/ - B站视频爬虫

来源：第三方开源项目 ddddavid-he/Bilibili-Scraper
功能：B站视频下载、首页监控、UP主视频抓取
技术：Playwright + yt-dlp
特点：并发下载、断点续传、Cookie持久化
运行：详见 bilibili/README.md

tools/ - 工具脚本

webdriver_manager.py：自动检测浏览器版本并下载对应驱动
支持 Windows/macOS/Linux

📚 学习资源

新手入门

阅读 docs/Python爬虫--寒枫.md（完整教程）
从 douban-movie/film.py 开始实践（最简单）
学习 netease-music/wyy.py（媒体下载）

进阶学习

学习 taobao-products/taobao.py（动态页面、Selenium）
学习 people-cn-search/renmin.py（Session管理、分页）
参考 docs/ 目录下的其他文档

高级主题

反爬虫策略
JS逆向
分布式爬虫
详见教程文档

⚠️ 注意事项

遵守法律法规：仅用于学习和研究，不得用于商业用途
尊重robots.txt：遵守网站的爬取规则
控制频率：避免对服务器造成压力
数据安全：不爬取个人隐私信息
版权意识：合理使用爬取的数据

🔧 常见问题

Q: Chrome版本不匹配？

A: 运行 python tools/webdriver_manager.py 自动下载匹配的驱动

Q: 被反爬虫拦截？

A:

添加随机延迟
使用代理IP
轮换User-Agent
参考 docs/Python爬虫--寒枫.md 中的反爬策略

Q: 数据乱码？

A: 检查编码设置，一般使用 utf-8 或 utf-8-sig

📝 更新日志

2026-04：整理项目结构，添加统一依赖管理
2024：初始版本

📄 许可证

MIT License

如有问题或建议，欢迎反馈！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Python 爬虫项目集合

📁 项目结构

🚀 快速开始

1. 安装依赖

2. 安装浏览器驱动（如需使用Selenium）

📖 项目说明

douban-movie/ - 豆瓣电影爬虫

taobao-products/ - 淘宝商品爬虫

netease-music/ - 网易云音乐爬虫

people-cn-search/ - 人民网讲话搜索爬虫

bilibili/ - B站视频爬虫

tools/ - 工具脚本

📚 学习资源

新手入门

进阶学习

高级主题

⚠️ 注意事项

🔧 常见问题

Q: Chrome版本不匹配？

Q: 被反爬虫拦截？

Q: 数据乱码？

📝 更新日志

📄 许可证

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
bilibili		bilibili
docs		docs
douban-movie		douban-movie
netease-music		netease-music
people-cn-search		people-cn-search
taobao-products		taobao-products
tools		tools
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

Python 爬虫项目集合

📁 项目结构

🚀 快速开始

1. 安装依赖

2. 安装浏览器驱动（如需使用Selenium）

📖 项目说明

douban-movie/ - 豆瓣电影爬虫

taobao-products/ - 淘宝商品爬虫

netease-music/ - 网易云音乐爬虫

people-cn-search/ - 人民网讲话搜索爬虫

bilibili/ - B站视频爬虫

tools/ - 工具脚本

📚 学习资源

新手入门

进阶学习

高级主题

⚠️ 注意事项

🔧 常见问题

Q: Chrome版本不匹配？

Q: 被反爬虫拦截？

Q: 数据乱码？

📝 更新日志

📄 许可证

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages