此开源项目是用Python3.6编写的新浪微博爬虫,包含登录与微博正文爬取功能,爬取后的资源保存在本地磁盘中。 感兴趣的朋友可在公众号ApeClub上找到对应代码的解读。
此项目诞生于本人Python的入门学习,也算是Python网络爬虫开发实战的第一步 ,希望志同道合的朋友们能一起从此开启Python爬虫,Python数据分析与机器学习实战之旅
运行前请使用下面命令安装依赖库
pip3 install -r requirement.txt
- 通过修改settings.py文件中的ACCOUNT与PASSWORD来设置微博登录账号。
- 通过修改settings.py文件中的SID来设置爬取的博主。
上面设置完毕后,可以在命令行中直接执行main.py文件
./main.py
或
python3 main.py
.
├── cookies
├── resource
│ ├──{sid}
│ │ ├──{time}
│ │ │ ├──image
│ │ │ └──title.txt
│ │ ├──{time}
│ │ │ ├──image
│ │ │ └──title.txt
│ │ └──{time}
│ │ ├──image
│ │ └──title.txt
│ ├──{sid}
│ │ ├──{time}
│ │ │ ├──image
│ │ │ └──title.txt
│ │ ├──{time}
│ │ │ ├──image
│ │ │ └──title.txt
│ │ └──{time}
│ │ ├──image
│ │ └──title.txt
...
- 《Python 3网络爬虫开发实战》 崔庆才 著
更多技术咨询请关注我们的公众号平台,微信搜索ApeClub,或扫描下方二维码