新浪微博爬虫

此开源项目是用Python3.6编写的新浪微博爬虫，包含登录与微博正文爬取功能，爬取后的资源保存在本地磁盘中。感兴趣的朋友可在公众号ApeClub上找到对应代码的解读。

此项目诞生于本人Python的入门学习，也算是Python网络爬虫开发实战的第一步，希望志同道合的朋友们能一起从此开启Python爬虫，Python数据分析与机器学习实战之旅

运行

运行前请使用下面命令安装依赖库

pip3 install -r requirement.txt

通过修改settings.py文件中的ACCOUNT与PASSWORD来设置微博登录账号。
通过修改settings.py文件中的SID来设置爬取的博主。

上面设置完毕后，可以在命令行中直接执行main.py文件

./main.py

或

python3 main.py

保存文件目录

.
├── cookies
├── resource
│   ├──{sid}
│   │   ├──{time}
│   │   │   ├──image
│   │   │   └──title.txt
│   │   ├──{time}
│   │   │   ├──image
│   │   │   └──title.txt
│   │   └──{time}
│   │       ├──image
│   │       └──title.txt
│   ├──{sid}
│   │   ├──{time}
│   │   │   ├──image
│   │   │   └──title.txt
│   │   ├──{time}
│   │   │   ├──image
│   │   │   └──title.txt
│   │   └──{time}
│   │       ├──image
│   │       └──title.txt
...

参考资料

《Python 3网络爬虫开发实战》崔庆才著

更多技术咨询请关注我们的公众号平台，微信搜索ApeClub，或扫描下方二维码

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.idea		.idea
images		images
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
login.py		login.py
main.py		main.py
pager.py		pager.py
parser.py		parser.py
requirements.txt		requirements.txt
settings.py		settings.py
spider.py		spider.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.idea

.idea

images

images

.gitignore

.gitignore

LICENSE

LICENSE

README.md

README.md

login.py

login.py

main.py

main.py

pager.py

pager.py

parser.py

parser.py

requirements.txt

requirements.txt

settings.py

settings.py

spider.py

spider.py

utils.py

utils.py

Repository files navigation

新浪微博爬虫

运行

保存文件目录

参考资料

About

Releases

Packages

Languages

License

nthpower/WeiboSpider

Folders and files

Latest commit

History

Repository files navigation

新浪微博爬虫

运行

保存文件目录

参考资料

About

Resources

License

Stars

Watchers

Forks

Languages