Reptile

网络爬虫

对比新浪提供的API及传统的爬虫方式获取微博的优缺点，采用模拟登陆和网页解析技术，将获取的信息存入数据库中并进行分析。
基于Python设计实现了新浪微博爬虫程序，可以根据指定的关键词爬取新浪微博用户的个人信息、微博评论、粉丝以及图片的获取。

为解决单机爬虫的瓶颈，我们进一步的展望是采用 python 开发的 Scrapy 框架，运用 Xpath 技术对下载的网页进行提取解析、运用 Redis 数据库做分布式、使用MongoDb 数据库做数据存储设计分布式爬虫。分布式爬虫采用的设计模式将会是C/S模式，依照主从结构设置一个Master服务器和多个Slave服务器，Master端管理Redis数据库和分发下载任务，Slave部署Scrapy爬虫提取网页和解析提取数据，最后将解析的数据存储在同一个MongoDb数据库中，从而将单机爬虫改进为分布式爬虫

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.gitignore		.gitignore
README.md		README.md
weibocrawler2.py		weibocrawler2.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Reptile

About

Releases

Packages

Languages

KaryKim/Reptile

Folders and files

Latest commit

History

Repository files navigation

Reptile

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages