-
Notifications
You must be signed in to change notification settings - Fork 11
design_of_renrenSpider
JackonYang edited this page Jan 12, 2013
·
10 revisions
根据 FRS 将 renrenSpider 的拆解为4个独立模块
- renrenBrowser
download resources from www.renren.com
核心功能:下载特定页面。包括单一页面(如 profile)和一组相似页面(如friendList). - renrenParser
parser web page of renren.com.
用特定方法解析html字符串,返回字段的set/dictionary。等价字段以set存储,非等价字段(key:value对)以dictionary存储。 - renrenSpider
generate renrenId sequence according to several algorithms, download and parser information automaticly. 迭代的以指定算法生成targetSeq,依次下载、解析。并将最后结果保存。 读取本地文件,解析并保存结果。 - renrenDb
暂时默认只支持db存储,renrenDb封装数据库读写操作。
其中,browser,parser,db已分别实现。