Skip to content

design_of_renrenSpider

JackonYang edited this page Jan 12, 2013 · 10 revisions

根据 FRS 将 renrenSpider 的拆解为4个独立模块

  1. renrenBrowser
    download resources from www.renren.com
    核心功能:下载特定页面。包括单一页面(如 profile)和一组相似页面(如friendList).
  2. renrenParser
    parser web page of renren.com.
    用特定方法解析html字符串,返回字段的set/dictionary。等价字段以set存储,非等价字段(key:value对)以dictionary存储。
  3. renrenSpider
    generate renrenId sequence according to several algorithms, download and parser information automaticly. 迭代的以指定算法生成targetSeq,依次下载、解析。并将最后结果保存。 读取本地文件,解析并保存结果。
  4. renrenDb
    暂时默认只支持db存储,renrenDb封装数据库读写操作。

其中,browser,parser,db已分别实现。