Skip to content

HTTPS clone URL

Subversion checkout URL

You can clone with HTTPS or Subversion.

Download ZIP
a information collector of aliexpress
Ruby
branch: master
Failed to load latest commit information.
sreenshoot test over
.gitignore gitignore file
ReadMe Update ReadMe
collector_config.rb 参数自定义
init.rb 参数修改
main.rb 参数自定义
models.rb 参数自定义
res_client_collector.rb 参数修改

ReadMe

Author: rices
DATE: 2012-05-23

用法:
  1.安装MongoBD,并运行
  2.目前程序依赖以下gem包运行:
      eventmachine
      rest_client
      nokogiri
      mongoid
      ruby-debug
  3.ruby main.rb 运行程序
  4.选择数据抓取模式
    输入sellers,使用rest_client开始抓取卖家基本信息
    输入info,使用rest_client开始抓取卖家信用信息

程序设计:
  Module:
    Info::ResClientCollector -> rest_client抓取功能模块

  Method
    ResClientCollector.start_collect 卖家数据抓取
    ResClientCollector.start_collect_feedback_info 抽取数据库数据抓取卖家的信用信息

  多线程:
    使用多线程抓取网页
    1.卖家数据
      按目录分配每个线程的抓取任务。
    2.卖家feedback details
      单生产者多消费者的线程运行模式

  数据存储:
    Catagory 保存目录信息
    Seller 保存卖家信息
    Failure 保存请求失败的http request,并记录类型。
            后期可进行错误处理,主要为重新抓取,
            目前(2012-05-22)没有进行此项工作.

待优化处理:
  线程运行机制
  多进程并发处理
  etc.

文件说明:
 |--init.rb 程序初始化运行的配置代码
 |--main.rb 主程序入口
 |--model.rb 数据存储类,使用MongoDB
 |--res_client_collector.rb 网页抓取模块
 |--./screemshoot 程序运行截图

Something went wrong with that request. Please try again.