Skip to content

HTTPS clone URL

Subversion checkout URL

You can clone with HTTPS or Subversion.

Download ZIP
a information collector of aliexpress
Ruby
branch: master

Fetching latest commit…

Cannot retrieve the latest commit at this time

Failed to load latest commit information.
sreenshoot
.gitignore
ReadMe
collector_config.rb
init.rb
main.rb
models.rb
res_client_collector.rb

ReadMe

Author: rices
DATE: 2012-05-23

用法:
  1.安装MongoBD,并运行
  2.目前程序依赖以下gem包运行:
      eventmachine
      rest_client
      nokogiri
      mongoid
      ruby-debug
  3.ruby main.rb 运行程序
  4.选择数据抓取模式
    输入sellers,使用rest_client开始抓取卖家基本信息
    输入info,使用rest_client开始抓取卖家信用信息

程序设计:
  Module:
    Info::ResClientCollector -> rest_client抓取功能模块

  Method
    ResClientCollector.start_collect 卖家数据抓取
    ResClientCollector.start_collect_feedback_info 抽取数据库数据抓取卖家的信用信息

  多线程:
    使用多线程抓取网页
    1.卖家数据
      按目录分配每个线程的抓取任务。
    2.卖家feedback details
      单生产者多消费者的线程运行模式

  数据存储:
    Catagory 保存目录信息
    Seller 保存卖家信息
    Failure 保存请求失败的http request,并记录类型。
            后期可进行错误处理,主要为重新抓取,
            目前(2012-05-22)没有进行此项工作.

待优化处理:
  线程运行机制
  多进程并发处理
  etc.

文件说明:
 |--init.rb 程序初始化运行的配置代码
 |--main.rb 主程序入口
 |--model.rb 数据存储类,使用MongoDB
 |--res_client_collector.rb 网页抓取模块
 |--./screemshoot 程序运行截图

Something went wrong with that request. Please try again.