Skip to content
fetch page and store in db
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
dbscript
.gitignore
README.txt
config.pm
data_picker.pm
data_saver.pm
dump_process_list_url.pl
make_list_url.pl
th_crawl.pl
utils.pm

README.txt

功能介绍
    1.th_crawl.pl       主程序。顺序读取列表页url,多线程抓取、解析、保存产品信息
    2.make_list_url.pl  制造列表页url。需根据不同网站编写专用函数
    3.data_picker.pm    解析网站html,获取所需数据。需根据不同网站编写对应代码(主要工作是替换正则,特殊情况具体分析:如图片验证码;ajax加载产品信息)
    4.data_saver.pm     保存数据到数据库。通用模块,无需改动
    5.utils.pm          简单工具包
    6.config.pm         主要是数据库配置

    *另有dump_process_list.pl,与主程序中的线程内代码保持一致,方便调试。


使用步骤
    1.perl make_list.url.pl
    插入网站所有列表页网址。
    2.perl th_crawl.pl 
    抓取、解析、保存产品信息

    推荐示例:
    保证守护进程,程序将轮询task_url表领取任务,插入或更新产品数据
    nohup perl th_crawl.pl &
    期望抓取或更新数据时,操作task_url表,新增或更新数据设置status=0
    perl make_list_url.pl 或 update task_url set status=0 where domain_id=6



注意事项
    1.若爬虫异常中断,需执行sql: update task_url set status=0 where status=1; 否则会有列表页不能被抓取和更新
    2.自行决定上一步操作的时机和方式
    

                                        author: dlad@wobu2.com
                                        2012年6月26日10:33:50
You can’t perform that action at this time.