a spider by ruandao
Python
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
other_kind
test_data
test_result
.gitignore
Diagram1.dia
OnScapy.py
ProductionLine.py
README
Spider.py
__init__.py
spider_laijinyan.py
test.py
uml.png

README

样例:
python  ./spider_laijinyan.py  --site=http://www.weibo.com/ --max_size=1000 --output_type=logfile --output_name=a-logfile --multi_thread=True 

使用说明:
程序B:一个简单的爬虫程序

 编程语言:Python

 完成功能:

 能爬取:http://www.hao123.com/

 网站的资源,只包括:a标签,img标签,css文件、js文件

 限制:

     * 只需要xxx.hao123.com下的资源,不包括外站的资源
     * 可以设置爬取资源的上限,比如,设置1个参数max_size=1000,爬到1000个时候就终止爬虫
     * 可以print屏幕输出爬取的资源链接

 最后命令行调用该程序:python spider_youname.py --site http://www.hao123.com/ --max_size 1000

 另外,有时间(可选),能完成多少算多少

     * 以log日志记录爬取的资源链接
     * 改成多线程方式运行
     * 加上单元测试代码

附加功能: 可选参数 '--site','--max_size','--output_type','--output_name','--multi_thread','--threadnumber'
             output_type: 'onScapy':什么也不敢就是上去爬一下,
                           'logfile':将所爬链接写入日志文件中,(默认为logfile文件,可用--output_name进行文件指定
                           'print':将所爬内容打印出来
             output_name:指定日志文件名,当output_type存在时有效
             multi_thread:指定是否多线程,默认为不使用,指定使用 True
             threadnumber:指定线程数,当multi_thread为True时有效
    注意参数名后面加=号