Skip to content

illust/GLSpider

Repository files navigation

ume-spider项目——GLSpider使用指南

一、环境搭建

glspider工具是在python3下基于流行的开源爬虫项目scrapy开发的,python版本要求python3.4+

  1. 如果你的电脑上没有python开发环境,首先需要进行环境安装,推荐使用Anaconda3,它是一个开源的python发行版本,内置了很多直接使用的工具包,方便快捷。Anaconda3的安装操作,可以直接到官网选择对应的操作系统下的图形安装包手动进行安装。
    下面三个链接分别为Anaconda官网上针对Windows、Liunx和MacOS的安装教程:

再给出一个Windows用户的Anaconda安装的中文博客,其他两个平台安装过程类似,不再赘述。
验证安装结果:命令行输入conda list,如果Anaconda安装成功,则会显示所有的工具包及版本号。
2. 安装好Anaconda3之后,再利用命令工具conda进行scrapy的安装。

conda install scrapy

注意:也可以不选择安装Anaconda3,但是需要有python3环境,再利用pip工具安装scrapy。

pip3 install scrapy

验证安装结果:命令行输入scrapy,如果scrapy安装成功,则显示其版本号和可用的命令操作。
至此,项目运行环境搭建完成。

二、GLSpider工具安装

  1. 利用git工具克隆此项目:
git clone https://gitee.com/cracker2017/umm-spider.git
  1. 工具打包:
    进入umm-spider/GLSpider目录下,执行以下两条命令:
python setup.py bdist_egg 
python setup.py install

如果可以使用shell,则可以直接键入以下命令打包:

sh packiage.sh

验证安装结果:在当前目录下,命令行输入glspider -h,出现glspider工具的版本号,则表示安装成功。

三、工具使用

  1. QuickStart 想要快速体验爬虫效果,可以键入以下命令,直接使用样例配置文件进行测试爬取。
glspider -c settings.json
  1. 详细信息参见GLSpider技术文档

About

The web crawler for temp work

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages