# 分发抓取服务

## 结构

```
         +-----------+
         |   disque  |
         +--+--------+
  +         | hexin|          +
  |         |      |          |
  |   +-----+------+-------+  |
  |   |192.168.40.190:9910 |  |
  |   +-------^---+--------+  |
  |           |   |           |
  +---------------------------+
              |   |
         +----+---v-----+
    +---->job.ilife.work<---+
    |    +--------------+   |
    |                       |
    |                       |
+---+-------+      +--------+--+
|JobConsumer|      |JobConsumer|
+-----------+      +-----------+
```


内网机器穿透至ilife.work这台云主机，由于需要穿透的服务是http服务所以直接挂在ilife.work的80端口下。
使用subdomain job.ilife.work 对外提供服务。

> iwencai.com/crawlerpost 是在线上的机器上

任务队列后端是disque。

内网40.190 9910端口是部署的TaskServer任务调度服务，对外提供http接口。

## TaskServer

任务服务分有http API， tcp服务，以及任务添加组件。

### http API

接口路径格式为`/api/{version}/{api_name}`，目前版本为`v1`。


1. /api/v1/job/:name
    
GET, 获取一个任务，返回结果，
```json
{
    "api":"get job",
    "code":200,
    "data":{
        "ID":"D-987e6a45-YLzLS4Yfn+I+/rBsbK6XF5XQ-05a1",
        "Data":"{\"url\":\"https://www.baidu.com\"}",
        "Queue":":name",
        "Nacks":0,
        "AdditionalDeliveries":3
    },
    "status":"ok"
}
```

当队列为空时，会在1s后返回无数据错误，错误代码201。
所有接口的成功请求代码为200，错误代码201。

`data`内容为Job对象，`data.Data`为Job的实际内容，在抓取Job中，为request对象。
一个request对象实际是json数据，
```json
{
    "method": "GET",
    "url": "https://www.baidu.com",
    "data": {},
    "params": {},
    "headers": {},
    "timeout": 5,
    "retry": 3,
    "wait": 5,
    "ack": true,
    "callbefore": "",
    "callback": "",
    "issession": True,
}
```

任务的添加是该接口的POST请求，data=`request对象`，request对象即为json字符串。

注意，爬虫的任务一般是无需重复调度，该接口的提交会进行设置（JobServer配置）。


2. /api/v1/ack

GET|POST方法，由于JobID会有包含`/`的情况，所以使用query,即为`?id={jobid}`,
`data`参数为上传的内容。

`data`的数据实际上是保存在`save`任务频道（JobServer配置），所以数据的保存处理需要有消费者从该频道消费。

所有频道的有效期为30d（JobServer配置），过期没被处理的任务会被丢弃。

3. /api/v1/channel/:name

GET，列出该频道任务数量

### tcp

暂未实现

### 添加任务

目前只支持单个任务添加。

```bash
curl --data 'data={"url": "https://www.baidu.com"}' "http://job.ilife.work/api/v1/job/test"
```

对于工商的抓取，可以用python或其他脚本生成request内容，然后post进TaskServer。

完整的request数据如下，
```json
{
    "method": "GET",
    "url": "https://www.baidu.com",
    "data": {},
    "params": {},
    "headers": {},
    "timeout": 5,
    "retry": 3,
    "wait": 5,
    "ack": true,
    "callbefore": "",
    "callback": "",
    "issession": True,
}
```

需要注意的是，由于程序是golang写的，强类型，也没有易于使用的泛型，

所以在`data`，`params`， `headers`，这些参数只能是map[string]string，不支持nested，

例如在headers中，添加cookies的话，比较好的方案是有与headers同级的cookies项，

但是没有，所以cookies只是用string放在headers的cookie字段，就如同在浏览器中看到的。

`callback`与`callbefore`为请求前后的操作，执行JS代码，callback 有resquest，store可用，callback有response，store可用，
store为数据保存区域。
request对象有...
response对象有...
默认issession为True，表示同一组（type）请求为session，即下一个请求会使用上一个请求服务器响应的set-cookie。

任务没有去重操作（原则上应该会需要有重复的任务）。

## JobConsumer

JobConsumer.exe 为windows程序

conf.yaml 为必须配置文件

配置的具体内容如下：
```yaml
JobServers: # Job服务，可以配置多个节点，目前只支持http
  - scheme: http
    server: job.ilife.work
    port: 80
    version: v1
Requests: # 请求相关参数与配置
  wait: 5 # 默认配置，每个请求的等待时间，任务中的此参数优先级最高
  timeout: 3 # 默认配置，请求超时时间，任务中的此参数优先级最高
  retry: 3 # 默认配置，重试次数，任务中的此参数优先级最高
  ack: true # 默认配置，是否需要确认任务（完成任务后），如果在添加任务时，指名需要确认，则完成任务需要确认，否则会重新调度任务
  headers: # 默认配置，请求头部，任务中的此参数优先级最高
    User-Agent: Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.87 Safari/537.36
  actions: # 有下面三种类型，`times`类型只有一组，其他可以都多组，每组的请求可以有多个，url为必须参数，可以在此定义拨号动作
    times: # 请求次数达到`total`则发出请求，请求发出后，`total`清零
      total: 4
      reqs:
        - method: GET
          url: "https://cn.bing.com"
    contains: # 请求内容中包含字符串则发出请求（多组）
      - str: "xxxxxxxxxxx"
        reqs:
          - method: GET
            url: "https://cn.bing.com"
    xcontains: # 请求内容中不包含字符串则发出请求（多组）
      - str: "a"
        reqs: 
          - method: GET
            url: "http://weibo.cn"
CurrentJob:
  channel: test # crawl_gongshang # 任务频道
  ack: true
```

### 保存数据

抓取下来的数据依然是添加到任务对列中，最新版客户端在ack的数据中添加了任务ID，来源queue等详细信息，
服务端会将数据添加至`save_队列名`的队列中；
对于提交的数据有问题的将会保存至`save_unknow`;
对于没有队列名称的数据将保存至`save_common`;所有保存对任务结果都包含任务的基本信息以便跟踪。