Skip to content

4.7 子任务

ferventdesert edited this page May 6, 2018 · 3 revisions

子任务系统


(早期版本的Hawk称之为子流程,为了简化概念,使用子任务这一说法,下同)

基本概念

当流程设计的越来越复杂,越来越长时,就难以进行管理了。因此,采用模块化的设计才会更加合理。本节我们介绍子任务的原理和使用。

子任务是Hawk中高级但却非常重要的功能,可以实现例如多级跳转,采集详情页等等的功能,非常强大。

所谓子任务,就是能先构造出一个任务,然后被其他任务调用。被调用的任务就是子任务。我们应该能够了解子任务其实就是函数,可以定义输入列和输出列,把整个子任务看成一个模块,从而方便重用。

子任务的功能包含以下三类:

  • 子任务-生成,作为生成器,一般在主任务的开头位置,行为和生成器一致。
    • 如生成全国城市列表的流
    • 生成某个网站全部分类的流
  • 子流-转换: 可看成转换器,通常位于任务中间位置
    • 通过输入url地址,就能转换出该页面中所有需要信息的流
  • 子流-执行: 作为执行器,一般位于末尾。
    • 例如可以构造获取某个页面所有图片的执行流

为什么不包括子任务-过滤?因为过滤操作通常比较简单,不需要子任务实现。

如何创建子任务

由于这个概念有点难以理解,我们用下面的例子来说明:

新建一个数据清洗,命名为主任务,生成1-20的区间数,列名为id.

接下来,我们希望能生成id2和id3两个列,数值分别为id的两倍和三倍,再把它们拼接起来。你可以直接拖入两个python转换器到id, 脚本为int(value)*2int(value)*3,最后再拖入一个合并多列,格式为{0}_{1},再删掉刚才生成的三个列,这样就生成了下面的列:

2_3
4_6
6_9
...

但是,如果不仅有id这一列,还有别的列需要做一样的处理,那就需要做重复的操作了。我们完全可以将其封装起来重复使用。

新建一个数据清洗,命名为子任务,新建从文本生成,列名为id, 内容只要一个1就可以了,之后按照刚才的步骤,生成2_3这样的列。

之后,在主任务上,对id列拖入子任务-转换,在弹出的面板上,子任务-选择中填入子任务调用范围填入1:100, 刷新后,即可看到和之前相同的结果。

从上面的例子可以看出,子任务可以分为两部分:参数部分和执行部分。在本例中,子任务中的第一个从文本生成,只是参数,目的是为了子任务设计器能构成输出数据的完整流程。但要想被别的模块调用,则只应该有执行部分。而参数部分,需要主任务传递给子任务。这就是调用范围的意义,它能将主任务的指定参数传递到子任务上,成为子任务的一部分。

举例子,如果一个长度为20个模块的子任务,前两个模块为参数部分,后18个是执行部分,因此调用范围可以写2:18(从0开始)。 当然为了方便,你可以给冒号后第二个数比较大的值,如100。范围的第二个数也可以写成负数,如2:-2表示从第二个模块到倒数第2个模块

那么,如果主任务传递的列名,和子任务需要的列名不同时,该怎么处理? 这就需要属性映射机制。配置子任务的属性映射时,可以用a:b c:d表示a列映射到b列,以此类推。

若不需要映射,则直接填写a c表示要将a列和c列传递给子任务,主任务不会也不需要将所有的参数都传递给子任务。因此,需要在子流的转换器上,显式地设置原列名,并用空格分割。

Hawk3中还提供了图形化配置的界面,大大简化了配置难度,在任何子任务调用的模块里,都可以点击配置进入配置页面:

子任务的配置界面

具体实例

我们以Hawk-Project的大众点评为例讲解,可以加载工程后自行研究。之前已经讲过思路,这里我们只讲大概的轮廓: 大众点评区域能够获取一个城市所有的区县:

、.jpg-34.1kB 大众点评类别能够获取城市的所有美食种类。

之后,我们用大众点评门店,来调用刚才实现的两个任务:

拖入子任务-生成大众点评门店,按照如下方式配置:

QQ截图20160506175544.jpg-29.6kB

我们对必要的列名进行修改,之后再拖入另一个子任务-生成,配置如下,尤其注意生成模式改为Cross

QQ截图20160506175651.jpg-36.1kB

这样就能生成所有区县下,所有美食门类的组合。之后,按照之前介绍的方式,即可抓取所有美食信息。

注意事项

下面是一些注意事项:

主任务不会将所有的参数都传递给子任务,因为这可能并没有必要。因此,需要在子任务的转换器上,显式地设置原列名,并用空格分割,这样才能传递过去。

子任务还可以调用其他的子任务,形成树状的调用结构。当加载一个任务时,该任务依赖的子任务也会自动加载。对子任务的修改,也会传递到主任务上。目前,任务之间还不能自调用,也不能形成调用环。虽然函数确实是可以递归调用的,但对一个以generator为核心的流系统,递归可能并不需要。但如果真的支持,那一定会相当强大。

其实,在子任务层面,转换和执行除了是否有副作用外,最大的区别在于对主任务的影响,子任务-转换会将所有的结果返回给主任务,但子任务-执行则只需要输入参数,之后就是无头僵尸,将数据写到其他位置后,并不会影响主任务,在主任务中也看不到任何效果。这一段有些难以理解,但确实非常重要。

//补充一个不同模式调用的例子

你可以将一个网页采集器看成为一个特殊的子任务-转换。当你创建了一个子任务之后,就能按照调用一般的模块来调用它。