通常的ETL(Extract-Transform-Load),是先抓取数据,再进行清洗,再加载。清洗的时候也可能伴随着聚合运算。其中该项目是实现Load这一步的,先统一定义Transform的输出为csv|tsv文件,然后将其导入到关系型数据库。
步骤:1.获取文件名中有价值信息,一般周期维度会体现在文件名中,如常用的yyyyMMdd或yyyyMMddHH。
2.配置正则可抓取文件名中的变量值。
3.置前执行:根据文件名中日期变量删除某一天的数据。
4.导入文件:根据配置的SQL对应导入每行csv|tsv的数据。
5.置后执行:根据文件名中日期变量聚合该天数据插入新字段。