# 1 - 自动化特征工程

```
    描述：自动化机器学习的前提 --- 自动化特征工程。
    作者：Chenyyx
    时间：2020-01-09
```

```
目录：
    1 - 特征工程简要介绍
    2 - 3种自动化特征工程的生成方法
    3 - Featuretools 库使用规则
        - 3.1 - 实体和实体集
        - 3.2 - DFS
        - 3.3 - 特征基元
    4 - Featuretools 操作小实例
    5 - 总结
    6 - 参考链接
```

## 1 - 特征工程简要介绍

**features（特征）** 是从数据中抽取出来对最终结果的预测有帮助的信息，**feature engineering（特征工程）** 则是特征在机器学习问题中使其算法和模型可以发挥更好的过程，该过程通常需要数据科学家根据经验找出最佳的特征组合形式，因为人的能力有限，所以找到的特征组合往往也不够全面，造成了效果和效率的局限性。而自动化特征工程可以根据数据特征进行自动组合，有效地解决了认为组合特征不全面和耗时的问题。

特征工程是一个与具体场景绑定的事情，因此自动化特征工程应该是一件根据模型选择数据类型等背景信息并进行自动化的工作。如果把自动化理解为不需要人工参与设计，那么实现自动化的方式多种多样，最简单的方式为遍历搜索，通过计算机遍历所有的可能组合也是一种自动化；通过模型的方法去完成同样是一种自动化，如通过神经网络自动完成图像与文本等的特征工程。

**特征工程也被称为特征构造，是从现有数据中构造新的特征从而训练机器学习模型的过程**。这一步可能比实际上使用的模型更重要，因为一个机器学习算法只能从我们给定的数据中学习，所以构造一个和任务相关的特征是至关重要的。

因此，我们可以把自动化特征工程定义为如何根据具体场景去自动构建流程，而无需人工参与完成特征工程的一种方法。

## 2 - 3种自动化特征工程的生成方法

自动化特征工程的生成方法，分别是深度特征合成算法，`FeatureTools` 自动特征提取，基于时序特征的自动化特征工程。

### 2.1 - 深度特征合成算法

深度特征合成（Deep Feature Synthesis，DFS）是一种用于对关系数据和时间数据执行特征工程的自动方法。深度特征合成并不是通过深度学习生成特征，而是通过多重的特征叠加，一个特征的深度是构建这个特征所用到的基元的个数。关于 DFS 有如下 3 个关键的概念：

 - 特征主要来源是数据集中数据点之间的关系。
 - 对于不同的数据集，许多特征的构建是通过相似的数学运算得到的。
 - 新的特征是基于先前获取的特征构建的。

### 2.2 - Featuretools 自动特征提取

Featuretools 是一个自动执行特征工程的开源库，它可以提高特征工程的效率，采用客观的方法来创建新的特征并将其用于机器学习的任务。Featuretools 将深度特征合成算法作为库的核心内容，以特征基元作为基本操作，通过叠加基元操作得到新的特征。

### 2.3 - 基于时序数据的自动化特征工程

时序数据即时间序列数据，是同一指标按时间顺序记录的数据列。

时序数据在数据分析和机器学习中具有很重要的意义，从时序数据中提取特征也是数据预处理中的关键一步。 TSFRESH 是一种兼容于 Pandas 和 scikit-learn 接口的 Python 包，用于提取时序数据特征。

下面，我会主要介绍 `FeatureTools` 自动特征提取。其余两个简要介绍一下。下面会有对应的 `Python` 代码，记得结合使用规则一起查看。

## 3 - Featuretools 库使用规则

`Featuretools` 是基于数据实体和实体时间的关系，基于 `DFS` 算法使用特征基元等操作来实现自动化的特征提取。

### 3.1 - 实体和实体集

一个实体集（entity set）是实体（entity）和实体之间关系（relationship）的集合，在 Featuretools 中，实体集有利于准备和结构化数据集用作特征工程。

原始的数据表一般以 DataFrame 的形式保存，每一张数据表都是一个实体，而每个实体都必须含有唯一元素的索引，用来区分不同的数据。我们需要为这些实体构建有利于 Featuretools 使用的实体集。

 - 1 - 创建实体集
 实体集的初始化可以使用 `ft.EntitySet(id="name")` 函数来构建一个新的实体集，如果需要对实体集命名，修改 `id` 参数即可对实体集命名。
 
 - 2 - 添加实体
 实体集创建成功后需要像实体集内添加实体，使用 `ft.entity_from_dataframe()` 函数卡伊通过修改以下参数，来实现对函数功能的选择：
     - `entity_id`：设置添加实体的名字。
     - `dataframe`：表。
     - `index` 和 `time_index`：实体的索引。
     - `variable_types`：字典可以对实体中的数据类型进行定义。
 - 3 - 添加实体间的关系
 最后我们需要添加实体集中各个实体之间的关系，通过 `ft.relationship()` 函数添加实体之间的关系，也可以通过 `EntitySet.add_relationship(new_relationship)` 来添加新的实体关系。
 创建好实体集后就可以将实体集用于后续的特征提取。

### 3.2 - DFS

如果不使用自动化特征工程，则可以直接运行 `DFS` 来生成特征，通过 `ft.dfs()` 函数来生成特征矩阵，`dfs` 函数具有以下参数：

 - `Entityset`：实体集名称。
 - `target_entity`：实体集中的目标实体。
 - `primitives`：选择使用的特征基元操作列表，这里的基元操作有两种，一种是聚合基元，一种是转换基元。
 - `max_depth`：特征叠加深度。通过叠加产生的特征比通过单个特征基元产生的特征更加具有表现力，这就能够为机器学习模型提供更为复杂有效的特征。
 
### 3.3 - 特征基元

特征基元是 `Featuretools` 用来自动构建特征的基础操作，通过单独使用或者叠加使用特征基元构造新的特征。使用特征基元的意义在于，只要限制输入和输出的数据类型，就可以在不同的数据集中采用相同的特征基元操作。

特征基元有如下两种：

 - 聚合基元：根据父表与子表的关联，在不同的实体间完成对子表的统计操作。
 - 转换基元：转换基元是对单个实体进行的操作，对实体的一个或者多个变量进行操作，并为该实体统计出一个新的变量。

如果需要自动提取特征，只需要调用相同的 `ft.dfs()` 函数，但是不传入 `agg_primitives` 选择特征基元，就可以让 `Featuretools` 自动生成特征。

除此之外，我们还可以通过 API 来定义自己的特征基元，确定特征基元的类型，定义输入和输出的数据类型，在 Python 中编写该特征基元的功能函数，就可以实现特征基元，并可以在和其他基元的叠加中使用。

`Featuretools` 库以 `DFS` 为核心，通过叠加使用特征基元操作，能够构建大量有效的特征，为自动化特征工程提供了很大的帮助。

## 4 - Featuretools 操作小实例

下面我们看一下怎么使用 `Featuretools` 这个工具库。

In [1]:
# 导入对应的库
import pandas as pd
import numpy as np
import featuretools as ft

导入了对应的科学计算库，接下来我们加载数据，实验数据是我根据网上的一些数据，将大数据文件，只截取一部分变成小数据文件而来的。

In [2]:
# 加载数据
clients = pd.read_csv('data/clients.csv', parse_dates=['joined'])
loans = pd.read_csv('data/loans.csv', parse_dates=['loan_start', 'loan_end'])
payments = pd.read_csv('data/payments.csv', parse_dates=['payment_date'])

In [3]:
# 查看一下 clients 的前5行数据
clients.head()

Unnamed: 0,client_id,joined,income,credit_score
0,46109,2002-04-16,172677,527


In [4]:
# 查看一下 loans 的前5行数据
loans.head()

Unnamed: 0,client_id,loan_type,loan_amount,repaid,loan_id,loan_start,loan_end,rate
0,46109,home,13672,0,10243,2002-04-16,2003-12-20,2.15
1,46109,credit,9794,0,10984,2003-10-21,2005-07-17,1.25
2,46109,cash,12518,1,10596,2010-12-08,2013-05-05,1.24


In [5]:
# 查看一下 payments 的前5行数据
payments.head()

Unnamed: 0,loan_id,payment_amount,payment_date,missed
0,10243,2369,2002-05-31,1
1,10243,2439,2002-06-18,1
2,10243,2662,2002-06-29,0
3,10243,2268,2002-07-20,0
4,10243,2027,2002-07-31,1


构造特征是一个非常耗时的过程，因为每个新的特征通常需要几步才能构造，特别是当使用多张表的信息时。我们可以将特征构造的操作分为两类：【转换】 和 【聚合】。后面我们通过例子来看看这些概念的实际应用。

通过从一或多列中构造新的特征，【转换】作用于单张表（在 Python 中，表是一个 Pandas DataFrame）。举个例子，如有以上的 clients 表数据。我们可以通过查找 joined 列中的月份或是自然对数化 income 列的数据来构造新的特征。这些都是转换操作，因为它只使用了一张表的信息。

另一方面，【聚合】是跨表实现的，并使用一对多的关联来对观测值分组，然后计算统计量。例如，仍然看上面的结果，若我们有另外一张包含客户贷款信息的表格，其中每个客户可能有多项贷款，我们便可以计算每个客户贷款的平均值，最大值和最小值等统计量。

这个过程包括根据不同客户对贷款表进行分组并计算聚合后的统计量，然后将结果整合到客户数据中。实际上，这些操作本身并不困难，但是如果有数百个变量分布在数十张表中，这个过程将无法通过人工完成。理想情况下，我们希望有一个解决方案能够在不同表间自动执行转换和聚合操作，并将结果整合到一张表中。

--------------------------------------------------------------------------------------

幸运的是，Featuretools 正是我们正在寻找的解决方案。我们首先明确一下接下来我们要进行操作的数据信息：

 - clients：关于信用社客户的基本信息。每个客户只对应数据框中的一行。
 - loans：向用户提供的贷款。每项贷款只对应数据框中的一行，但是客户可能有多项贷款。
 - payments：贷款还本的支付。每笔支付只对应一行，但是每项贷款可以有多笔支付。

如果我们有一个机器学习任务，例如预测客户未来是否会偿还一项贷款，我们希望将所有关于客户的信息整合到一张表中。这些表是相关的（通过 client_id 和 loan_id 变量），并且我们可以通过一系列转换和聚合操作来人工实现这个过程。然而，我们很快就可以使用特征工具来自动实现这个过程。

使用特征工具的前两个概念是 【实体】 和 【实体集】。一个实体就是一张表（或是 Pandas 中的一个 DataFrame（数据框））。一个实体集是一组表以及它们之间的关联。将一个实体集看成另一种 Python 数据结构，并带有自己的方法和属性。

现在我们需要整合两个实体。每个实体都必须带有一个索引，它是一个包含所有唯一元素的列。就是说，索引中的每个值只能在表中出现一次。在 clients 数据框中的索引是 client_id，因为每个客户在该数据框中只对应一行。我们使用 `entity_from_dataframe` 将一个带有索引的实体添加一个实体集中：

In [6]:
# 创建实体集，名称叫 clients
es = ft.EntitySet(id='clients')

# 添加 clients 实体
es = es.entity_from_dataframe(entity_id = 'clients', dataframe = clients, 
                              index = 'client_id', time_index = 'joined')

loans 数据框中还有另外一个唯一的索引，loan_id，同时将其添加到实体集的语法与 clients 一样。然而，payments 数据框不存在唯一索引。当我们把 payments 数据框添加到实体集中时，我们需要传入参数 make_index=True，同时指定索引的名字。另外，尽管特征工具能自动推断实体中每列的数据类型，但是我们可以通过将列数据类型的字典传递给参数 variable_types 来覆盖它。

In [7]:
# 添加 loans 实体
es = es.entity_from_dataframe(entity_id = 'loans', dataframe = loans, 
                              variable_types = {'repaid': ft.variable_types.Categorical},
                              index = 'loan_id', 
                              time_index = 'loan_start')

# 添加 payments 实体
es = es.entity_from_dataframe(entity_id = 'payments', dataframe = payments,
                              variable_types = {'missed': ft.variable_types.Categorical},
                              make_index = True,
                              index = 'payment_id',
                              time_index = 'payment_date')

# 添加完成了实体集，将实体集打印出来看看
es

Entityset: clients
  Entities:
    clients [Rows: 1, Columns: 4]
    loans [Rows: 3, Columns: 8]
    payments [Rows: 16, Columns: 5]
  Relationships:
    No relationships

对于此数据框，尽管 missed 是一个整数，但是它不是一个数值变量，因为它只能取 2 个离散的数值，所以在特征工具中，将其看成一个分类变量。

接下来，我们考虑两张表之间 【关联】的最好方法是类比父子之间的关联。这是一种一对多的关联：每个父亲可以有多个儿子。对表来说，每个父亲对应一张父表中的一行，但是子表中可能有多行对应于同一张父表中的多个儿子。

例如，在我们的数据集中，clients 数据框是 loans 数据框的一张父表。每个客户只对应 clients 表中的一行，但是可能对应 loans 表中的多行。同样，loans 表是 payments 表的一张父表，因为每项贷款可以有多项支付。父亲通过共享变量与儿子相关联。当我们执行聚合操作的时候，我们根据父变量对子表进行分组，并计算每个父亲的儿子的统计量。

为了形式化特征工具中的关联规则，我们仅需指定链接两张表的变量。clients 表和 loans 表通过 client_id 变量连接，同时 loans 和 payments 表通过 loan_id 变量连接。创建关联并将其添加到实体集中的语法如下所示：

In [8]:
# 添加实体关系
# 通过 client_id 关联 clients 和 loans 实体
r_client_previous = ft.Relationship(es['clients']['client_id'],
                                    es['loans']['client_id'])
# 将 relationship 加入到实体集中
es = es.add_relationship(r_client_previous)

# 通过 loan_id 关联 payments 和 loans 实体
r_payments = ft.Relationship(es['loans']['loan_id'],
                            es['payments']['loan_id'])

es = es.add_relationship(r_payments)

# 为实体集中的实体添加了关联，将实体集打印出来看看
es

Entityset: clients
  Entities:
    clients [Rows: 1, Columns: 4]
    loans [Rows: 3, Columns: 8]
    payments [Rows: 16, Columns: 5]
  Relationships:
    loans.client_id -> clients.client_id
    payments.loan_id -> loans.loan_id

该实体集现在包含三个实体（表），以及将这些表连接在一起的关联规则。在添加实体和形式化关联规则之后，实体集就完整了并准备好从中构造新的特征。

**特征基元**

在我们深入了解深度特征合成之前，我们需要了解特征基元的概念。我们其实早就知道是什么了，只是我们刚刚用不同的名字来称呼它们！它们只是我们用来构造新特征的操作：

 - 聚合：根据父与子（一对多）的关联完成的操作，也就是根据父亲分组并计算儿子的统计量。一个例子就是根据 client_id 对 loan 表分组并找到每个客户的最大贷款额。
 - 转换：对一张表中一或多列完成的操作。一个例子就是取一张表中两列之间的差值或者取一列的绝对值。

在 featuretools 中单独使用这些基元或者叠加使用这些基元可以构造新的特征。以下是特征工具中的一些特征基元的列表，也可以自定义特征基元。

![](imgs/auto_1.jpg)

这些基元可以单独使用或者是组合使用以构造新的特征。为了使用特定的基元构造新的特征，我们使用 `ft.dfs` 函数（代表深度特征合成）。我们传入 `entityset` 和 `target_entity`，这是我们想要在其中添加特征的表，被选参数 `trans_primitives（转换）` 和 `agg_primitives（聚合）`。

In [9]:
# 聚合特征，并生成新的特征
features, feature_name = ft.dfs(entityset=es, target_entity='clients')
features.head()

Unnamed: 0_level_0,income,credit_score,SUM(loans.loan_amount),SUM(loans.rate),STD(loans.loan_amount),STD(loans.rate),MAX(loans.loan_amount),MAX(loans.rate),SKEW(loans.loan_amount),SKEW(loans.rate),...,MIN(payments.loans.rate),MIN(payments.loans.loan_amount),MEAN(payments.loans.rate),MEAN(payments.loans.loan_amount),NUM_UNIQUE(payments.loans.repaid),NUM_UNIQUE(payments.loans.client_id),NUM_UNIQUE(payments.loans.loan_type),MODE(payments.loans.repaid),MODE(payments.loans.client_id),MODE(payments.loans.loan_type)
client_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
46109,172677,527,35984,4.64,1991.263251,0.522526,13672,2.15,-1.100978,1.731337,...,1.24,9794,1.584375,12099.5,2,1,3,0,46109,home


In [10]:
# 查看一下所有 primitives 的操作，以便对下面的操作有个简单的了解
primitives = ft.list_primitives()
pd.options.display.max_colwidth = 100

primitives[primitives['type'] == 'aggregation'].head(30)

Unnamed: 0,name,type,description
0,skew,aggregation,Computes the extent to which a distribution differs from a normal distribution.
1,count,aggregation,"Determines the total number of values, excluding `NaN`."
2,entropy,aggregation,Calculates the entropy for a categorical variable
3,n_most_common,aggregation,Determines the `n` most common elements.
4,time_since_first,aggregation,Calculates the time elapsed since the first datetime (in seconds).
5,num_true,aggregation,Counts the number of `True` values.
6,all,aggregation,Calculates if all values are 'True' in a list.
7,max,aggregation,"Calculates the highest value, ignoring `NaN` values."
8,last,aggregation,Determines the last value in a list.
9,mode,aggregation,Determines the most commonly repeated value.


In [11]:
primitives[primitives['type'] == 'transform'].head(60)

Unnamed: 0,name,type,description
22,multiply_numeric,transform,Element-wise multiplication of two lists.
23,less_than,transform,Determines if values in one list are less than another list.
24,hour,transform,Determines the hour value of a datetime.
25,cum_max,transform,Calculates the cumulative maximum.
26,negate,transform,Negates a numeric value.
27,modulo_numeric,transform,Element-wise modulo of two lists.
28,subtract_numeric_scalar,transform,Subtract a scalar from each element in the list.
29,greater_than_equal_to,transform,Determines if values in one list are greater than or equal to another list.
30,isin,transform,Determines whether a value is present in a provided list.
31,cum_mean,transform,Calculates the cumulative mean.


In [12]:
# 聚合特征，通过制定聚合 agg_primitives 和转换 trans_primitives 生成新特征
features_2, feature_names_2 = ft.dfs(entityset=es, target_entity='clients', 
                                     agg_primitives=['mean', 'max', 'percent_true', 'last'],
                                    trans_primitives=['year', 'month', 'subtract_numeric', 'divide_numeric'])

features_2.head()

Unnamed: 0_level_0,income,credit_score,MEAN(loans.loan_amount),MEAN(loans.rate),MAX(loans.loan_amount),MAX(loans.rate),LAST(loans.rate),LAST(loans.loan_amount),LAST(loans.loan_id),LAST(loans.repaid),...,income / MAX(loans.loan_amount),MEAN(payments.payment_amount) / MAX(payments.payment_amount),LAST(loans.loan_amount) / MAX(payments.payment_amount),credit_score / MEAN(payments.payment_amount),LAST(loans.loan_amount) / LAST(loans.rate),LAST(loans.rate) / credit_score - income,LAST(payments.payment_amount) / MAX(loans.loan_amount),LAST(payments.payment_amount) / MEAN(loans.rate),LAST(loans.loan_amount) / MEAN(loans.rate),LAST(loans.loan_amount) / MAX(loans.loan_amount)
client_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
46109,172677,527,11994.666667,1.546667,13672,2.15,1.24,12518,10596,1,...,12.629974,0.692149,4.702479,0.286024,10095.16129,-7e-06,0.139263,1231.034483,8093.534483,0.915594


可以看到上边我们进行了简单的 `转换` 和 `聚合` 操作。

特征工具构造了很多特征供我们使用。尽管这个过程确实能自动构造新的特征，但是它不会取代数据科学家，因为我们仍然需要弄清楚如何处理这些特征。例如，我们的目的是预测一位客户是否会偿还贷款，我们可以寻找与特定结果最相关的特征。此外，如果我们具有领域知识，我们可以用这些知识来选择指定的特征基元或候选特征的种子深度特征合成。

特征工程自动化解决了一个问题，但是却带来了另外的一个问题：**特征太多了**。尽管在拟合一个模型之前很难说哪些特征是重要的，但很可能不是所有这些特征都与我们想要训练的模型的任务相关。此外，拥有太多特征（参见《Irrelevant Features and the Subset Selection Problem》）可能会导致模型性能不佳，因为较无益的特征会淹没那些更重要的特征。

**特征过多问题以维度灾难著称。随着特征数量的上升（数据维度增长），模型越来越难以学习特征与目标之间的映射关系。事实上，让模型表现良好所需的数据量与特征数量成指数关系**。

维度灾难与特征降维（也叫特征选择，去除不相关特征的过程）相对。这可以采用多种形式：`主成分分析（PCA）`、`SelectKBest`、使用模型中特征的重要性或使用深度神经网络进行自编码。但是，特征降维是另一篇文章的不同主题。到目前为止，我们知道我们可以使用特征工具以最小的努力从许多表中构造大量的特征！

## 5 - 总结

与机器学习中的许多主题一样，使用特征工具进行特征工程自动化是一个基于简单想法的复杂概念。使用实体集、实体和关联的概念，`featuretools` 可以执行深度特征合成操作来构造新的特征。深度特征合成可以依次叠加特征基元：【聚合】，它们在多张表间的一对多关联中起作用，以及【转换】，是应用于单张表中一或多列以从多张表中构造新的特征的函数。

下面是更具体的一些小总结：

 - 实体（二维表）：每个实体必须要有一个唯一的索引，若没有索引，则需要设置 `make_index=True` 参数。
 - time_index（时间索引）：表示该行数据（该条数据）的信息被记录（知晓）的时间。
 - 创建实体集，需要设置一个实体集的 id。
 - 变量类型，Variable Types：ft 会根据变量的不同类型施加不同的特征衍生操作，虽然 ft 可以推测变量类型，但是有时还是尽量指明变量类型，如 boolean 变量，以避免特征衍生过程中出现对 boolean 变量的求平均值，最大最小值等无意义的合成特征。
 - 对于无意义的变量（如子表中的 ID），需要先删除这些字段，以避免在根据这些无实际意义的变量（字段）生成更多无意义的新的特征。
 - 在创建实体之间关系的时候，若存在多种可以使用的关联关系（键），一定要根据数据表之间的实际业务逻辑场景关系确定合适的连接方案，特别是涉及到三级表之间的关联时候：A-B-C（A为B的父表，B为C的父表，A也可以与C通过特定的键联系），这一点非常重要。对于最终确定的表之间联系的逻辑图后，最好可以将表之间的关系画出来，防止混乱。同时，需要将表C中没有使用的键（没有实际业务意义），需要做删除处理，对应上文第5条所解释的要求。
 - Feature Primitives：特征基元，一个 FP 是对几张表或者是表的一组子集进行的一个操作，目的是创建一个新的特征。这些操作本质也非常简单，但是这些简单的操作可以相互叠加，进而创造出非常复杂的特征。特征基元主要分为两类：
     - 聚合：对于每一张父表，对子表的数据进行统计量的计算，如 min，max，mean，std，var 等。
     - 转换：计算单一一张表中的一列或者几列。如计算两列之间的差值等。
     - 查看特征基元的方法：`ft.list_primitives()`。

## 6 - 参考链接

 - https://blog.csdn.net/hellozhxy/article/details/80772872
 - https://docs.featuretools.com/en/stable/
 - https://www.jianshu.com/p/71782dbe2e1e
 - https://blog.csdn.net/qq_40802887/article/details/88765543
 - https://github.com/Featuretools/Automated-Manual-Comparison/blob/master/Loan%20Repayment/notebooks/Automated%20Loan%20Repayment.ipynb