# 金融模型因果分析研究思路

--------作者：王晟（sw@fip.ai）--------------

## 概念

- 因果推断： 根据一个结果发生的条件对因果关系得出结论的过程。
- 研究目标：研究因果关系最大的一个目标，就是找出事物之间真正的因果关系，去掉那些混杂的伪因果关系。

因果关系的三个层次：
- 关联（Association）：通过观察到的数据找出变量之间的关系。但不能挖掘出事件A导致事件B的发生。
- 干预（Intervention）：当改变事件A时，事件B也随之改变。
- 反事实推理（Conterfactuals）：也即“执果索因”，想让事件B也发生某种变化时，能否通过改变事件A来实现。

## 研究方法

- 实验性研究：随机对照实验，代价昂贵且费时费力。
- 观测性研究：从已有的观测数据中进行因果关系的研究，简单高效易于理解。
    - 因果图模型
    - 潜在结果框架

## 模型与框架

- 因果图模型：因果图是基于DAG(有向无环图)构建的，它是一种概率因果模型，被用来编码有关数据生成过程的假设。
    - 结构化因果图模型（SCM）：集合U={X,W}为外生变量集合，集合V={Z,Y}为内生变量集合，集合F={f,g}为函数集合
- 潜在结果模型（Rubin Causal Model）：比较同一个研究对象(Unit)在接受干预(Treatment)和不接受干预(对照/控制组)时结果差异，认为这一结果差异就是接受干预相对于不接受干预的效果。
    - 对于接受干预的研究对象而言，不接受干预时的状态是一种“反事实”状态；对于不接受干预的研究对象而言，接受干预时的状态也是一种“反事实”状态；所以该模型又被某些研究者称之为反事实框架(Counter factual Framework)。

### 反事实框架

- 基本概念
    - Unit（单元）：原子研究对象
    - Treatment（干预/治疗）：施加给一个原子对象unit的行为
    - Outcome（结果）：在对unit进行Treatment或者仅仅作为对照之后unit随后产生的反应/结果
    - Treatment Effect（因果效应）：对unit进行不同Treatment之后unit产生的Outcome的变化，这种效应可以定义在整体层面、treatment组层面、子组层面和个体层面

- 基本假设
    - 稳定单位干预值假设(Stable Unit Treatment Value Assumption)
        - unit之间都是相互独立的，unit之间不会存在相互作用
        - 同一treatment仅能存在一个版本
    - 可忽略性假设(Ignorability)
        - 给定背景变量X,干预分配W，与潜在的结果无关
    - 积极性/正值假设(Positivity)
        - 对于X的任何一组值，处理分配不是确定的

### Simpson悖论

- 基本概念
    - 辛普森悖论指的是同一组数据，整体的趋势和分组后的趋势完全不同。也就是说，整体数据和分组数据产生的结论截然相反。

- 为什么一般的研究方法不适用
    - 核心问题：如何估计特定人群的平均潜在治疗/控制结果？
    - 想当然的解决方案： 计算平均治疗和对照结果之间的差异，即ATE
    - 存在的问题：由于混杂因素(confounders)的存在，这种解决方案是不合理的
    
- 混杂因素（Confounders）
    - 混杂因素(Confounders)是同时影响干预分配（方案的选择）和最终结果的变量

### 因果推断方法

- Re-weighting(重加权算法)

- Stratification(分层算法)

- Matching(匹配算法)

- Tree-based(基于树的方法)

- Representation Learning(表示学习)

- Multitask Learning(多任务学习)

- Meta-learning(元学习)

## 应用

- 三个方向
    - 决策评估 —— 这与Treatment效果评估的目标是一致的。
    - 反事实估计 —— 反事实学习极大地帮助了与决策相关的领域，因为它可以提供不同决策选择（或策略）的潜在结果。
    - 处理选择偏差 —— 在许多实际应用程序中，出现在收集的数据集中的记录并不代表感兴趣的整个群体。如果不恰当地处理选择偏差，将影响训练模型的泛化。
    
![三个方向](./image.png "Three directions")

## microsoft EconML框架研究

### Overview

EconML这个Python工具包旨在测量某些干预变量T对结果变量Y的causal effect，控制一组特征X和W，来衡量causal effect如何随X的变化而变化。

异质处理效应 （Heterogenous treatment effects,HTE） 简单理解就是按某些规律进行分组之后的ATE，也就是“条件平均处理效应”(Conditional Average Treatment Effect，CATE) 。**每个子组的平均处理效应被称为“条件平均处理效应”(Conditional Average Treatment Effect，CATE)** ，也就是说，条件平均处理效应以子组内的分类方式为条件。
在EconML中，“条件平均处理效应”(Conditional Average Treatment Effect，CATE) 的四种估计方式：

- 双机器学习(Double Machine Learning)。DML的几种方法包括：
    - econml.dml.DML(, model_y, model_t, model_final) # 基础双重ML的模型
    - econml.dml.LinearDML([, model_y, model_t, …]) # 线性估计器
    - econml.dml.SparseLinearDML([, model_y, …]) # 稀疏线性估计器
    - econml.dml.CausalForestDML([, model_y, …]) # 因果树
    - econml.dml.NonParamDML(*, model_y, model_t, …) # 非参数ML估计器， that can have arbitrary final ML models of the CATE.

- 双重鲁棒学习(Doubly Robust Learner)。双重鲁棒学习(Doubly Robust Learner)几种方法：
    - econml.dr.DRLearner([, model_propensity, …])
    - econml.dr.LinearDRLearner([, …])
    - econml.dr.SparseLinearDRLearner([, …])
    - econml.dr.ForestDRLearner([, …])
CATE estimator that uses doubly-robust correction techniques to account for covariate shift (selection bias) between the treatment arms.

- 元学习器(Meta Learners)。元学习器(Meta Learners)四种方法：
    - econml.metalearners.XLearner(, models[, …])
    - econml.metalearners.TLearner(, models[, …])
    - econml.metalearners.SLearner(, overall_model)
    - econml.metalearners.DomainAdaptationLearner(, …) 元算法，使用领域适应技术来解释

- 正交随机树(Orthogonal Random Forest)。正交随机树(Orthogonal Random Forest) 的两种方法：
    - econml.orf.DMLOrthoForest([, n_trees, …])
    - econml.orf.DROrthoForest([, n_trees, …])


### 使用方法

**1. 基本使用步骤**
- 目标：用于分析Treatment效应（比如贷款给客户其经营情况变化），最终导致结果发生的概率。
- 安装和导入econml。
- 准备数据集，确保数据被正确地划分为特征、处理变量和结果变量：

In [None]:
import pandas as pd
data = pd.read_csv("your_data.csv")
X = data[['feature1', 'feature2', 'feature3']]  # 特征
T = data['treatment']  # 处理变量
Y = data['outcome']  # 结果变量

- 选择预测模型。根据数据特征，选择一种或多种预测模型，比如DML、DRIV和CausalForest等。

In [None]:
from econml.dml import LinearDML
dml = LinearDML()

- 模型拟合

In [None]:
dml.fit(X, T, Y)

- 效果评估

In [None]:
treatment_effect = dml.effect(X)

- 结果解释及敏感度分析

- 后续优化及模型诊断

**2. 常用模型分类**
- Double Machine Learning：主要是Linear和Tree的模型系列。DML通过两个阶段的机器学习来减少处理效应估计中的偏差。
- Gradient Boosting Modles：主要是XGBoost、LightGBM等，比RandamForest一般性能更好。通过逐步添加树来改进模型的预测精度。但econML并不凸显这几个model。
- Causal Forest（因果森林）& Orthogonal Random Forests（正交随机森林）：为因果推断设计的森林系列模型；通过构建多棵树并限制每棵树可以使用的特征子集来减少偏差。
- Meta-Learners 元学习器：使用一个“元”模型来学习如何从其他机器学习模型的预测中估计处理效应。元学习器可以基于其他模型的残差来调整和改进因果效应的估计。
- Double Robust Learner（双重鲁棒学习器）：能够利用机器学习模型的预测能力，又能够保证因果推断的准确性，可以考虑使用双重稳健学习者。

**3. 建议步骤**
- 数据探索：首先进行数据探索，了解数据的分布、特征之间的关系以及是否存在潜在的混杂因素。
- 特征工程：进行特征工程，创建可能有助于模型预测的特征，如交互项、多项式特征等。
- 模型选择：
    - 从随机森林开始，最熟悉这种模型。
    - 尝试梯度提升模型，看看是否能提供更好的性能。
    - 如果需要更复杂的模型，可以尝试神经网络。
    - 交叉验证：使用交叉验证来评估不同模型的性能。
    - 因果推断分析：使用EconML的因果推断功能，如因果森林或双重稳健学习者，进行因果推断分析。
- 模型比较：比较不同模型的性能，选择表现最好的模型。
- 模型解释性：选择模型后，使用模型解释性工具来理解模型的决策过程。
- 敏感性分析：进行敏感性分析，以评估结果对潜在未观察到的混杂因素的稳健性。

**4. 估计方法**
- Double Machine Learning (aka RLearner) 双重机器学习

使用场景：适用于处理效应估计，当数据集较大且你希望利用机器学习模型的预测能力时。DML通过两个阶段的机器学习模型来减少偏差。

- Dynamic Double Machine Learning 动态双重机器学习

使用场景：适用于处理具有时间序列数据或面板数据的情况，其中处理效应可能随时间变化。

- Causal Forests 因果森林

使用场景：适用于处理高维数据或复杂的非线性关系，因果森林是一个基于随机森林的集成方法，可以估计异质性处理效应。

- Orthogonal Random Forests 正交随机森林

使用场景：类似于因果森林，但更侧重于减少模型估计中的偏差，通过正交化技术来减少混杂变量的影响
- Meta-Learners 元学习器

使用场景：适用于需要在模型选择阶段进行交叉验证来选择最优模型时，元学习器可以在内部进行模型选择和验证

- Doubly Robust Learners 双重稳健学习器

使用场景：适用于你拥有一些处理分配的模型信息，但可能不完全准确时。双重稳健方法结合了回归调整和工具变量方法，即使其中一个方法失败，也可以提供一致的估计

- Double Machine Learning with Instrumental Variables 带工具变量的双重机器学习

使用场景：适用于处理分配受到某种随机化影响，但你担心存在遗漏变量偏差时。这种方法结合了双重机器学习和工具变量方法

- Doubly Robust Machine Learning with Instrumental Variables 带工具变量的双重稳健机器学习

使用场景：适用于处理分配受到工具变量影响，同时希望通过回归调整来控制混杂变量时

- Deep Instrumental Variables 深度工具变量

使用场景：适用于当数据具有复杂的非线性结构，且你希望通过深度学习模型来捕捉这些结构时，同时使用工具变量来处理潜在的内生性问题

### 应用案例

**1. 双重机器学习（Double Machine Learning, DML）**

双重机器学习是一种在观察到所有潜在混杂因素/控制变量（在收集的数据中同时直接影响处理决策和观察结果的因素）时，估计（异质性）处理效应的方法。但是，这些控制变量对于经典的统计方法来说要么太多（高维）而无法应用，要么它们对处理结果和结果的影响不能通过参数函数（非参数）令人满意地建模。这两个问题都可以通过机器学习技术来解决。

该方法首先将问题简化为估计两个预测任务：
- 根据控制变量预测结果，
- 根据控制变量预测处理；

然后，该方法将这两个预测模型结合在最后阶段的估计中，以创建异质性处理效应的模型。该方法允许使用任意的机器学习算法来完成这两个预测任务，同时保持与最终模型相关的许多有利的统计特性（例如，小的均方误差，渐近正态性，置信区间的构建）

In [None]:
#!pip install econml

'''Linear final stage'''
from econml.dml import LinearDML
from sklearn.linear_model import LassoCV
from econml.inference import BootstrapInference

est = LinearDML(model_y=LassoCV(), model_t=LassoCV())
### Estimate with OLS confidence intervals
est.fit(Y, T, X=X, W=W) # W -> high-dimensional confounders, X -> features
treatment_effects = est.effect(X_test)
lb, ub = est.effect_interval(X_test, alpha=0.05) # OLS confidence intervals

### Estimate with bootstrap confidence intervals
est.fit(Y, T, X=X, W=W, inference='bootstrap')  # with default bootstrap parameters
est.fit(Y, T, X=X, W=W, inference=BootstrapInference(n_bootstrap_samples=100))  # or customized
lb, ub = est.effect_interval(X_test, alpha=0.05) # Bootstrap confidence intervals

In [None]:
'''Sparse linear final stage'''
from econml.dml import SparseLinearDML
from sklearn.linear_model import LassoCV

est = SparseLinearDML(model_y=LassoCV(), model_t=LassoCV())
est.fit(Y, T, X=X, W=W) # X -> high dimensional features
treatment_effects = est.effect(X_test)
lb, ub = est.effect_interval(X_test, alpha=0.05) # Confidence intervals via debiased lasso

In [None]:
'''Generic Machine Learning last stage'''
from econml.dml import NonParamDML
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier

est = NonParamDML(model_y=RandomForestRegressor(),
                  model_t=RandomForestClassifier(),
                  model_final=RandomForestRegressor(),
                  discrete_treatment=True)
est.fit(Y, T, X=X, W=W) 
treatment_effects = est.effect(X_test)

**2. 双重稳健学习（Doubly Robust Learning）**

双重稳健学习类似于双重机器学习，是一种在处理是分类变量时估计（异质性）处理效应的方法。所有潜在的混杂因素/控制变量（在收集的数据中同时直接影响处理决策和观察结果的因素）都被观察到，但因为数量太多（高维）而无法使用传统统计方法，或者它们对处理和结果的影响无法通过参数函数（非参数）令人满意地建模。这些问题都可以通过机器学习技术来解决。

该方法首先将问题简化为两个预测任务：

- 根据处理和控制变量预测结果，
- 根据控制变量预测处理；

与双重机器学习不同，第一个模型预测的结果是包括处理和控制变量在内的。
然后，该方法将这两个预测模型结合在最后阶段的估计中，以创建异质性处理效应的模型。该方法允许使用任意的机器学习算法来完成这两个预测任务，同时保持与最终模型相关的许多有利的统计特性（例如，小的均方误差，渐近正态性，置信区间的构建）。如果这两个预测任务中的任何一个达到小的均方误差，那么最终模型的统计特性就成立（因此得名双重稳健）。

In [None]:
'''Linear final stage'''
from econml.dr import LinearDRLearner
from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier

est = LinearDRLearner(model_propensity=GradientBoostingClassifier(),
                      model_regression=GradientBoostingRegressor())
est.fit(Y, T, X=X, W=W)
treatment_effects = est.effect(X_test)
lb, ub = est.effect_interval(X_test, alpha=0.05)

In [None]:
'''Sparse linear final stage'''
from econml.dr import SparseLinearDRLearner
from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier

est = SparseLinearDRLearner(model_propensity=GradientBoostingClassifier(),
                            model_regression=GradientBoostingRegressor())
est.fit(Y, T, X=X, W=W)
treatment_effects = est.effect(X_test)
lb, ub = est.effect_interval(X_test, alpha=0.05)

In [None]:
'''Nonparametric final stage'''
from econml.dr import ForestDRLearner
from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier

est = ForestDRLearner(model_propensity=GradientBoostingClassifier(),
                      model_regression=GradientBoostingRegressor())
est.fit(Y, T, X=X, W=W) 
treatment_effects = est.effect(X_test)
lb, ub = est.effect_interval(X_test, alpha=0.05)

**3. 森林基础估计器(Forest-based Estimator)**

森林基础估计器是一类使用决策树森林来估计处理效应异质性的因果推断方法。这些方法包括正交随机森林、因果森林和森林双重稳健估计器。它们都依赖于无混杂假设，即所有可能影响处理和结果的潜在变量都已被观察到。这些估计器的共同点在于它们都使用相似的矩方程来识别异质性处理效应，但它们在估计第一阶段的回归或分类模型时有所不同。正交随机森林估计器通过局部拟合来优化局部均方误差，而因果森林和森林双重稳健估计器则采用全局拟合。

这些方法的优势在于它们能够适应数据的低维潜在结构，即使在特征数量众多的情况下也能表现良好。此外，这些方法能够提供有效的置信区间，这对于统计推断至关重要。EconML提供了三种这样的估计方法：

- 正交随机森林估计器（DMLOrthoForest, DROrthoForest）
- 森林双重机器学习估计器（即因果森林）（CausalForestDML）
- 森林双重稳健估计器（ForestDRLearner）。

这些估计器与DML和DRL部分类似，需要满足无混杂假设，即所有可能同时影响处理和结果的潜在变量都被观察到。

In [None]:
'''Orthogonal Random Forests '''
from econml.orf import DMLOrthoForest, DROrthoForest
from econml.sklearn_extensions.linear_model import WeightedLasso, WeightedLassoCV
# Use defaults
est = DMLOrthoForest()
est = DROrthoForest()
# Or specify hyperparameters
est = DMLOrthoForest(n_trees=500, min_leaf_size=10,
                     max_depth=10, subsample_ratio=0.7,
                     lambda_reg=0.01,
                     discrete_treatment=False,
                     model_T=WeightedLasso(alpha=0.01), model_Y=WeightedLasso(alpha=0.01),
                     model_T_final=WeightedLassoCV(cv=3), model_Y_final=WeightedLassoCV(cv=3))
est.fit(Y, T, X=X, W=W)
treatment_effects = est.effect(X_test)
# Confidence intervals via Bootstrap-of-Little-Bags for forests
lb, ub = est.effect_interval(X_test, alpha=0.05)

In [None]:
'''Causal Forests'''
from econml.dml import CausalForestDML
from sklearn.linear_model import LassoCV
# Use defaults
est = CausalForestDML()
# Or specify hyperparameters
est = CausalForestDML(criterion='het', n_estimators=500,       
                      min_samples_leaf=10, 
                      max_depth=10, max_samples=0.5,
                      discrete_treatment=False,
                      model_t=LassoCV(), model_y=LassoCV())
est.fit(Y, T, X=X, W=W)
treatment_effects = est.effect(X_test)
# Confidence intervals via Bootstrap-of-Little-Bags for forests
lb, ub = est.effect_interval(X_test, alpha=0.05)

**4. 元学习器(Meta Learner)**

元学习器是处理效应估计（CATE）的一类方法，专门针对分类处理变量。这些方法通过分别对控制组和处理组的响应面进行建模，或者对多个响应面进行建模。其在EconML中的实现方法主要有：
- SLearner S-学习器
通过一个模型来同时对控制组和处理组的响应进行建模，该模型将处理分配作为输入特征
- TLearner T-学习器
分别对控制组和处理组的响应进行建模。估计的CATE由两组模型的预测结果之差给出
- XLearner
分别对处理组和控制组的响应进行建模，以估计对已处理个体的条件平均处理效应（CATC）和对未处理个体的条件平均处理效应（CATT）。新个体的CATE估计由CATT和CATC的倾向加权平均给出
- DomainAdaptationLearner
使用领域自适应技术来估计结果模型，假设控制组和处理组的概率分布不同
- NonParamDML
提供非参数方法来估计CATE，适用于处理效应与特征之间关系未知的情况
- DRLearner
结合了回归调整和工具变量方法，提供稳健的CATE估计


In [None]:
'''TLearner'''
from econml.metalearners import TLearner
from sklearn.ensemble import GradientBoostingRegressor

est = TLearner(models=GradientBoostingRegressor())
est.fit(Y, T, X=np.hstack([X, W]))
treatment_effects = est.effect(np.hstack([X_test, W_test]))

In [None]:
'''SLearner'''
from econml.metalearners import SLearner
from sklearn.ensemble import GradientBoostingRegressor

est = SLearner(overall_model=GradientBoostingRegressor())
est.fit(Y, T, X=np.hstack([X, W]))
treatment_effects = est.effect(np.hstack([X_test, W_test]))

In [None]:
'''XLearner'''
from econml.metalearners import XLearner
from sklearn.ensemble import GradientBoostingClassifier, GradientBoostingRegressor

est = XLearner(models=GradientBoostingRegressor(),
              propensity_model=GradientBoostingClassifier(),
              cate_models=GradientBoostingRegressor())
est.fit(Y, T, X=np.hstack([X, W]))
treatment_effects = est.effect(np.hstack([X_test, W_test]))

# Fit with bootstrap confidence interval construction enabled
est.fit(Y, T, X=np.hstack([X, W]), inference='bootstrap')
treatment_effects = est.effect(np.hstack([X_test, W_test]))
lb, ub = est.effect_interval(np.hstack([X_test, W_test]), alpha=0.05) # Bootstrap CIs

**5. Dynamic DML(动态双重机器学习)** ——Estimation Methods for Dynamic Treatment Regimes

动态双重机器学习（Dynamic Double Machine Learning，简称Dynamic DML）是一种用于处理随时间顺序分配的处理效应估计的方法，**特别适用于存在动态混杂因素的情况**。这种方法可以应用于处理和结果数据随时间序列变化的情况，例如，在医疗、金融和营销等领域的动态决策过程。

动态双重机器学习是一种在通过自适应动态策略随时间提供处理时估计（异质性）处理效应的方法。它适用于在收集的数据中，所有潜在的动态混杂因素/控制变量（同时直接影响自适应处理决策和观察到的结果的因素）都被观察到的情况，但这些因素要么太多（高维）以至于传统的统计方法不适用，要么它们对处理和结果的影响无法通过参数函数（非参数）令人满意地建模。这两个问题都可以通过DDML技术来解决。

假设你有观察性（或来自A/B测试的实验）历史数据，在这些数据中随时间向每个单元提供了多个处理/干预/动作，并观察到了一些最终结果，并且所有可能影响选择的变量，并且同时可能直接影响结果（即控制变量或混杂因素）也被记录在数据集中。

如果你的目标是了解处理对结果的影响如何依赖于被处理样本的一组可观察特征，那么可以使用这种方法。例如：

In [None]:
'''Dynamic Double Machine Learning'''
from econml.panel.dml import DynamicDML
# Use defaults
est = DynamicDML()
# Or specify hyperparameters
est = DynamicDML(model_y=LassoCV(cv=3), 
                 model_t=LassoCV(cv=3), 
                 cv=3)
est.fit(Y, T, X=X, W=None, groups=groups, inference="auto")
# Effects
treatment_effects = est.effect(X_test)
# Confidence intervals
lb, ub = est.effect_interval(X_test, alpha=0.05)

动态处理策略（Dynamic Treatment Regimes，DTRs）通常指的是随时间变化的治疗或干预措施，这些措施可能根据个体在先前时间点的反应或新信息进行调整。例如，在医疗领域，患者的治疗计划可能会根据他们对先前治疗的反应进行修改；在金融领域，投资策略可能会根据市场条件的变化进行调整。

动态双重机器学习（Dynamic Double Machine Learning，Dynamic DML）是一类方法，专门用于估计这种随时间变化的处理策略的因果效应。这种方法考虑了处理分配的动态性质，并尝试估计在不同时间点采取不同行动的因果影响。

应用场景主要包括：
- 医疗决策：评估基于患者历史反应的个性化治疗方案的效果。
- 市场营销：分析随时间变化的促销策略对消费者购买行为的影响。
- 金融投资：评估根据市场条件动态调整的投资策略的回报。
- 公共政策：评估随时间变化的政策干预措施的社会影响。

**6. Estimation Methods with Instrumental Variable**
- Deep Instrumental Variables

深度工具变量（Deep Instrumental Variables，Deep IV）是一种利用神经网络来估计处理效应的方法，特别适用于存在潜在混杂变量时的情况。这种方法与传统的工具变量方法相比，可以处理更复杂的非线性关系，并允许使用灵活的模型结构。

工具变量（IV）方法是一种在存在混杂的潜在变量的情况下估计因果效应的方法。所做的假设比DML所需的无混杂性假设要弱。代价是，当无混杂性成立时，IV估计器将比DML估计器的效率低。需要的是一个工具变量向量Z，假设它会影响处理T的分布，并且对结果Y的期望值没有直接的因果效应。

In [None]:
'''Deep Instrumental Variables'''
import keras
from econml.iv.nnet import DeepIV

treatment_model = keras.Sequential([keras.layers.Dense(128, activation='relu', input_shape=(2,)),
                                    keras.layers.Dropout(0.17),
                                    keras.layers.Dense(64, activation='relu'),
                                    keras.layers.Dropout(0.17),
                                    keras.layers.Dense(32, activation='relu'),
                                    keras.layers.Dropout(0.17)])
response_model = keras.Sequential([keras.layers.Dense(128, activation='relu', input_shape=(2,)),
                                  keras.layers.Dropout(0.17),
                                  keras.layers.Dense(64, activation='relu'),
                                  keras.layers.Dropout(0.17),
                                  keras.layers.Dense(32, activation='relu'),
                                  keras.layers.Dropout(0.17),
                                  keras.layers.Dense(1)])
est = DeepIV(n_components=10, # Number of gaussians in the mixture density networks)
             m=lambda z, x: treatment_model(keras.layers.concatenate([z, x])), # Treatment model
             h=lambda t, x: response_model(keras.layers.concatenate([t, x])), # Response model
             n_samples=1 # Number of samples used to estimate the response
             )
est.fit(Y, T, X=X, Z=Z) # Z -> instrumental variables
treatment_effects = est.effect(X_test)

- Orthogonal Instrumental Variables

正交工具变量（Orthogonal Instrumental Variables，简称OrthoIV）是一类在存在未观察到的混杂因素时，利用有效工具变量来估计异质性处理效应的方法。这些方法通过将问题转化为最小化一个适当的损失函数来实现，该损失函数依赖于一组辅助模型。

这些方法的优势在于它们可以与各种机器学习模型兼容，包括随机森林、梯度提升和神经网络等，从而能够灵活地处理复杂的数据结构和非线性关系。

正交工具变量是一系列方法，可在存在未观察到的混杂因素的情况下，借助有效工具变量使用任意机器学习方法估计异质性处理效应。我们开发了一种统计学习方法来估计异质效应，将问题简化为最小化一个适当的损失函数，该函数依赖于一组辅助模型（每个模型对应一个单独的预测任务）。这种简化使得可以使用所有最新的机器学习模型（例如，随机森林、提升、神经网络）。我们通过展示损失满足Neyman正交性标准，证明了估计的效应模型对辅助模型的估计误差是稳健的。我们的方法可以用来估计在更简单的假设空间上的真实效应模型的投影。当这些空间是参数化的时，参数估计量是渐近正态的，这使得可以构建置信区间。

In [None]:
'''Orthogonal Instrumental Variables'''

from econml.iv.dr import LinearIntentToTreatDRIV
est = LinearIntentToTreatDRIV()
est.fit(y, T, Z=Z, X=X, W=X)
est.effect(X)