# 如何借助大语言模型寻找工具变量
 
::: {.callout-quote}
### 说明

本章内容由中山大学[张弛](https://www.lianxh.cn/search.html?s=%E5%BC%A0%E5%BC%9B)博士改编自：Han, S. (2024). Mining Causality: AI-Assisted Search for Instrumental Variables (Version 3). arXiv. [Link](https://doi.org/10.48550/arXiv.2409.14202) (rep), [PDF](https://arxiv.org/pdf/2409.14202.pdf), [Google](<https://scholar.google.com/scholar?q=Mining Causality: AI-Assisted Search for Instrumental Variables (Version 3)>)。

- 中文推文：张弛, 2025, [找不到IV？如何借助大语言模型寻找工具变量](https://www.lianxh.cn/details/1575.html).
- 连玉君，[ChatGPT 对话]()
:::


&emsp;

## 简介

内生性是因果推断中最关键的问题，在处理内生性问题的方法中，工具变量是最常用的方法之一。但寻找有效的，还要满足排他性限制 (exclusion restrictions) 的工具变量，主要依赖于作者的说理论证，这一过程对写作者的说理能力和创造力的要求是很高的。因此，本文提出利用**大型语言模型 (LLMs)** 来辅助发现新的工具变量。作者认为，使用大语言模型搜索工具变量有如下好处：

- 第一，在特殊的论文情景下，实现快速搜索工具变量；

- 第二，与大语言模型互动，可以在自己的研究领域发现更多新的工具变量；

- 第三，利用大语言模型系统搜索工具变量，可以提高获取多个工具变量的可能性，有助于研究者通过过度识别检验来验证多工具变量的有效性；

- 第四，利用大语言模型找到更多的工具变量，有助于研究者提高给 IV 找到合适数据的机会，或者指导研究者通过其他算法或者实验找到工具变量所需的数据。

作者在原文中，根据工具变量需要满足的一系列假设，为读者提供了利用大语言模型搜索工具变量可操作的方法和提示词。在最后，本推文也展示了一个中文顶刊中的文献情景，利用大语言模型为这篇文章搜索更多工具变量的案例。

&emsp;

## 工具变量需要满足的假设

在给定协变量 $X$ 的条件下，一个有效的工具变量需要满足如下假设：

1. **相关性 (REL)：** 工具变量 $Z_{k}$ 必须与内生处理变量 $D$ 相关 。也就是说，在控制了协变量 $X$  后，$D$ 的分布会随着 $Z_{k}$ 的变化而变化。
2. **排他性 (EX)：** 工具变量 $Z_{k}$ 只能通过影响处理变量 $D$ 来影响结果变量 $Y$ ，而不能有直接影响  $Y$  的其他路径。
3. **独立性 (IND)：** 在控制了协变量 $X$ 后，工具变量 $Z_{k}$ 必须与影响结果 $Y$ 的未观测因素相互独立。这意味着工具变量不能与那些同时影响处理变量 $D$ 和结果变量 $Y$ 的遗漏变量相关 。

![bg left:35% w:350](https://fig-lianxh.oss-cn-shenzhen.aliyuncs.com/20220706115501.png)

&emsp;

## 如何构建提示词？

### 提示词设计思路

**第一，实施步骤上，采用两步法设计提示词。**

- 第一步，将研究场景提供给大语言模型，让大语言模型搜索满足 REL 和 EX 的工具变量；
- 第二步，让大语言模型在第一步的结果中，挑选满足 IND 的工具变量；
- 在每一步，研究者都需要让大语言模型说明它选择这些工具变量的理由，便于理解和判断它生成的结果是否准确。如果要研究不同的问题，给不同的研究问题找不同的工具变量，建议开启不同的对话，不要在同一个对话里一直提问，避免大语言模型发现出用户在找工具变量，从而一直输出文献中已有的工具变量。

**第二，语言设计上，采用角色扮演的方法设计提示词。**

- 一般情况下，$D$ 代表着一个经济主体的决策或者行为，在设计提示词的时候，可以从这个经济主体出发，设计问题。如果给大语言模型设置合适的角色，让大语言模型认识到自己在社会中的地位，它会回答出更有针对性、更独特的工具变量，而不是像科研人员一样从文献出发，机械地在文献中搜索已有的工具变量。

### 提示词设计模板

#### 搜索工具变量的基本模板

**第一步，将研究场景提供给大语言模型，让大语言模型搜索满足 REL 和 EX 的工具变量。** 

> **提示词 1**：  
> 你需要在 [情境] 中做出 [决策] 的 [决策者]。有哪些因素可以决定你的决策，但这些因素除了通过 [决策] 之外，不会直接影响你的 [结果] (也就是说，这些因素只通过 [决策] 影响你的 [结果]) ？列出 [K_0] 个可量化的因素。解释你的答案。


在这里，研究者需要把具体的研究问题提替换成比较具体的 ``研究情境`` ，把内生变量替换进 ``决策`` 中，把内生变量所代表的经济主体替换成 ``决策者`` ，``结果`` 就是被解释变量，``K_0`` 代表的是研究者希望第一步大语言模型输出的工具变量的个数。


**第二步，让大语言模型在第一步的结果中，挑选满足 IND 的工具变量。** 

> **提示词 2**：  
> 你是之前描述过的，在 [情境] 中的 [决策者]。在上面列出的 [K_0] 个因素中，选出 [K] 个最可能与 [混淆因素] 无关的因素，这些 [混淆因素] 决定了你的 [结果]。这些选出的因素仍然可以影响你的 [处理]。对于每个选出的因素，解释你的理由。


在这里，``混淆因素`` 需要替换成为研究者研究情景里同时影响 ``D`` 和被解释变量的因素。研究者也可以不要求大语言模型必须选出 ``K`` 个满足 IND 要求的工具变量，可以让大语言模型输出所有满足条件的工具变量。除此之外，也可以让大语言模型输出不满足 IND 要求的工具变量，以辅助检查。



如果在研究设计中，有其他的控制变量 $X$，作者建议，**可以通过修改第二步的提示词，在第二步加入控制变量来进一步搜索合适的控制变量。** 当然，也可以在第一步的时候就加入控制变量，但是作者发现，不论是在第一步就加入控制变量还是在第二步才加入控制变量，大语言模型输出的结果都是基本一致的。



> **提示词 2 (有控制变量)**：  
> 假设你是 [情境] 中、具有 [控制变量] 特征的 [决策者]。在上面列出的 [K_0] 个因素中，选出 [K] 个最可能与 [混淆因素] 无关的因素，这些 [混淆因素] 决定了你的 [结果]。这些选出的因素仍然可以影响你的 [决策]。对于每个选出的因素，解释你的理由。


#### 拓展：搜索不同因果推断情景下的控制变量

在因果推断中，控制变量的选取一般要满足条件独立性假设，特别是当因果推断与匹配、机器学习等方法结合的时候。利用大语言模型，研究者也可以找到一些满足条件独立性假设的控制变量。


> **提示词 1**：  
> 你是需要在 [情境] 中做出 [决策] 的 [决策者]。有哪些因素决定了你的决策？列出 [K_0] 个可量化的因素。解释你的答案。


> **提示词 2**：  
> 在上面列出的 [K_0] 个因素中，选出所有直接决定你 [结果] 的因素，而不仅仅是通过 [决策] 间接决定。这些选出的因素仍然可以影响你的 [决策]。对于每个选出的因素，解释你的理由。



如果研究者是在一个双重差分法 (DID) 的情景下做研究，为检验平行趋势假定，也可以利用类似的方法搜索控制变量加入回归，我们只需要调整上述的第二个提示词即可。


> **提示词 2 (DID)**：  
> 在上面列出的 [K_0] 个因素中，选出所有能直接影响 “假如没有 [DID的冲击]，[结果变量] 会如何随时间变化” 这一趋势的因素，其影响并非仅通过 [DID的冲击] 间接产生。这些选出的因素仍可能影响你实施 [DID的冲击] 的决策。请对每个选出的因素说明理由。

如果研究者是在一个断点回归 (RD) 的情景下做研究，RD 需要满足断点存在的假设。假设存在一个已知的断点 $r_{0}$，如果 $R_{j}$≥ $r_{0}$，则 $D=1$ (接受处理)；如果 $R_{j} < r_{0}$，则 $D=0$ (不接受处理)。作者建议，研究者可以采用下面两个提示词搜索这个分配变量。注意，在 GPT4 执行第二个提示词时，大语言模型会通过一系列网络搜索来获得可能的断点值。


> **提示词 1**：  
> 你是需要在 [情境] 中做出 [决策] 的 [决策者]。有哪些可能的标准会决定你获得 [决策] 的资格？请提供 [J_0] 个最相关的标准，这些标准需要满足: (1) 可量化，并且 (2) 具有决定是否获得资格的特定断点值。请解释你的答案。


> **提示词 2**：  
> 在上面列出的 [J_0] 个标准中，选出所有连续或有序的、并且有精确断点的标准。同时，请仅从可验证的来源报告每个标准的断点值 (确保不使用捏造或假设的数字)。请解释你的答案。


&emsp;

## 中文顶刊情景应用

为了详细解读如何应用论文提出的大语言模型寻找工具变量的方法，我们选取 2025 年发表于《经济研究》的《中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据》一文作为测试案例，为这篇文章找到更多可能的工具变量。

### 论文提要

**主要内容：** 本文以 2003—2022 年中国 A 股上市公司为样本，利用 FinBERT 和 GPT 大语言模型对 A 股上市公司年报管理层讨论与分析部分  (MD&A) 进行文本分析，构建了多层次数字技术风险暴露程度的衡量指标，探讨了企业数字技术风险的暴露情况及对企业市场价值的影响。文章的主要发现是，第一，年龄较大、杠杆率较高、资产收益率较低、公司治理水平较差的企业面临更严重的数字技术风险暴露。第二，数字技术风险暴露会显著降低公司的长期市场价值。其中，数据安全风险和网络安全风险均有明显负面影响。第三，主要的影响机制在于数字技术风险通过数字基础设施的互联性，对供应链生产网络产生溢出效应，且给企业带来长久的声誉损失。

**基准回归模型：**

$$
y_{i, k, t+j} = \gamma_0 + \gamma_1 DRE_{ikt} + \theta Controls_{ikt} + \delta_{kt} + \mu_i + \epsilon_{ikt}
$$

其中，
- $y_{i,k,t+j}$ 是企业 $i$ 在第 $t+j$ 年以市场价值衡量的绩效指标，为托宾 Q 值。
- 核心解释变量 $DRE_{ikt}$ (Digi Risk Exposure) 是企业层面数字技术风险暴露程度。
- $Controls_{ikt}$ 是一系列企业层面的控制变量，包括公司规模、年龄、杠杆率、有形资产比率、营业收入增长率、资产收益率、独立董事占比和第一大股东持股比例。
- $\delta_{kt}$ 是行业年份固定效应，$\mu_{i}$ 是企业固定效应，$\epsilon_{ikt}$ 是随机误差项。

**文章中指出，内生性主要来自以下三个方面：**


- 反向因果：市场价值较低的公司可能由于各方面的资源限制，在数字技术安全防范方面投入不足，导致较高的数字技术风险暴露。

- 遗漏变量：可能存在其他因素同时影响公司的数字技术风险暴露和绩效水平。例如，企业管理层风格不仅直接影响企业价值，同时还与企业数字技术风险管理密切相关，影响企业的数字技术风险暴露。

- 测量误差：数字技术风险暴露变量指标的测算依赖于企业年报文本，这一计算过程可能受到文本特征等的因素干扰，影响对风险暴露的真实反映，导致估计误差。


**原文中的工具变量设计思路：** 借鉴 Acemoglu & Restrepo (2020) 的方法，利用世界范围内同一行业更成熟的发达国家 (美国) 面临的数字技术风险暴露程度作为本国对应行业数字技术风险暴露的工具变量。


- 公司层面的数字技术风险会受到世界范围内该企业所处的行业数字技术风险的影响。全球化时代下，数字技术风险会存在跨国外溢 (苗玲玲，2023)。
- 虽然数字技术风险是全球化现象，但是发达国家的数字技术风险状况不会直接改变中国企业的销售额、利润率等核心财务指标。
- 因此，本文以美国上市公司年报文本为基础，利用文章提出的方法 ，构造了美国同行业数字技术风险暴露程度作为中国企业所在行业的数字技术风险的工具变量。

### 借助 AI 寻找新的工具变量

本文利用腾讯元宝提供的 ``DeepSeek-V3`` 搜索工具变量，这是推文中展示的与大语言模型问答过程的完整版链接 [Link](https://yuanbao.tencent.com/bot/app/share/chat/j6OVUAMkYg66)。

#### 第一步：找到满足相关性和排他性的工具变量

首先，针对文章内容，设计如下情境和角色，代入作者推荐的完整 Prompt 中：


- 角色：一家中国A股上市公司管理团队人员
- 情境：2003年至2022年期间，公司运营于中国市场，正在经历数字化转型，需要评估和管理数据安全与网络安全等数字技术风险，并在编写公司年度报告中的“管理层讨论与分析” (MD&A) 的部分
- 内生变量：在MD&A中被呈现的，公司所面临的数字技术风险的实际情况
- 被解释变量：托宾Q值

在第一步，我们最终设计的提示词是：


> 你是 [一家中国A股上市公司的管理团队成员]，需要在 [2003年至2022年期间，公司运营于中国市场，正在经历数字化转型，需要评估和管理数据安全与网络安全等数字技术风险，并负责编写公司年度报告中的“管理层讨论与分析” (MD&A) 部分] 的场景下，做出关于 [在MD&A中被呈现的，公司所面临的数字技术风险的实际情况] 的决策或行动。
> &nbsp;
> 
> 有哪些因素能够决定你公司 [在MD&A中被呈现的，公司所面临的数字技术风险的实际情况]，但这些因素除了通过影响 [在MD&A中被呈现的，公司所面临的数字技术风险的实际情况] 之外，并不直接影响你公司的 [托宾Q值] (也就是说，这些因素仅仅是通过影响 [在MD&A中被呈现的，公司所面临的数字技术风险的实际情况] 来影响公司的 [托宾Q值]) ？列出 15 个可量化的因素。并解释你的答案。


此时，大语言模型按照提示词要求，生成了 15 个影响因素，并给出了理由：


> 在MD&A中披露数字技术风险时，以下15个可量化因素可能通过影响披露内容间接影响托宾Q值 (即仅通过风险披露的透明度或可信度影响市场估值，而非直接影响公司基本面)。这些因素聚焦于风险特征、管理能力和披露策略：
>
> 
> **1. 年度数据泄露事件次数**  
> 解释：实际发生的泄露次数反映风险暴露程度，但仅通过披露时的措辞 (如"高频次"或"罕见") 影响投资者感知。
> 
> **2. 网络安全投入占IT预算比例**  
> 解释：高比例可能被解读为风险严重性，但投入本身不直接提升资产价值，仅通过披露传递管理态度。 
> 
> **3. 关键系统平均宕机时长 (小时/年)**  
> 解释：运营中断时长量化业务连续性风险，披露时需权衡对投资者信心的冲击。
> 
> **4. 第三方供应商数据合规审计未通过率**  
> 解释：供应链风险指标，披露比例高低影响市场对生态链脆弱性的判断。 
> 
> **5. 员工网络安全培训完成率**  
> 解释：人力风险管控的量化指标，披露低完成率可能暗示内部漏洞，但不直接影响生产效率。
> 
> **6. 数据跨境传输合规缺口数量**  
> 解释：如《数据安全法》下的违规点数量，披露时需平衡法律风险与市场信任。
> 
> **7. 隐私投诉案件增长率 (%)**  
> 解释：用户数据保护问题的量化，披露增速可能引发监管关注联想。
> 
> **8. 云服务SLA  (服务等级协议)  未达标次数**  
> 解释：技术依赖风险指标，披露频繁违约会放大外包风险印象。
> 
> **9. 漏洞修复平均响应时间 (天)**  
> 解释：修复效率反映风险管理能力，但延迟本身不改变资产价值。
> 
> **10. 数字资产加密覆盖率 (%)**  
> 解释：技术防护水平的量化，低覆盖率在披露中可能被视为潜在隐患。
> 
> **11. 数字化转型项目延期率 (%)**  
> 解释：项目进度风险指标，披露高延期率暗示技术落地困难。
> 
> **12. 网络攻击防御成功率 (%)**  
> 解释：防御有效性的量化，但成功率本身不影响现金流，仅通过披露影响预期。
> 
> **13. 数据备份完整率  (%)**  
> 解释：灾备能力的客观指标，低完整率在披露中需解释应对措施。
> 
> **14. 监管罚单涉及数字技术的金额占比**  
> 解释：合规风险的量化，高占比罚单披露可能放大政策风险感知。
> 
> **15. AI模型偏差投诉次数**  
> 解释：算法伦理风险的量化，披露次数影响ESG评级联想。
>
> &nbsp;
> 
> **关键逻辑**：这些因素均属于 **风险暴露或管理过程的量化指标** ，其本身不改变公司资产盈利能力或成本结构 (即不直接影响托宾Q的分母或分子)，但通过MD&A披露的详略、语气或对比 (如行业基准) 影响投资者对风险的定价。例如：**选择性披露**：仅公布 "修复响应时间缩短20%" 而隐去实际天数，可能弱化风险印象；**行业对比**：若 "数据泄露次数低于同业均值" ，即使次数较高，也可能被中性化处理。最终，市场会基于披露的**透明度**和**可信度**调整风险溢价，从而间接影响托宾Q值。


#### 第二步：找到满足独立性的工具变量

在原文的研究设计中，基准回归方程是有控制变量的，这些控制变量为上市公司的财务、经营特征。并且，原文中也明确指出了，类似于管理层管理风格等遗漏变量，可能会带来内生性问题。因此，在第二步，本文设计了如下提示词：


> 假设你是 [前述场景中的中国A股上市公司管理团队成员]，并且你的公司具有 [公司规模、年龄、杠杆率、有形资产比率、营业收入增长率、资产收益率、独立董事占比和第一大股东持股比例]等的特征。在上面列出的 [15] 个因素中，选择所有那些最有可能与 [那些通常难以直接观测、但同时会决定公司托宾Q的潜在混淆因素，例如：管理层管理风格] 无关的因素。这些被选中的因素仍然可以影响公司 [在MD&A中被呈现的，公司所面临的数字技术风险的实际情况]。对于你选择的每一个因素，请解释你选择的理由。


此时，大语言模型生成的回答为：


> 在给定的公司特征 (规模、年龄、杠杆率等) 和潜在混淆因素 (如管理层风格) 的背景下，我们需要筛选出那些**与难以观测的混淆因素 (如管理层风格) 无关**，但仍能影响MD&A中数字技术风险披露的量化因素。所选因素需满足：
> 
> 1. **客观可量化**：基于技术或运营数据，而非主观管理决策；
> 2. **与公司治理特征 (如独立董事占比、大股东持股) 或管理层风格无关**：避免受潜在混淆因素干扰；
> 3. **直接影响风险披露内容**：能通过数据本身驱动MD&A的表述。  
>
> &nbsp;
> 
> **最终选择的因素及理由**：  
> 
> **1. 年度数据泄露事件次数**  
> **理由**：泄露次数是客观安全事件统计，与技术防护漏洞或外部攻击相关，与管理层风格 (如风险偏好) 无关。披露时需如实反映，不受主观干预。  
> **2. 关键系统平均宕机时长 (小时/年)**  
> **理由**：宕机时长由IT基础设施可靠性和外部攻击决定，与公司杠杆率或董事会结构无关，属于纯技术性指标。  
> **3. 第三方供应商数据合规审计未通过率**  
> **理由**：供应商合规问题取决于外部合作方的行为，不受管理层风格影响，但需在 MD&A 中披露供应链风险。  
> **4. 云服务SLA (服务等级协议) 未达标次数**  
> **理由**：云服务违约次数由第三方服务商性能决定，与公司有形资产比率或管理层风格无关。  
> **5. 漏洞修复平均响应时间 (天)**  
> **理由**：修复速度反映IT团队技术能力，独立于公司年龄或营业收入增长率等特征。  
> **6. 数据备份完整率 (%)**  
> **理由**：备份完整性是技术流程执行结果，与杠杆率或大股东持股比例等治理特征无关。  
> **7. 网络攻击防御成功率 (%)**   
> **理由**：防御成功率取决于安全技术 (如防火墙规则)，不受管理层风险态度或独立董事占比影响。  
> **8. 监管罚单涉及数字技术的金额占比**  
> **理由**：罚单金额由监管机构裁定，属于外部强制披露内容，与公司内部治理风格无关。  
> **9. AI模型偏差投诉次数**  
> **理由**：投诉次数由算法客观表现和用户反馈驱动，不受管理层主观决策影响。  
> 
> &nbsp;
> 
> **排除的因素及理由**：  
> 以下因素可能受潜在混淆因素 (如管理层风格) 干扰，因此不入选：  
> 1. **网络安全投入占IT预算比例**：反映管理层风险偏好 (高投入=保守风格)。  
> 2. **员工网络安全培训完成率**：受人力资源政策影响，与公司治理相关。  
> 3. **隐私投诉案件增长率**：可能隐含管理层对用户数据的处理策略。  
> 4. **数字化转型项目延期率**：与项目管理能力 (管理层风格) 强相关。  
> 5. **数字资产加密覆盖率**：可能受管理层技术投资决策驱动。  
>
> &nbsp;
> 
> **总结**：所选9个因素均为**技术结果型指标** (如宕机时长、罚单金额) 或**外部驱动型指标** (如供应商合规、云服务SLA)，其数值由客观技术缺陷或第三方行为决定，与公司治理特征或管理层风格无关。但在MD&A中，这些数据的披露方式 (如是否详细说明、是否对比行业基准) 仍会影响投资者对数字技术风险的感知，从而间接影响托宾Q值。


不难发现，大语言模型选取的工具变量有如下特点：**来源于更具体现实的情景，而非是来自于过往文献。** 相比较于参考过往文献，利用大语言模型选取工具变量的好处在于，通常能发现新的、文献中没有的工具变量，且大语言模型会对其排他性、相关性和独立性有更有创意的表述，有助于研究者的论文写作。


但是，大语言模型提出的工具变量通常较新，可能需要研究者花更多的时间精力去寻找相关数据进行构造。因此，是否使用大语言模型提出的工具变量，或者依然采用传统文献中的工具变量，需要结合具体的研究设计和数据来考量。



&emsp;

## 参考资料

- Han, S., 2024, Mining Causality: AI-Assisted Search for Instrumental Variables. [-Link-](https://arxiv.org/abs/2409.14202), [-PDF-](https://arxiv.org/pdf/2409.14202)
- 陆瑶, 施函青 & 周欣怡. , 2025, 中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据. 经济研究, 60 (02), 73-89. [-Link-](https://kns.cnki.net/kcms2/article/abstract?v=Bo5Zm1RyAik1461RDk0nVoxjhtrA7wJcaQ6oaZ-T9m2SOAG5wulgH_fUcE9A3cmznfs_nQ1EPD8LDNfDUCjLyAjZm8AdjF-ARDNI8tciZOHJs-8xCk9Vfa17Ns9kE3uWuLf8ZHkBmwv599dVhksh1sk7VUnPVGMJBlqN_KAouActtOdQ9cfpmg==&uniplatform=NZKPT&language=CHS), [-PDF-](https://res.ajcass.com/UploadFile/Issue/201803050001/2025/4//20250411071318WU_FILE_0.pdf)
- 苗玲玲 ,2023, 新形势下网络信息安全及规制研究. 网络安全技术与应用, (1), 158-159. [-Link-](https://kns.cnki.net/kcms2/article/abstract?v=Bo5Zm1RyAikyx-sGgYAW_X7Qqnmd8_fq5JdXTbvGMS38yn3pkq1VWkClK6XZkq3RNU4Pbk7AhiVmFvowJLqgry0qnbz54YUfiOEf9s0P0aMUa--MXQcs_IcRJ7BjDjzqySW90YSV46ie6mYWDSCzQsrYJoIoNZGd_aMjPMZHcTgN0QYzmF-bjA==&uniplatform=NZKPT&language=CHS)
- Acemoglu, D., & Restrepo, P. , 2020 , Robots and jobs: Evidence from US labor markets. Journal of political economy, 128(6), 2188-2244. -[-Link-](https://www.journals.uchicago.edu/doi/abs/10.1086/705716), [-PDF-](https://shapingwork.mit.edu/wp-content/uploads/2023/10/Robots-and-Jobs-Evidence-from-US-Labor-Markets.p.pdf)


