# 如何借助 AI 寻找工具变量？

## 简介

内生性是因果推断中最关键的问题，在处理内生性问题的方法中，工具变量是最常用的方法之一。但寻找有效的，还要满足排他性限制 (exclusion restrictions) 的工具变量，主要依赖于作者的说理论证，这一过程对写作者的说理能力和创造力的要求是很高的。因此，本文提出利用**大型语言模型 (LLMs)** 来辅助发现新的工具变量。

在最近的一篇论文中，Han (2024) 提出了一个基于 LLMs 的工具变量搜索方法，称为 FindIt-IV。该方法通过与 LLMs 的交互，帮助研究者在特定的论文情景下快速找到潜在的工具变量。

- Han, S. (2024). Mining Causality: AI-Assisted Search for Instrumental Variables (Version 3). arXiv. [Link](https://doi.org/10.48550/arXiv.2409.14202) (rep), [PDF](https://arxiv.org/pdf/2409.14202.pdf), [Google](<https://scholar.google.com/scholar?q=Mining Causality: AI-Assisted Search for Instrumental Variables (Version 3)>)。

作者认为，使用大语言模型搜索工具变量有如下好处：

- 在特殊的论文情景下，实现快速搜索工具变量；
- 与大语言模型互动，可以在自己的研究领域发现更多新的工具变量；
- 利用大语言模型系统搜索工具变量，可以提高获取多个工具变量的可能性，有助于研究者通过过度识别检验来验证多工具变量的有效性；
- 利用大语言模型找到更多的工具变量，有助于研究者提高给 IV 找到合适数据的机会，或者指导研究者通过其他算法或者实验找到工具变量所需的数据。

作者在原文中，根据工具变量需要满足的一系列假设，为读者提供了利用大语言模型搜索工具变量可操作的方法和提示词。在最后，本推文也展示了一个中文顶刊中的文献情景，利用大语言模型为这篇文章搜索更多工具变量的案例。

中山大学的张弛同学使用该文的思路，分析了一篇中文顶刊文章，利用大语言模型为这篇文章搜索更多的工具变量。详情参见：张弛, 2025, [找不到IV？如何借助大语言模型寻找工具变量](https://www.lianxh.cn/details/1575.html)。

下面，我介绍我最近在做的一篇文章是如何借助 AI 寻找工具变量的。

我要研究的问题是：政府引导基金能否降低产业链上的长鞭效应。解释变量是一个虚拟变量，如果一家公司受到了政府引导基金的资助，对应的数值取 1，否则的话取 0。背景式变量是文献里面常用的用来衡量产业链上长边效应的指标。

模型设定如下：

$$
Y = \beta_0 + \beta_1 D + \beta_2 X + \varepsilon_i
$$




## 对话思路

> 完整讨论过程：[ChatGPT](https://chatgpt.com/share/67ded832-79bc-8005-bbdb-7a79ebd755c7)

::: {.callout-tip}
### 提示词思路

1. 简要介绍了我的问题背景，询问 AI 我研究的问题中是存在哪些可能的内生性问题；
   
2. 让 AI 帮我分析这些内生性问题的可能来源，并分析机制；
3. 询问「遗漏变量」偏误应该如何应对？
4. 聚焦到 IV 上，让 AI 提供 5 个备选的 IV，并论证其合理性 (相关性、外生性和排他性)；
5. 逐一论证每个 IV 的合理性 (从外生性、相关性和排他性三个角度分析)，并给出可能的后门路径；
6. 模型设定：为了关闭后门路径，询问 AI 我需要控制哪些变量；
7. 可行性：询问 AI 工具变量的具体定义，数据来源等；
8. 让 AI 对所有 IV 进行综合评价，给出推荐的 IV。

:::



## 主要提示词

> 完整讨论过程：[ChatGPT](https://chatgpt.com/share/67ded832-79bc-8005-bbdb-7a79ebd755c7)

::: {.callout-tip}
### 提示词


> **Prompt** 01:  
我正在做一篇实证分析的文章。我研究的问题是政府引导基金能否降低产业链上的长鞭效应。解释变量是一个虚拟变量，如果一家公司受到了政府引导基金的资助，对应的数值取1，否则的话取0。背景式变量是文献里面常用的用来衡量产业链上长边效应的指标。
>   
> 我研究的这个问题是否存在一些潜在的内生性的问题，有哪几种可能的来源？

> **Prompt** 02:  
对于 2. 遗漏变量 (Omitted Variable Bias)，我有哪些可以采用的实证研究方法？

> **Prompt** 03:  
能否具体讨论一下，在我的研究背景下，可能遗漏了哪些重要的变量？遗漏问题如何影响我的统计推断？

> **Prompt** 04:  
 如果我想采用 IV 估计，能否提供 5 个备选的 IV，并论证其合理性 (相关性、外生性和排他性)。最好有明确的理论和文献依据。

> **Prompt** 05:  
如果使用 「地方政府财政压力 (比如，用地方政府财政赤字率或债务水平来衡量)」作为 IV 是否可以？

> **Prompt** 06:  
财政压力是否会通过其他渠道影响长鞭效应？这些变量是否需要控制？

> **Prompt** 07:  
你分析的很好，但我无法在论文中控制太多的变量。如果只选择三个变量来控制，以满足排他性要求，我应该选择哪三个？我在正文中是否需要绘制一个 DAG 图形来辅助论述？

> **Prompt** 08:  
这些变量都是宏观层面的变量 (我的基本数据是 firm-year 层面的)，这就意味着我无法在模型中加入 i.year 了，但这可能导致我遗漏了一些不可观察的宏观层面的时序变量。我该如何应对？

> **Prompt** 09:  
很好，你把咱们的讨论整合一下，写一个详细的研究笔记：
1. 问题背景
2. 内生性问题分析
3. 工具变量的选择和讨论
4. IV-地方财政压力：选择依据、合理性分析、……

> **Prompt** 10:  
可以写的更详细一些，把我们之前讨论过程中很多细节写进来

> **Prompt** :  

我们现在讨论一下使用「地方政府财政赤字率」和「地方债务水平」做工具变量的合理性。

1. 分别从外生性、相关性、排他性三个角度进行分析。

2. 对于排他性，分析三种潜在的渠道(W1, W2, W3)，以便我在模型中选择合理的控制变量以便关闭这些潜在的后门路径。Z --> (W1 | W2 | W3) --> Y。
     
3. 注意：W1-W3 这三个变量必须要有明确的定义，以便我能找到对应的数据，衡量这些变量。

:::


## 例子：“地方政府财政赤字率” 作为工具变量的合理性论证

我对 AI 建议的「地方政府财政赤字率」和「地方债务水平」这两个工具变量比较感兴趣。然而，在正式使用之前，还需要对这两个变量作为工具变量的合理性分析，否则，我们在论文中是无法写清楚的。

> 完整讨论过程：[ChatGPT](https://chatgpt.com/share/67ded832-79bc-8005-bbdb-7a79ebd755c7)

::: {.callout-tip}
### 提示词：讨论工具变量的合理性

> 我们现在讨论一下使用「地方政府财政赤字率」和「地方债务水平」做工具变量的合理性。
> 1. 分别从外生性、相关性、排他性三个角度进行分析。  
> 2. 对于排他性，分析三种潜在的渠道(W1, W2, W3)，以便我在模型中选择合理的控制变量以便关闭这些潜在的后门路径。Z --> (W1 | W2 | W3) --> Y。注意：W1-W3 这三个变量必须要有明确的定义，以便我能找到对应的数据，衡量这些变量。
:::

### AI 的回答

::: {.callout-note}
### ChatGPT 的回答

下面详细分析使用「**地方政府财政赤字率 (Deficit Ratio)**」与「**地方债务水平 (Debt Level)**」作为工具变量（IV）的合理性，包括从外生性、相关性和排他性三个维度的分析，以及排他性可能受到破坏的三种潜在渠道（W1, W2, W3），并明确给出这些渠道变量的定义与度量方法。
:::


> [点击查看详情](08_findit_IV_example_Q8.html)



