# 利用 AI 生成研究假设

我主要受到了 [Korinek (2023)](https://doi.org/10.1257/jel.20231736) 的启发。Korinek 教授为这篇文章建立了一个专门的网站：[]()

- [ideantion](https://genaiforecon.org/subs/ideation.html), [github](https://github.com/genaiforecon/site)

- 吴欣洋, 2025, [AI自动生成研究假设，靠谱吗？流程与挑战](https://www.lianxh.cn/details/1588.html)

# AI助力：基于大语言模型的研究假设论证

> **作者：** 杜新月 (中国科学技术大学) 
> **邮箱：** <xinyuedu97@gmail.com>  

---


## 1. 为什么用AI帮忙“做假设”？

在学术研究中，提出好问题比找到答案更难。**假设生成（Hypothesis Generation）**是整个研究流程中最具创造性的一环，但往往也最依赖经验和灵感。

近年来，随着**大语言模型（LLMs）**的快速发展，研究者开始探索其在“提出假设”这一阶段的潜力。尤其是以下两篇文章，为我们提供了新的视角：

- **Ludwig 和 Mullainathan（2024）**：强调用机器学习工具理解数据结构、发现变量之间潜在的因果关系；
- **Batista 和 Ross（2024）**：主张通过语言建模从文献中“读出”作者潜在的理论假设。

这两条路线都是：**让AI成为理论生成的“辅助脑”**，成为科研的“灵感伙伴”。


---

## 2. 怎么写出“有启发性”的 Prompt？

如果你希望大语言模型像个靠谱的科研助理，那你得先学会怎么吩咐它——也就是写好提示词（Prompt）。

一个好的 Prompt 通常具备以下特点：

- **明确背景**：数据类型、研究领域、已知事实；
- **聚焦任务**：是要生成假设、还是评估已有假设？
- **控制风格**：例如强调创新性、理论一致性、可实证性等。

下面是两篇论文中直接使用的原始 Prompt 模板，建议大家参考或套用：

### 📘 Ludwig & Mullainathan（2024）提示词

- **生成假设（Hypothesis Generation）**
  > “Given the following dataset characteristics and research context, generate plausible and novel hypotheses that could be empirically tested. Focus on potential causal relationships and mechanisms.”

- **验证假设（Hypothesis Evaluation）**
  > “Evaluate the plausibility of the following hypothesis based on existing economic theories and relevant empirical evidence. Provide reasoning to support or refute it.”

📝 **实际应用场景：**  
你可以将变量描述、样本信息、已有研究结论打包输入，让模型提出具有因果推理的假设。

---



## 3. 实战示例：如何从 Prompt 到 初步假设？

假设你在研究**远程办公对员工生产率的影响**，你可以这样写 Prompt：

> **Prompt 示例：**  
> You are a social science researcher. Based on the dataset describing remote work adoption, employee demographics, and performance metrics, generate three novel and testable hypotheses regarding the effects of remote work on productivity and well-being.

---

### 模型可能输出的初步假设：

1. **Remote work increases productivity among employees with caregiving responsibilities.**  
   👉 远程办公为照顾家庭的员工提供更大的时间灵活性，从而提升他们的工作效率。

2. **The effect of remote work on productivity is moderated by prior digital literacy.**  
   👉 掌握数字工具的员工可能比“技术新手”更能适应远程办公，从而实现更高效率。

3. **Long-term remote work leads to a decline in team-level innovation output.**  
   👉 缺乏面对面的互动可能削弱团队之间的创意碰撞和合作氛围。

---

### 你可以如何用这些假设？

这些假设虽然未经实证检验，但它们具备三个特征：

- **有可测变量**：如 caregiving status、digital literacy、innovation output。
- **有机制逻辑**：不是“表面相关”，而是有潜在因果路径。
- **可转为模型设计**：每条都可以发展为回归模型中的交互项或中介变量框架。

你可以基于它们设计问卷、调用现有数据集（如 American Time Use Survey 或 CPS）、搭建量化模型等。

---

### 提问小技巧：

- **提供更多上下文**：描述数据集包含哪些变量，研究场景是什么。
- **控制输出风格**：加上一句 “Generate hypotheses in a bullet point format, and explain briefly the reasoning for each.” 会更清晰。
- **鼓励多轮对话**：可以先让模型列出研究方向，再针对其中一个细化。

---


## 4. 使用提示词时的几点注意

- **不要太空泛**：不要直接说“给我一个假设”，要加上数据/背景/变量等信息。
- **可以迭代式提问**：先让模型列出多个方向，再逐一展开。
- **加上语料/表格更好**：模型“有料”才“出活”。
- **不要迷信 AI 输出**：它的答案是“启发性”而非“定论”。

---


## 5. 原始论文与学习资料

- **Ludwig, J., & Mullainathan, S. (2024).**  
  _Machine Learning as a Tool for Hypothesis Generation._  
  The Quarterly Journal of Economics, 139(2), 751–827.  
  🔗 [论文主页（QJE）](https://doi.org/10.1093/qje/qjad055)  
  📄 [PDF 下载](https://bpb-us-w2.wpmucdn.com/voices.uchicago.edu/dist/3/1161/files/2024/02/QJE-machine-learning-for-hypothesis-generation-202461-8f8c19422434d44d.pdf)  

- **Batista, R., & Ross, J. (2024).**  
  _Words that Work: Using Language to Generate Hypotheses._  
  SSRN Working Paper, July 01, 2024.  
  🔗 [SSRN 页面](https://ssrn.com/abstract=4926398)  
