# 案例：AI 解读 Wing (2024)

&emsp; 

本章以 Wing et al. (2024) 的论文为例，介绍如何使用 AI 工具来解读论文。

与 ChatGPT 的对话过程：[点击查看](https://chatgpt.com/share/6883cbb0-f6e8-8005-98b7-b8e1692b9332)。

此前，我也用豆包帮我读过这篇论文，参见 [豆包对话过程](https://www.doubao.com/thread/w8e524bfc59a644e2)。



## 泛聊并形成大纲

我把 Wing et al. (2024) 的论文上传到 ChatGPT，并编写了如下提示词：

::: {.callout-tip}
### 提示词 1：泛聊

#论文解读：

```md
> Wing, C., Yozwiak, M., Hollingsworth, A., Freedman, S., & Simon, K. (2024). Designing Difference-in-Difference Studies with Staggered Treatment Adoption: Key Concepts and Practical Guidelines.  
Annual Review of Public Health, 45(1), 485–505.  
[Link](https://doi.org/10.1146/annurev-publhealth-061022-050825).
```

我想写一篇论文推介，介绍这篇论文。

你帮我列个提纲。包括如下要点：

1. 论文的核心观点和主要结论是什么？
2. 文中介绍了哪些主要方法 (参见 Table 1)？
3. 作者提供了哪些实操建议？参见 Section 5
:::

ChatGPT 的回答简明扼要，基本上抓住了这篇论文的要点。让我有点惊喜的是，它居然还贴心地列了一个表格，把文中提到的五种方法对应的 Stata 和 R 实现命令也总结好了。

::: {.callout-note}
### 回复 1：ChatGPT 首轮回答


\## 1. 论文的核心观点与主要结论

* **核心问题**：传统 DID 在处理“分期处理”（staggered adoption）时会面临严重的混淆偏误（confounding），尤其是在存在**时间异质性处理效应**的情况下。
* **关键结论**：

  * 两大核心理念：

    1. **复杂 DID = 简单 2×2 DID 的加权平均**，理解这一点有助于解析 TWFE 存在哪些“坏的比较”；
    2. **干净的控制组（clean controls）设计**是避免偏误的关键。
  * TWFE 估计量存在混杂：它不仅包括“treated vs untreated”，还包括“late vs early”这种有偏比较；
  * **推荐使用的新方法**（如 stacked DID 和 Callaway & Sant’Anna 方法）能更清楚地识别组 × 时间的异质性效应，并给出更可信的平均处理效应。

\## 2. 文中介绍的主要方法（Table 1）

| 方法                                           | 软件支持                       | 输出内容                | 优点                       | 注意事项           |
| -------------------------------------------- | -------------------------- | ------------------- | ------------------------ | -------------- |
| **Stacked DID**                              | STATA/R 通用实现               | 加总或 event study 图   | 保证干净控制组；结构直观             | 权重不透明；标准误需聚类   |
| **Callaway & Sant’Anna (2021)**              | `did` (R), `csdid` (Stata) | 所有 ATT(a, t)，可自定义加权 | 明确估计每个 group × time 效应   | 稍复杂；推荐用包       |
| **Gardner (2022)**                           | `Did2s` (R)                | 加总效应或 event study   | 利用未处理组构建双重残差             | 加权等权，需理解设计     |
| **Sun & Abraham (2020)**                     | `eventstudyinteract`       | event study 图       | 区分 group × period 的处理异质性 | 无法处理时间变化协变量    |
| **Wooldridge (2022)**                        | 回归可实现                      | ATT(a, t)，加总 ATT    | 可以纳入时间变协变量               | 无专门包           |
| **de Chaisemartin & D’Haultfoeuille (2020)** | `did_multiplegt`           | 单一加总效应              | 利用“状态切换”识别处理效应           | 假设较强，解释为首次变化效应 |

\## 3. 作者提供的实操建议（Section 5）

作者提出了 6 条实用建议，帮助研究者在实际操作中避免偏误和提升估计质量：

1. **明确定义研究问题**：是否目标是估计长期效应？平均效应？还是事件时间上的动态路径？
2. **数据准备中避免混淆比较**：识别每个组的处理时间，排除已经处理过的“污染对照组”。
3. **慎用 TWFE 回归**：除非确认处理效应恒定，否则应避免直接使用。
4. **优先使用 event-study 构建组 × 时间 ATT**：推荐 Callaway & Sant’Anna 或 stacked DID 实现。
5. **合理使用协变量调整**：特别是时间不变协变量，可用于强化并行趋势假设。
6. **图形化展示 ATT 路径和 pre-trend 检验**：通过 event-study 图来验证 no anticipation 和 common trends 假设。

---

如需将其撰写为一篇推文文章或教学讲义，我可以按结构扩写每节内容，并添加图例说明和代码演示。是否继续？


:::

我担心自己遗漏重要内容，便追问：

::: {.callout-tip}
### 提示词 2：补充内容

除了我提供的三个要点，你认为这篇论文推介海英包含哪些要点？

:::



ChatGPT 认为需要再补充三个要点：


::: {.callout-note}
### 回复 2：ChatGPT 补充回答

很好的问题。在你已指定的三个要点基础上（核心观点、主要方法、实操建议），为了使这篇论文推介更系统、完整、适合教学与学术传播用途，我建议**增加以下 3 个要点**，一共构成 **6 个板块**的完整推介结构：

---

\## 4. 样例设计与图形直观解释（Section 2）

* **推荐加入理由**：作者构造了一个关于磺胺药物（sulfa drugs）分期推出的模拟案例，并通过图形展示了不同组别（早期、中期、晚期、未处理）在 mortality 变化上的差异。
……

---

\## 5. 异质性与 TWFE 偏误的来源与后果（Section 3.5）

* **推荐加入理由**：该部分系统总结了 TWFE 偏误的数学机制（由 Goodman-Bacon 提出），是该领域的核心争议之一。
……

---

\## 6. 软件与实操实现建议（Section 4.3, Table 1）

* **推荐加入理由**：Table 1 对当前主流 DID 实现方法做了清晰对比，有利于读者选择合适的工具。
……
* **建议用途**：可以补充一个附录，提供 R 和 Stata 用户分别应如何使用这些方法（如 `csdid`、`did_multiplegt`、`eventstudyinteract` 等）。

---

## 总结：建议的论文推介结构（共 6 节）

1. 论文核心观点与主要贡献（What and Why）
2. 主流估计方法与适用情境（Table 1）
3. 作者的实操建议与方法选择（Section 5）
4. 教学案例与图形展示（sulfa drugs 模拟实验）
5. TWFE 的偏误与异质性陷阱（Goodman-Bacon decomposition）
6. 软件工具与实证操作建议（含软件包、命令、标准误估计等）

:::



虽然我对这个结构比较满意，但我担心 AI 写东西太过教条，或者过于简略。于是，我设定了读者的角色、他们的知识背景，并征询 AI 对篇幅的看法。

::: {.callout-tip}
### 提示词 3：细化提纲

如果想写一篇适合初学者，主要是博士生和青年老师，他们的理论基础有些薄弱，希望能能通过通俗的语言，简明扼要的数学公式了解文中提到的各种方法的要点、适用场景和结果的解释方法。  
我应该如何安排这篇论文的结构和篇幅，每个部分大概多少字？

:::


::: {.callout-note}
### 回复 3：ChatGPT 列出的细化提纲

非常好的设问。

我建议这篇文章安排为如下 **7 个部分**，总篇幅建议控制在 **8000–10,000 字左右（中文字符）**，既适合长推文，也便于改写为课程讲义或公众号文章。

---

\## 拟定结构与篇幅建议

| 序号 | 模块标题                                | 内容要点                                                                                                                                                                                                        | 建议字数      |
| -- | ----------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------- |
| 1  | **导言：分期处理的 DID 为什么值得关注？**           | - 现实案例（如政策滚动式推出）<br>- TWFE 的流行与质疑<br>- 本文阅读指南与学习目标                                                                                                                                                          | 600–800   |
| 2  | **直觉解释：DID 的本质与“分期处理”的陷阱**          | - 用简单例子解释 2×2 DID 的逻辑<br>- Goodman-Bacon decomposition 的直觉化说明（配图）<br>- “坏的比较”如何引入偏误                                                                                                                         | 1000–1500 |
| 3  | **最常用的几种估计方法：思想、公式与适用场景**           | - 逐一介绍以下方法：<br>  a. TWFE（回顾）<br>  b. Stacked DID<br>  c. Callaway & Sant'Anna (csdid)<br>  d. Sun & Abraham<br>  e. Gardner (did2s)<br>  f. de Chaisemartin & D’Haultfoeuille<br>- 每种方法配一句话直觉、一组简要公式、一个适用场景 | 3000–3500 |
| 4  | **一个教学例子：sulfa drugs 与死亡率（图 + 模拟）** | - 作者构建的模拟示例介绍<br>- 图 1 与图 2 解读：每组死亡率的变化逻辑；哪些 DID 比较是有偏的                                                                                                                                                     | 800–1000  |
| 5  | **推荐的分析策略：设计、估计与解释的 checklist**     | - Section 5 的总结<br>- 6 条建议的通俗表达与应用建议<br>- 表格呈现每条建议与推荐方法                                                                                                                                                     | 800–1000  |
| 6  | **结果解读技巧：估计量、ATT、Event Study 的含义**  | - 估计的 ATT 是哪个？<br>- 如何理解组 × 时间的动态路径？<br>- 如何做稳健性分析（pre-trend）？                                                                                                                                              | 600–800   |
| 7  | **附录：软件实现对照表与入门路径推荐**               | - R 与 Stata 的软件包对应<br>- 推荐教程、代码仓库（如作者的 GitHub）<br>- 延伸阅读（几篇核心综述文献）                                                                                                                                          | 600–800   |
……

如你愿意，我可基于该结构逐一撰写每一节，并配合教学/推文风格的 markdown 文稿。是否开始撰写第一节？或者是否要我提供一个样板段落？
:::

看到这个提纲后，我意识到，我这篇推介应该重点强调「实操建议」，这是读者最关心的内容。为此，我编写了如下提示词：

::: {.callout-tip}
### 提示词 4：局部修正

这篇推文的主要目的是给读者提供一些实操建议，因此，各个 section 的内容尽量循序渐进，确保各个模型的介绍与 Section 5 中的实操建议能有机衔接，让读者看完这篇推介后能上手应用到自己的论文中。

:::

AI 对提纲你进行了调整，并给出了一个更为详细的结构 ([详情参见原始对话](https://chatgpt.com/share/6883cbb0-f6e8-8005-98b7-b8e1692b9332))，受限于篇幅，这里进列出它的提供的总结：

::: {.callout-note}
### 回复 5：ChatGPT 进一步细化写作提纲

非常好，我已理解你的目标：这篇推文不仅是综述，更是实践指南，要让初学者「看得懂、用得上、写得进论文」。基于这个要求，我对之前的结构做了进一步优化，以实现 `从直觉启发 → 方法入门 → 模拟案例 → 实操建议` 的自然过渡，并确保每个方法介绍最终都能在 Section 5 实操建议中找到落地应用。

:::

## 撰写论文推介正文

接下来的工作就很简单了：按照上面的提纲，逐步撰写每个部分的内容。

此时，建议明确说明对正文的撰写要求。比如，是否需要使用教学风格的语言，是否需要配合图表，是否需要提供代码示例等。

下面是我经过长时间打磨形成的一个比较稳定的提示词：

::: {.callout-tip}
### 提示词 6：撰写正文

按照 {优化后的推文结构（强调“实操衔接”）} 的结构来写，每个 section 输出一次。   
字数严格按照计划执行，不要缩减。

格式要求：

1. 按照 ## 1. sec_title;  ### 1.1 sub_sec_title 的方式编号 ；每个 section 添加一个标签 {lab-sec#}，便于后续修改时定位
2. 语言风格：中文讲义，20 年从教的老教授的风格，语言平和，准确，有力
3. 不要使用任何表情符号
4. 重要文献和链接务必在文中 提供超链接，文末提供完整的引文信息
5. 引文信息尽量使用如下格式，如果 PDF 链接无法获取，可以留空或删除 `[-PDF-]()` 部分的信息
    引文信息采用 APA 格式，附加 `[Link](), [PDF](), [Google](), [github]()` 信息。即：
    Authors. ({Year}). {title_of_paper}, 45(1), 485–505. `[Link](https://doi.org/{DOI}), [PDF](http://sci-hub.ren/{DOI}), [Google](<{title_of_paper}>), [github-replication](https://github.com/{ID}/{rep_name})`     
6. 文中的例子最好具体化，并保持全文一致，逐步推进和扩展。

:::

细心的读者可能会注意到，我在提示词的第一行，用比较严肃的语气写到「**字数严格按照计划执行，不要缩减。**」。这是因为，有些 AI 工具经常会「偷工减料」。虽然到目前我还没有完全搞清楚背后的原因，但大体上应该有如下可能：由于内存的限制，多数 AI 工具只能记住最近的 1-2 个对话的内容；此外，也有可能某些参数的设定，使之倾向于提供较为简洁的回答。为了避免这种情况，我在提示词中明确要求它严格按照计划的字数来输出结果。


## 最终文稿

ChatGPT 输出的 Section 1 的内容基本符合我的要求。然后他开始输出 Section 2 的内容，并询问我是否需要继续输出。我给出了如下提示词，然后陪儿子去楼下散步 (回来后就可以收割所有输出结果了)。

::: {.callout-tip}
### 提示词 6：连续输出

继续输出所有 sections，无需停顿

:::

> &#x1F449; [点击查看](05_02_Wing-2024.html) 最终成稿。