From a156f78558592f30fb16fbef34c01e2a64b1c5d9 Mon Sep 17 00:00:00 2001 From: nisha617 Date: Thu, 21 Aug 2025 23:53:47 +1000 Subject: [PATCH 1/3] Add files via upload --- lectures/util_rand_resp.md | 124 ++++++++++++++++++------------------- 1 file changed, 61 insertions(+), 63 deletions(-) diff --git a/lectures/util_rand_resp.md b/lectures/util_rand_resp.md index 8423b67..e46b1de 100644 --- a/lectures/util_rand_resp.md +++ b/lectures/util_rand_resp.md @@ -23,11 +23,11 @@ import numpy as np ## 概述 -{doc}`这篇 QuantEcon 讲座 ` 描述了 Warner {cite}`warner1965randomized` 传统中的随机回答调查,这种调查旨在保护受访者的隐私。 +{doc}`这篇 QuantEcon 讲座 ` 描述了传统的 Warner {cite}`warner1965randomized` 随机回答调查,这种调查旨在保护受访者的隐私。 -Lars Ljungqvist {cite}`ljungqvist1993unified` 分析了受访者是否如实回答的决定如何取决于**期望效用**。 +Lars Ljungqvist {cite}`ljungqvist1993unified` 分析了受访者是否如实回答如何取决于**期望效用**。 -该讲座讲述了 Ljungqvist 如何使用他的框架来阐明其他研究者提出的替代性随机回答调查技术,例如 {cite}`lanke1975choice`、{cite}`lanke1976degree`、{cite}`leysieffer1976respondent`、{cite}`anderson1976estimation`、{cite}`fligner1977comparison`、{cite}`greenberg1977respondent`、{cite}`greenberg1969unrelated`。 +本讲座讲述了 Ljungqvist 如何使用他的框架来阐明其他研究者提出的替代性随机回答调查技术,例如 {cite}`lanke1975choice`、{cite}`lanke1976degree`、{cite}`leysieffer1976respondent`、{cite}`anderson1976estimation`、{cite}`fligner1977comparison`、{cite}`greenberg1977respondent`、{cite}`greenberg1969unrelated`。 ## 隐私度量 @@ -54,12 +54,12 @@ $$ (eq:util-rand-one) ### Leysieffer 和 Warner(1976) -如果响应$r$相对于$A$或$A^{'}$满足以下条件,则被视为具有危害性: +如果回答 $r$ 相对于 $A$ 或 $A^{'}$ 满足以下条件,则被视为具有危害性: $$ \begin{aligned} \text{Pr}(A|r)&>\pi_A\\ -\text{or}&\\ +\text{或}&\\ \text{Pr}(A^{'}|r)&>1-\pi_A \end{aligned} $$ (eq:util-rand-two) @@ -70,31 +70,31 @@ $$ \frac{\text{Pr}(A|r)}{\text{Pr}(A^{'}|r)}\times \frac{(1-\pi_A)}{\pi_A} = \frac{\text{Pr}(r|A)}{\text{Pr}(r|A^{'})} $$ (eq:util-rand-three) -如果这个表达式大于(小于)1,则表明$r$相对于$A$($A^{'}$)具有危害性。因此,危害性的自然度量将是: +如果这个表达式大于(小于)$1$,则表明 $r$ 相对于 $A$ ($A^{'}$)具有危害性。因此,危害性的自然度量将是: $$ \begin{aligned} g(r|A)&=\frac{\text{Pr}(r|A)}{\text{Pr}(r|A^{'})}\\ -&\text{and}\\ +&\text{和}\\ g(r|A^{'})&=\frac{\text{Pr}(r|A^{'})}{\text{Pr}(r|A)} \end{aligned} $$ (eq:util-rand-four) -假设在不失一般性的情况下,$\text{Pr}(\text{yes}|A)>\text{Pr}(\text{yes}|A^{'})$,则"是"("否")的回答相对于$A$($A^{'}$)具有危害性,即: +不失一般性地假设 $\text{Pr}(\text{yes}|A)>\text{Pr}(\text{yes}|A^{'})$,则"是"("否")的回答相对于$A$ ($A^{'}$)具有危害性,即: $$ \begin{aligned} g(\text{yes}|A)&>1\\ -\text{and}&\\ +\text{和}&\\ g(\text{no}|A^{'})&>1 \end{aligned} $$ Leysieffer和Warner证明,估计的方差只能通过增加这两个危害性度量中的一个或两个来降低。 -因此,一个有效的随机化响应模型就是在与受访者合作一致的情况下,达到最大可接受危害性水平的任何模型。 +因此,一个有效的随机回应模型应在保证受访者配合的前提下,达到所能承受的最大风险水平。 -作为一个特例,Leysieffer和Warner考虑了"一个'否'的回答不具有危害性的问题";也就是说,$g(\text{no}|A^{'})$可以是无限大的。 +作为一个特例,Leysieffer和Warner考虑了一个“否”的回答不具有危害性的问题;也就是说,$g(\text{no}|A^{'})$可以是无限大的。 显然,最优设计必须满足 @@ -115,7 +115,7 @@ Lanke (1975) {cite}`lanke1975choice` 认为"人们可能想要隐藏的是属于 因此,Lanke (1976) {cite}`lanke1976degree` 认为一个合适的保护度量是最小化 $$ -\max \left\{ \text{Pr}(A|\text{yes}) , \text{Pr}(A|\text{no}) \right\} +\max \left\{ \text{Pr}(A|\text{yes}), \text{Pr}(A|\text{no}) \right\} $$ (eq:util-rand-five-a) 在保持这个度量不变的情况下,他解释了在什么条件下,使用无关问题模型或Warner (1965)的原始模型可以获得最小方差估计。 @@ -134,9 +134,7 @@ $$ (eq:util-rand-six) {cite}`greenberg1977respondent` -Greenberg, Kuebler, Abernathy和Horvitz (1977)强调了检查不属于A组的受访者风险以及属于敏感群体的受访者风险的重要性。 - -他们将A组个体的风险定义为被认为属于A组的概率: +Greenberg, Kuebler, Abernathy和Horvitz (1977) 强调,不仅要考虑 $A$ 组成员的风险,还要考虑 $A'$ 组成员的风险。他们定义在 $A$ 组个体身上的风险为这一个体被认为属于A组的概率: $$ @@ -151,7 +149,7 @@ $$ (eq:util-rand-seven-b) Greenberg等人(1977)还考虑了另一个相关的风险度量,"这可能更接近受访者实际感受到的担忧。" -对于在$A$和$A^{'}$中的个体,其"有限风险"分别为 +对于在 $A$ 和 $A^{'}$ 中的个体,其"有限风险"分别为 $$ \text{Pr}(\text{yes}|A)\times \text{Pr}(A|\text{yes}) @@ -169,53 +167,53 @@ $$ (eq:util-rand-eight-b) ### 真实边界 -用于估计属于$A$的人群比例的随机回答技术的关键假设是: +用于估计属于 $A$ 的人群比例的随机回答技术的关键假设是: - **假设1**: 受访者对被认为属于$A$感到不适。 - **假设2**: 只要代价不太高,受访者更倾向于如实回答问题而不是撒谎。这里的代价指的是假设1中的不适感。 -让$r_i$表示个体$i$对随机问题的回答。 +让 $r_i$ 表示个体 $i$ 对随机问题的回答。 -$r_i$只能取值"是"或"否"。 +$r_i$ 只能取值"是"或"否"。 -对于给定的随机回应访谈设计和关于属于集合$A$的人口比例的某个信念,受访者的回答与该个体属于$A$的条件概率$\text{Pr}(A|r_i)$相关联。 +对于给定的随机回答访谈设计和关于属于集合 $A$ 的人口比例的某个信念,受访者的回答与该个体属于 $A$ 的条件概率 $\text{Pr}(A|r_i)$ 相关联。 -在给定$r_i$和完全隐私的情况下,如果$r_i$代表真实答案而不是谎言,个体的效用会更高。 +在给定 $r_i$ 和完全隐私的情况下,如果 $r_i$ 代表真实答案而不是谎言,个体的效用会更高。 -就受访者的期望效用作为$\text{Pr}(A|r_i)$和$r_i$的函数而言: +就受访者的期望效用作为 $\text{Pr}(A|r_i)$ 和 $r_i$ 的函数而言: -- $\text{Pr}(A|r_i)$越高,个体$i$的期望效用越低。 +- $\text{Pr}(A|r_i)$ 越高,个体 $i$ 的期望效用越低。 -- 如果$r_i$代表真实答案而不是谎言,期望效用会更高。 +- 如果 $r_i$ 代表真实答案而不是谎言,期望效用会更高。 定义: -- $\phi_i \in \left\{\text{truth},\text{lie}\right\}$,一个二分变量,表示$r_i$是否为真实陈述。 +- $\phi_i \in \left\{\text{truth},\text{lie}\right\}$,一个二分变量,表示 $r_i$ 是否为真实陈述。 -- $U_i\left(\text{Pr}(A|r_i),\phi_i\right)$,一个对其第一个参数可微的效用函数,概括了个体$i$的期望效用。 +- $U_i\left(\text{Pr}(A|r_i),\phi_i\right)$,一个对其第一个参数可微的效用函数,概括了个体 $i$ 的期望效用。 -则存在一个$r_i$使得 +则存在一个 $r_i$ 使得 $$ -\frac{\partial U_i\left(\text{Pr}(A|r_i),\phi_i\right) }{\partial \text{Pr}(A|r_i)} <0, \text{ for } \phi_i \in \left\{\text{truth},\text{lie}\right\} +\frac{\partial U_i\left(\text{Pr}(A|r_i),\phi_i\right) }{\partial \text{Pr}(A|r_i)} <0, \quad \phi_i \in \left\{\text{truth},\text{lie}\right\} $$ (eq:util-rand-nine-a) 且 $$ -U_i\left(\text{Pr}(A|r_i),\text{truth}\right)>U_i\left(\text{Pr}(A|r_i),\text{lie}\right) , \text{ for } \text{Pr}(A|r_i) \in [0,1] +U_i\left(\text{Pr}(A|r_i),\text{truth}\right)>U_i\left(\text{Pr}(A|r_i),\text{lie}\right) , \quad \text{Pr}(A|r_i) \in [0,1] $$ (eq:util-rand-nine-b) -现在假设个体$i$的正确答案是"是"。 +现在假设个体$i$的真实答案是"是"。 -如果满足以下条件,个体$i$会选择如实回答: +如果满足以下条件,个体 $i$ 会选择如实回答: $$ U_i\left(\text{Pr}(A|\text{yes}),\text{truth}\right)\geq U_i\left(\text{Pr}(A|\text{no}),\text{lie}\right) $$ (eq:util-rand-ten-a) -如果正确答案是"否",个人$i$只有在以下情况下才会提供正确答案: +如果真实答案是"否",个体 $i$ 只有在以下情况下才会提供真实答案: $$ U_i\left(\text{Pr}(A|\text{no}),\text{truth}\right)\geq U_i\left(\text{Pr}(A|\text{yes}),\text{lie}\right) @@ -227,13 +225,13 @@ $$ \text{Pr}(A|\text{yes})>\pi_A>\text{Pr}(A|\text{no}) $$ -因此"是"的答案增加了个人属于$A$的概率。 +因此"是"的答案增加了个体属于 $A$ 的概率。 约束{eq}`eq:util-rand-ten-b`必定成立。 -因此,约束{eq}`eq:util-rand-ten-a`成为个人$i$始终如实回答的唯一必要条件。 +因此,约束{eq}`eq:util-rand-ten-a`成为个体 $i$ 始终如实回答的唯一必要条件。 -在等式情况下,约束$(10.\text{a})$确定了当正确答案为"是"时,使个人在说真话和说谎之间无差异的条件概率: +在等式情况下,约束 $(10.\text{a})$ 确定了当真实答案为"是"时,使个体在说真话和说谎之间无差异的条件概率: $$ U_i\left(\text{Pr}(A|\text{yes}),\text{truth}\right)= U_i\left(\text{Pr}(A|\text{no}),\text{lie}\right) @@ -249,13 +247,13 @@ $$ (eq:util-rand-twelve) 正相关关系的来源是: -- 只要说真话的效用(即{eq}`eq:util-rand-eleven`左侧)至少与说谎的效用({eq}`eq:util-rand-eleven`右侧)一样高,个人就愿意主动说出真实的"是"。 +- 只要说真话的效用(即{eq}`eq:util-rand-eleven`左侧)至少与说谎的效用({eq}`eq:util-rand-eleven`右侧)一样高,个体就愿意主动说出真实的"是"。 -- 假设现在$\text{Pr}(A|\text{yes})$增加。这会降低说真话的效用。为了保持说真话和说谎之间的无差异,$\text{Pr}(A|\text{no})$必须增加以降低说谎的效用。 +- 假设现在 $\text{Pr}(A|\text{yes})$ 增加。这会降低说真话的效用。为了保持说真话和说谎之间的无差异,$\text{Pr}(A|\text{no})$必须增加以降低说谎的效用。 ### 绘制真实边界 -我们可以推断出关于真实边界的两点: +我们可以推导出关于真实回答边界的两个结论: - 真实边界将条件概率空间分为两个子集:"说真话"和"说谎"。因此,充分的隐私会引出真实答案,而不充分的隐私则会导致谎言。真实边界取决于受访者的效用函数。 @@ -299,7 +297,7 @@ $$ U_i(\text{Pr}(A|r_i),\phi_i)=-\text{Pr}(A|r_i)+f(\phi_i) $$ -并在图1.2中绘制个体$i$的"说真话"和"说谎区域": +并在图1.2中绘制个体 $i$ 的"说真话"和"说谎区域": ```{code-cell} ipython3 x1 = np.arange(0, 1, 0.001) @@ -332,7 +330,7 @@ plt.show() - 找到一个随机回答调查设计,使估计量的偏差和方差最小化。 -在一个确保所有受访者都会诚实回答的设计中,Anderson(1976, 定理1) {cite}`anderson1976estimation` 证明了在两响应模型中最小方差估计的方差为 +在一个确保所有受访者都会诚实回答的设计中,Anderson(1976, 定理1) {cite}`anderson1976estimation` 证明了在两种回答模型中最小方差估计的方差为 $$ \begin{aligned} @@ -348,11 +346,11 @@ $$ (eq:util-rand-thirteen) 以下不等式限制了等方差曲线的形状: $$ -\frac{d \text{ Pr}(A|\text{no})}{d\text{ Pr}(A|\text{yes})}\bigg|_{\text{constant variance}}=\frac{\pi_A-\text{Pr}(A|\text{no})}{\text{Pr}(A|\text{yes})-\pi_A}>0 +\frac{d \text{ Pr}(A|\text{no})}{d\text{ Pr}(A|\text{yes})}\bigg|_{\text{常方差}}=\frac{\pi_A-\text{Pr}(A|\text{no})}{\text{Pr}(A|\text{yes})-\pi_A}>0 $$ (eq:util-rand-fourteen-a) $$ -\frac{d^2 \text{ Pr}(A|\text{no})}{d\text{ Pr}(A|\text{yes})^2}\bigg|_{\text{constant variance}}=- \frac{2 \left[\pi_A-\text{Pr}(A|\text{no})\right]}{\left[\text{Pr}(A|\text{yes})-\pi_A \right]^2}<0 +\frac{d^2 \text{ Pr}(A|\text{no})}{d\text{ Pr}(A|\text{yes})^2}\bigg|_{\text{常方差}}=- \frac{2 \left[\pi_A-\text{Pr}(A|\text{no})\right]}{\left[\text{Pr}(A|\text{yes})-\pi_A \right]^2}<0 $$ (eq:util-rand-fourteen-b) 从表达式 {eq}`eq:util-rand-thirteen`、{eq}`eq:util-rand-fourteen-a` 和 {eq}`eq:util-rand-fourteen-b` 我们可以看出: @@ -410,19 +408,19 @@ class Iso_Variance: plt.show() ``` -iso-方差曲线的特性是: +等方差曲线的特性是: -- 同一条iso-方差曲线上的所有点具有相同的方差 +- 同一条等方差曲线上的所有点具有相同的方差 -- 从$V_1$到$V_9$,iso-方差曲线的方差单调增加,颜色也单调变亮 +- 从 $V_1$ 到 $V_9$,等方差曲线的方差单调增加,颜色也单调变亮 -假设iso-方差模型的参数遵循Ljungqvist {cite}`ljungqvist1993unified`中的设定,即: +假设等方差模型的参数遵循Ljungqvist {cite}`ljungqvist1993unified`中的设定,即: - $\pi=0.3$ - $n=100$ -那么我们可以在图2中绘制iso-方差曲线: +那么我们可以在图2中绘制等方差曲线: ```{code-cell} ipython3 var = Iso_Variance(pi=0.3, n=100) @@ -455,7 +453,7 @@ var.plotting_iso_variance_curve() - 假设{eq}`eq:util-rand-nine-b`足以保证最优模型设计的存在。通过选择足够接近的$\text{ Pr}(A|\text{yes})$和$\text{ Pr}(A|\text{no})$,所有受访者都会发现如实回答是最优选择。这些概率越接近,估计量的方差就越大。 -- 如果受访者从说实话中获得的预期效用增加足够大,那么就不需要使用随机化回答模型。在$\text{ Pr}(A|\text{yes})=1$和$\text{ Pr}(A|\text{no})=0$时可以获得最小可能的估计方差;也就是说,当受访者对直接提问如实回答时。 +- 如果受访者从说实话中获得的预期效用增加足够大,那么就不需要使用随机化回答模型。在$\text{ Pr}(A|\text{yes})=1$和$\text{ Pr}(A|\text{no})=0$, 即当受访者对直接提问如实回答时,可以获得最小可能的估计方差。 - 一个更普遍的设计问题是最小化估计量的方差和偏差的某种加权和。接受一些最"不情愿"的受访者的谎言可能是最优的。 @@ -517,7 +515,7 @@ plt.show() ### Leysieffer和Warner方法(1976) -Leysieffer和Warner(1976)建议使用二维风险度量,当"否"答案不存在风险时可简化为一维,这意味着 +当"否"答案不存在风险时,Leysieffer和Warner(1976)建议使用的二维风险度量可简化为一维,这意味着 $$ \text{Pr}(\text{yes}|A)=1 @@ -529,19 +527,19 @@ $$ \text{Pr}(A|\text{no})=0 $$ -从功利主义的角度来看,这不是最优选择。 +从功利主义的角度来看,这不是最优选择。 ### Chaudhuri和Mukerjee方法(1988)的分析 {cite}`Chadhuri_Mukerjee_88` -Chaudhuri和Mukerjee(1988)认为,由于"是"有时可能与敏感群体A相关,聪明的受访者可能会倾向于总是安全但虚假地回答"否"。在这种情况下,真实边界使得个人在真实答案为"是"时选择说谎,且 +Chaudhuri和Mukerjee(1988)认为,由于"是"有时可能与敏感群体 $A$ 相关,聪明的受访者可能会倾向于总是安全但虚假地回答"否"。在这种情况下,真实边界使得个体在真实答案为"是"时选择说谎,且 $$ \text{Pr}(A|\text{no})=0 $$ -在这里,说谎带来的收益太高,以至于没有人愿意回答"是"。 +在这里,说谎带来的收益太高,以至于没有人愿意回答"是"。 这意味着 @@ -551,11 +549,11 @@ $$ 在任何情况下都成立。 -因此,不存在可实现的模型设计。 +因此,不存在可实现的模型设计。 -然而,从功利主义的角度来看,应该存在其他与真实答案相一致的调查设计。 +然而,从功利主义的角度来看,应该存在其他与真实答案相一致的调查设计。 -特别是,如果消除了说谎带来的相对优势,受访者将选择如实回答。 +特别是,如果消除了说谎带来的相对优势,受访者将选择如实回答。 我们可以用Python来展示最优模型设计对应图4中的Q点: @@ -620,9 +618,9 @@ $$ \text{Pr}(\text{yes}|A^{'})\times \text{Pr}(A|\text{yes})+\text{Pr}(\text{no}|A^{'}) \times \text{Pr}(A|\text{no}) $$ (eq:util-rand-seven-bb) -他们还考虑了另一个相关的风险度量,他们认为这个度量"可能更接近受访者实际感受到的担忧。" +他们还考虑了另一个相关的风险度量,他们认为这个度量"可能更接近受访者实际感受到的担忧。" -对于属于$A$和$A^{'}$的个体,他们的"有限风险"分别是: +对于属于$A$和$A^{'}$的个体,他们的"有限风险"分别是: $$ \text{Pr}(\text{yes}|A)\times \text{Pr}(A|\text{yes}) @@ -634,11 +632,11 @@ $$ \text{Pr}(\text{yes}|A^{'})\times \text{Pr}(A|\text{yes}) $$ (eq:util-rand-eight-bb) -根据Greenberg等人(1977)的说法,受访者在随机选择要回答的问题**之前**,就已经承诺根据{eq}`eq:util-rand-seven-aa`或{eq}`eq:util-rand-eight-aa`中的概率如实回答。 +根据Greenberg等人(1977)的说法,受访者在随机选择要回答的问题**之前**,就已经承诺根据{eq}`eq:util-rand-seven-aa`或{eq}`eq:util-rand-eight-aa`中的概率如实回答。 假设适当的隐私度量由{eq}`eq:util-rand-eight-aa`和{eq}`eq:util-rand-eight-bb`中的"有限风险"概念来表示。 -考虑一个无关问题模型,其中无关问题被替换为指令"说'不'",这意味着 +考虑一个无关问题模型,其中无关问题被替换为指令"说'不'",这意味着 $$ @@ -649,9 +647,9 @@ $$ - $A^{'}$中个体的风险为0。 -- 通过选择足够小的$\text{Pr}(\text{yes}|A)$,$A$中个体的风险也可以任意小。 +- 通过选择足够小的 $\text{Pr}(\text{yes}|A)$,$A$ 中个体的风险也可以任意小。 -尽管这个风险可以被设定为接近0,但$A$中的个体在如实回答敏感问题时会完全暴露其身份。 +尽管这个风险可以被设定为接近0,但 $A$ 中的个体在如实回答敏感问题时会完全暴露其身份。 然而,在功利主义框架下,这显然是矛盾的。 @@ -674,8 +672,8 @@ $$ 在功利主义分析中: -- 真实边界将感知属于敏感群体的条件概率空间$\text{Pr}(A|\text{yes})$和$\text{Pr}(A|\text{no})$划分为说真话区域和说谎区域。 +- 真实边界将感知属于敏感群体的条件概率空间 $\text{Pr}(A|\text{yes})$ 和 $\text{Pr}(A|\text{no})$ 划分为说真话区域和说谎区域。 - 最优模型设计是在真实边界接触到最低可能的等方差曲线的点上获得的。 -{cite}`ljungqvist1993unified`分析的一个实际含义是,可以通过**选择足够接近的$\text{Pr}(A|\text{yes})$和$\text{Pr}(A|\text{no})$**来承认对受访者隐私需求的不确定性。 +{cite}`ljungqvist1993unified`分析的一个实际含义是,可以通过**选择足够接近的 $\text{Pr}(A|\text{yes})$ 和 $\text{Pr}(A|\text{no})$**来承认对受访者隐私需求的不确定性。 From e0ec0e6ca3c7c10106a7e5db0d5edc1a83ed3936 Mon Sep 17 00:00:00 2001 From: nisha617 Date: Thu, 18 Sep 2025 22:58:18 +1000 Subject: [PATCH 2/3] Add files via upload --- lectures/util_rand_resp.md | 88 ++++++++++++++++++++------------------ 1 file changed, 47 insertions(+), 41 deletions(-) diff --git a/lectures/util_rand_resp.md b/lectures/util_rand_resp.md index e46b1de..6d99865 100644 --- a/lectures/util_rand_resp.md +++ b/lectures/util_rand_resp.md @@ -23,11 +23,13 @@ import numpy as np ## 概述 -{doc}`这篇 QuantEcon 讲座 ` 描述了传统的 Warner {cite}`warner1965randomized` 随机回答调查,这种调查旨在保护受访者的隐私。 +{doc}`这篇讲座 ` 描述了传统的 Warner {cite}`warner1965randomized` 随机回答调查,这种调查旨在保护受访者的隐私。 Lars Ljungqvist {cite}`ljungqvist1993unified` 分析了受访者是否如实回答如何取决于**期望效用**。 -本讲座讲述了 Ljungqvist 如何使用他的框架来阐明其他研究者提出的替代性随机回答调查技术,例如 {cite}`lanke1975choice`、{cite}`lanke1976degree`、{cite}`leysieffer1976respondent`、{cite}`anderson1976estimation`、{cite}`fligner1977comparison`、{cite}`greenberg1977respondent`、{cite}`greenberg1969unrelated`。 +本讲座讲述了 Ljungqvist 如何使用他的框架来阐明其他研究者提出的替代性随机回答调查技术,例如 {cite}`lanke1975choice`、 {cite}`lanke1976degree`、 {cite}`leysieffer1976respondent`、 +{cite}`anderson1976estimation`、 {cite}`fligner1977comparison`、 {cite}`greenberg1977respondent`、 +{cite}`greenberg1969unrelated`。 ## 隐私度量 @@ -52,7 +54,7 @@ $$ (eq:util-rand-one) 在这里我们描述一些研究者提出的概念 -### Leysieffer 和 Warner(1976) +### {cite}`leysieffer1976respondent` 如果回答 $r$ 相对于 $A$ 或 $A^{'}$ 满足以下条件,则被视为具有危害性: @@ -108,21 +110,21 @@ $$ \text{Pr}(A|\text{no})=0 $$ -### Lanke(1976) +### {cite:t}`lanke1976degree` -Lanke (1975) {cite}`lanke1975choice` 认为"人们可能想要隐藏的是属于A组的身份,而不是属于补集A'组的身份。" +{cite}`lanke1975choice` 认为"人们可能想要隐藏的是属于A组的身份,而不是属于补集A'组的身份。" -因此,Lanke (1976) {cite}`lanke1976degree` 认为一个合适的保护度量是最小化 +因此,{cite}`lanke1976degree` 认为一个合适的保护度量是最小化 $$ \max \left\{ \text{Pr}(A|\text{yes}), \text{Pr}(A|\text{no}) \right\} $$ (eq:util-rand-five-a) -在保持这个度量不变的情况下,他解释了在什么条件下,使用无关问题模型或Warner (1965)的原始模型可以获得最小方差估计。 +在保持这个度量不变的情况下,他解释了在什么条件下,使用无关问题模型或{cite:t}`warner1965randomized`的原始模型可以获得最小方差估计。 -### 2.3 Fligner, Policello和Singh +### {cite:t}`fligner1977comparison` -Fligner, Policello和Singh得出了与Lanke (1976)类似的结论。{cite}`fligner1977comparison` +{cite}`fligner1977comparison`得出了与{cite}`lanke1976degree`类似的结论。 他们将"隐私保护"度量为 @@ -130,11 +132,9 @@ $$ \frac{1-\max \left\{ \text{Pr}(A|\text{yes}) , \text{Pr}(A|\text{no}) \right\}}{1-\pi_A} $$ (eq:util-rand-six) -### 2.4 Greenberg, Kuebler, Abernathy和Horvitz (1977) +### {cite:t}`greenberg1977respondent` -{cite}`greenberg1977respondent` - -Greenberg, Kuebler, Abernathy和Horvitz (1977) 强调,不仅要考虑 $A$ 组成员的风险,还要考虑 $A'$ 组成员的风险。他们定义在 $A$ 组个体身上的风险为这一个体被认为属于A组的概率: +{cite}`greenberg1977respondent` 强调,不仅要考虑 $A$ 组成员的风险,还要考虑 $A'$ 组成员的风险。他们定义在 $A$ 组个体身上的风险为这一个体被认为属于A组的概率: $$ @@ -147,7 +147,7 @@ $$ \text{Pr}(\text{yes}|A^{'})\times \text{Pr}(A|\text{yes})+\text{Pr}(\text{no}|A^{'}) \times \text{Pr}(A|\text{no}) $$ (eq:util-rand-seven-b) -Greenberg等人(1977)还考虑了另一个相关的风险度量,"这可能更接近受访者实际感受到的担忧。" +{cite}`greenberg1977respondent`还考虑了另一个相关的风险度量,"这可能更接近受访者实际感受到的担忧。" 对于在 $A$ 和 $A^{'}$ 中的个体,其"有限风险"分别为 @@ -231,7 +231,7 @@ $$ 因此,约束{eq}`eq:util-rand-ten-a`成为个体 $i$ 始终如实回答的唯一必要条件。 -在等式情况下,约束 $(10.\text{a})$ 确定了当真实答案为"是"时,使个体在说真话和说谎之间无差异的条件概率: +在等式情况下,约束{eq}`eq:util-rand-ten-a`确定了当真实答案为"是"时,使个体在说真话和说谎之间无差异的条件概率: $$ U_i\left(\text{Pr}(A|\text{yes}),\text{truth}\right)= U_i\left(\text{Pr}(A|\text{no}),\text{lie}\right) @@ -251,15 +251,15 @@ $$ (eq:util-rand-twelve) - 假设现在 $\text{Pr}(A|\text{yes})$ 增加。这会降低说真话的效用。为了保持说真话和说谎之间的无差异,$\text{Pr}(A|\text{no})$必须增加以降低说谎的效用。 -### 绘制真实边界 +### 绘制真话边界 -我们可以推导出关于真实回答边界的两个结论: +我们可以推导出关于真话边界的两个结论: -- 真实边界将条件概率空间分为两个子集:"说真话"和"说谎"。因此,充分的隐私会引出真实答案,而不充分的隐私则会导致谎言。真实边界取决于受访者的效用函数。 +- 真话边界将条件概率空间分为两个子集:"说真话"和"说谎"。因此,充分的隐私会引出真实答案,而不充分的隐私则会导致谎言。真话边界取决于受访者的效用函数。 -- {eq}`eq:util-rand-nine-a`和{eq}`eq:util-rand-nine-a`中的假设仅足以保证真实边界的正斜率。真实边界可以是凹形或凸形。 +- {eq}`eq:util-rand-nine-a`中的假设仅足以保证真话边界的正斜率。真话边界可以是凹形或凸形。 -我们可以用以下Python代码绘制一些真实边界: +我们可以用以下Python代码绘制一些真话边界: ```{code-cell} ipython3 x1 = np.arange(0, 1, 0.001) @@ -269,11 +269,11 @@ y2 = (pow(x2, 0.5) - 0.4)**2 x3 = np.arange(0.4**0.5, 1, 0.001) y3 = pow(x3**2 - 0.4, 0.5) plt.figure(figsize=(12, 10)) -plt.plot(x1, y1, 'r-', label='Truth Border of: $U_i(Pr(A|r_i),\phi_i)=-Pr(A|r_i)+f(\phi_i)$') +plt.plot(x1, y1, 'r-', label=r'真真话边界: $U_i(Pr(A|r_i),\phi_i)=-Pr(A|r_i)+f(\phi_i)$') plt.fill_between(x1, 0, y1, facecolor='red', alpha=0.05) -plt.plot(x2, y2, 'b-', label='Truth Border of: $U_i(Pr(A|r_i),\phi_i)=-Pr(A|r_i)^{2}+f(\phi_i)$') +plt.plot(x2, y2, 'b-', label=r'真话边界: $U_i(Pr(A|r_i),\phi_i)=-Pr(A|r_i)^{2}+f(\phi_i)$') plt.fill_between(x2, 0, y2, facecolor='blue', alpha=0.05) -plt.plot(x3, y3, 'y-', label='Truth Border of: $U_i(Pr(A|r_i),\phi_i)=-\sqrt{Pr(A|r_i)}+f(\phi_i)$') +plt.plot(x3, y3, 'y-', label=r'真话边界: $U_i(Pr(A|r_i),\phi_i)=-\sqrt{Pr(A|r_i)}+f(\phi_i)$') plt.fill_between(x3, 0, y3, facecolor='green', alpha=0.05) plt.plot(x1, x1, ':', linewidth=2) plt.xlim([0, 1]) @@ -363,13 +363,13 @@ $$ (eq:util-rand-fourteen-b) 我们使用Python代码来绘制等方差曲线。 -这些条件概率对可以使用Warner(1965)的模型获得。 +这些条件概率对可以使用{cite}`warner1965randomized`的模型获得。 注意: - 只要统计学家能完全控制模型设计,等方差曲线上的任何点都可以通过无关问题模型达到。 -- Warner(1965)的原始随机化回应模型比无关问题模型灵活性较低。 +- {cite}`warner1965randomized`的原始随机化回应模型比无关问题模型灵活性较低。 ```{code-cell} ipython3 class Iso_Variance: @@ -463,17 +463,17 @@ var.plotting_iso_variance_curve() 我们将使用Python代码来帮助我们。 -### 对Lanke(1976)方法的分析 +### 对{cite:t}`lanke1976degree`方法的分析 -Lanke(1976)建议一个隐私保护标准,即最小化: +{cite}`lanke1976degree`建议一个隐私保护标准,即最小化: $$ \max \left\{ \text{Pr}(A|\text{yes}) , \text{Pr}(A|\text{no}) \right\} $$ (eq:util-rand-five-b) -按照Lanke的建议,统计学家应该在保持$\text{ Pr}(A|\text{no})$固定为0的情况下,寻找与诚实回答相一致的最大可能的$\text{ Pr}(A|\text{yes})$值。在图3中,方差在点$X$处达到最小。 +按照Lanke的建议,统计学家应该在保持 $\text{ Pr}(A|\text{no})$ 固定为0的情况下,寻找与诚实回答相一致的最大可能的 $\text{ Pr}(A|\text{yes})$ 值。在图3中,方差在点 $X$ 处达到最小。 -然而,我们可以看到在图3中,点$Z$提供了一个更小的方差,它仍然能够保证受访者的配合,而且根据我们在第三部分对真实边界的讨论,这是可以实现的: +然而,我们可以看到在图3中,点 $Z$ 提供了一个更小的方差,它仍然能够保证受访者的配合,而且根据我们在第三部分对真实边界的讨论,这是可以实现的: ```{code-cell} ipython3 pi = 0.3 @@ -513,9 +513,9 @@ plt.title('图3') plt.show() ``` -### Leysieffer和Warner方法(1976) +### {cite:t}`leysieffer1976respondent`的方法 -当"否"答案不存在风险时,Leysieffer和Warner(1976)建议使用的二维风险度量可简化为一维,这意味着 +当"否"答案不存在风险时,{cite}`leysieffer1976respondent`建议使用的二维风险度量可简化为一维,这意味着 $$ \text{Pr}(\text{yes}|A)=1 @@ -529,11 +529,9 @@ $$ 从功利主义的角度来看,这不是最优选择。 -### Chaudhuri和Mukerjee方法(1988)的分析 - -{cite}`Chadhuri_Mukerjee_88` +### 对{cite:t}`Chadhuri_Mukerjee_88`方法的分析 -Chaudhuri和Mukerjee(1988)认为,由于"是"有时可能与敏感群体 $A$ 相关,聪明的受访者可能会倾向于总是安全但虚假地回答"否"。在这种情况下,真实边界使得个体在真实答案为"是"时选择说谎,且 +{cite}`Chadhuri_Mukerjee_88`认为,由于"是"有时可能与敏感群体 $A$ 相关,聪明的受访者可能会倾向于总是安全但虚假地回答"否"。在这种情况下,真实边界使得个体在真实答案为"是"时选择说谎,且 $$ \text{Pr}(A|\text{no})=0 @@ -555,7 +553,7 @@ $$ 特别是,如果消除了说谎带来的相对优势,受访者将选择如实回答。 -我们可以用Python来展示最优模型设计对应图4中的Q点: +我们可以用Python来展示最优模型设计: ```{code-cell} ipython3 def f(x): @@ -566,6 +564,14 @@ def f(x): ``` ```{code-cell} ipython3 +--- +mystnb: + figure: + caption: | + Optimal survey design under utilitarian approach showing computed point $Q$ + name: fig-optimal-design +--- + pi = 0.3 n = 100 nv = [0.27, 0.34, 0.49, 0.74, 0.92, 1.1, 1.47, 2.94, 14.7] @@ -589,7 +595,7 @@ plt.fill_between(x3, 0, y3,facecolor='green', alpha=0.05, label='说谎') for i in range(len(nv)): y = pi - (pi**2 * (1 - pi)**2) / (n * (nv[i] / n) * (x0 - pi + 1e-8)) plt.plot(x0, y, 'k--', alpha=1 - 0.07 * i, label=f'V{i+1}') -plt.scatter(0.61, 0.146, c='r', marker='*', label='Z', s=150) +plt.scatter(0.61, 0.146, c='r', marker='*', label='Q', s=150) plt.xlim([0, 1]) plt.ylim([0, 0.5]) plt.xlabel('Pr(A|是)') @@ -602,11 +608,11 @@ plt.title('图4') plt.show() ``` -### Greenberg等人(1977)的方法 +最优模型设计对应图中的点 $Q$. -{cite}`greenberg1977respondent` +### {cite:t}`greenberg1977respondent`的方法 -Greenberg等人(1977)将属于群体$A$的个体的风险定义为他/她被认为属于$A$的概率: +{cite}`greenberg1977respondent`将属于群体$A$的个体的风险定义为他/她被认为属于$A$的概率: $$ \text{Pr}(\text{yes}|A)\times \text{Pr}(A|\text{yes})+\text{Pr}(\text{no}|A)\times \text{Pr}(A|\text{no}) @@ -632,7 +638,7 @@ $$ \text{Pr}(\text{yes}|A^{'})\times \text{Pr}(A|\text{yes}) $$ (eq:util-rand-eight-bb) -根据Greenberg等人(1977)的说法,受访者在随机选择要回答的问题**之前**,就已经承诺根据{eq}`eq:util-rand-seven-aa`或{eq}`eq:util-rand-eight-aa`中的概率如实回答。 +根据{cite}`greenberg1977respondent`的说法,受访者在随机选择要回答的问题**之前**,就已经承诺根据{eq}`eq:util-rand-seven-aa`或{eq}`eq:util-rand-eight-aa`中的概率如实回答。 假设适当的隐私度量由{eq}`eq:util-rand-eight-aa`和{eq}`eq:util-rand-eight-bb`中的"有限风险"概念来表示。 From 1b49a3b0adadb1bbad3a7fa989e2a945e7e49633 Mon Sep 17 00:00:00 2001 From: nisha617 Date: Thu, 18 Sep 2025 23:19:03 +1000 Subject: [PATCH 3/3] Update util_rand_resp.md --- lectures/util_rand_resp.md | 34 +++++++++++++++++----------------- 1 file changed, 17 insertions(+), 17 deletions(-) diff --git a/lectures/util_rand_resp.md b/lectures/util_rand_resp.md index 6d99865..49599a8 100644 --- a/lectures/util_rand_resp.md +++ b/lectures/util_rand_resp.md @@ -54,7 +54,7 @@ $$ (eq:util-rand-one) 在这里我们描述一些研究者提出的概念 -### {cite}`leysieffer1976respondent` +### {cite:t}`leysieffer1976respondent` 如果回答 $r$ 相对于 $A$ 或 $A^{'}$ 满足以下条件,则被视为具有危害性: @@ -112,9 +112,9 @@ $$ ### {cite:t}`lanke1976degree` -{cite}`lanke1975choice` 认为"人们可能想要隐藏的是属于A组的身份,而不是属于补集A'组的身份。" +{cite:t}`lanke1975choice` 认为"人们可能想要隐藏的是属于A组的身份,而不是属于补集A'组的身份。" -因此,{cite}`lanke1976degree` 认为一个合适的保护度量是最小化 +因此,{cite:t}`lanke1976degree` 认为一个合适的保护度量是最小化 $$ \max \left\{ \text{Pr}(A|\text{yes}), \text{Pr}(A|\text{no}) \right\} @@ -124,7 +124,7 @@ $$ (eq:util-rand-five-a) ### {cite:t}`fligner1977comparison` -{cite}`fligner1977comparison`得出了与{cite}`lanke1976degree`类似的结论。 +{cite:t}`fligner1977comparison`得出了与{cite:t}`lanke1976degree`类似的结论。 他们将"隐私保护"度量为 @@ -134,7 +134,7 @@ $$ (eq:util-rand-six) ### {cite:t}`greenberg1977respondent` -{cite}`greenberg1977respondent` 强调,不仅要考虑 $A$ 组成员的风险,还要考虑 $A'$ 组成员的风险。他们定义在 $A$ 组个体身上的风险为这一个体被认为属于A组的概率: +{cite:t}`greenberg1977respondent` 强调,不仅要考虑 $A$ 组成员的风险,还要考虑 $A'$ 组成员的风险。他们定义在 $A$ 组个体身上的风险为这一个体被认为属于A组的概率: $$ @@ -147,7 +147,7 @@ $$ \text{Pr}(\text{yes}|A^{'})\times \text{Pr}(A|\text{yes})+\text{Pr}(\text{no}|A^{'}) \times \text{Pr}(A|\text{no}) $$ (eq:util-rand-seven-b) -{cite}`greenberg1977respondent`还考虑了另一个相关的风险度量,"这可能更接近受访者实际感受到的担忧。" +{cite:t}`greenberg1977respondent`还考虑了另一个相关的风险度量,"这可能更接近受访者实际感受到的担忧。" 对于在 $A$ 和 $A^{'}$ 中的个体,其"有限风险"分别为 @@ -269,7 +269,7 @@ y2 = (pow(x2, 0.5) - 0.4)**2 x3 = np.arange(0.4**0.5, 1, 0.001) y3 = pow(x3**2 - 0.4, 0.5) plt.figure(figsize=(12, 10)) -plt.plot(x1, y1, 'r-', label=r'真真话边界: $U_i(Pr(A|r_i),\phi_i)=-Pr(A|r_i)+f(\phi_i)$') +plt.plot(x1, y1, 'r-', label=r'真话边界: $U_i(Pr(A|r_i),\phi_i)=-Pr(A|r_i)+f(\phi_i)$') plt.fill_between(x1, 0, y1, facecolor='red', alpha=0.05) plt.plot(x2, y2, 'b-', label=r'真话边界: $U_i(Pr(A|r_i),\phi_i)=-Pr(A|r_i)^{2}+f(\phi_i)$') plt.fill_between(x2, 0, y2, facecolor='blue', alpha=0.05) @@ -305,7 +305,7 @@ y1 = x1 - 0.4 z1 = x1 z2 = 0 plt.figure(figsize=(12, 10)) -plt.plot(x1, y1,'r-',label='真实边界:$U_i(Pr(A|r_i),\phi_i)=-Pr(A|r_i)+f(\phi_i)$') +plt.plot(x1, y1,'r-',label='真话边界:$U_i(Pr(A|r_i),\phi_i)=-Pr(A|r_i)+f(\phi_i)$') plt.plot(x1, x1, ':', linewidth=2) plt.fill_between(x1, y1, z1, facecolor='blue', alpha=0.05, label='说真话') plt.fill_between(x1, z2, y1, facecolor='green', alpha=0.05, label='说谎') @@ -363,13 +363,13 @@ $$ (eq:util-rand-fourteen-b) 我们使用Python代码来绘制等方差曲线。 -这些条件概率对可以使用{cite}`warner1965randomized`的模型获得。 +这些条件概率对可以使用{cite:t}`warner1965randomized`的模型获得。 注意: - 只要统计学家能完全控制模型设计,等方差曲线上的任何点都可以通过无关问题模型达到。 -- {cite}`warner1965randomized`的原始随机化回应模型比无关问题模型灵活性较低。 +- {cite:t}`warner1965randomized`的原始随机化回应模型比无关问题模型灵活性较低。 ```{code-cell} ipython3 class Iso_Variance: @@ -465,7 +465,7 @@ var.plotting_iso_variance_curve() ### 对{cite:t}`lanke1976degree`方法的分析 -{cite}`lanke1976degree`建议一个隐私保护标准,即最小化: +{cite:t}`lanke1976degree`建议一个隐私保护标准,即最小化: $$ \max \left\{ \text{Pr}(A|\text{yes}) , \text{Pr}(A|\text{no}) \right\} @@ -491,7 +491,7 @@ plt.figure(figsize=(12, 10)) plt.plot(x, x, 'c:', linewidth=2) plt.plot(x0, y1, 'c:', linewidth=2) plt.plot(y2, x2, 'c:', linewidth=2) -plt.plot(x, y, 'r-', label='真实边界') +plt.plot(x, y, 'r-', label='真话边界') plt.fill_between(x, y, z, facecolor='blue', alpha=0.05, label='诚实回答') plt.fill_between(x, 0, y, facecolor='green', alpha=0.05, label='说谎') for i in range(len(nv)): @@ -515,7 +515,7 @@ plt.show() ### {cite:t}`leysieffer1976respondent`的方法 -当"否"答案不存在风险时,{cite}`leysieffer1976respondent`建议使用的二维风险度量可简化为一维,这意味着 +当"否"答案不存在风险时,{cite:t}`leysieffer1976respondent`建议使用的二维风险度量可简化为一维,这意味着 $$ \text{Pr}(\text{yes}|A)=1 @@ -531,7 +531,7 @@ $$ ### 对{cite:t}`Chadhuri_Mukerjee_88`方法的分析 -{cite}`Chadhuri_Mukerjee_88`认为,由于"是"有时可能与敏感群体 $A$ 相关,聪明的受访者可能会倾向于总是安全但虚假地回答"否"。在这种情况下,真实边界使得个体在真实答案为"是"时选择说谎,且 +{cite:t}`Chadhuri_Mukerjee_88`认为,由于"是"有时可能与敏感群体 $A$ 相关,聪明的受访者可能会倾向于总是安全但虚假地回答"否"。在这种情况下,真实边界使得个体在真实答案为"是"时选择说谎,且 $$ \text{Pr}(A|\text{no})=0 @@ -589,7 +589,7 @@ plt.figure(figsize=(12, 10)) plt.plot(x, x, 'c:', linewidth=2) plt.plot(x0, y1,'c:', linewidth=2) plt.plot(y2, x2,'c:', linewidth=2) -plt.plot(x3, y3,'b-', label='真实边界') +plt.plot(x3, y3,'b-', label='真话边界') plt.fill_between(x, y, z, facecolor='blue', alpha=0.05, label='说实话') plt.fill_between(x3, 0, y3,facecolor='green', alpha=0.05, label='说谎') for i in range(len(nv)): @@ -612,7 +612,7 @@ plt.show() ### {cite:t}`greenberg1977respondent`的方法 -{cite}`greenberg1977respondent`将属于群体$A$的个体的风险定义为他/她被认为属于$A$的概率: +{cite:t}`greenberg1977respondent`将属于群体$A$的个体的风险定义为他/她被认为属于$A$的概率: $$ \text{Pr}(\text{yes}|A)\times \text{Pr}(A|\text{yes})+\text{Pr}(\text{no}|A)\times \text{Pr}(A|\text{no}) @@ -682,4 +682,4 @@ $$ - 最优模型设计是在真实边界接触到最低可能的等方差曲线的点上获得的。 -{cite}`ljungqvist1993unified`分析的一个实际含义是,可以通过**选择足够接近的 $\text{Pr}(A|\text{yes})$ 和 $\text{Pr}(A|\text{no})$**来承认对受访者隐私需求的不确定性。 +{cite:t}`ljungqvist1993unified`分析的一个实际含义是,可以通过**选择足够接近的 $\text{Pr}(A|\text{yes})$ 和 $\text{Pr}(A|\text{no})$**来承认对受访者隐私需求的不确定性。