In [1]:
##########################
# 配置运行环境
##########################

%matplotlib inline

import numpy as np
import pandas as pd
from IPython.display import Math, Latex
from matplotlib import pyplot
import seaborn as sns

# matplotlib 对中文的支持
from matplotlib import font_manager
cn_font = font_manager.FontProperties(fname='msyh.ttf', size=16)  # 网上支持中文

from matplotlib import rcParams
# rcParams['font.family'] = 'Microsoft YaHei'  # 本地支持中文

# 保存为 pdf 格式
rcParams['pdf.fonttype'] = 42
rcParams['figure.figsize'] = (8,5)

# Look pretty...
from matplotlib import style
style.use('ggplot')

# 设置 numpy 的输出精度, 并且阻止使用科学记数法
# formatter 参数允许为每个类型指定一个格式化函数,
# linewidth 控制输出宽度
np.set_printoptions(precision=6, suppress=True)

\section{问题简介}

有时候人们需要去调査一些敏感性问题.

例如，学校领导可能想通过调査了解在校学生中究竟有多少人在考试中作过弊.

卫生部门为了控制和预防艾滋病，希望了解本地区大约有多少人是同性恋者、有多少人在吸毒.

交通部门希望了解究竟有多少人经常骑车闯红灯或者随便横穿马路等等.

假如你直截了当地去提问，不仅了解不到真实情况，还会遭到被调査者的白眼，因为你调査的问题涉及到了他们的隐私.

细想一下，你就会发现，其实你的本意并非真的要去打探别人的隐私，你所希望知道的只是某一人群中的一个总体特征而并非某一特定个体的具体特征.

例如，你想知道的只是究竟有多少比例的学生曾经作过弊，而并非某个具体的学生是否作过弊.~那么，有什么办法可以打消被调査者的顾虑，争取得到他们的配合，以便获取真实的调査信息呢？现在，我们准备来探讨一下这一问题，并提出些值得一试的办法.


\section{模型 1：随机回答法}

要调査某一敏感问题，你的提问肯定会涉及到这一问題.~一点都不涉及到这一敏感问题，你又怎么可能了解到你想要的结果？可是，如果直接去问这类问题，显然无法得到真实答案.~要让被调査者讲真话，必须打消他们的思想顾虑，我的回答不会泄露我的个人隐私.

美国数学家 Stanley Warner 在 1965 年提出了一种随机回答法 (Randomized Response Method)，做法如下：

调査者提出多问题，其中除了敏感问题外，还有无关紧要的诱饵问题.

例如：给每人发一枚硬币

问题 1：你考试中作弊了吗.
问题 2：你的硬币是正面吗.

硬币的投掷结果只有你自己知道.

下来让每个人抽签决定是回答问题 1，还是回答问题 2，同样，抽签结果只有你自己知道.

由于调査者并不知道你回答的是哪一个问题，显然他是不可能从回答中了解到被调查者的个人隐私的.

如果被调查者能确信这一点，他也就没有必要再讲假话了.


那么，调査者又如何根据调査结果计算出作过弊的人所占的百分比呢？这就要用到我们学过的概率统计知识了

假设抽签结果中回答问题 1 概率为 $p$，回答问题 2 的概率为 $q=1-p$.

$n$ 为被调查学生的总数，$m$ 为回答 “是” 的学生的人数，若 $x$ 为作弊学生的真实比例.

则理论上 $m$ 的期望值为 $n p x + n q 0.5$.

令 $\alpha = \frac{m}{n}$ 为回到 "是" 的学生的比例，可解得
\[
x = \frac{\alpha - q 0.5}{p}
\]

例如，100 位同学参加测试，$p=0.5$.

若最终有 $30$ 位同学答 "是"，则实际的作弊人数的期望为
\[
\frac{0.3 - 0.25}{0.5} = 0.1
\]

由上面的公式求得的结果究竟有多大的可信度呢？

可以证明，假如能够对被调査者作充分的说明并取得他们的合作，从而能诚实地回答问题，则求得的值将是真实值的一个无偏估计，方差如下
\[
\var{x} = \frac{\alpha (1-\alpha)}{n p^2}
\]

注意事项：如果要让被调査者尽可能放心，$p$ 的值应当尽可能地接近 $1/2$，否则，被调査者会因为有疑虑而不愿配合.~你可以设身处地地想一想，如果抽签回答问题 1 的可能性是 $90\%$，那么不论被调査者抽到的是哪一根竹签，他都会想:“假如我回答是，虽然调査者并不知道我在回答哪一个问题，但他多半会认为我是作过弊的，因为回答 “是“ 的人中有 $90\%$ 的可能是作过弊的，因此，回答是不如回答 “不是”，因为在调査者眼里，回答不是的人作过弊的可能性只有 $10\%$.~这样一来，被调査者的配合程度就会大大降低.~得不到被调査者的充分配合，你的调査还有什么意义？

为了使被调査者充分放心并在最大程度上配合你的调査，你最好能取 $p=1/2$，此时被调査者回答哪一个问题最不确定，被调査者最为放心，调査结果也最为可信.

我们还能得到 $x$ 的置信区间.

当然，使用这一方法反复调查，效果会更好.

In [None]:

# coding: utf-8

# # 随机化回答模拟

# ## 问题描述

# coding: utf-8

# 引言

# 近年来，大学生在考试中作弊的现象屡禁不止, 成为越来越严重的学风问题. 那么
# 
# - 大学生中到底有多少作弊者?
# 
# - 曾有过作弊行为的学生到底占多大比例?
# 
# 这是教育部门非常重视也非常需要了解的问题.

# 然而，要调查这一问题，得到可靠的数据，难度非常之大. 可以设想，如果直接询间被调查者是否曾经在考试中作弊? 那么绝大多数学生要么拒绝回答，要么作出否定的回答. 因为这实在是一个很敏感的问题.
# 
# 现实生活中，需要调查涉及个人隐私的敏感问题的情况经常遇到. 诸如
# 
# - 你乘坐公交车逃过票吗?
# 
# - 你是否与异性朋友来婚同居过?
# 
# - 你吸过毒吗?
# 
# 等等.
# 
# 解决这类问题的常用方法是采取不记名的调查. 但是即使宣布不记名，有时也难以消除被调查者的顾虑，他们怀疑调查者事后可能会查笔迹，或事先在问卷上作了记号等等，因此也可能不如实作答.

# ## 随机化选答

# 对敏感性问题应如何设计调查方式才能使被调查者消除顾虑，从而使他们真实回答问题以得到可靠的调查结果呢?
# 
# ”随机化选答” 技术可在一定程度上解决这个问题，该技术又分为
# 
# - 正反问题选答 (由 S.L.Warner 在 1965 年提出)
# 
# - 无关问题选答 (由 D.G.Horvitz 在 1967 年提出)
# 
# 这两种形式.
# 
# 基本思想是让被调查者随机的回答一个问题，而调查人并不知道他(她)回答的是哪一个问题. 被调查者可以根据自己所选的问题真实地作答(或只划勾表示”是”或”不是”)，这样没有人会知道被调查者地秘密.

# ## 例子

# 某大学利用正反问题随机选答技术，调查学生中曾经有过作弊行为的人数比例. 过程如下
# 
# - 随机抽取 $n=300$ 人
# - 调查的问题以正反两种形式叙述.
# - 在问卷中附有一张随机数字表, 被调查人随机抽一个数
#     - 如果这个数字是 0,1,2,3,4,5,6,7 中的任何一个，则回答问题 1.
#     - 如果这个数字是 8 或 9 则回答问题 2.
#     - 要求被调查者不要把自己所回答的问题告诉任何人(包括调查者). 被调查者只需根据自己所选择的问题作出真实的回答:”是”或者”不是”.实际上只需在供选择的答案中根据实际情况划圈就可以了.
# 
# 这两个问题和供选择的答案是:
# 1. 你曾经在考试中做过弊或帮助同学作过弊，是吗?
# 2. 你从来没有在考试中作过弊或帮助同学作过弊，是吗?
# 
# 采用这种方式，当调查者抽到问题 1 时，若某人的选择是”是”，他也不知道被调查者是针对问题 1 作答的呢，还是针对问题 2 作答的. 对回答”不是”的情况也是如此，因此可以消除被调查者的顾虑.
# 
# 
# 从调查结果可知，在
# 名学生中，有
# 名学生选择了”是”，即对A, B两题
# 选择”是”的概率的估计为
# 而我们估计的是对A间题选择”是”的比例，记为.由选答的规则可知，选答A题的概率是
# 根据全概率公式
# 由于A题选”是”的概率与H题选”不是”的概率相同，均为一个学生在考试中作弊的概率，即

# 敏感问题调查
# 
# 下面的程序将用来模拟敏感问题调查的情况。
# 
# 真实的作弊数据：我们总共有 n 个人参加考试，其中 m 个人作弊了。
# 
# n = 100;
# m = 10;
# 
# ID = Range[n];
# 
# realData = RandomSample[Range[n], m] // Sort
# 
# {1, 4, 12, 22, 25, 27, 30, 40, 45, 53, 57, 61, 80, 82, 83, 84, 88, 92, 94, 98}
# 
# p 表示敏感问题被回答的概率
# 
# p = 0.4;
# 
# q 表示诱饵问题被回答的概率
# 
# q = 1 - p;
# 
# \[Alpha] 表示所有回答 "是" 的学生所占的比例
# 
# \[Alpha] = 0.3;
# 
# x 表示敏感事件发生的真实比例，我们可以算出 x 的期望值
# 
# x = (\[Alpha] - q 0.5)/p;
# 
# 对一个实际问题进行调查
# 
# 例如，当月过生日的人数。
# 
# 问题研究


# 符号说明
# 
# - `group_size` 参与调查的人数
# 
# - `yes_num` 回答 "是" 的全部人数
# 
# - `real_num` 回答敏感问题的人中回答 "是" 的人数
# 
# - `decoy_num` 回答普通问题的人中回答 "是" 的人数
# 
# - `real_pr` 敏感问题的真实发生率
# 
# - `decoy_pr` 普通问题的真实发生率
# 
# - `response_real` 回答敏感问题的概率
# 
# - `response_decoy` 回答普通问题的概率
# 
# - `pr_est` 对敏感问题发生率的估计值
# 
# - `repeat_num` 重复模拟的次数

# 模拟一次调查

# In[1]:


import numpy as np

# 设置各项参数值

group_size = 50
real_pr = 0.1
decoy_pr = 0.5
response_real = 0.5
response_decoy = 0.5


# In[2]:


# 生成模拟数据
real_case = np.random.choice( ['bad', 'good'], size=group_size, replace=True, p=[real_pr, 1-real_pr] )
decoy_case = np.random.choice( ['head', 'tail'], size=group_size, replace=True, p=[decoy_pr, 1-decoy_pr] )
response_which_question = np.random.choice( ['real', 'decoy'], size=group_size, replace=True, p=[response_real, response_decoy] )


# In[3]:


print( real_case )
print( decoy_case )
print( response_which_question )


# In[4]:


# 获得调查数据，1 表示回答 “是”，0 表示回答 “否”
def response( real_case, decoy_case, response_which_question ):
    response_data = []
    for i in range( group_size ):
        if response_which_question[ i ] == 'real' and real_case[ i ] == 'bad' :
            response_data.append( 1 )
        elif response_which_question[ i ] == 'decoy' and decoy_case[ i ] == 'head' :
            response_data.append( 1 )
        else :
            response_data.append( 0 )
    
    return response_data


# In[5]:


response_data = response( real_case, decoy_case, response_which_question )
print( response_data )


# 对模拟数据进行统计

# In[6]:


yes_num = sum( response_data )


# In[7]:


yes_num


# 估计敏感问题的发生率

# In[8]:


(yes_num - group_size * response_decoy * decoy_pr) / (group_size * response_real)


# 为了对问题进行多次实验，并考察各个参数对实验结果的影响，我们编写如下的模型程序

# In[9]:


def randomize_response( group_size, real_pr, decoy_pr, response_real, response_decoy, repeat_num ):
    pr_est = []
    for i in range( repeat_num ):
        # 生成模拟数据
        real_case = np.random.choice( ['bad', 'good'], size=group_size, replace=True, p=[real_pr, 1-real_pr])
        decoy_case = np.random.choice( ['head', 'tail'], size=group_size, replace=True, p=[decoy_pr, 1-decoy_pr])
        response_which_question = np.random.choice( ['real', 'decoy'], size=group_size, replace=True, p=[response_real, response_decoy])
        
        # 统计并计算估计值
        yes_num = sum( response( real_case, decoy_case, response_which_question ) )
        pr_est.append( (yes_num - group_size * response_decoy * decoy_pr) / (group_size * response_real) )
        
    return pr_est


# In[10]:


group_size = 50
real_pr = 0.1
decoy_pr = 0.5
response_real = 0.5
response_decoy = 0.5
repeat_num = 1000

pr_est = randomize_response( group_size, real_pr, decoy_pr, response_real, response_decoy, repeat_num )

np.mean( pr_est )

