### 抽样分布简介

为了更好地理解抽样分布的概念，让我们先用 python 语言做一些练习。

下面是一个数组，代表我们在之前的视频中看到的学员。其中，1代表喝咖啡的学生，0代表不喝咖啡的学生。

In [5]:
# 导入numpy使用随机函数
import numpy as np
# 设定seed，seed的作用是设定了（n）以后，每次随机都能得到相同的抽样
# 这种情况在还原分析过程时非常有用
# 设定了之后就一直有效，直到被覆盖
np.random.seed(42)
# 设定students（为array格式）
students = np.array([1,0,1,1,1,1,0,0,0,0,1,1,1,1,1,1,1,1,1,1,0])

`1.` 计算出上述数组中喝咖啡的学生的比例，并将此值存储在变量 **p** 中。

In [6]:
# 直接使用mean计算因为原始数据是0，1标识的，平均数就是1出现的概率
students.mean()

0.7142857142857143

`2.` 使用 numpy 的 **random.choice** 模拟从 `students` 数组中进行5次取样。喝咖啡学员样本的比例是多少？ 

In [122]:
# 先用choice选出5个
# 注意在jupyter 中，seed的设置要和choice在一个代码框才生效
# 所以再输入一遍
np.random.seed(42)
# 此处是用np.random.choice把学生进行抽样，（）为参数
# 第1个参数是数据，就是students
# 第2个参数是抽样的个数
# 第3个参数replace默认= Ture，就是可以再次选中被取到的数
# True的情况适合用在两个骰子。从1-6取，取到1之后还可以取到1
# 学生这个例子要用False，因为一个学生被取走了，就不可以再取了
# random.choice的官方文档
# https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.choice.html
sample = np.random.choice(students,size = 5 ,replace = True)
sample

array([0, 1, 1, 1, 0])

In [123]:
# 计算抽样中的比率（方法1）
p = sample.sum()/len(sample)
v = sample.var()
s = sample.std()
p, v, s

(0.6, 0.24000000000000005, 0.48989794855663565)

In [68]:
# 计算抽样中的比率（方法2）
# 更加通用的方法
sum(sample == 1)/len(sample)

0.6

`3`. 重复上述步骤，再另外获取10,000个比例值，其中每个样本的大小为5。把这些数值存储在 sample_props 变量中。

In [143]:
# 方法1（使用循环）
np.random.seed(42)
# 先定义空列表
sample_props1_list = []
# 通过循环把10000次循环的sample ratio存起来
for i in range(10000):
    sample1 = np.random.choice(students,size=5 ,replace=False)
    ratio = sample1.sum() / len(sample)
    sample_props1_list.append(ratio)

# 将list转换为array计算 mean var std
sample_props1 = np.array(sample_props1_list)
print(sample_props1_list[:3])
p1 = sample_props1.mean()
print(p1)
print(sample_props1.var())
print(sample_props1.std())

# 这里得出的标准差和方差比实际数据相差很大
# 因为样本只有21个，不放回的话取5个变化会变小
# 导致了var，std的变小

[0.6, 0.6, 0.8]
0.7164
0.033219040000000005
0.18226091188184043


In [144]:
# 另一种方法结算var（总体抽样分布方差）
((sample_props1-students.mean())**2).mean()

0.03322351020408163

In [156]:
# 方法2（直接使用choice）
# 直接使用random方式生成10000次
# 注意因为只有21个样本，所以抽取10000次每次5个如果不放回的话会报错
# 因为每次拿出5个，拿10000次需要50000个样本
# 默认参数是 replace=Ture，是放回的（具体的会在后面 ‘自助法’ 讲解）
# 对于random.choice要在每个代买框里设定seed值才可以
np.random.seed(42)
sample_props = np.random.choice(students,size=(10000,5))

# 注意形式不同
print(sample_props[:3])
p = sample_props.mean()
print(p)
print(sample_props.var())
print(sample_props.std())

# 采用放回的方式 var std 就比较接近实际值了

[[0 1 1 1 0]
 [0 0 1 1 1]
 [0 1 0 1 0]]
0.71396
0.20422111839999993
0.45190830751381406


`4`. 这10，000个比例值的平均比例值是多少？该值通常被称为 抽样分布均值 。

In [157]:
# 后续顺序为按照 props， props1 展示
sample_props.mean(), sample_props1.mean()

(0.71396, 0.7164)

`5.` 21个原始数据值的方差和标准差分别是多少？

In [158]:
students.var(), students.std()

(0.20408163265306126, 0.45175395145262565)

`6.` 你获取的10000个比例值的方差和标准差分别是多少？

In [159]:
sample_props.var(), sample_props1.var()

(0.20422111839999993, 0.033219040000000005)

In [160]:
sample_props.std(), sample_props1.std()

(0.45190830751381406, 0.18226091188184043)

`7.` 计算 p(1-p)，你的哪个答案与它最接近？

`8.` 计算 p(1-p)/n，你的哪个答案与它最接近？

In [161]:
p*(1-p), p*(1-p)/5

(0.20422111839999998, 0.04084422368)

In [162]:
p1*(1-p1), p1*(1-p1)/5

(0.20317104, 0.040634208)

问题列表：

`1.` 计算出上述数组中喝咖啡的学生的比例，并将此值存储在变量 **p** 中。

`2.` 使用 numpy 的 **random.choice** 模拟从 `students` 数组中进行5次取样。喝咖啡学员样本的比例是多少？ 

`3.` 重复上述步骤，再另外获取10,000个比例值，其中每个样本的大小为5。把这些数值存储在 `sample_props` 变量中。

`4.` 这10，000个比例值的平均比例值是多少？该值通常被称为 **抽样分布均值** 。

`5.` 21个原始数据值的方差和标准差分别是多少？

`6.` 你获取的10000个比例值的方差和标准差分别是多少？

`7.` 计算 p(1-p)，你的哪个答案与它最接近？ 

`8.` 计算 p(1-p)/n，你的哪个答案与它最接近？ 

`9.` 需要注意的是， `8.` 中的答案通常被称为 **抽样分布方差** 。如果将第一个样本大小更改为20，最终的抽样分布方差会发生什么变化？ 模拟并重新计算 `6.` 与 `8.` 的答案，检验一下你之前发现的一致性是否仍然成立。

In [163]:
# 更新方法2，进行20次抽样（直接使用choice）
np.random.seed(42)
sample_props2 = np.random.choice(students,size=(10000,20))

print(sample_props2[:3])
p2 = sample_props2.mean()
print(p2)
print(sample_props2.var())
print(sample_props2.std())

# 20次抽样就更接近实际值了

[[0 1 1 1 0 0 0 1 1 1 0 1 0 1 0 0 1 1 0 0]
 [1 1 1 1 0 1 1 1 1 1 1 1 1 1 0 0 0 0 1 1]
 [1 1 0 0 0 1 1 0 1 0 1 1 1 1 1 1 0 1 0 1]]
0.71509
0.20373629190000003
0.4513715674474856


In [164]:
##Compare your variance values as computed in 6 and 8, 
##but with your sample of 20 values
p2*(1-p2), p2*(1-p2)/20

(0.2037362919, 0.010186814595)

`10.` 最后，从样本数量为5的样本和样本数量为20的样本中进行10000次取样，然后绘制一个直方图。这些分布中的每一个都是一个样本分布。 一个是样本量5的比例，另一个是样本量20的样本分布。