# 总体、样本

样本与总体的概念，在前面已经多次接触到，只是没有非常明确的给出定义。例如我们一般假设某个学校全体学生的身高，用随机变量X表示，近似服从正态分布，这里的正态分布就是"总体"的分布，字面意思就是所有待研究对象的集合。在实际的数据分析中，我们通过观察或其他测量方式得到的数据一般都只是待研究对象的一个子集，这个子集就是一个样本（可以包含多个个体）。例如通过某种方式，从全体学生中找出100名学生，这100名学生就是一个样本。


## 概念
1. 总体： 研究对象的全部个体
2. 个体： 总体中的一个
3. 总体容量： 总体中的个体的多少
4. 有限总体：容量有限的总体
5. 无限总体：容量无限(很大)的总体

## 样本、总体、随机变量
1. 样本：总体中的一些个体组成样本
2. 随机变量：研究总体某个指标X(如，身高)，对于不同的个体有不同的取值，这些取值构成一个分布。因此可以称$X$是一个随机变量
3. 有时候直接将$X$称为总体. 假设X的分布函数为$F(x)$,也称总体$X$具有分布$F(x)$.

## 简单随机样本
  (简单地说就是，独立同分布的样本)
  
![](images/6_1.png)

### 简单随机抽样
1. 简单随机抽样：获取简单随机样本
2. 如何进行抽样  
    + 放回抽样：样本容量有限(小)
    + 不放回抽样：样本容量无限(很大)

# 统计量
## 定义
>统计量：样本的不含有任何未知参数的**函数**(如，平均值函数等)

## 常用统计量
1. 样本均值：$$\bar{X} = \frac{1}{n} \sum_{i=1}^{n}X_i$$
2. 样本方差(注意分母是n-1): $$S^2 = \frac{1}{n-1} \sum_{i=1}^{n}(X_i - \bar{X})^2$$  
样本标准差：$$S = \sqrt{S^2}$$  
3. 样本矩：  
k阶矩：$$A_k = \frac{1}{n} \sum_{i=1}^{n}X_i^k$$  
k阶中心距：$$B_k = \frac{1}{n} \sum_{i=1}^{n}(X_i - \bar{X}^k)$$  
$$k = 1,2,\cdots$$

### 相关问题
#### $\bar{X} = \mu$？
![](images/6_2.png)
#### 样本方差分母为什么的n-1
##### 无偏估计
1. 简单定义：估计量的期望等于估计参数的真值
2. 理解
设想一下，想知道全体女性的身高均值$\mu$ ,但是我们没有办法对每个女性进行测量，只能抽一部分人来估计全体女性的身高，那么根据抽样的数据如何进行推断？什么样的推断方法才称得上‘准确’？
<br>
比如：我们得到的样本女性身高为：
<center>${x_1,x_2···,x_n}$</center>
那么，
<br>
<center>$\bar{x} = \frac{x_1+x_2+···+x_n}{n}$</center>
<br>
对于$\mu$来说是一个不错的估计，因为它是无偏估计。(即，$\bar{X}$可以近似的代替$\mu$)
<br>
3. 方差$\sigma^2$的无偏估计    
假设：$\mu$已知，而$\sigma^2$未知
<br>
由方差的定义有(对于单个样本)： <br> 
$E[(X_i - \mu)^2] = \sigma^2, i= 1,2,···,n$
<br>
$=>$
<br>
(对于所有样本)
<br>
$E[\frac{1}{n} \displaystyle \sum_{i=1}^{n}(X_i - \mu)^2] = \frac{1}{n}\displaystyle \sum_{i=1}^{n}E(X_i-\mu)^2 = \frac{1}{n} \times n\sigma^2 = \sigma^2$
<br>
$=>$
<br>
$\frac{1}{n} \displaystyle \sum_{i=1}^{n}(X_i - \mu)^2$ 是方差$\sigma^2$的一个无偏估计    

这个结果符合直觉，并且在数学上也是显而易见的。  
现在，我们考虑随机变量$X$的数学期望$\mu$是未知的情形。这时，我们会倾向于无脑直接用样本均值$\bar{X}$替换掉上面式子中的$\mu$。这样做有什么后果呢？后果就是，  
**如果直接使用$\frac{1}{n} \displaystyle \sum_{i=1}^{n}(X_i - 
\bar{X})^2$作为估计，那么你会倾向于低估方差！**  
这是因为：  
$\frac{1}{n} \displaystyle \sum_{i=1}^{n}(X_i - \bar{X})^2 $  
$=\frac{1}{n} \displaystyle \sum_{i=1}^{n}[(X_i - \mu) + (\mu - \bar{X})]^2$   $=\frac{1}{n} \displaystyle \sum_{i=1}^{n}(X_i - \mu)^2 + \frac{2}{n} \displaystyle \sum_{i=1}^{n}(X_i -\mu)(\mu-\bar{X})+\frac{1}{n} \displaystyle \sum_{i=1}^{n}(\mu-\bar{X})^2$  
$=\frac{1}{n} \displaystyle \sum_{i=1}^{n}(X_i -\mu)^2 + 2(\bar{X}-\mu)(\mu-\bar{X})+(\mu-\bar{X})^2\\= \frac{1}{n} \displaystyle \sum_{i=1}^{n}(X_i - \mu)^2 - (\mu - \bar{X})^2$

换言之，除非正好${\bar{X} = \mu}$，否则我们一定有
$\frac{1}{n} \displaystyle \sum_{i=1}^{n}(X_i - \bar{X})^2  < \frac{1}{n} \displaystyle \sum_{i=1}^{n}(X_i - \mu^2 $

这个不等式说明了为什么直接使用$\frac{1}{n} \displaystyle \sum_{i=1}^{n}(X_i - \bar{X})^2 $会导致结果出现偏差  
那么，在不知道随机变量真实数学期望的前提下，如何“正确”的估计方差呢？  
##### 样本方差
定义：  
设$X_1,…,X_n$是随机变量X的$n$个样本，则样本方差定义为
$s^2 = \frac{1}{n-1}\displaystyle \sum_{i=1}^{n}(X_i - n\bar{X})^2$  
其中，$\bar{X}为样本均值$  
根据定义可以得出：
$s^2 = \frac{1}{n-1}\displaystyle \sum_{i=1}^{n}(X_i - n\bar{X})^2 \\= \frac{1}{n-1}\displaystyle \sum_{i=1}^{n}(X_i^2 -  2n\bar{X}^2 + \bar{X}^2) \\= \frac{1}{n-1}(\displaystyle \sum_{i=1}^{n}X_i^2 - n\bar{X}^2)$   
无偏性：  
其中：
$\displaystyle \sum_{i=1}^{n}E(X_i^2) = D(X) + [E(X)]^2 = \sigma^2 + \mu^2$  
$E(\bar{X}^2) = D(\bar{X}) + [E(\bar{X})]^2 = D(\frac{X_1+X_2+…+X_n}{n}) + \mu^2 = \frac{1}{n^2}D(X_1+X_2+…+X_n) + \mu^2 = \frac{1}{n^2}n\sigma^2 + \mu^2 = \frac{\sigma^2}{n} + \mu^2\$



# 抽样分布
## 定义
>当总体X服从一般分布（如指数分布、均匀分布等），要得出统计量的分布是很困难的；当总体X服从正态分布时，统计量$\bar{X}$、$S^2$是可以计算的，且服从一定的分布。这些分布就是下面要介绍的三大抽样分布——$χ^2$分布，$t$分布，$F$分布。

## 分位数/分位点
分位数是一个非常重要的概念，一开始也有点难理解。首先要明确一点，分位数分的是**面积**。更准确的说，分位数分的是**某个特定分布的概率密度函数曲线下的面积**。每给定一个分位数，这个概率密度函数曲线就被该点一分为二。

### 四分位数（Quartile）
>四分位数（Quartile）也称四分位点，是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。  
例如1， 3， 5， 7， 9， 11，其3个四分位点分别是3，6，9。分别叫做第一四分位数（$Q_1$或者$x_{0.25}$），第二四分位数（$Q_2$或者$x_{0.5}$），第三四分位数（$Q_3$或者$x_{0.75}$）。(认识最多的就是$Q_2$,也就是中位数)

对于概率密度函数来说，四分位点就是将概率密度曲线下的面积均分为4部分的点。

#### 利用pd.DataFrame().describe()实现统计数据显示(包括分位数)

In [117]:
import pandas as pd
import numpy as np

# 获取1到100的10个随机整数
sample = np.random.randint(1, 100, 10)
# 显示统计数据：平均值，标准差，最小值，分位数
pd.DataFrame(sample).describe()

Unnamed: 0,0
count,10.0
mean,46.7
std,23.127905
min,3.0
25%,37.5
50%,46.5
75%,59.75
max,80.0


### 上$\alpha$分位数(Upper Percentile)
>上$α$分位数是概率密度函数定义域内的一个数值，这个数值将概率密度函数曲线下的面积沿x轴分成了两个部分，其中该点右侧部分概率密度函数曲线与x轴围成的面积等于$α$。  

![](images/6_4.png)
由于概率密度函数曲线下的面积就是概率，因此上α分位数中的α既是该点右侧区域的面积，也是在这个分布中取到所有大于该点的值的概率。  
即：$$p(x≥x_{\alpha}) = \alpha$$

此时有两个值，一个是$α$，另一个是$x_α$。这两个值中确定其中一个，另一个值也就确定了。因此我们可以通过一个给定的α值，求在某个特定分布中的上$α$分位数，即$x_α$，的值；也可以在某个特定分布中，任意给定一个定义域内的点x，求取到比该点的值更大的值的概率，即该点的$α$值。

## $\chi^2$分布
### 定义
![](images/6_3.png)

In [81]:
import numpy as np
import pandas as pd

In [109]:
def get_stats(dist_sample):
    sample = pd.DataFrame(dist_sample, columns=['sample'])
    sample['mean'] = np.mean(sample['sample'])
    sample['X_i - X_mean'] = sample['sample'] - sample['mean']
    sample['(X_i - X_mean)^2'] = np.power(sample['X_i - X_mean'], 2)
    sample['S^2'] = np.std(dist_sample)
    sample['B_2'] = ((np.alen(dist_sample)-1) / np.alen(dist_sample)) * sample['S^2']
    return sample

In [111]:
uniform_sample = np.random.rand(10)
print(get_stats(uniform_sample))
_ = pd.Series(uniform_sample)
np.alen(uniform_sample)

     sample      mean  X_i - X_mean  (X_i - X_mean)^2       S^2       B_2
0  0.920491  0.467068      0.453423          0.205592  0.264817  0.238336
1  0.468695  0.467068      0.001626          0.000003  0.264817  0.238336
2  0.618954  0.467068      0.151886          0.023069  0.264817  0.238336
3  0.227989  0.467068     -0.239079          0.057159  0.264817  0.238336
4  0.513403  0.467068      0.046335          0.002147  0.264817  0.238336
5  0.835555  0.467068      0.368487          0.135782  0.264817  0.238336
6  0.079332  0.467068     -0.387737          0.150340  0.264817  0.238336
7  0.484985  0.467068      0.017917          0.000321  0.264817  0.238336
8  0.116341  0.467068     -0.350728          0.123010  0.264817  0.238336
9  0.404939  0.467068     -0.062129          0.003860  0.264817  0.238336


10

In [114]:
normal_sample = np.random.randn(10)
print(get_stats(normal_sample))
np.sum(sample['X_i - X_mean'])

     sample      mean  X_i - X_mean  (X_i - X_mean)^2       S^2       B_2
0 -1.214298  0.107518     -1.321816          1.747197  1.067625  0.960862
1 -0.651622  0.107518     -0.759140          0.576293  1.067625  0.960862
2  0.281476  0.107518      0.173958          0.030261  1.067625  0.960862
3 -0.081101  0.107518     -0.188619          0.035577  1.067625  0.960862
4  0.646499  0.107518      0.538982          0.290501  1.067625  0.960862
5  2.368244  0.107518      2.260726          5.110883  1.067625  0.960862
6  0.657238  0.107518      0.549721          0.302193  1.067625  0.960862
7  0.959624  0.107518      0.852106          0.726085  1.067625  0.960862
8 -1.370756  0.107518     -1.478274          2.185294  1.067625  0.960862
9 -0.520127  0.107518     -0.627645          0.393938  1.067625  0.960862


-1.1102230246251565e-16