# 实验12-统计推断

这一章是讲如何从样本推断总体,以及如何评价从样本推断整体的可信程度.

- 怎样由样本数据估计总体的一些参数
- 估计的可靠程度如何
- 怎样根据样本数据去肯定或否定一个事先提出的假设

## 参数估计

假定总体的概率分布的类型(如正态分布\指数分布)已知,由样本估计分布的参数(如$\mu,\sigma$)的值.
> 本节只讨论正态分布的参数估计
> 本节只讨论期望和方差的估计

### 点估计

通常取$$\hat{\mu}=\bar{x},\hat{\sigma}=\bar{s}$$

#### 将总体分布的参数用样本统计量估计

- 样本($x_1,x_2,\cdots,x_n$)的样本均值$\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i$称为`一阶矩`
- `二阶矩`是样本的方差$A_2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2$
- 可以用样本`一阶矩`和`二阶矩`对总体$\mu,\sigma^2$进行估计,记作
  - $\hat{\mu}=\bar{x}$
  - $\hat{\sigma}^2=A_2$

#### 极大似然估计

极大似然估计是一种常用的参数估计方法,其基本思想是:在所有可能的参数值中,选择使得观察到的样本数据出现的概率最大的参数值作为估计值.
设总体的概率密度函数为$f(x;\theta)$,其中$\theta$是待估参数,样本为$x_1,x_2,\cdots,x_n$,则样本的联合概率密度函数为
$$
L(\theta)=f(x_1;\theta)f(x_2;\theta)\cdots f(x_n;\theta)
$$
称为似然函数,取对数得到
$$
\ln L(\theta)=\ln f(x_1;\theta)+\ln f(x_2;\theta)+\cdots+\ln f(x_n;\theta)
$$
对$\theta$求导,令导数为0,解出$\theta$的值,即为极大似然估计值.

#### 点估计的评价标准

- 无偏性: 估计量的数学期望等于被估计参数的真值
  - `一阶矩`是无偏的
  - `二阶矩`是有偏的,其无偏估计量是$\frac{n-1}{n}A_2=s^2=\frac{n-1}{n}\sum_{i=1}^n(x_i-\bar{x})^2$
- 有效性: 估计量的方差小
  - 对固定的n,某个$\hat{\theta}$的方差更小,则称$\hat{\theta}$是更有效的
- 一致性: 当样本容量增大时,估计值收敛于被估计参数的真值

### 区间估计

#### 置信区间

置信区间是指用样本统计量估计总体参数时,给出的一个区间,该区间包含真值的概率为$1-\alpha$,其中$\alpha$称为`显著性水平`,常取0.05,0.01等.$1-\alpha$称为置信概率
形式上来说:
$$
P(\theta_1<\theta<\theta_2)=1-\alpha
$$
其中$\theta_1,\theta_2$是样本统计量($x_i$)的函数,称为置信区间的下限和上限.

#### 总体均值的区间估计

- 总体方差已知
  - 对$\bar{x}$标准化得到$Z=\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$
  - 给定置信水平$1-\alpha$,寻找两个常数$L,U$,使得$P(L<z<U)=1-\alpha$
  - 总体均值的置信区间为$\bar{x}\pm u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}$
  - 其中$z_{\alpha/2}$是标准正态分布的上侧$\alpha/2$分位数
  - 由于总体方差已知,所以可以直接计算
- 总体方差位置
  - 总体均值的置信区间为$\bar{x}\pm t_{1-\alpha/2}\frac{s}{\sqrt{n}}$
  - 其中$t_{\alpha/2}$是自由度为$n-1$的t分布的上侧$\alpha/2$分位数
  - 由于总体方差未知,所以用样本方差代替总体方差

#### 总体方差的区间估计

在置信水平$1-\alpha$下,总体方差$\sigma^2$的置信区间为
$$
\left[\frac{(n-1)s^2}{\chi^2_{1-\alpha/2}},\frac{(n-1)s^2}{\chi^2_{\alpha/2}}\right]
$$



## 假设检验

假设检验是指在给定显著性水平$\alpha$下,根据样本数据对总体参数提出的某种假设进行检验.

### 基本概念

- 原假设$H_0$: 对总体参数提出的某种假设
- 备择假设$H_1$: 对原假设的否定

当然可以！以下是每个问题的应用示例和相应的Python代码。

### 1. 总体均值的假设检验

**应用示例**：一个公司想知道其员工的平均工资是否为5000元。假设工资服从正态分布。

**Python求解**：
```python
import numpy as np
from scipy.stats import ttest_1samp

# 假设我们有一组员工的工资样本
salaries = np.array([4800, 5200, 5000, 5100, 4900, 5300, 4700, 5100])

# 进行单样本t检验
t_stat, p_value = ttest_1samp(salaries, 5000)

print(f"T统计量: {t_stat}, p值: {p_value}")

# 判断是否拒绝原假设
alpha = 0.05
if p_value < alpha:
    print("拒绝原假设: 员工的平均工资显著不同于5000元")
else:
    print("不拒绝原假设: 没有证据表明员工的平均工资不同于5000元")
```

### 2. 总体方差的假设检验

**应用示例**：一个工厂想知道其生产的零件直径的方差是否为0.01平方厘米。

**Python求解**：
```python
import numpy as np
from scipy.stats import chi2

# 假设我们有一组零件直径的样本数据
diameters = np.array([2.99, 3.01, 2.98, 3.02, 3.00, 3.03, 2.97, 3.01])

# 计算样本方差
sample_variance = np.var(diameters, ddof=1)

# 样本大小
n = len(diameters)

# 计算卡方统计量
chi2_stat = (n - 1) * sample_variance / 0.01

# 计算p值
p_value = 1 - chi2.cdf(chi2_stat, df=n-1)

print(f"卡方统计量: {chi2_stat}, p值: {p_value}")

# 判断是否拒绝原假设
alpha = 0.05
if p_value < alpha:
    print("拒绝原假设: 零件直径的方差显著不同于0.01平方厘米")
else:
    print("不拒绝原假设: 没有证据表明零件直径的方差不同于0.01平方厘米")
```

### 3. 两总体均值的假设检验

**应用示例**：两种不同肥料的效果是否有显著差异。我们测量了使用两种肥料的植物生长高度。

**Python求解**：
```python
import numpy as np
from scipy.stats import ttest_ind

# 假设我们有两组植物生长高度的样本数据
fertilizer_A = np.array([22, 24, 21, 23, 25, 20, 22, 23])
fertilizer_B = np.array([27, 28, 26, 29, 30, 27, 28, 29])

# 进行独立样本t检验
t_stat, p_value = ttest_ind(fertilizer_A, fertilizer_B)

print(f"T统计量: {t_stat}, p值: {p_value}")

# 判断是否拒绝原假设
alpha = 0.05
if p_value < alpha:
    print("拒绝原假设: 两种肥料的效果显著不同")
else:
    print("不拒绝原假设: 没有证据表明两种肥料的效果不同")
```

### 4. 0-1分布总体均值的假设检验

**应用示例**：一个公司想知道新产品的购买率是否为20%。

**Python求解**：
```python
import numpy as np
from statsmodels.stats.proportion import proportions_ztest

# 假设我们有一组购买行为的样本数据 (1表示购买，0表示未购买)
purchases = np.array([1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0])

# 计算样本中购买的数量和样本总数
count = np.sum(purchases)
nobs = len(purchases)

# 进行比例检验
stat, p_value = proportions_ztest(count, nobs, value=0.2)

print(f"Z统计量: {stat}, p值: {p_value}")

# 判断是否拒绝原假设
alpha = 0.05
if p_value < alpha:
    print("拒绝原假设: 购买率显著不同于20%")
else:
    print("不拒绝原假设: 没有证据表明购买率不同于20%")
```

### 5. 总体正态性检验

**应用示例**：验证某个产品的重量是否服从正态分布。

**Python求解**：
```python
import numpy as np
from scipy.stats import shapiro

# 假设我们有一组产品重量的样本数据
weights = np.array([50.1, 49.8, 50.3, 49.9, 50.0, 50.2, 49.7, 50.4])

# 进行Shapiro-Wilk正态性检验
stat, p_value = shapiro(weights)

print(f"Shapiro-Wilk统计量: {stat}, p值: {p_value}")

# 判断是否拒绝原假设
alpha = 0.05
if p_value < alpha:
    print("拒绝原假设: 样本数据不服从正态分布")
else:
    print("不拒绝原假设: 没有证据表明样本数据不服从正态分布")
```

这些示例展示了如何在实际应用中进行各种假设检验，并使用Python代码实现这些检验。如果有特定的需求或进一步的问题，请告诉我！

In [1]:
import numpy as np
from scipy.stats import ttest_1samp

# 假设我们有一组员工的工资样本
salaries = np.array([4800, 5200, 5000, 5100, 4900, 5300, 4700, 5100])

# 进行单样本t检验
t_stat, p_value = ttest_1samp(salaries, 5000)

# 单边检验，只关心平均工资是否大于5000元
p_value_one_sided = p_value / 2 if t_stat > 0 else 1 - p_value / 2

print(f"T统计量: {t_stat}, 单边p值: {p_value_one_sided}")

# 判断是否拒绝原假设
alpha = 0.05
if p_value_one_sided < alpha:
    print("拒绝原假设: 员工的平均工资显著大于5000元")
else:
    print("不拒绝原假设: 没有证据表明员工的平均工资大于5000元")

T统计量: 0.17407765595569782, 单边p值: 0.43336592487750397
不拒绝原假设: 没有证据表明员工的平均工资大于5000元
