# 统计学进阶

<details>
<summary>插入图片</summary>  

![boxplot.png](./path/to/file/boxplot.png)
</details>


# 独立双样本t检验  

<details>
<summary>步骤</summary>  

1. 建立假设
2. 选择单/双尾
3. 确定显著水平
4. 计算t值
5. 计算自由度
6. 查看t值临界表
7. 比较临界值与t值
</details>

### t检验

前提: 随机取样; 总体呈正态分布  

**Steps**
1. 假设  
$H_{0}$ 原假设: 地区A与地区B人平均身高没有差异  
$H_{1}$ 备选假设: 地区A与地区B人平均身高有差异  
1. 选择单/双尾
2. significance level($\alpha$) : eg 0.05, 如果拒绝 $H_{0}$, 原假设实际情况为真的概率为5%
3. 计算t值和p值   
t: 越大表明差异越大   
p: $Pr \{ \text{观察到当前或更极端数据的概率} | H_{0} \text{ is ture} \}$
1. p < $\alpha$ : 拒绝 $H_{0}$

<details>
<summary>t/z检验</summary>  

![boxplot.png](./images/t,z检验.jpg)
</details>

In [2]:
# 独立双样本t检验
from scipy.stats import ttest_ind # t-test, independent; 

import pandas as pd

In [3]:
height_df = pd.read_csv('./课件/07数据分析篇/height.csv')

In [4]:
a_height = height_df.query('地区 == "A" ')['身高']
b_height = height_df.query('地区 == "B" ')['身高']

In [5]:
a_height

0    165
1    167
2    172
3    176
4    178
5    180
6    182
7    183
8    185
9    188
Name: 身高, dtype: int64

In [None]:
t_stat, p_value = ttest_ind(a_height, b_height) # 返回双尾的p值, 单尾p = 双尾/2
print(t_stat, p_value) 

2.608375959216796 0.008891652984778488


p = 0.008891652984778488 < 0.05 : 拒绝$H_{0} $  
则地区A与地区B人平均身高有差异.

### z 检验  
当**整体方差已知** or **样本数量 显著>30** 选z检验  

<details>
<summary>步骤</summary>  

1. 建立假设
2. 选择单/双尾
3. 确定显著水平
4. 计算z值
5. 查看z值临界表
6. 比较临界值与z值
</details>


**Steps**  
1. 假设  
$H_{0}$ 原假设: 地区A与地区B人平均身高没有差异  
$H_{1}$ 备选假设: 地区A与地区B人平均身高有差异  
2. 选择单/双尾 : 单尾: 关注大小关系; 双尾: 只关注差异
3. significance level($\alpha$) : eg 0.05, 如果拒绝 $H_{0}$, 原假设实际情况为真的概率为5%
4. 计算z值和p值   
z: 越大表明差异越大   
p: $Pr \{ \text{观察到当前或更极端数据的概率} | H_{0} \text{ is ture} \}$
5. p < $\alpha$ : 拒绝 $H_{0}$

In [8]:
from statsmodels.stats.weightstats import ztest

In [10]:
z_stat, p_value = ztest(a_height, b_height, alternative="two-sided")
print(z_stat, p_value)

2.608375959216796 0.009097297618287564


# 卡方检验

In [2]:
import numpy as np
from scipy.stats import chi2_contingency, chisquare, chi2

## 独立性检验   
行变量与列变量 相互独立（即两者的联合分布等于行、列边缘的乘积）



示例 1：独立性检验（2×2 列联表）  
假设有一份调查：性别 (Male/Female) 与是否吸烟 (Yes/No)

| | 吸烟| 不吸烟 |
|-------|-------|-------|
| 男 | 30 | 20 |
| 女 | 25 | 35 |

In [3]:
contingency = np.array([[30, 20],   # Male: Yes, No
                        [25, 35]])  # Female: Yes, No

chi2_stat, p, dof, expected = chi2_contingency(contingency,
                                               correction=False)   # Yates 修正可选
print('独立性检验')
print(f'χ² = {chi2_stat:.4f}, df = {dof}, p = {p:.4f}')
print('期望频数:\n', expected)


独立性检验
χ² = 3.6667, df = 1, p = 0.0555
期望频数:
 [[25. 25.]
 [30. 30.]]


significance level = 0.05  
p = 0.016 < 0.05: 说明性别与吸烟行为在本样本中呈显著关联。

示例 2：适合度检验（掷骰子）  
观察到的次数（6 面骰子掷 60 次）

In [4]:
obs = np.array([8, 12, 9, 11, 10, 10])
# 理论概率（均匀分布）
exp = np.full_like(obs, fill_value=60/6)   # 每面期望 10 次
chi2_stat, p = chisquare(f_obs=obs, f_exp=exp)
df = len(obs) - 1
print('\n适合度检验')
print(f'χ² = {chi2_stat:.4f}, df = {df}, p = {p:.4f}')


适合度检验
χ² = 1.0000, df = 5, p = 0.9626


零假设 H₀：骰子每面出现概率为 1/6（均匀分布）。  
结论：p > 0.05，未能拒绝 H₀，表明在本次实验中没有显著证据说明骰子偏离均匀分布。