## 假设检验
### t检验
#### 单样本t检验
研究对象：均值
研究目标：均值是否与某个值存在差异
实例：食堂阿姨给你的一两米饭是不是50克，你要的是50克，实际给你的是不是50克。因为阿姨每次打饭的都是有偏差的，我们只能希望均值是50克

为判断食堂阿姨每次打的1两米饭均和50克有没有差异，我们利用t检验来进行分析。

零假设：阿姨给的1两米饭均值是50克
备择假设：阿姨给的1两米饭均值不是50克


In [4]:
# 用于数值计算的库
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# 用于绘图的库
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 在Jupyter Notebook里显示图形
%matplotlib inline


In [5]:
rice_weight = pd.read_csv("one-sample-t-test.csv")["weight"]
rice_weight.head()

0    55
1    56
2    54
3    53
4    60
Name: weight, dtype: int64

In [6]:
# 计算样本均值
mu = np.mean(rice_weight)
mu

54.1

In [7]:
# 自由度
df = len(rice_weight) - 1
df

9

In [8]:
# 计算标准偏差
sigma = np.std(rice_weight, ddof = 1)
# t值计算公式的分母
se = sigma / np.sqrt(len(rice_weight))
se

1.1967548714010827

In [9]:
# 计算t值
t_value = abs(mu - 50) / se
t_value

3.425931323095421

In [10]:
# 计算临界t值
# 百分点函数ppf(percent point function)是cdf(cumulative distribution function)的逆函数
critical_t_value = stats.t.ppf(1 - 0.025, 9)
critical_t_value

2.2621571627409915

In [11]:
if t_value >= critical_t_value:
    print("拒绝零假设，即，阿姨的1两米饭均值不是50克")
else:
    print("接受零假设，即，阿姨的1两米饭均值是50克")

拒绝零假设，即，阿姨的1两米饭均值不是50克


In [12]:
# 计算p值，即，由t分布的累积分布函数计算得到总体均值为50时的概率
alpha_Ave = stats.t.cdf(t_value, df = df)
p_value = (1 -  alpha_Ave) * 2
p_value 

0.007556702096497059

In [13]:
# 校对组
t_value_proof, p_value_proof = stats.ttest_1samp(rice_weight, 50)
t_value_proof, p_value_proof

(3.425931323095421, 0.007556702096497187)

In [14]:
alpha = 0.05
if p_value <= alpha:
    print("拒绝零假设，即，阿姨的1两米饭均值不是50克")
else:
    print("接受零假设，即，阿姨的1两米饭均值是50克")

拒绝零假设，即，阿姨的1两米饭均值不是50克


### 配对样本t检验
零假设：两位阿姨打一两米饭的重量没有显著性差异
备择假设；两位阿姨打一两米饭的重量存在显著性差异
显著性水平：0.05


In [15]:
weight_paired_test_data = pd.read_csv("weight-paired-t-test.csv")
print(weight_paired_test_data)

  person  weight_A  weight_B
0      A        55        46
1      B        56        47
2      C        54        50
3      D        53        45
4      E        60        51
5      F        56        52
6      G        55        55
7      H        54        40
8      I        53        42
9      J        45        48


In [16]:
# 样本数组
rice_weight_A = weight_paired_test_data["weight_A"]
rice_weight_B = weight_paired_test_data["weight_B"]
# 转化为数组型
rice_weight_A = np.array(rice_weight_A)
rice_weight_B = np.array(rice_weight_B)
# 计算差值
diff = rice_weight_A - rice_weight_B
diff

array([ 9,  9,  4,  8,  9,  4,  0, 14, 11, -3], dtype=int64)

In [17]:
# 进行单样本t检验
stats.ttest_1samp(diff, 0)

Ttest_1sampResult(statistic=3.9598500440211146, pvalue=0.003305025148278502)

In [18]:
# stats中的配对样本t检验方法，直接计算配对样本t检验的t值和p值
paired_tvalue, paried_pvalue = stats.ttest_rel(rice_weight_B, rice_weight_A)
paired_tvalue, paried_pvalue

(-3.9598500440211146, 0.003305025148278502)

In [19]:
# 按公式计算p值
paired_alpha = stats.t.cdf(abs(paired_tvalue), df = 9)
paired_p_value = (1 -  paired_alpha) * 2
paired_p_value 

0.003305025148278462

In [20]:
if paired_p_value  <= alpha:
    print("拒绝零假设，即，两位阿姨打一两米饭的重量存在显著性差异")
else:
    print("接受零假设，即，两位阿姨打一两米饭的重量不存在显著性差异")

拒绝零假设，即，两位阿姨打一两米饭的重量存在显著性差异
