In [95]:
np.random.seed(43)

# 单样本t检验

Task1:汽车引擎是否满足排放标准？
“Super Engine”是一家专门生产汽车引擎的公司，根据政府发布的新排放要求，引擎排放平均值要低于20ppm。公司制造出10台引擎供测试使用，每一台的排放水平如下：
15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9
问题：公司生产的引擎是否符合政府规定呢？

$H_0:mean >= 20$  
$H_1:mean < 20$

In [61]:
data = np.array([15.6, 16.2, 22.5, 20.5, 16.4, 19.4, 16.6, 17.9, 12.7, 13.9])
data

array([15.6, 16.2, 22.5, 20.5, 16.4, 19.4, 16.6, 17.9, 12.7, 13.9])

In [62]:
from scipy import stats as st
td = st.t(len(data) - 1)

In [63]:
tval = (np.mean(data) - 20) / (np.std(data, ddof=1) / len(data) **(1/2))
tval
td.cdf(tval)

-3.001649525885985

0.0074582071244487635

In [64]:
tval, p = st.ttest_1samp(data, 20)
p / 2

0.0074582071244487635

+ 置信区间

In [65]:
np.mean(data) + td.ppf(0.05/2)*(np.std(data, ddof=1) / len(data) **(1/2))
np.mean(data) - td.ppf(0.05/2)*(np.std(data, ddof=1) / len(data) **(1/2))

15.037204443640903

19.302795556359094

# 正态性检验

## W检验（SHAPIRO-WILK TEST）

+ 检验数据样本是否具有高斯分布。w检验是检验样本容量8≤n ≤50时，样本是否符合正态分布的一种方法。

+ 假设
    >每个样本中的观察是独立同分布的（iid）。

+ 解释
>H0：样本具有高斯分布。  
>H1：样本没有高斯分布。

In [66]:
from scipy import stats as st

In [67]:
data = np.random.randint(10, 100, 100) #随机选择数据
st.shapiro(data)

data = np.random.randn(100)
st.shapiro(data)

(0.960827648639679, 0.004608450923115015)

(0.9928040504455566, 0.8759610056877136)

## D’AGOSTINO’S K^2 TEST

+ 检验数据样本是否具有高斯分布。

+ 假设
>每个样本中的观察是独立同分布的（iid）。
+ 解释
>H0：样本具有高斯分布。  
>H1：样本没有高斯分布。

In [68]:
data = np.random.randint(10, 100, 100) #随机选择数据
st.normaltest(data)

data = np.random.randn(100)
st.normaltest(data)

NormaltestResult(statistic=38.53211403360539, pvalue=4.2939575784400775e-09)

NormaltestResult(statistic=0.0065376565713865, pvalue=0.9967365085168733)

## ANDERSON-DARLING检验

+ 检验数据样本是否具有高斯分布。

+ 假设
>每个样本中的观察是独立同分布的（iid）。
+ 解释
>H0：样本具有高斯分布。  
>H1：样本没有高斯分布。

In [69]:
data = np.random.randint(10, 100, 100) #随机选择数据
st.anderson(data) #返回：statistic - 统计数；critical_values - 评判值；significance_level - 显著性水平

data = np.random.randn(100)
st.anderson(data)

AndersonResult(statistic=1.7491890616592372, critical_values=array([0.555, 0.632, 0.759, 0.885, 1.053]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))

AndersonResult(statistic=0.19270907485569921, critical_values=array([0.555, 0.632, 0.759, 0.885, 1.053]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))

# 相关性检验

## 皮尔逊相关系数( PEARSON CORRELATION COEFFICIENT）

+ 检验两个样本是否具有单调关系。  

+ 假设
>每个样本中的观察是独立同分布的（iid）。  
>每个样本的观察都是正态分布的。  
>每个样本中的观察具有相同的方差。
+ 解释 
>H0：两个样本是独立的。  
>H1：样本之间存在依赖关系。

In [111]:

data1 = np.random.randint(10, 100, 100) #随机选择数据
data2 = np.random.randint(10,20,100)
st.pearsonr(data1, data2)

np.random.seed(43)
data1 = np.random.randn(100)
np.random.seed(43)
data2 = np.random.randn(100) * 10
st.pearsonr(data1, data2) # corr, p

(0.23777496323558647, 0.017212984499286956)

(1.0, 0.0)