In [93]:
import numpy as np
import scipy.stats as ss
import pandas as pd

<img src = "img/2sampling2.png">
<img src = "img/两个总体正态.png">

# 样本标准差已知
1.1 假定条件

- 两个样本是独立的随机样本

- 两个总体都是正态分布

- 若不是正态分布,可以用正态分布来近似,n_1>30和n_2>30
1.2 检验统计量
<img src = "img/z.png">

1.3 效应量计算:$d=\bar{X_1}−\bar{X_2}/(σ_1+σ_2)/2$


- 例:
有两种方法可用于制造某种以抗拉强度为重要特征的产品。根据以往的资料得知，第一种方法生产出的产品其抗拉强度的标准差为8公斤,第二种方法的标准差为10公斤,从两种方法生产的产品中各抽取一个随机样本，样本容量分别为$n_1=32 ,n_2=40
测得\bar{X_1}=50公斤,\bar{X_2}=44公斤,问这两种方法生产的产品平均抗拉强度是否有明显差异?$

In [18]:
'''
1. 先做出假设
1.1 双侧检验
mu1-mu = 0
mu1 - mu2 !=0
2.确认统计量
3. 规定显著范围
4. 如果原假设被拒绝，则需要计算效应量
'''

# 双侧检验
# 确认统计量
mean1 = 50
n1 = 32
mean2 = 44
n2 = 40
sigma1 = 8
sigma2 = 10
# 求出z统计量的值
z = (mean1-mean2)/np.sqrt(sigma1**2/n1 + sigma2**2/n2)
z

2.8284271247461903

In [17]:
# 根据z统计量，求出p
p =(1-ss.norm.cdf(z))*2
print("the h0 is {result}".format(result=p>0.05))
#拒绝原假设
#两种方法生产的产品平均强度有明显差异。

the h0 is False


In [20]:
#计算效应量
d = (mean1-mean2)/((sigma1+sigma2)/2)
d

0.6666666666666666

# 2. 样本的标准差未知

- 大样本的时候也可以用z分布，但是实际操作时，标准差未知的情况下经常用t分布。
- 小样本的，标准差未知时，！！！！只能用t分布！！！！！

2.1 假设条件1
- 两个样本是独立的随机样本
- $两个总体都是正态分布$
- 两个总体方差不齐

<img src="img/2sampling4.png">

2.2 假定条件2
- 两个样本是独立的随机样本
- 两个总体都是正态分布
- 两个总体方差齐

<img src="img/2sampling3.png">

- 例:
随机抽取20只小鼠分配到A、B两个不同饲料组。每组 10 只，喂养一定时间后，测得鼠肝中铁的含量(μg/g)，数据如下。试问不同饲料对鼠肝中铁的含量有无影响？

In [48]:
# 1. 理解题意： 比较A和B组均值是否相等。
# 2. 提出假设
'''
h0:mu1-mu2=0
h1:mu1-mu2!=0
'''
# 3. 确认统计量
'''
小样本，sigma未知
'''
# 3.1 加载数据
x1=[3.59,0.96,3.89,1.23,1.61,2.94,1.96,3.68,1.54,2.59]
x2=[2.23,1.14,2.63,1.00,1.35,2.01,1.64,1.13,1.01,1.70]

In [49]:
# 3.2 样本正态性检验
def distri_check(x,dis="norm"):
    '''
    this function is to check if the samples fir normal 
    distribution
    '''
    statistic, p = ss.kstest(x1, dis)
    print("the sample is normal distribution: {result}".format(result=p>0.05))
distri_check(x1), distri_check(x2) # return False. both samples are not normal distribution. 

the sample is normal distribution: False
the sample is normal distribution: False


(None, None)

In [50]:
# 3.3 方差齐次性检验。
def sigma_check(x1,x2):
    '''
    The function return boolean True or False. 
    To check if the samples have the same sigma.
    '''
    s, p = ss.levene(x1,x2)
    return p>0.05

In [51]:
sigma_check(x1,x2) # sigma is not the same. 

False

In [91]:
# 3.4 确认统计方法 使用t，但是分母用sp。
t1,p = ss.ttest_ind(x1,x2,equal_var=False)
t1, p

(2.109002665975056, 0.05414901720012299)

In [92]:
p>0.05 # accept h0。

True

- 3. 练习
数据字段说明：

gender：性别，1为男性，2为女性
Temperature:体温
HeartRate：心率
共130行，3列
解决问题:男性和女性的体温是否有明显差异?

1. 分析问题，提出假设。
双边检验男性总体和女性总体的温度均值是否相等。

h0: t_mean1 - t_mean2 = 0
h1: t_mean1 - t_mean2 !=0

2. 检查样本正态性
kstest
3. 检查方差齐次性
levene 

In [94]:
df = pd.read_csv("img/test.csv")

In [97]:
df.head(5)

Unnamed: 0,Temperature,Gender,HeartRate
0,96.3,1,70
1,96.7,1,71
2,96.9,1,74
3,97.0,1,80
4,97.1,1,73


In [102]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 130 entries, 0 to 129
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Temperature  130 non-null    float64
 1   Gender       130 non-null    int64  
 2   HeartRate    130 non-null    int64  
dtypes: float64(1), int64(2)
memory usage: 3.2 KB


In [126]:
x1 = df.loc[df["Gender"]==1]["Temperature"]
x2 = df.loc[df["Gender"]==2]["Temperature"]

In [127]:
x_male = []
x_female = []
gender = [i for i in df["Gender"].unique()]

In [129]:
# 1. 检查样本的正态性
ss.kstest(x1,"norm"), ss.kstest(x2,"norm") # 两个样本都为非正态分布。因为前提假设是总体是正态分布。

(KstestResult(statistic=1.0, pvalue=0.0),
 KstestResult(statistic=1.0, pvalue=0.0))

In [132]:
# 2. 检验方差的齐次性
ss.levene(x1,x2) # p > 0.05 方差齐

LeveneResult(statistic=0.06354951292025163, pvalue=0.8013756068102883)

In [134]:
# 3. 小样本，总体方差未知，因此使用t检验。
t, p = ss.ttest_ind(x1,x2,equal_var=True)

In [135]:
t, p # p<0.05  Reject h0. 

(-2.2854345381654984, 0.02393188312240236)

- 4.小结
  - 方差齐:scipy.stats.ttest_ind(x1,x2)
  - 方差不齐:scipy.stats.ttest_ind(x1,x2,equal_var=False)