# 第一节 参数估计

## 实验4-1 总体均值的区间估计：大样本

享受贷款的学生毕业前欠款平均数额为12168美元，假定这一欠款数额的平均值是基于480名学生贷款人组成的样本计算得来的，
毕业前欠款数额的总体标准差为2200美元。根据样本数据给出学生中享受贷款的在毕业前平均欠款数额的95%的置信区间。
注意，大于30即为大样本。

In [2]:
import numpy as np
from scipy import stats

In [3]:
# 这些是已知数据
confidence = 0.95
sample_mean = 12168
sample_n = 480
pop_std = 2200

In [5]:
# 抽样平均误差
sigma_debt = pop_std / np.sqrt(sample_n)

# 95%置信区间
CI_debt = stats.norm.interval(confidence, loc = sample_mean, scale = sigma_debt)
CI_debt

(11971.188644191112, 12364.811355808888)

## 实验4-2 总体均值的区间估计：小样本

有15个样本，总体服从正态分布，根据这15个样本的数学期望值进行区间估计（置信概率0.95）

In [7]:
import numpy as np
import pandas as pd 

In [8]:
# 传入数据这一步我简化了
speed_sample = pd.read_excel('4-2.xlsx')
speed_sample 

Unnamed: 0,v
0,416
1,423
2,413
3,446
4,428
5,444
6,444
7,443
8,430
9,447


In [11]:
confidence = 0.95
sample_n = 15

# 抽样平均误差
sigma_speed = speed_sample.std()/np.sqrt(speed_sample.size)

# 样本均值
mean_speed = np.mean(speed_sample)

# 95%置信区间
CI_speed = stats.t.interval(confidence, df = sample_n - 1, loc = mean_speed , scale = sigma_speed)

print('点估计值为',mean_speed)
print('95%置信区间为',CI_speed)


点估计值为 v    432.0
dtype: float64
95%置信区间为 (array([424.50273634]), array([439.49726366]))


## 实验4-3 总体成数的估计

要估计一批总数为5000件的产品的废品率，于是抽出400件产品进行检测，发现32件废品。试给出该批产品的废品率的区间估计（置信度90%）

In [12]:
import numpy as np
from scipy import stats

In [14]:
# 已知条件
confidence = 0.90
pop_n = 5000
sample_n = 400
sample_reject = 32
sample_p = sample_reject/sample_n # 样本废品率为8%

In [16]:
# 抽样平均误差（不放回抽样）
sigma_reject = np.sqrt(sample_p*(1-sample_p)/sample_n)*np.sqrt((pop_n - sample_n)/(pop_n-1))

# 90%置信区间
CI_reject_rate = stats.norm.interval(confidence, loc = sample_p, scale = sigma_reject)

print('点估计值为',sample_p)
print('90%置信区间为',CI_reject_rate)

点估计值为 0.08
90%置信区间为 (0.05859705597092087, 0.10140294402907912)


## 实验4-4 总体方差的估计

某种药物，18个样本得出的样本方差是0.36克。构造该药物方差的90%置信区间概率。假设药物重量服从正态分布。

In [18]:
import numpy as np
from scipy import stats

In [19]:
# 已知条件
confidence = 0.90
sample_n = 18
sample_var = 0.36

In [20]:
# 计算卡方分布（自由度n-1）90%置信区间的上下限
chi2_lower, chi2_higher = stats.chi2.interval(confidence, df = sample_n -1)

# 计算((n-1)*样本方差)的值
sample_df_var = (sample_n - 1)*sample_var

# 计算得到总体方差的置信区间估计
CI_weight_var = (sample_df_var/chi2_higher,sample_df_var/chi2_lower)

CI_weight_var

(0.22184272424913432, 0.7057390720633793)

# 第二节 参数检验

## 实验4-5 单一总体均值检验：大样本

一种减肥法称一星期平均减肥3.5公斤。40个用此法的个人组成一个随机样本，称减去的体重的样本均值为3公斤，样本标准差为1.5公斤。该如何对该减肥方法做出判断？（显著性水平0.05）

H0:μ>=3.5

H1:μ<3.5

In [2]:
import numpy as np
from scipy import stats

In [9]:
# 已知条件
confidence = 0.05
sample_n = 40
sample_mean = 3
sample_std = 1.5
test_mean = 3.5

In [11]:
# 计算5%显著水平的正态分布临界值（左侧检验）
limit = stats.norm.ppf(confidence)

# 计算检验统计量
z = (sample_mean - test_mean) / (sample_std/np.sqrt(sample_n))

print('临界值为',limit)
print('检验统计量的值为',z)

临界值为 -1.6448536269514729
检验统计量的值为 -2.1081851067789197


由于 检验统计量的值为 -2.1081851067789197 小于 临界值为 -1.6448536269514729

因此拒绝原假设，即该减肥法自称平均减少3.5公斤是不真实的

## 实验4-6 单一总体均值检验：正态总体，方差已知

美国家庭每天平均消费额为90美元，标准差为14.50美元。从纽约选取15个家庭组成一个样本表明，其每天消费额的样本均值为84.5美元。在显著性水平=0.01下，能否认为纽约家庭每天平均消费额为90美元

假设纽约总体均值与美国均值无差异，即样本均值84.5美元来自均值为90美元的总体，提出假设

H0:μ=90

H1:μ不等于90

总体服从正态分布，因而样本也服从正态分布。用Z统计量。

In [14]:
import numpy as np
from scipy import stats

In [15]:
# 已知条件
confidence = 0.01
sample_n = 15
sample_mean = 84.5
test_mean = 90
pop_std = 14.50

In [16]:
# 计算1%显著性水平的正态分布临界值（双侧检验）
limit = stats.norm.ppf(confidence/2)

# 计算检验统计量
z = (sample_mean - test_mean) / (pop_std/np.sqrt(sample_n))

print('两个临界值分别为',limit,'和',-limit)
print('检验统计量的值为',z)

两个临界值分别为 -2.575829303548901 和 2.575829303548901
检验统计量的值为 -1.469062648561434


结论

由于 -2.575829303548901<-1.469062648561434<2.575829303548901，所以不能拒绝原假设。即样本数据说明纽约家庭每天平均消费额与美国家庭每天平均消费额无差异

## 实验4-7 单一总体均值检验：正态总体，方差未知

厂子生产糖果，标准是每袋净重500克，现在从一批生产中抽出10袋，净重分别如下。

给定显著性水平0.01，问该批生产是否正常。假设糖果重量符合正态分布。

H0:μ=500

H1:μ不等于500
    
使用t检验

In [4]:
import numpy as np
from scipy import stats
import pandas as pd 

In [5]:
# 导入数据这里我简化了
candy_sample = pd.read_excel('4-7.xlsx')
candy_sample

Unnamed: 0,candy
0,512
1,503
2,498
3,507
4,496
5,489
6,499
7,501
8,496
9,506


In [6]:
# 已知条件
confidence = 0.01
test_mean = 500

In [8]:
# 方法一 比较p值和置信度
result = stats.ttest_1samp(candy_sample,popmean=test_mean)
print('检验样本统计量t为',result[0])
print('p值为',result[1])

检验样本统计量t为 [0.33536742]
p值为 [0.7450329]


In [10]:
# 方法二 计算t再计算临界值判断
result = stats.ttest_1samp(candy_sample,popmean=test_mean)

# t分布临界值
limit = stats.t.ppf(confidence/2, df =candy_sample.size - 1)

print('检验样本统计量t为',result[0])
print('t临界值为（双侧检验）',limit,'和',-limit)

检验样本统计量t为 [0.33536742]
t临界值为（双侧检验） -3.24983554401537 和 3.24983554401537


In [13]:
# 方法三 使用公式计算t统计量，比较临界值
t = (candy_sample.mean() - test_mean) / (candy_sample.std()/np.sqrt(candy_sample.size))
limit = stats.t.ppf(confidence/2, df = candy_sample.size - 1)
                                         
print('t统计量为',t)
print('t临界值为（双侧检验）',limit,'和',-limit)                                   

t统计量为 candy    0.335367
dtype: float64
t临界值为（双侧检验） -3.24983554401537 和 3.24983554401537


结论

从p值看，p=0.7450329 > 0.01，因此1%abs显著性水平下不能拒绝原假设，可认为该批次生产正常

从临界值看，因为 -3.24983554401537<0.335367<3.24983554401537，也可以说明不能拒绝原假设，该批次生产正常

## 实验4-8 两个总体的均值检验：总体方差未知，大样本

一次大型考试，检测男女生差异。假设这些男女生数学成绩相同，562名女生和852名男生。

他们的词汇得分如下：女生平均分547，样本标准差83；男生平均分525，样本标准差78

问，数学成绩相同的女生总体和男生总体，女生词汇能力是否明显高于男生？显著性水平=0.01


H0:μ1 - μ2 <= 0

H1:μ1 - μ2 > 0   
    
假设两总体服从正态分布，由于总体方差未知，但样本容量较大，所以使用Z检验统计量。

In [18]:
import numpy as np
from scipy import stats

In [19]:
# 已知条件
confidence = 0.01
sample_n1 = 562
sample_mean1 = 547
sample_std1 = 83
sample_n2 = 852
sample_mean2 = 525
sample_std2 = 78

In [22]:
# 计算z统计量
z = (sample_mean1 - sample_mean2) / np.sqrt(sample_std1 ** 2 / sample_n1 + sample_std2 ** 2 / sample_n2)

# 临界值（右侧检验）
limit = stats.norm.ppf(1 - confidence)

print('检验样本统计量z为',z)
print('正态临界值（右侧检验）为',limit)

检验样本统计量z为 4.9949904689768685
正态临界值（右侧检验）为 2.3263478740408408


结论

由于z = 4.9949904689768685 > 临界值 2.3263478740408408

因此拒绝原假设，接受备择假设。也就是说女生词汇能力的确明显高于男生

## 实验4-9 两独立样本t检验

12名会计师和14名财务人员起始年薪如下。

在显著性水平=0.05下，检验两种职业起始年薪有无差异。

H0:μ1 - μ2 = 0

H1:μ1 - μ2 不等于 0
    
假设两总体服从正态分布。

总体均值在小样本下的检验是在两总体服从正态分布假定下进行的，与大样本下的检验方法基本相同。不同的是，需要区分总体方差已知和总体方差未知两种情况。

In [26]:
import numpy as np
from scipy import stats
import pandas as pd 

In [27]:
wage_df = pd.read_excel('4-9.xlsx')
wage_df

Unnamed: 0,会计师,财务人员
0,30.6,31.6
1,31.2,26.6
2,28.9,25.5
3,35.2,25.0
4,25.1,25.9
5,33.2,32.9
6,31.3,26.9
7,35.3,25.8
8,31.0,27.5
9,30.1,29.6


In [30]:
# 两列数据去除缺失值
series1 = wage_df['会计师'].dropna()
series2 = wage_df['财务人员'].dropna()

In [31]:
# 情况1，总体方差未知但相等
result = stats.ttest_ind(series1,series2,equal_var=True)

print('检验统计量t为',result[0])
print('p值为',result[1])

检验统计量t为 2.994071589160206
p值为 0.006293740169423802


结论

p=0.006293740169423802 < 0.05 所以拒绝原假设，因而可以认为会计师和财务人员的起始年薪是有差异的

In [32]:
# 情况二，总体方差未知且不相等
result = stats.ttest_ind(series1,series2,equal_var=False)

print('检验统计量t为',result[0])
print('p值为',result[1])

检验统计量t为 2.9387255650200323
p值为 0.007884123219171885


结论

p=0.007884123219171885 < 0.05 所以拒绝原假设，因而可以认为会计师和财务人员的起始年薪是有差异的

## 实验4-10 配对样本t检验

消费者给商品打分0~10分，分越高表示购买潜力越高。看广告前后各打一次分。

显著性水平=0.05 根据样本数据判断广告是否提高了平均购买力

H0:μ1 - μ2 = 0

H1:μ1 - μ2 不等于 0

In [36]:
import numpy as np
from scipy import stats
import pandas as pd 

In [37]:
consumer_df = pd.read_excel('4-10.xlsx')
consumer_df

Unnamed: 0,看广告之后,看广告之前
0,6,5
1,6,4
2,7,7
3,4,3
4,3,5
5,9,8
6,7,5
7,6,6


In [38]:

series1 = consumer_df['看广告之后']
series2 = consumer_df['看广告之前']

In [39]:
# 方法1
result = stats.ttest_rel(series1,series2)

print('检验统计量t为',result[0])
print('p值为',result[1])

检验统计量t为 1.3572417850765923
p值为 0.2168375456189006


结论

p = 0.2168375456189006 > 0.05,所以不能拒绝原假设，因而广告没有使潜在购买力提高

In [40]:
# 方法二 
confidence = 0.05
result = stats.ttest_rel(series1,series2)

# 计算临界值（双侧检验）
limit = stats.t.ppf(1 - confidence/2 , df=len(consumer_df) - 1)

print('检验统计量t为',result[0])
print('临界值为',limit)

检验统计量t为 1.3572417850765923
临界值为 2.3646242510102993


结论

t = 1.3572417850765923 < 临界值 = 2.3646242510102993，因此，接受原假设，即广告没有使潜在购买力提高

## 实验4-11 单一总体成数的假设检验

快餐店有种特殊饮料，如果15%的顾客买它，则认为可以提供这种特殊供应。初步实验表明，500名顾客中88人买了。请问是否提供这种特殊饮料的供应？

显著性水平 = 0.01

H0:ρ>=15%

H1:ρ<15%

大样本下，无论总体是否服从正态分布，样本成数近似服从正态分布，因此选择Z检验统计量。

In [41]:
import numpy as np
from scipy import stats

In [42]:
# 已知条件
confidence = 0.01
sample_n = 500
sample_buyer = 88
sample_p = sample_buyer / sample_n
test_p = 0.15

In [44]:
# 计算临界值（左侧检验）
limit = stats.norm.ppf(confidence)

# 计算检验统计量
z = (sample_p - test_p) / np.sqrt(test_p*(1 - test_p)/sample_n)

print('临界值为',limit)
print('检验统计量为',z)

临界值为 -2.3263478740408408
检验统计量为 1.6281831568213883


结论

检验统计量为 1.6281831568213883 > 临界值为 -2.3263478740408408，所以接受原假设，即可以提供这种特殊供应

## 实验4-12 两个总体的成数检验

对600人进行一项调查，其中300名女性中279人同意；300名男性中255名同意

显著性水平=0.05，问这一调查，男女的同意比例是否相同

大样本比例均服从正态分布，因此两样本比例之差也服从正态分布，选择Z统计量。

In [46]:
import numpy as np
from scipy import stats

In [47]:
# 已知条件
confidence = 0.05
sample_n1 = 300
sample_agree1 = 279
sample_n2 = 300
sample_agree2 = 255
sample_p1 = sample_agree1 / sample_n1
sample_p2 = sample_agree2 / sample_n2

In [50]:
# 计算临界值（双侧检验）
limit = stats.norm.ppf(confidence/2)

# 计算检验统计量公式中的P
z_p = (sample_n1 * sample_p1 + sample_n2 * sample_p2) / (sample_n1 + sample_n2)

# 计算检验统计量z
z = (sample_p1 - sample_p2)/np.sqrt(z_p * (1 - z_p)*(1/sample_n1 + 1/sample_n2))

print('成数P为',z_p)
print('t临界值为',limit,'和',-limit)    
print('检验统计量为',z)

成数P为 0.89
t临界值为 -1.9599639845400545 和 1.9599639845400545
检验统计量为 3.131441267637955


结论

检验统计量为 3.131441267637955 > 1.9599639845400545，拒绝原假设，即表明男女是否同意有明显不同

## 实验4-13 单一总体方差的假设检验

杂志A订阅者中拥有车的数量的方差为0.94，杂志B的订阅者中选12个样本，其拥有车的数量如下。

假设两种杂志订阅者拥有车的数量的方差相同。显著性水平=0.05  

H0:sigma^2 = 0.94

H1:sigma^2 不等于 0.94
    
用卡方作为检验统计量

In [2]:
import numpy as np
import pandas as pd 
from scipy import stats

In [3]:
car = pd.read_excel('4-13.xlsx')
car

Unnamed: 0,car
0,2
1,1
2,2
3,0
4,3
5,2
6,2
7,1
8,2
9,1


In [5]:
# 已知条件
confidence = 0.05
test_var = 0.94

# 计算临界值（95%置信区间的上下限）
limit_lower, limit_higher = stats.chi2.interval(1 - confidence, df = car.size - 1)

# 计算检验统计量
chi2 = (car.size - 1) * car.var() / test_var

print('接受域为',limit_lower,'和',limit_higher)
print('检验统计量为',chi2)

接受域为 3.8157482522361 和 21.9200492610212
检验统计量为 car    9.485816
dtype: float64


结论

检验统计量为 9.485816 在区间 3.8157482522361 和 21.9200492610212 中，因此无法拒绝原假设。在5%显著性水平下，两份杂志的订阅者拥有车的数量方差相同。

## 实验4-14 两个总体的方差检验

11月和12月两段时间，各抽10个样本，显著性水平=0.05，检验两段时间总体方差是否相等。
    
H0:方差1 = 方差2

H1:不相等

F检验

In [None]:
import numpy as np
import pandas as pd 
from scipy import stats

In [6]:
index_df = pd.read_excel('4-14.xlsx')
index_df

Unnamed: 0,11月,12月
0,7493,8066
1,7525,8209
2,7760,7842
3,7499,7943
4,7555,7846
5,7690,8071
6,7668,8055
7,7600,8159
8,7516,7828
9,7711,8109


In [8]:
confidence = 0.05
series1 = index_df['11月']
series2 = index_df['12月']

# 计算F分布临界值（双侧检验）
limit_lower, limit_higher = stats.f.interval(1 - confidence, dfn = series1.size - 1 , dfd = series2.size - 1)

# 计算F检验统计量
f = series1.var() / series2.var()

print('接受域为',limit_lower,'和',limit_higher)
print('检验统计量为',f)

接受域为 0.24838585469445493 和 4.025994158282978
检验统计量为 0.5023235585619927


结论

因为检验统计量为 0.5023235585619927 在 接受域为 0.24838585469445493 和 4.025994158282978 区间内，所以不能拒绝原假设，在5%显著性水平下，可以认为11月和12月方差相等。

# 第三节 非参数检验

参数检验就是知道或假定总体分布情况，非参数检验就是不知道。

## 实验4-15 卡方检验

调查500人，文化程度与性别是否相互独立。

In [1]:
import numpy as np
import pandas as pd 
from scipy import stats

In [2]:
sample_df = pd.read_excel('4-15.xlsx',header=0, index_col=0) # 注意要把性别列作为索引
sample_df

Unnamed: 0_level_0,高中及以上,初中,小学及以下
性别,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
男,44,36,140
女,60,60,160


In [31]:
# 编写一个用于卡方检验的工具
class ChisquareTest():
    def __init__(self,df):
        self.data = df.copy()
        self.summed_data = None
        self.expected_data = None
        self.chi2_data = None
        self.row_sum_name = '行合计'
        self.col_sum_name = '列合计'
        self.caculate_sum_finished = False
        self.caculate_expect_finished = False
        
    def caculate_sum(self, df = None):
        sum_original_data = df is None
        if sum_original_data:
            df = self.data.copy()
            
        df[self.row_sum_name] = df.apply(lambda row:row.sum(),axis = 1 )
        df.loc[self.col_sum_name] = df.apply(lambda col: col.sum(),axis = 0 )
        
        if sum_original_data:
            self.summed_data = df
            self.caculate_sum_finished = True
            
        return df
    
    def caculate_expect(self):
        if (not self.caculate_expect_finished):
            self.caculate_sum()
        self.expected_data = self.data.copy()
        total_sum = self.summed_data.loc[self.col_sum_name , self.row_sum_name]
        
        for i in range(len(self.data)):
            for j in range(len(self.data.columns)):
                row_sum = self.summed_data.iloc[i][self.row_sum_name]
                col_sum = self.summed_data.loc[self.col_sum_name][j]
                self.expected_data.iloc[i,j] = row_sum * col_sum / total_sum
        self.expected_data = self.caculate_sum(self.expected_data)
        self.caculate_expect_finished = True
        return self.expected_data
        
    def caculate_chi2(self):
        if (not self.caculate_expect_finished):
            self.caculate_expect()
        self.chi2_data = self.data.copy()
        for i in range(len(self.data)):
            for j in range(len(self.data.columns)):
                obs_value = self.data.iloc[i,j]
                exp_value = self.expected_data.iloc[i,j]
                self.chi2_data.iloc[i,j] = (obs_value - exp_value) ** 2 / exp_value
        self.chi2_data = self.caculate_sum(df = self.chi2_data)
        return self.chi2_data

In [32]:
chi2test = ChisquareTest(sample_df)

# 求和列表
chi2test.caculate_sum()

Unnamed: 0_level_0,高中及以上,初中,小学及以下,行合计
性别,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
男,44,36,140,220
女,60,60,160,280
列合计,104,96,300,500


In [33]:
# 期望值表
chi2test.caculate_expect()

Unnamed: 0_level_0,高中及以上,初中,小学及以下,行合计
性别,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
男,45.76,42.24,132.0,220.0
女,58.24,53.76,168.0,280.0
列合计,104.0,96.0,300.0,500.0


In [34]:
# 卡方统计表
chi2test.caculate_chi2()

Unnamed: 0_level_0,高中及以上,初中,小学及以下,行合计
性别,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
男,0.067692,0.921818,0.484848,1.474359
女,0.053187,0.724286,0.380952,1.158425
列合计,0.120879,1.646104,0.865801,2.632784


In [80]:
# 计算临界值
confidence = 0.05
degree = (len(sample_df) - 1) * (len(sample_df.columns) - 1)
limit = stats.chi2.ppf(1 - confidence , df = degree)

print('卡方临界值为',limit)

卡方临界值为 5.991464547107979


结论

由于卡方统计量 2.632784 < 卡方临界值为 5.991464547107979,所以无法拒绝原假设，文化程度与性别关系不显著。

## 实验4-16 单样本符号检验

20个工人，他们一天生产产品数如下。 检验水平=0.10,判定总体中位数是否为160.

H0:M = 160

H1:M不等于160

In [35]:
import numpy as np
import pandas as pd 
from scipy import stats

In [36]:
sample = pd.read_excel('4-16.xlsx')
sample

Unnamed: 0,产品件数
0,168
1,163
2,160
3,172
4,162
5,168
6,152
7,153
8,167
9,165


In [42]:
confidence = 0.10
test_mid = 160

n_greater = sample.where(sample > test_mid).count()
n_less = sample.where(sample < test_mid).count()
n = n_greater + n_less
n_max = max(int(n_greater) , int(n_less))
limit = stats.binom.ppf(1 - confidence/2 , n, 0.5) + 1

print('n+为',n_greater)
print('n-为',n_less)
print('n为',n)
print('n+和n-中较大的那个是',n_max)
print('临界值为为',limit)

n+为 产品件数    15
dtype: int64
n-为 产品件数    3
dtype: int64
n为 产品件数    18
dtype: int64
n+和n-中较大的那个是 15
临界值为为 [13.]


结论

n+和n-中较大的那个是 15  >  13  样本观测值落入拒绝域，所有拒绝原假设，样本数据不能证明总体中位数等于160件。

## 实验4-17 配对样本的符号检验

两位裁判给选手打分，α=0.05，用符号检验，两位裁判打分是否有显著差异。

H0:无显著差异

H1:有显著差异

In [43]:
import numpy as np
import pandas as pd 
from scipy import stats

In [45]:
sample_df = pd.read_excel('4-17.xlsx',index_col=0) # 注意索引列
sample_df

Unnamed: 0_level_0,裁判A,裁判B
选手,Unnamed: 1_level_1,Unnamed: 2_level_1
1,8.2,7.9
2,9.0,8.8
3,8.8,8.6
4,9.3,9.4
5,7.9,8.4
6,9.1,9.0
7,8.6,8.9
8,8.8,8.7
9,8.4,8.0
10,9.0,9.3


In [46]:
# 计算分数差
sample_df['分数差A-B'] = sample_df.apply(lambda row : row[0] - row[1] , axis=1)
sample_df

Unnamed: 0_level_0,裁判A,裁判B,分数差A-B
选手,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,8.2,7.9,0.3
2,9.0,8.8,0.2
3,8.8,8.6,0.2
4,9.3,9.4,-0.1
5,7.9,8.4,-0.5
6,9.1,9.0,0.1
7,8.6,8.9,-0.3
8,8.8,8.7,0.1
9,8.4,8.0,0.4
10,9.0,9.3,-0.3


In [47]:
confidence = 0.05
diff_series = sample_df['分数差A-B']

n = len(sample_df)

r_greater = diff_series.where(diff_series > 0).count()

r_less = diff_series.where(diff_series < 0).count()

r = max(r_greater , r_less)

limit = stats.binom.ppf(1 - confidence/2 , n , 0.5) + 1

print('n为',n)
print('r+为',r_greater)
print('r-为',r_less)

print('r为',r)
print('临界值为为',limit)

n为 10
r+为 6
r-为 4
r为 6
临界值为为 9.0


## 实验4-18 秩和检验

两组简单随机样本(前8个和后9个），判断这两组数据是否来自同一总体。

H0:两组数据来自同一总体
    
H1:两组数据来自不同总体

In [2]:
import numpy as np
import pandas as pd 
from scipy import stats

In [50]:
sample_df = pd.read_excel('4-18.xlsx')
sample_df

Unnamed: 0,样本
0,25
1,23
2,22
3,23
4,21
5,23
6,19
7,20
8,28
9,26


In [51]:
sample_df['秩'] = sample_df['样本'].rank(axis = 0 ,method = 'average' , ascending=True)
sample_df

Unnamed: 0,样本,秩
0,25,14.5
1,23,10.5
2,22,8.0
3,23,10.5
4,21,6.5
5,23,10.5
6,19,3.0
7,20,4.5
8,28,17.0
9,26,16.0


In [53]:
t = sample_df[0:8]['秩'].sum()

print('检验统计量T为',t)

检验统计量T为 68.0


查“秩和检验值表”，并判断。由于两组样本容量都小于10，查上下限临界值。T1(0.05) = 54, T2(0.05) = 90

68介于两个临界值之间，因此不能拒绝原假设，可以认为两组样本来自同一总体。

大样本下，用scipy.stats.ranksums函数求得统计量和p-value

python scipy 中的 ranksums(x,y) 相当于R中的 wilcox.text(x,y,exact=FALSE,correct=FALSE)

此外，想了解更多，可以参考这篇文章 https://blog.csdn.net/chikily_yongfeng/article/details/82255575?utm_medium=distribute.pc_relevant.none-task-blog-baidulandingword-1&spm=1001.2101.3001.4242

In [6]:
# 示例
x=[57.07168,46.95301,31.86423,38.27486,77.89309,76.78879,33.29809,58.61569,18.26473,62.92256,50.46951,19.14473,22.58552,24.14309]

y=[8.319966,2.569211,1.306941,8.450002,1.624244,1.887139,1.376355,2.521150,5.940253,1.458392,3.257468,1.574528,2.338976]

print(stats.ranksums(x, y))

RanksumsResult(statistic=4.415880433163923, pvalue=1.0059968254463979e-05)


## 实验4-19 游程检验

抽16学生，成绩如下。显著性水平=0.05，判断样本是否具有随机性。

H0:样本是随机样本

H1:样本不具有随机性

In [7]:
import numpy as np
import pandas as pd 
from scipy import stats

In [9]:
sample_df = pd.read_excel('4-19.xlsx')
sample_df

Unnamed: 0,成绩
0,61
1,74
2,70
3,63
4,64
5,58
6,82
7,78
8,60
9,76


In [10]:
# 中位数
med = sample_df['成绩'].median()

# 计算游程
sample_df['游程'] = sample_df.apply(lambda row: row['成绩'] > med and 1 or 0 , axis=1)
sample_df

Unnamed: 0,成绩,游程
0,61,0
1,74,1
2,70,1
3,63,0
4,64,0
5,58,0
6,82,1
7,78,1
8,60,0
9,76,1


In [14]:
# 计算游程数
# 假设游程数没有变化，那么连成一片的字符片数为1，因而将1设为初始值
R = 1

for i in range(len(sample_df)):
    if i == 0:
        continue
    if sample_df['游程'][i] != sample_df['游程'][i-1]:
        R = R + 1
print('游程数为',R)

游程数为 7


结论

查游程检验临界值表，并据此判断，不能拒绝原假设，可认为样本具有随机性。