# 实验四 假设检验

实验目标：对假设检验.xlsx中的数据进行z和t的p值计算

## 0.导入包和数据

In [1]:
import pandas as pd
from scipy import stats
import numpy as np
import math
import statsmodels.stats.weightstats as sw

In [2]:
data = pd.read_excel('第6章 假设检验 .xls')
male_data = data.iloc[:,0:4]
female_data = data.iloc[:,4:]

## 1.预处理数据

In [3]:
# 拼接40个样本数据为两列
def process_data(df):
    # print(df.head())
    df.columns = df.iloc[0,:].values

    df = df.drop([0])
    df_1 = df.iloc[:,:2]
    df_2 = df.iloc[:,2:4]
    # frames = [df_1,df_2]
    # df = pd.concat(frames).reset_index(drop=True)
    df = df_1.append(df_2,ignore_index=True)
    return df

In [4]:
male_data = process_data(male_data)
female_data = process_data(female_data)
male_data.tail()

Unnamed: 0,编号,平均月支出
35,36,700
36,37,700
37,38,1 000
38,39,1 200
39,40,1 500


In [5]:
# 获取样本数据的值
def get_value(df):
    arr = []
    for idx in df['平均月支出'].values:
        idx = ''.join(str(idx).split())  # 除去空格
        arr.append(int(idx))
    return arr

In [6]:
male = get_value(male_data)
female = get_value(female_data)
print(male)
print(female)

[800, 1200, 800, 1000, 700, 500, 1200, 1000, 1500, 800, 1000, 1200, 800, 800, 700, 500, 900, 1000, 1200, 800, 1000, 900, 1200, 600, 500, 700, 600, 1000, 1200, 1200, 900, 900, 1200, 800, 500, 700, 700, 1000, 1200, 1500]
[700, 1000, 800, 1200, 1200, 800, 600, 800, 900, 1000, 700, 900, 800, 1000, 1200, 900, 600, 800, 900, 1000, 700, 1400, 800, 1000, 900, 1200, 2000, 1300, 800, 900, 600, 1400, 900, 1000, 900, 1500, 2000, 1400, 800, 900]


## 2.作出假设：

设男生平均月消费支出为 $u_1$, 女生平均月消费支出为 $u_2$ <br>
设原假设$H_0$: $u_1$ - $u_2$ = 0 , $\quad$ (即：男女生平均月消费支出无明显差异) <br>
备择假设$H_1$: $u_1$ - $u_2$ $\neq$ 0：

## 3.z检验

In [7]:
male_mean = np.mean(male)
male_std = np.std(male,ddof=1)

female_mean = np.mean(female)
female_std = np.std(female,ddof=1)

z = (male_mean - female_mean) / math.sqrt((male_std ** 2 + female_std ** 2) / len(male))

level = 0.95
alpha = 1 - level
z_a = stats.norm.ppf(alpha / 2,loc=0,scale=1)
z_a = -z_a
print("Z检验统计量={:.2f}，Z_[a/2]={:.2f}".format(z,z_a))

# P1 = 2 * stats.norm.sf(abs(z))
# print("Z检验下p值为：{}".format(P1))
z_test = sw.ztest(male,female,value=0)
print("Z检验统计量={:.2f}, p值为：{}".format(z_test[0],z_test[1]))

Z检验统计量=-1.32，Z_[a/2]=1.96
Z检验统计量=-1.32, p值为：0.18561069860827706


在$\alpha$ = 0.05的显著性下：
|Z| = 1.32 < $Z_{\frac \alpha2 }$ = 1.96 <br>
所以没有落入拒绝域，即认为男女生平均月消费支出无明显差异

## 4.t检验

In [8]:
m_levene = stats.levene(male,female) # 对两组数据进行方差齐性检验 p > 0.05认为方差齐
print("方差齐性检验p值为：{}".format(m_levene.pvalue))
m_t = stats.ttest_ind(male,female,equal_var=True) # equal_var=True 表示方差齐，为False 方差不齐
print("t检验p值为：{}".format(m_t.pvalue))

方差齐性检验p值为：0.8750884814724933
t检验p值为：0.18947719784107386


t检验的p=0.18947719784107386 远大于 $\alpha$ = 0.05 <br>
所以接受原假设，认为男女生平均月消费支出无明显差异