## 假设检验

In [1]:
import numpy as np
import pandas as pd

In [2]:
km = pd.read_csv(r"./data/clean/km_house_FE.csv")
cd = pd.read_csv(r"./data/clean/cd_house_FE.csv")
hz = pd.read_csv(r"./data/clean/hz_house_FE.csv")
sh = pd.read_csv(r"./data/clean/sh_house_FE.csv")

In [3]:
km.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 568 entries, 0 to 567
Data columns (total 14 columns):
region           568 non-null object
city             568 non-null object
rooms            568 non-null int64
halls            568 non-null int64
towards          568 non-null object
decoration       568 non-null int64
have_elevator    568 non-null int64
visited          568 non-null int64
attention        568 non-null int64
publishday       568 non-null float64
popular          568 non-null float64
unit_price       568 non-null float64
area             568 non-null float64
total_price      450 non-null float64
dtypes: float64(5), int64(6), object(3)
memory usage: 62.2+ KB


In [4]:
km.tail()

Unnamed: 0,region,city,rooms,halls,towards,decoration,have_elevator,visited,attention,publishday,popular,unit_price,area,total_price
563,滇池卫城橡尚,K,2,2,S N,0,0,2,2,19.0,0.1053,1.5778,90.0,142.0
564,滇池卫城蓝湾,K,5,3,S,0,0,0,8,19.0,0.1263,1.536,153.0,235.0
565,广福城怡福园,K,2,2,W,0,0,1,1,19.0,0.0526,1.4957,77.56,116.0
566,怡康温泉新村B区,K,4,2,E W,0,0,0,4,19.0,0.0632,0.9758,132.2,129.0
567,鑫都公寓,K,2,1,SE,0,0,0,0,19.0,0.0,2.1053,76.0,160.0


## 假设检验

### 1.根据数据集提出假设：
 - 原假设 H_0
 - 备择假设 H_a
 
### 2.确定检验统计：
 - 确定检验统计，这将是一个双尾检验，因为不同城市房屋单价只差可能高于或低于0。由于我们不知道标准差(σ)和n是小的，我们将使用t-分布

### 3.计算 t 检验统计量和 P_value 值

### 显著性水平：
 - 指定显着性水平是假设检验的重要步骤。它是类型1错误和类型2错误之间的最终平衡。显著性水平 α=0.05。因此，我们的置信区间为(1-α)=95%

#### (1) 昆明市 和 成都市 二手房单位面积售价是否有显著差别？
 - 零假设 H_0: 昆明市 和 成都市 二手房单位面积售价没有显著差别
 - 备择假设 H_a: 昆明市 和 成都市 二手房单位面积售价有显著差别

In [5]:
# 计算 昆明和成都市房屋单价 unit_price 的均值
km_uprice_mean = km.unit_price.mean()
cd_uprice_mean = cd.unit_price.mean()
print("昆明市房屋单位面积售价均值：", km_uprice_mean)
print("成都市房屋单位面积售价均值：", cd_uprice_mean)
# 两市 房屋单位面积售价均值差
uprice_differ = km_uprice_mean - cd_uprice_mean
print("两室房屋单位面积售价均值差：", uprice_differ)


昆明市房屋单位面积售价均值： 1.3474619718309844
成都市房屋单位面积售价均值： 1.6728676460767904
两室房屋单位面积售价均值差： -0.325405674245806


In [6]:
## 随机获取 昆明和成都300个单价的样本
import random
km_sample = random.sample(list(km['unit_price']), 300)
cd_sample = random.sample(list(cd['unit_price']), 300)
# 样本均值
km_sample_mean = np.mean(km_sample)
cd_sample_mean = np.mean(cd_sample)

print("昆明市房屋样本单价的均值：", km_sample_mean)
print("成都市房屋样本单价的均值：", cd_sample_mean)
print("昆明和成都房屋样本单价的均值差：", km_sample_mean - cd_sample_mean)

昆明市房屋样本单价的均值： 1.3722336666666668
成都市房屋样本单价的均值： 1.736413
昆明和成都房屋样本单价的均值差： -0.3641793333333332


### t 统计量的计算公式：
## t = (x_mean - u) / (S/sqrt(n))

#### 说明：
 - x_mean: 样本均值
 - u: 假设的均值
 - S: 标准差
 - n: 样本容量
 
#### t-值或t-统计量基本上是测量信号强度(差值)对数据中噪声量(变化)的度量，这就是我们如何在一个样本t检验中计算t值。然而，为了计算两个样本的总体均值，或者在我们的情况下，我们将使用下面的方程。
 
 ## t = (x_A - x_B) / sqrt(S *(1/n_A + 1/n_B)^0.5 )
 - 这里用另一个样本平均数代替我们的假设均值，而两个样本大小对应一个样本大小。
 - x_A: 样本A的平均值
 - x_B: 样本B的平均值
 - n_A | n_B: 这是每组观测的样本数
 - S: 样本方差

In [7]:
import scipy.stats as stats

In [8]:
# 计算独立双样本 t 检验的统计量以及p_value
uprice_T = stats.ttest_ind(km_sample, cd_sample).statistic
uprice_P = stats.ttest_ind(km_sample, cd_sample).pvalue
print("双样本t检验的 检验统计量t: ", uprice_T)
print("双样本t检验的 P-value: ", uprice_P)

双样本t检验的 检验统计量t:  -8.818896994202227
双样本t检验的 P-value:  1.2609872194845555e-17


### 结论：

 - (1)通过计算结果能看出，t=-8.8189, 表示昆明房产单位面积均价比成都的单位均价 低8.8189倍的标准差; 
 - (2)p=1.261*e-17 远远小于显著性水平α=0.05，可知我们的观测样本具有统计显著性。因此，我们拒绝零假设H_0，而采用备择假设 H_a，即"昆明市和成都市二手房单位面积售价有显著差别";差距约为 8.82 倍标准差。