# 第7章 类别变量分析

## 初始化

In [8]:
# 本章需要用到的库
import numpy as np # 导入numpy库
import pandas as pd # 导入pandas库
from scipy.stats import chisquare, chi2_contingency # 导入卡方检验函数, 卡方独立性检验函数

## 7.1 一个类别变量的拟合优度检验

### 7.1.1 期望频数相等

In [5]:
example7_1 = pd.read_csv('./pydata/chap07/example7_1.csv', encoding='gbk') # 读取数据
example7_1

Unnamed: 0,饮料类型,人数
0,碳酸饮料,525
1,矿泉水,550
2,果汁,470
3,其他,455


检验消费者对不同类型饮料的偏好是否有显著差异(α=0.05)
- $H_0:$ 观察频数与期望频数无显著差异(无显著偏好)
- $H_1:$ 观察频数与期望频数有显著差异(有显著偏好)

In [4]:
chi2, p_value = chisquare(f_obs=example7_1['人数'])
print(f'卡方统计量 = {chi2:.2f}, p值 = {p_value:.4g}')

卡方统计量 = 12.10, p值 = 0.007048


由于P<0.05, 所以拒绝原假设

### 7.1.2 期望频数不相等

In [6]:
example7_2 = pd.read_csv('./pydata/chap07/example7_2.csv', encoding='gbk') # 读取数据
example7_2

Unnamed: 0,受教育程度,离婚家庭数,期望比例
0,小学及以下,30,0.2
1,初中,110,0.35
2,高中,80,0.25
3,大学,25,0.12
4,研究生,15,0.08


提出假设:
- $H_0:$ 不同受教育程度的离婚家庭数与期望频数无显著差异
- $H_1:$ 不同受教育程度的离婚家庭数与期望频数有显著差异

In [7]:
chi2, p_value = chisquare(
    f_obs=example7_2['离婚家庭数'], 
    f_exp=example7_2['离婚家庭数'].sum() * example7_2['期望比例']
)
print(f'卡方统计量 = {chi2:.2f}, p值 = {p_value:.4g}')

卡方统计量 = 19.59, p值 = 0.0006028


由于P<0.05, 所以拒绝原假设

## 7.2 两个类别变量的独立性检验

### 7.2.1 列联表与$\chi^2$独立性检验

In [11]:
x = [[126, 158, 35], [34, 82, 65]]
df = pd.DataFrame(x, index=['满意', '不满意'], columns=['东部', '中部', '西部'])
df

Unnamed: 0,东部,中部,西部
满意,126,158,35
不满意,34,82,65


提出假设:
- $H_0:$ 满意度与地区独立
- $H_1:$ 满意度与地区不独立

In [17]:
chi2, p_value, dof, exp = chi2_contingency(df)
print(f'卡方统计量 = {chi2:.3f}, 自由度 = {dof}, p值 = {p_value:.4g}')
print('期望频数为: \n', exp)

卡方统计量 = 51.827, 自由度 = 2, p值 = 5.572e-12
期望频数为: 
 [[102.08 153.12  63.8 ]
 [ 57.92  86.88  36.2 ]]


由于P<0.05, 所以拒绝原假设

In [13]:
# 使用原始数据进行检验
example7_3 = pd.read_csv('./pydata/chap07/example7_3.csv', encoding='gbk') # 读取数据
example7_3.head() # 显示前5行数据

Unnamed: 0,地区,满意度
0,东部,满意
1,东部,满意
2,东部,满意
3,东部,满意
4,东部,满意


In [14]:
count = pd.crosstab(index = example7_3['满意度'], columns = example7_3['地区'])
count

地区,东部,中部,西部
满意度,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
不满意,34,82,65
满意,126,158,35


In [16]:
chi2, p_value, dof, exp = chi2_contingency(count)
print(f'卡方统计量 = {chi2:.3f}, 自由度 = {dof}, p值 = {p_value:.4g}')
print('期望频数为: \n', exp)

卡方统计量 = 51.827, 自由度 = 2, p值 = 5.572e-12
期望频数为: 
 [[ 57.92  86.88  36.2 ]
 [102.08 153.12  63.8 ]]


由于P<0.05, 所以拒绝原假设

### 7.2.2 应用$\chi^2$检验的注意事项

## 7.3 两个类别变量的相关性度量

### 7.3.1 $\varphi$系数和Cramer's V系数

In [22]:
n = 500 # 样本容量
chi2 = 51.827 # 卡方统计量 使用例7-3中的卡方统计量
phi = np.sqrt(chi2 / n) # 计算phi系数
v = np.sqrt(chi2 / (n * (2 - 1))) # 计算Cramer's V系数
print(f'phi系数 = {phi:.5f}, v系数 = {v:.5f}')

phi系数 = 0.32195, v系数 = 0.32195


### 7.3.2 列联系数

In [23]:
c = np.sqrt(chi2 / (chi2 + n)) # 计算列联系数
print(f'c系数 = {c:.5f}')

c系数 = 0.30646


## 习题

### 7.1

In [24]:
df = pd.read_csv('./exercise/chap07/exercise7_1.csv', encoding='gbk') # 读取数据
df

Unnamed: 0,月份,销售量
0,1月,1660
1,2月,1600
2,3月,1560
3,4月,1490
4,5月,1380
5,6月,1620
6,7月,1580
7,8月,1680
8,9月,1550
9,10月,1370


提出假设:
- $H_0:$ 观测频数与期望频数无显著差异(符合均匀分布)
- $H_1:$ 观测频数与期望频数有显著差异(不符合均匀分布)

In [25]:
chi2, p_value = chisquare(f_obs=df['销售量'])
print(f'卡方统计量 = {chi2:.2f}, p值 = {p_value:.4g}')

卡方统计量 = 80.92, p值 = 9.778e-13


由于P<0.05, 所以拒绝原假设

### 7.2

In [28]:
df = pd.read_csv('./exercise/chap07/exercise7_2.csv', encoding='gbk') # 读取数据
df = df.set_index('是否逃课')
df

Unnamed: 0_level_0,男,女
是否逃课,Unnamed: 1_level_1,Unnamed: 2_level_1
逃过课,34,38
未逃过课,28,50


提出假设:
- $H_0:$ 是否逃课与性别独立
- $H_1:$ 是否逃课与性别不独立

In [29]:
chi2, p_value, dof, exp = chi2_contingency(df)
print(f'卡方统计量 = {chi2:.3f}, 自由度 = {dof}, p值 = {p_value:.4g}')
print('期望频数为: \n', exp)

卡方统计量 = 1.541, 自由度 = 1, p值 = 0.2145
期望频数为: 
 [[29.76 42.24]
 [32.24 45.76]]


由于P>0.05, 所以不能拒绝原假设

### 7.3

In [31]:
df = pd.read_csv('./exercise/chap07/exercise7_3.csv', encoding='gbk') # 读取数据
df = df.set_index('上市公司的类型')
df

Unnamed: 0_level_0,关注,不关注
上市公司的类型,Unnamed: 1_level_1,Unnamed: 2_level_1
主板企业,50,70
中小板企业,30,15
创业板企业,20,5


提出假设:
- $H_0:$ 上市公司类型与对股价波动的关注程度独立
- $H_1:$ 上市公司类型与对股价波动的关注程度不独立

In [32]:
# (1) 检验上市公司类型与对股价波动的关注程度是否独立(α=0.05)。
chi2, p_value, dof, exp = chi2_contingency(df)
print(f'卡方统计量 = {chi2:.3f}, 自由度 = {dof}, p值 = {p_value:.4g}')
print('期望频数为: \n', exp)

卡方统计量 = 16.854, 自由度 = 2, p值 = 0.0002189
期望频数为: 
 [[63.15789474 56.84210526]
 [23.68421053 21.31578947]
 [13.15789474 11.84210526]]


由于P<0.05, 所以拒绝原假设

In [33]:
# (2) 计算上市公司类型与对股价波动的关注程度两个变量之间的phi系数、Cramer's V系数和列联系数，并分析其相关程度。
n = 190 # 样本容量
phi = np.sqrt(chi2 / n) # 计算phi系数
v = np.sqrt(chi2 / (n * (2 - 1))) # 计算Cramer's V系数
c = np.sqrt(chi2 / (chi2 + n)) # 计算列联系数
print(f'phi系数 = {phi:.5f}, v系数 = {v:.5f}, c系数 = {c:.5f}')

phi系数 = 0.29783, v系数 = 0.29783, c系数 = 0.28544


三个系数的结果都表明上市公司类型与对股价波动的关注程度两个变量之间存在一定程度的相关性

### 7.4

In [35]:
df = pd.read_csv('./exercise/chap07/exercise7_4.csv', encoding='gbk') # 读取数据
df = df.set_index('汽车价格')
df

Unnamed: 0_level_0,东部地区,中部地区,西部地区
汽车价格,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10万元以下,20,40,40
10—20万元,50,60,50
20—30万元,30,20,20
30万元以上,40,20,10


提出假设:
- $H_0:$ 地区与汽车价格独立
- $H_1:$ 地区与汽车价格不独立

In [36]:
# (1) 检验地区与汽车价格是否独立(α=0.05)。
chi2, p_value, dof, exp = chi2_contingency(df)
print(f'卡方统计量 = {chi2:.3f}, 自由度 = {dof}, p值 = {p_value:.4g}')
print('期望频数为: \n', exp)

卡方统计量 = 29.991, 自由度 = 6, p值 = 3.946e-05
期望频数为: 
 [[35.  35.  30. ]
 [56.  56.  48. ]
 [24.5 24.5 21. ]
 [24.5 24.5 21. ]]


由于P<0.05, 所以拒绝原假设

In [37]:
# (2) 计算地区与汽车价格两个变量之间的phi系数、Cramer's V系数和列联系数，并分析其相关程度。
n = 400 # 样本容量
phi = np.sqrt(chi2 / n) # 计算phi系数
v = np.sqrt(chi2 / (n * (3 - 1))) # 计算Cramer's V系数
c = np.sqrt(chi2 / (chi2 + n)) # 计算列联系数
print(f'phi系数 = {phi:.5f}, v系数 = {v:.5f}, c系数 = {c:.5f}')

phi系数 = 0.27382, v系数 = 0.19362, c系数 = 0.26410


三个系数的结果都表明地区与汽车价格两个变量之间存在一定程度的相关性