# 了解卡方分布

卡方分布

## 一些例子
为了理解卡方检验，先给出几个例子：

研究你研究了两组人，你把他们分成三个类别，单身、已婚和离婚：
三个类别的数据是不同的，但是 ……
- 这是不是随机的？
- 还是真有实质的不同？

再比如："你喜欢哪种度假方式？"
 
|-|沙滩	|邮轮|
|-|-|-|
|男|  209|	280|
|女 | 225|	248|
 
性别对度假方式的偏爱有影响吗？如果性别（男或女）真的对度假方式的偏爱有影响，它们便是相依的。
如果我们用一个算法计算出一个“p”值为一个数，假设0.132。通常会令p<0.05时代表变量是相依的。由于这里大于0.05，因此说明变量是独立的，即男人和女人对沙滩和邮轮独家的偏爱是没区别的。

再比如：你喜欢哪种动物？

 |-|猫|	狗|
 |-|-|-|
 |男	|207	|282|
 |女	|231	|242|

算法（在下面解释）的结果是：P值是 0.043。这意味着结果是显著的，变量不独立。即我们认为性别与宠物偏爱有关联。

所以卡方检验是一个敏感的测试。

## 了解p值

"p" 是变量是独立的概率。

为什么p<0.05?

因为这只是一种选择，是一种惯例。

如何计算p值？

使用卡方检验！（用上面最后一个例子说明）

- 注意卡方检验只适用于分类数据；
- 数据的值需要较大时才合适。

### 1.声明假设

假设需要是一个可能是真的陈述，并且可以验证的。

在我们的例子里有两个假设：

- 性别对猫或狗的偏爱是独立的
- 性别对猫或狗的偏爱不是独立的

### 2. 计算卡方
 (1)设A代表某个类别的观察频数，E代表基于H0计算出的期望频数，A与E之差称为残差。
 (2)显然，残差可以表示某一个类别观察值和理论值的偏离程度，但如果将残差简单相加以表示各类别观察频数与期望频数的差别，则有一定的不足之处。因为残差有正有负，相加后会彼此抵消，总和仍然为0，为此可以将残差平方后求和。
 (3)另一方面，残差大小是一个相对的概念，相对于期望频数为10时，期望频数为20的残差非常大，但相对于期望频数为1 000时20的残差就很小了。考虑到这一点，人们又将残差平方除以期望频数再求和，以估计观察频数与期望频数的差别。
 进行上述操作之后，就得到了常用的χ2统计量。
 

In [9]:
men={"cat":207,"dog":282}
women={"cat":231,"dog":242}

# 行列分别求和
men_sum=sum(men.values())
women_sum=sum(women.values())
cat_sum=men["cat"]+women["cat"]
dog_sum=men["dog"]+women["dog"]

all_sum=men_sum+women_sum

# 求每项的“期望值”，行的和乘以列的和，再除以全部和
men_cat=men_sum*cat_sum/all_sum
women_cat=women_sum*cat_sum/all_sum
men_dog=men_sum*dog_sum/all_sum
women_dog=women_sum*dog_sum/all_sum

# 从实际值减去期望值，取平方，再除以期望值
men_cat_chi2=(men["cat"]-men_cat)**2/men_cat
women_cat_chi2=(women["cat"]-women_cat)**2/women_cat
men_dog_chi2=(men["dog"]-men_dog)**2/men_dog
women_dog_chi2=(women["dog"]-women_dog)**2/women_dog

# 求和计算卡方
all_chi2=men_cat_chi2+women_cat_chi2+men_dog_chi2+women_dog_chi2


### 3.由卡方计算p值

由卡方的值来求p值是一个复杂的算法，要根据卡方分布进行求解。

首先，要计算自由度


In [None]:
# 自由度就是(行数 − 1) 乘以 (列数 − 1)
row_num=2
column_num=2
dof=(row_num-1)*(column_num-1)


p值是怎么求的？这就需要了解卡方分布了。

## 卡方分布

这部分主要参考：<https://www.zhihu.com/question/20358827/answer/386269824>

假设实验中从总体中随机取样得到的n个**观察值**（随机将色子抛n次）被划分为k个**互斥的分类**（分类为色子点数，1-6点），
这样每个分类（每个点数）都有一个对应的实际观察次数**Xi**{ i=1,2,...,k}。
研究人员会对实验中各个观察值落入第 i个分类（色子在那个点数）的概率Pi的分布提出零假设
（认为观测值与理论值的差异是由于随机误差所致，就是其概率是等于理论上的概率，相当于色子的频率等于我们理论得出概率），
从而获得了对应所有第i分类的**理论期望次数**$m_i$以及限制条件。

$\Sigma_{i=1}^k p_i =1$
以及
$\Sigma_{i=1}^k m_i =\Sigma_{i=1}^k x_i =n$

皮尔森提出，在上述零假设成立以及n趋向无穷大的时候，以下统计量的极限分布趋向卡方分布。

$\chi^2=\Sigma_{i=1}^k \frac{(x_i-m_i)^2}{m_i}$

（推导略）

## 总结
 
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴，主要是比较两个及两个以上样本率(构成比）以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

卡方检验的基本思想：

卡方检验是以χ2分布为基础的一种常用假设检验方法，它的无效假设H0是：观察频数与期望频数没有差别。

首先假设H0成立，基于此前提计算出χ2值，它表示观察值与理论值之间的偏离程度。

根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。

如果P值很小，说明观察值与理论值偏离程度太大，应当拒绝无效假设，表示比较资料之间有显著差异；
否则就不能拒绝无效假设，尚不能认为样本所代表的实际情况和理论假设有差别。

实际计算时可使用numpy中的chi_contingency函数。


In [15]:
import numpy as np
from scipy.stats import chi2_contingency

d = np.array([[207,282], [231, 242]])
chi2=chi2_contingency(d)

