在Python中进行相关性分析通常涉及到计算两个变量之间的相关系数以及相关性的显著性检验（即p值）。常见的三种相关性分析方法包括：

- Pearson相关系数
- Spearman秩相关系数
- Kendall's Tau相关系数

这些方法适用于不同类型的数据和不同的分布情况，以下是它们的特点和区别：


In [5]:
import pandas as pd
import scipy.stats as stats

df = pd.read_excel("data\\boston_house_prices.xlsx")
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2



### 1. Pearson相关系数

Pearson相关系数衡量了两个连续变量之间的线性关系强度和方向。它假设变量之间的关系是线性的，并且对数据的分布有要求（通常要求数据是正态分布或近似正态分布）。

- **特点**：
  - 衡量的是线性关系的强度和方向。
  - 取值范围为 \([-1, 1]\)，其中 -1 表示完全负相关，1 表示完全正相关，0 表示无线性关系。
  - 适用于连续变量。
  - 对数据的要求较高，需要符合正态分布或接近正态分布。



In [6]:
# 计算Pearson相关系数及p值
pearson_corr = df.corr(method='pearson')
pearson_pval = df.corr(method=lambda x, y: stats.pearsonr(x, y)[1])


### 2. Spearman秩相关系数

Spearman秩相关系数是一种非参数方法，用于衡量两个变量之间的单调关系，即不要求数据是线性相关，只要求两个变量的单调性关系一致即可。它通过对变量的秩次（排名）进行比较来计算相关性。

- **特点**：
  - 适用于不满足线性关系假设的数据。
  - 可以处理变量的秩次而不需要变量本身的具体数值。
  - 对异常值不敏感。
  - 取值范围也是 \([-1, 1]\)，解释方式与Pearson相关系数类似。

In [7]:
# 计算Spearman相关系数及p值
spearman_corr = df.corr(method='spearman')
spearman_pval = df.corr(method=lambda x, y: stats.spearmanr(x, y)[1]) 


### 3. Kendall's Tau相关系数

Kendall's Tau相关系数也是一种非参数方法，与Spearman秩相关系数类似，用于衡量两个变量之间的单调关系。它通过比较变量的秩次对的一致性和不一致性来计算相关性。

- **特点**：
  - 适用于不满足线性关系假设的数据。
  - 对数据的秩次对一致性和不一致性进行比较。
  - 类似于Spearman，但其计算方法和解释略有不同。


In [8]:
# 计算Kendall's Tau相关系数及p值
kendall_corr = df.corr(method='kendall')
kendall_pval = df.corr(method=lambda x, y: stats.kendalltau(x, y)[1])  


### 区别与选择：

- **数据类型**：Pearson适用于连续变量，而Spearman和Kendall适用于连续或有序分类变量。
- **假设**：Pearson假设线性关系，而Spearman和Kendall不假设线性关系，只假设单调关系。
- **计算复杂度**：Spearman和Kendall的计算复杂度相对高一些，特别是在样本量大时。
- **鲁棒性**：Spearman和Kendall对异常值更具有鲁棒性。

在选择相关性分析方法时，根据数据的特点和分布选择合适的方法是至关重要的。通常建议先使用Pearson相关系数进行分析，然后根据需要进一步使用Spearman或Kendall进行确认或更深入的探索。