# 相关分析
研究两个变量或多个变量之间的关系

相关分析的目的在于确定变量之间存在某种关联，以及这种关联的强度和方向

## 相关分析的基本概念
两个变量之间存在关联时，一个变量的变化可能会影响到另一个变量的变化
这种关联可以是正相关（一个变量增加时候，另一个变量也跟着增加）

负相关（一个变量增加时，另一个减少）

常见的是皮尔逊相关分析，适用于连续变量之间的线性关系研究

In [3]:
import pandas as pd
import numpy as np
from scipy import stats
# 假设我们有两个变量x和y的数据  
x = np.array([1, 2, 3, 4, 5])  
y = np.array([2, 4, 6, 8, 10])  
correlation,p_value = stats.pearsonr(x, y)
print(f"相关系数：{stats.pearsonr(x, y)[0]}")
print(f"p值：{p_value}")

#相关系数接近1，表示x和y之间存在强烈的正相关关系
# 如果我们有一个DataFrame，也可以直接使用其corr方法计算多个变量的相关系数  
df = pd.DataFrame({  
    'x': x,  
    'y': y,  
    'z': np.array([3, 5, 7, 9, 11])  # 假设还有第三个变量z  
})  
#计算所有变量之间的相关系数矩阵
correlation_martrix=df.corr()
#输出相关系数矩阵
print(correlation_martrix)
#可以通过索引来查看特定变量之间的相关系数
correlation_xy=correlation_martrix['x']['y']
print(f"x和y之间的相关系数为{correlation_xy}")

相关系数：1.0
p值：0.0
     x    y    z
x  1.0  1.0  1.0
y  1.0  1.0  1.0
z  1.0  1.0  1.0
x和y之间的相关系数为1.0


In [3]:
import pandas as pd

df=pd.DataFrame({
    'A': [1, 2, 3, 4, 5],  
    'B': [2, 3, 4, 5, 6],  
    'C': [3, 4, 5, 6, 7],  
    'D': [4, 5, 6, 7, 8]  
}
)

covariance_matrix=df.cov()
print("协方差矩阵：")
print(covariance_matrix)

correlation_martrix=df.corr()
print("\n相关系数矩阵")
print(correlation_martrix)

协方差矩阵：
     A    B    C    D
A  2.5  2.5  2.5  2.5
B  2.5  2.5  2.5  2.5
C  2.5  2.5  2.5  2.5
D  2.5  2.5  2.5  2.5

相关系数矩阵
     A    B    C    D
A  1.0  1.0  1.0  1.0
B  1.0  1.0  1.0  1.0
C  1.0  1.0  1.0  1.0
D  1.0  1.0  1.0  1.0


In [5]:
!pip install statsmodels




[notice] A new release of pip is available: 24.0 -> 24.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [8]:
import statsmodels.api as sm

#计算变量‘A’和‘B’之间的偏相关系数
x=df[['C']]
y=df['A']
#添加常数项到x中
x=sm.add_constant(x)

#使用ols回归模型
model=sm.OLS(y,x)
result=model.fit()

#提取偏相关系数和P值
partial_corr,p_value=result.params[1],result.pvalues[1]
print(f"偏相关系数（剔除变量C的影响）:{partial_corr}")
print(f"p值:{p_value}")

偏相关系数（剔除变量C的影响）:1.0000000000000002
p值:5.3269368066505285e-46


  partial_corr,p_value=result.params[1],result.pvalues[1]
  partial_corr,p_value=result.params[1],result.pvalues[1]


In [1]:
import pandas as pd

file_path=r'E:\heywhale\统计分析\中国主要城市经济统计数据 2012-2021.csv'
data=pd.read_csv(file_path)

data


Unnamed: 0,城市,年份,地区生产总值（当年价格）(亿元),第一产业增加值(亿元),第二产业增加值(亿元),第三产业增加值(亿元),地方一般公共预算支出(亿元),地方一般公共预算收入(亿元),年末户籍人口(万人),城镇非私营单位在岗职工平均工资(元),住户存款余额(亿元),房地产开发投资额(亿元),商品房销售面积(万平方米),商品房平均销售价格(元/平方米),住宅商品房销售面积(万平方米),住宅商品房平均销售价格(元/平方米)
0,上海,2012年,21305.60,129.30,8174.10,13002.10,4184.02,3743.71,1426.93,80191.0,19506.70,2381.36,1898.46,14061.37,1592.63,13869.88
1,上海,2013年,23204.10,131.60,8286.50,14786.00,4528.61,4109.51,1432.34,91477.0,20486.25,2819.59,2382.20,16420.00,2015.81,16192.00
2,上海,2014年,25269.80,132.00,8633.30,16504.50,4923.44,4585.55,1438.69,100623.0,21269.30,3206.48,2084.66,16787.00,1780.91,16415.00
3,上海,2015年,26887.00,125.50,8408.70,18352.80,6191.56,5519.50,1442.97,109279.0,23384.73,3468.94,2431.36,20949.00,2009.17,21501.00
4,上海,2016年,29887.00,114.30,8570.20,21202.40,6918.94,6406.13,1450.00,120503.0,23639.80,3709.03,2705.69,24747.00,2019.80,25910.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
355,青岛,2017年,11037.28,380.97,4546.21,6110.10,1403.03,1157.24,803.28,83539.0,5394.18,1330.54,1900.74,10518.00,1633.84,10052.00
356,青岛,2018年,12001.52,386.91,4850.59,6764.02,1559.78,1231.91,817.79,90840.0,5913.71,1485.21,1808.02,12624.12,1578.31,12373.44
357,青岛,2019年,11741.00,409.98,4182.76,7148.57,1575.97,1241.74,831.07,103125.0,6755.24,1803.81,1651.83,13603.00,1475.58,13674.00
358,青岛,2020年,12401.00,425.00,4362.00,7614.00,1584.65,1253.85,,116115.0,8030.95,2045.12,1653.59,13406.00,1430.37,14058.00


In [3]:
data.dropna(inplace=True) 
correlation = data[['地区生产总值（当年价格）(亿元)', '商品房平均销售价格(元/平方米)']].corr()  
correlation

Unnamed: 0,地区生产总值（当年价格）(亿元),商品房平均销售价格(元/平方米)
地区生产总值（当年价格）(亿元),1.0,0.706604
商品房平均销售价格(元/平方米),0.706604,1.0


In [15]:
#地区生产总值与商品房平均销售价格相关性为
from scipy.stats import pearsonr
x=data["地区生产总值（当年价格）(亿元)"]
y=data["商品房平均销售价格(元/平方米)"]
correlation_martrix=data[["地区生产总值（当年价格）(亿元)","商品房平均销售价格(元/平方米)"]].corr(method='pearson')
correlation_martrix

Unnamed: 0,地区生产总值（当年价格）(亿元),商品房平均销售价格(元/平方米)
地区生产总值（当年价格）(亿元),1.0,0.727722
商品房平均销售价格(元/平方米),0.727722,1.0


In [19]:
#所给数据中各个城市（以上海市为例）的地区生产总值与商品房平均销售价格相关性为（ ）。
shanghai_data=data[data["城市"]=="上海"]
correlation_martrix=shanghai_data[["地区生产总值（当年价格）(亿元)","商品房平均销售价格(元/平方米)"]].corr(method='pearson')
correlation_martrix

Unnamed: 0,地区生产总值（当年价格）(亿元),商品房平均销售价格(元/平方米)
地区生产总值（当年价格）(亿元),1.0,0.981006
商品房平均销售价格(元/平方米),0.981006,1.0


In [20]:
# Calculate the correlation between "地区生产总值（当年价格）(亿元)" and "商品房平均销售价格(元/平方米)"
overall_correlation = data["地区生产总值（当年价格）(亿元)"].corr(data["商品房平均销售价格(元/平方米)"])

# Filter data for Shanghai and calculate the correlation
shanghai_data = data[data["城市"] == "上海"]
shanghai_correlation = shanghai_data["地区生产总值（当年价格）(亿元)"].corr(shanghai_data["商品房平均销售价格(元/平方米)"])

overall_correlation, shanghai_correlation


(0.7277221400218971, 0.9810061600692402)

In [None]:
import statsmodels.api as sm

# Filter data for Beijing and Shenzhen
beijing_data = data[data["城市"] == "北京"]
shenzhen_data = data[data["城市"] == "深圳"]

# Perform linear regression for Beijing
X_beijing = sm.add_constant(beijing_data["地区生产总值（当年价格）(亿元)"])
y_beijing = beijing_data["商品房平均销售价格(元/平方米)"]
model_beijing = sm.OLS(y_beijing, X_beijing).fit()
beijing_regression_coefficient = model_beijing.params[1]

# Perform linear regression for Shenzhen
X_shenzhen = sm.add_constant(shenzhen_data["地区生产总值（当年价格）(亿元)"])
y_shenzhen = shenzhen_data["商品房平均销售价格(元/平方米)"]
model_shenzhen = sm.OLS(y_shenzhen, X_shenzhen).fit()
shenzhen_r_squared = model_shenzhen.rsquared

beijing_regression_coefficient, shenzhen_r_squared
