In [6]:
from sklearn.cluster import KMeans
import pandas as pd
import shap
import matplotlib

from sklearn.linear_model import LinearRegression

train_data = pd.read_csv('train_pts.csv')
test_data = pd.read_csv('test_pts.csv')

# 定义特征和标签
X_train = train_data.drop(columns='y')
y_train = train_data['y']
X_test = test_data.drop(columns='y')
y_test = test_data['y']

# 再次确认数据加载正确
train_data.head(), test_data.head()

# 训练线性回归模型
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)



# 初始化SHAP解释器
explainer = shap.Explainer(linear_model, X_train)

# 计算测试集的SHAP值
shap_values = explainer(X_test)

# 可视化第一个样本的SHAP值（例如）
shap.plots.waterfall(shap_values[0])

# 保存SHAP值到DataFrame（可选）
# 注意：shap_values.values 返回一个数组，其中包含了测试集每个样本的SHAP值
shap_values_df = pd.DataFrame(shap_values.values, columns=X_test.columns)

# 如果您希望将SHAP值保存到CSV文件
shap_values_csv_path = 'shap_values.csv'
shap_values_df.to_csv(shap_values_csv_path, index=False)
print(f"SHAP值已保存到 {shap_values_csv_path}")


# 获取线性模型的系数，这些系数可以视为特征重要性
linear_coef = linear_model.coef_
#
# # 计算测试集中每个样本的特征重要性向量
# # 在线性模型中，这可以通过特征值乘以系数来近似
# feature_importances_vectors = X_test * linear_coef
#
# # 将计算出的特征重要性向量转换为DataFrame，以便保存到CSV
# feature_importances_df = pd.DataFrame(feature_importances_vectors, columns=X_test.columns)
#
# # 保存特征重要性向量到CSV文件
# output_csv_path = 'feature_importance_vectors.csv'
# feature_importances_df.to_csv(output_csv_path, index=False)
#
# print(f"特征重要性向量已保存到 {output_csv_path}")

ImportError: matplotlib is not installed so plotting is not available! Run `pip install matplotlib` to fix this.

In [None]:
# 用线性模型的系数进行聚类
# 由于系数是一维的，我们需要将它们转换为二维的数据结构以便于聚类
kmeans = KMeans(n_clusters=3, random_state=42)
coef_clusters = kmeans.fit_predict(linear_coef.reshape(-1, 1))

# 创建一个DataFrame来保存特征、对应的系数以及聚类结果
linear_features_df = pd.DataFrame({
    'Feature': X_train.columns,
    'Coefficient': linear_coef,
    'Cluster': coef_clusters
})

# 输出线性模型的系数和聚类结果
linear_features_df