# 决策树

In [None]:
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
import numpy as np
from sklearn.preprocessing import MinMaxScaler

# 设置随机种子
np.random.seed(123)

# 加载数据
#data_path = r"D:\Users\lily\Desktop\merged_c.csv"
data_path = r"D:\Users\lily\Desktop\Sample data\Variable Sorting\merged_9k.csv"
data = pd.read_csv(data_path)

# 删除前两列
data = data.iloc[:, 2:]

# 提取因变量（删除前两列后的第一列）
y = data.iloc[:, 0]

# 提取自变量（删除前两列后的剩余列）
X = data.iloc[:, 1:]

# 使用决策树进行变量筛选并计算重要性得分
# 对自变量进行最大值标准化处理
model = DecisionTreeRegressor()
model.fit(X , y)

# 获取特征重要性
feature_importances = model.feature_importances_

# 输出每个自变量的重要性得分和排名
importance_df = pd.DataFrame({'Feature': X.columns, 'Importance': feature_importances})
importance_df = importance_df.sort_values(by='Importance', ascending=False).reset_index(drop=True)
importance_df['Rank'] = importance_df.index + 1
print(importance_df)


# 梯度提升

In [None]:
import pandas as pd
from sklearn.ensemble import GradientBoostingRegressor
import numpy as np

# 设置随机种子
np.random.seed(123)

# 读取CSV文件
#data = pd.read_csv(r"D:\Users\lily\Desktop\merged_c.csv")
data = pd.read_csv(r"D:\Users\lily\Desktop\Sample data\Variable Sorting\merged_9k.csv")
# 删除前两列
data = data.iloc[:, 2:]

# 分离因变量和自变量
y = data.iloc[:, 0]    # 因变量为删除前两列后的第一列
X = data.iloc[:, 1:]   # 自变量为删除前两列后的其他列

# 创建梯度提升回归模型
gb_model = GradientBoostingRegressor(random_state=123)

# 拟合模型
gb_model.fit(X, y)

# 获取变量重要性得分
importance = gb_model.feature_importances_

# 将变量重要性得分与变量名称对应起来
importance_df = pd.DataFrame({'变量名称': X.columns, '重要性得分': importance})

# 对变量重要性得分进行排序
importance_df = importance_df.sort_values(by='重要性得分', ascending=False)

# 重置索引
importance_df = importance_df.reset_index(drop=True)

# 打印变量的重要性得分及排名
print("变量名称    重要性得分    排名")
for i, row in importance_df.iterrows():
    print(row['变量名称'], "    ", row['重要性得分'], "    ", i+1)


# 随机森林

In [None]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
import numpy as np

# 设置随机种子
np.random.seed(12)

# 读取CSV文件
#data = pd.read_csv(r"D:\Users\lily\Desktop\merged_c.csv")
data = pd.read_csv(r"D:\Users\lily\Desktop\Sample data\Variable Sorting\merged_9k.csv")
# 删除前两列
#data = data.iloc[:, 2:]

# 分离因变量和自变量
y = data.iloc[:, 0]    # 因变量为删除前两列后的第一列
X = data.iloc[:, 1:]   # 自变量为删除前两列后的其他列

# 创建随机森林回归模型
rf_model = RandomForestRegressor(random_state=123)

# 拟合模型
rf_model.fit(X, y)

# 获取变量重要性得分
importance = rf_model.feature_importances_

# 将变量重要性得分与变量名称对应起来
importance_df = pd.DataFrame({'变量名称': X.columns, '重要性得分': importance})

# 对变量重要性得分进行排序
importance_df = importance_df.sort_values(by='重要性得分', ascending=False)

# 重置索引
importance_df = importance_df.reset_index(drop=True)

# 打印变量的重要性得分及排名
print("变量名称    重要性得分    排名")
for i, row in importance_df.iterrows():
    print(row['变量名称'], "    ", row['重要性得分'], "    ", i+1)
