In [3]:
import numpy as np
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.metrics import mean_squared_error

# 修改后的数据
X = np.array([1, 2, 3, 4, 5, 6, 7]).reshape(-1, 1)  # 示例数据，可根据实际情况修改
Y = np.array([2, 4, 6, 8, 10, 12, 14])  # 示例数据，可根据实际情况修改

# 尝试不同的alpha值
alphas = [0.01, 0.1, 1, 10, 100]

# 无正则化的线性回归
model = LinearRegression()
model.fit(X, Y)
y_pred = model.predict(X)
mse = mean_squared_error(Y, y_pred)
mse_result = f"无正则化MSE: {mse}"

# L1正则化（Lasso）和L2正则化（Ridge）的MSE结果
lasso_ridge_results = []
for alpha in alphas:
    # L1正则化（Lasso）
    lasso = Lasso(alpha=alpha)
    lasso.fit(X, Y)
    y_pred_lasso = lasso.predict(X)
    mse_lasso = mean_squared_error(Y, y_pred_lasso)
    lasso_result = f"L1正则化（Lasso）alpha={alpha}, MSE: {mse_lasso}"

    # L2正则化（Ridge）
    ridge = Ridge(alpha=alpha)
    ridge.fit(X, Y)
    y_pred_ridge = ridge.predict(X)
    mse_ridge = mean_squared_error(Y, y_pred_ridge)
    ridge_result = f"L2正则化（Ridge）alpha={alpha}, MSE: {mse_ridge}"

    lasso_ridge_results.extend([lasso_result, ridge_result])

mse_result, lasso_ridge_results


('无正则化MSE: 0.0',
 ['L1正则化（Lasso）alpha=0.01, MSE: 2.500000000000052e-05',
  'L2正则化（Ridge）alpha=0.01, MSE: 2.0393593811379104e-06',
  'L1正则化（Lasso）alpha=0.1, MSE: 0.0025000000000000014',
  'L2正则化（Ridge）alpha=0.1, MSE: 0.00020263167893012514',
  'L1正则化（Lasso）alpha=1, MSE: 0.25',
  'L2正则化（Ridge）alpha=1, MSE: 0.01902497027348397',
  'L1正则化（Lasso）alpha=10, MSE: 16.0',
  'L2正则化（Ridge）alpha=10, MSE: 1.108033240997228',
  'L1正则化（Lasso）alpha=100, MSE: 16.0',
  'L2正则化（Ridge）alpha=100, MSE: 9.765625'])

In [4]:
import numpy as np
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.metrics import mean_squared_error

# 数据
X = np.array([150, 200, 250, 300, 350, 400, 450]).reshape(-1, 1)
Y = np.array([6450, 7450, 8450, 9450, 11450, 15450, 18450])

# 无正则化的线性回归
model = LinearRegression()
model.fit(X, Y)
y_pred = model.predict(X)
mse = mean_squared_error(Y, y_pred)
print(f"无正则化MSE: {mse}")

# L1正则化（Lasso）
lasso = Lasso(alpha=0.1)
lasso.fit(X, Y)
y_pred_lasso = lasso.predict(X)
mse_lasso = mean_squared_error(Y, y_pred_lasso)
print(f"L1正则化（Lasso）MSE: {mse_lasso}")

# L2正则化（Ridge）
ridge = Ridge(alpha=0.1)
ridge.fit(X, Y)
y_pred_ridge = ridge.predict(X)
mse_ridge = mean_squared_error(Y, y_pred_ridge)
print(f"L2正则化（Ridge）MSE: {mse_ridge}")


无正则化MSE: 1382653.0612244897
L1正则化（Lasso）MSE: 1382653.061225489
L2正则化（Ridge）MSE: 1382653.061255988


In [52]:
import xgboost as xgb
from xgboost import XGBRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import pandas as pd
import numpy as np

# 示例数据，这里使用pandas的DataFrame来表示
# 假设我们有一个具有两个特征和一个目标变量的数据集
# 修改数据
#创建一个简单的模拟数据集
np.random.seed(42)
X = np.random.rand(100, 5)  # 100个样本，5个特征
y = 2 * X[:, 0] + 3 * X[:, 1] + 4 * X[:, 2] + 5 * X[:, 3] + 6 * X[:, 4] + np.random.normal(0, 1, 100)  # 生成目标值

# 创建DataFrame
df_simulated = pd.DataFrame(X, columns=['Feature1', 'Feature2', 'Feature3', 'Feature4', 'Feature5'])
df_simulated['Target'] = y

# 显示数据集的前几行
df_simulated.head()

# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df_simulated.drop('Target', axis=1), df_simulated['Target'], test_size=0.2, random_state=42)

# 初始化XGBRegressor模型
model = XGBRegressor(
    objective='reg:squarederror',  # 回归任务的目标函数
    learning_rate=0.1,             # 学习率
    n_estimators=20,              # 树的数量
    max_depth=5,                  # 树的最大深度
    seed=42                        # 随机数种子
)

# 训练模型
model.fit(X_train, y_train)

# 预测测试集
y_pred = model.predict(X_test)

# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")

# 输出特征的重要性
print("Feature importances:")
print(model.feature_importances_)


Mean Squared Error: 1.7680132279228005
Feature importances:
[0.02117573 0.02931126 0.11610443 0.18711439 0.6462942 ]


In [53]:
from sklearn.model_selection import cross_val_score

# 进行交叉验证
scores = cross_val_score(model, df_simulated.drop('Target', axis=1), df_simulated['Target'], 
                         scoring='neg_mean_squared_error', cv=10)

# 输出交叉验证的结果
mse_scores = -scores
print(f"Mean Squared Error for each fold: {mse_scores}")
print(f"Average Mean Squared Error: {mse_scores.mean()}")


Mean Squared Error for each fold: [3.80609426 2.25416231 3.19748597 2.56150698 4.47198249 4.94266164
 2.90918719 2.35616686 3.45059807 3.8093679 ]
Average Mean Squared Error: 3.375921366403788


In [51]:
# 定义一个函数来训练模型并返回MSE和特征重要性
def train_xgboost(X_train, X_test, y_train, y_test, params):
    model = XGBRegressor(**params)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    feature_importances = model.feature_importances_
    return mse, feature_importances

# 参数组合
param_combinations = [
    {'learning_rate': 0.1, 'n_estimators': 10, 'max_depth': 3},
    {'learning_rate': 0.1, 'n_estimators': 20, 'max_depth': 5},
    {'learning_rate': 0.1, 'n_estimators': 30, 'max_depth': 7},
    {'learning_rate': 0.3, 'n_estimators': 10, 'max_depth': 3},
    {'learning_rate': 0.3, 'n_estimators': 20, 'max_depth': 5},
    {'learning_rate': 0.3, 'n_estimators': 30, 'max_depth': 7},
    {'learning_rate': 0.5, 'n_estimators': 10, 'max_depth': 3},
    {'learning_rate': 0.5, 'n_estimators': 20, 'max_depth': 5},
    {'learning_rate': 0.5, 'n_estimators': 30, 'max_depth': 7},
]

# 记录结果
results = []

# 对每个参数组合进行训练并记录结果
for params in param_combinations:
    mse, feature_importances = train_xgboost(X_train, X_test, y_train, y_test, params)
    results.append({'params': params, 'mse': mse, 'feature_importances': feature_importances})

results


[{'params': {'learning_rate': 0.1, 'n_estimators': 10, 'max_depth': 3},
  'mse': 3.572566432460038,
  'feature_importances': array([0.03654236, 0.06674168, 0.11232027, 0.152837  , 0.6315587 ],
        dtype=float32)},
 {'params': {'learning_rate': 0.1, 'n_estimators': 20, 'max_depth': 5},
  'mse': 1.7680132279228005,
  'feature_importances': array([0.02117573, 0.02931126, 0.11610443, 0.18711439, 0.6462942 ],
        dtype=float32)},
 {'params': {'learning_rate': 0.1, 'n_estimators': 30, 'max_depth': 7},
  'mse': 2.1193700421836605,
  'feature_importances': array([0.01522161, 0.03322139, 0.12095184, 0.22702113, 0.603584  ],
        dtype=float32)},
 {'params': {'learning_rate': 0.3, 'n_estimators': 10, 'max_depth': 3},
  'mse': 1.8016617908163362,
  'feature_importances': array([0.03334754, 0.08151796, 0.12206134, 0.19867064, 0.56440246],
        dtype=float32)},
 {'params': {'learning_rate': 0.3, 'n_estimators': 20, 'max_depth': 5},
  'mse': 1.8116903355727723,
  'feature_importances':

## 特征重要性可视化 （回归）

In [81]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
import eli5
import numpy as np
from sklearn.metrics import mean_squared_error
# 原始数据只有一个特征，我们将添加两个额外的特征
area = np.array([150, 200, 250, 300, 350, 400, 450]).reshape(-1, 1)
feature2 = np.random.rand(7).reshape(-1, 1)  # 随机生成的第二个特征
feature3 = np.random.rand(7).reshape(-1, 1)  # 随机生成的第三个特征

# 合并特征以形成3D数据集
X = np.hstack((area, feature2, feature3))
y = np.array([6450, 7450, 8450, 9450, 11450, 15450, 18450])

# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练决策树回归器
regressor = DecisionTreeRegressor(random_state=42)
regressor.fit(X_train, y_train)
# 预测测试集
y_pred = regressor.predict(X_test)
# 使用eli5来显示特征的重要性
eli5.show_weights(regressor, feature_names=['Feature1', 'Feature2', 'Feature3'])




Weight,Feature
0.8705,Feature1
0.1224,Feature3
0.0071,Feature2


In [82]:
# 使用eli5来显示单个预测的详细信息
test_sample = X_test[0]
eli5.show_prediction(regressor, test_sample, feature_names=['Feature1', 'Feature2', 'Feature3'])

Contribution?,Feature
12650.0,<BIAS>
500.0,Feature2
-833.333,Feature3
-2866.667,Feature1


In [83]:
# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse:.1f}")


Mean Squared Error: 12500000.0


## 卡方检验
卡方检验（Chi-Square Test）是统计学中的一种常用假设检验方法，主要用于检验两个分类变量之间的独立性。

卡方检验要求每个单元格的期望频数至少为5，否则可能需要使用连续性校正或者合并类别。
卡方检验适用于分类数据，不适用于连续数据。

In [16]:
import pandas as pd
from scipy.stats import chi2_contingency
from scipy.stats import chi2

# 假设数据集如下：
data = {
    'Feature1': [1, 2, 1, 2, 1, 2, 1, 2, 3, 3, 3, 3],
    'Feature2': ['A', 'A', 'B', 'B', 'C', 'C', 'A', 'A', 'B', 'B', 'C', 'C'],
    'Feature3': [True, False, True, False, True, False, True, False, True, False, True, False],
    'Feature4': ['High', 'Low', 'High', 'Low', 'Medium', 'Medium', 'High', 'Low', 'Medium', 'Medium', 'High', 'Low'],
    'Target': [1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1]
}

# 将数据转换为DataFrame
df = pd.DataFrame(data)

# 使用 chi2 分布对象来计算临界值
chi2_distribution = chi2

# 创建一个空列表来存储每个特征的卡方统计量、p值和自由度
chi2_results = []

# 对每个特征进行卡方检验
for feature in ['Feature1', 'Feature2', 'Feature3', 'Feature4']:
    # 计算每个特征与目标变量的交叉表
    contingency_table = pd.crosstab(df[feature], df['Target'])
    # 执行卡方检验
    chi2, p, dof, expected = chi2_contingency(contingency_table)
    # 将结果添加到列表中
    chi2_results.append((feature, chi2, p, dof))

# 计算每个特征的卡方临界值
chi2_critical_values = {}
for feature, _, _, dof in chi2_results:
    chi2_critical_value = chi2_distribution.ppf(1 - 0.05, dof)
    chi2_critical_values[feature] = chi2_critical_value

# 打印每个特征的卡方统计量、p值、自由度和临界值
for feature, chi2, p, dof in chi2_results:
    print(f"特征: {feature}, 卡方统计量: {chi2}, p值: {p}, 自由度: {dof}, 临界值: {chi2_critical_values[feature]}")

# 选择p值小于显著性水平（例如0.05）的特征
selected_features = [feature for feature, chi2, p, dof in chi2_results if p < 0.05]

# 打印选择的特征
selected_features


特征: Feature1, 卡方统计量: 8.0, p值: 0.018315638888734182, 自由度: 2, 临界值: 5.991464547107979
特征: Feature2, 卡方统计量: 0.0, p值: 1.0, 自由度: 2, 临界值: 5.991464547107979
特征: Feature3, 卡方统计量: 0.3333333333333333, p值: 0.5637028616507731, 自由度: 1, 临界值: 3.841458820694124
特征: Feature4, 卡方统计量: 2.0, p值: 0.36787944117144245, 自由度: 2, 临界值: 5.991464547107979


['Feature1']

## 互信息
互信息（Mutual Information, MI）是一种衡量两个变量之间相互依赖性的量度。在特征选择中，互信息可以用来评估特征与目标变量之间的相关性。特征与目标变量之间的互信息越高，表示它们之间的依赖性越强，即该特征对目标变量的预测能力越强。

在Python中，我们可以使用sklearn.metrics模块中的mutual_info_classif函数来计算特征与目标变量之间的互信息。以下是如何计算特征与目标变量之间的互信息并选择具有较高互信息的特征的步骤：

使用mutual_info_classif计算每个特征与目标变量之间的互信息。
根据互信息值对特征进行排序。
选择具有最高互信息值的特征。

互信息和卡方检验是两种不同的统计方法，它们在特征选择和数据分析中有各自的应用场景：
### 互信息（Mutual Information）
互信息是衡量两个变量之间相互依赖性的量。它适用于以下场景：
1. **非参数环境**：互信息不需要假设数据遵循特定的分布，因此适用于非参数或非高斯分布的数据。
2. **离散数据**：互信息主要用于处理离散变量。对于连续变量，需要先进行离散化处理。
3. **特征选择**：在机器学习中，互信息可以用来评估特征与目标变量之间的相关性，尤其是在特征和目标变量都是分类变量时。
4. **关联规则学习**：在市场篮子分析等场景中，互信息可以用来发现不同商品之间的关联性。
5. **信息论应用**：在通信和信息论中，互信息用于衡量通信系统的有效性。
### 卡方检验（Chi-Square Test）
卡方检验是一种统计假设检验方法，适用于以下场景：
1. **独立性检验**：最常用于检验两个分类变量之间是否独立。例如，检验性别与购买偏好之间是否独立。
2. **拟合优度检验**：用于检验观察频数分布是否符合某个特定的分布。
3. **特征选择**：在特征选择中，卡方检验可以用来评估分类特征与目标变量之间的关联性。如果卡方检验结果表明两个变量是独立的，那么这个特征可能对模型的预测能力贡献不大。
4. **分类数据**：卡方检验主要适用于分类数据（名义或有序），不适用于连续数据。如果数据是连续的，需要先将其离散化。
5. **大样本数据**：卡方检验要求样本量足够大，以确保分布近似于卡方分布。通常建议每个单元格的期望频数至少为5。
总的来说，互信息和卡方检验都是用于评估变量之间关联性的方法，但它们适用的数据类型和场景有所不同。互信息适用于任何类型的数据，而卡方检验主要适用于分类数据，并且在实际应用中需要满足一定的样本量要求。在选择使用哪种方法时，应根据数据的特性和分析的目的来决定。


In [20]:
from sklearn.feature_selection import mutual_info_classif

# 对分类变量 Feature2 进行独热编码
df_encoded = pd.get_dummies(df, columns=['Feature2', 'Feature4'])

# 重新计算特征与目标变量之间的互信息
mi = mutual_info_classif(df_encoded[['Feature1', 'Feature2_A', 'Feature2_B', 'Feature3', 'Feature4_Low', 'Feature4_Medium', 'Feature4_High']], df_encoded['Target'])


## 将互信息与特征名称合并，并按互信息降序排序
mi_features = sorted(zip(['Feature1', 'Feature2_A', 'Feature2_B', 'Feature3', 'Feature4_Low', 'Feature4_Medium', 'Feature4_High'], mi), key=lambda x: x[1], reverse=True)

mi_features


[('Feature1', 0.9446789321789321),
 ('Feature3', 0.698647186147186),
 ('Feature4_High', 0.07860750360750379),
 ('Feature2_A', 0.0),
 ('Feature2_B', 0.0),
 ('Feature4_Low', 0.0),
 ('Feature4_Medium', 0.0)]