In [3]:
import pandas as pd
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split

In [4]:
# 加载数据
try:
    data = pd.read_csv('sales_data.csv')
except FileNotFoundError:
    print("数据集文件未找到，请检查文件名和路径。")

In [5]:
# 检查缺失值
print("缺失值情况：")
print(data.isnull().sum())

# 缺失值填充（这里简单用0填充，实际可根据情况调整）
data.fillna(0, inplace=True)

缺失值情况：
User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64


In [10]:
# 类别特征编码
categorical_columns = ['Gender', 'Age', 'Occupation', 'City_Category', 'Stay_In_Current_City_Years', 'Marital_Status']
encoder = OneHotEncoder()
encoded_features = encoder.fit_transform(data[categorical_columns])
# 由于OneHotEncoder在新版本返回稀疏矩阵，需要转换为密集数组
encoded_df = pd.DataFrame(encoded_features.toarray(), columns=encoder.get_feature_names_out(categorical_columns))

In [11]:
# 数值特征标准化
numerical_columns = ['Product_Category_1', 'Product_Category_2', 'Product_Category_3', 'Purchase']
scaler = StandardScaler()
data[numerical_columns] = scaler.fit_transform(data[numerical_columns])

In [12]:
# 合并编码后的类别特征和标准化后的数值特征
data = pd.concat([data.drop(categorical_columns, axis=1), encoded_df], axis=1)

# 划分训练集和测试集（以Purchase为预测目标，假设这是一个回归问题）
X = data.drop('Purchase', axis=1)
y = data['Purchase']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [13]:
# 注释：
# 导入必要的库，pandas用于数据处理，StandardScaler用于数值特征标准化，OneHotEncoder用于类别特征编码，train_test_split用于划分数据集。
# 尝试读取数据集，若文件不存在则提示错误。
# 检查数据集中的缺失值，并使用 0 填充缺失值（实际应用中可能需要更合理的填充策略）。
# 对类别特征进行独热编码，将编码后的特征转换为DataFrame。
# 对数值特征进行标准化处理。
# 将编码后的类别特征和标准化后的数值特征合并。
# 划分训练集和测试集，这里假设Purchase是预测目标，将数据集按 70% 训练集、30% 测试集的比例划分，并设置随机种子以确保结果可重复性。

In [14]:
# 分类 / 回归与聚类分析

In [18]:
import pandas as pd
from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelEncoder
from sklearn.model_selection import train_test_split

# 加载数据
try:
    data = pd.read_csv('sales_data.csv')
except FileNotFoundError:
    print("数据集文件未找到，请检查文件名和路径。")

# 检查缺失值
print("缺失值情况：")
print(data.isnull().sum())

# 缺失值填充（这里简单用0填充，实际可根据情况调整）
data.fillna(0, inplace = True)

# 对Product_ID进行编码
le = LabelEncoder()
data['Product_ID'] = le.fit_transform(data['Product_ID'])

# 类别特征编码
categorical_columns = ['Gender', 'Age', 'Occupation', 'City_Category', 'Stay_In_Current_City_Years', 'Marital_Status']
encoder = OneHotEncoder()
encoded_features = encoder.fit_transform(data[categorical_columns])
encoded_df = pd.DataFrame(encoded_features.toarray(), columns = encoder.get_feature_names_out(categorical_columns))

# 数值特征标准化
numerical_columns = ['Product_Category_1', 'Product_Category_2', 'Product_Category_3', 'Purchase']
scaler = StandardScaler()
data[numerical_columns] = scaler.fit_transform(data[numerical_columns])

# 合并编码后的类别特征和标准化后的数值特征
data = pd.concat([data.drop(categorical_columns, axis = 1), encoded_df], axis = 1)

# 划分训练集和测试集（以Purchase为预测目标，假设这是一个回归问题）
X = data.drop('Purchase', axis = 1)
y = data['Purchase']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

缺失值情况：
User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64


In [19]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.cluster import KMeans
from sklearn.metrics import mean_squared_error, silhouette_score
import numpy as np

In [21]:
# 回归任务：决策树回归
regressor = DecisionTreeRegressor(max_depth=5)
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f"决策树回归RMSE: {rmse:.2f}")


# # 聚类任务：K均值聚类
# kmeans = KMeans(n_clusters=3)
# clusters = kmeans.fit_predict(X)
# silhouette_avg = silhouette_score(X, clusters)
# print(f"K均值聚类轮廓系数: {silhouette_avg:.2f}")

决策树回归RMSE: 0.70


In [22]:
# 注释：
# 导入DecisionTreeRegressor用于回归任务，KMeans用于聚类任务，mean_squared_error用于计算回归的均方误差，silhouette_score用于评估聚类效果，np用于数值计算。
# 初始化决策树回归器，设置最大深度为 5，然后在训练集上进行训练，并在测试集上进行预测，计算并打印均方根误差（RMSE）。
# 初始化 K 均值聚类器，设置聚类数为 3，对整个数据集进行聚类，并计算和打印轮廓系数，以评估聚类效果。

In [25]:
from sklearn.ensemble import AdaBoostRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
import numpy as np

# Adaboost回归（基于决策树）
ada = AdaBoostRegressor(estimator = DecisionTreeRegressor(max_depth = 2), n_estimators = 50)
ada.fit(X_train, y_train)
ada_rmse = np.sqrt(mean_squared_error(y_test, ada.predict(X_test)))
print(f"Adaboost回归RMSE: {ada_rmse:.2f}")

Adaboost回归RMSE: 0.79


In [26]:
from sklearn.ensemble import RandomForestRegressor

# 随机森林回归
rf = RandomForestRegressor(n_estimators=100, max_depth=10)
rf.fit(X_train, y_train)
rf_rmse = np.sqrt(mean_squared_error(y_test, rf.predict(X_test)))
print(f"随机森林回归RMSE: {rf_rmse:.2f}")

随机森林回归RMSE: 0.56


In [29]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import AdaBoostRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
import numpy as np

# 定义基础估计器
base_estimator = DecisionTreeRegressor()

# 超参数调优 - Adaboost
param_grid_ada = {
    'n_estimators': [20, 50, 100],
    'estimator__max_depth': [1, 2, 3]
}
grid_search_ada = GridSearchCV(AdaBoostRegressor(estimator = base_estimator), param_grid_ada, cv = 5)
grid_search_ada.fit(X_train, y_train)
best_ada = grid_search_ada.best_estimator_
best_ada_rmse = np.sqrt(mean_squared_error(y_test, best_ada.predict(X_test)))
print(f"调优后Adaboost回归RMSE: {best_ada_rmse:.2f}")

调优后Adaboost回归RMSE: 0.71


In [None]:
# 超参数调优 - 随机森林
param_grid_rf = {
    'n_estimators': [50, 100, 200],
   'max_depth': [5, 10, 15]
}
grid_search_rf = GridSearchCV(RandomForestRegressor(), param_grid_rf, cv=5)
grid_search_rf.fit(X_train, y_train)
best_rf = grid_search_rf.best_estimator_
best_rf_rmse = np.sqrt(mean_squared_error(y_test, best_rf.predict(X_test)))
print(f"调优后随机森林回归RMSE: {best_rf_rmse:.2f}")

In [None]:
# 模型性能对比表
performance_df = pd.DataFrame({
    'Model': ['Decision Tree', 'Adaboost', 'Random Forest', 'Tuned Adaboost', 'Tuned Random Forest'],
    'RMSE': [rmse, ada_rmse, rf_rmse, best_ada_rmse, best_rf_rmse]
})
print("\n模型性能对比表：")
print(performance_df)

In [None]:
# 注释：
# 导入AdaBoostRegressor和RandomForestRegressor用于集成学习回归，GridSearchCV用于超参数调优。
# 初始化并训练 Adaboost 回归器，基于深度为 2 的决策树，设置 50 个弱学习器，计算并打印其 RMSE。
# 初始化并训练随机森林回归器，设置 100 个决策树，最大深度为 10，计算并打印其 RMSE。
# 对 Adaboost 进行超参数调优，通过GridSearchCV搜索不同的n_estimators和base_estimator__max_depth组合，进行 5 折交叉验证，找到最佳模型并计算其 RMSE。
# 对随机森林进行超参数调优，通过GridSearchCV搜索不同的n_estimators和max_depth组合，进行 5 折交叉验证，找到最佳模型并计算其 RMSE。
# 创建一个DataFrame来展示不同模型的 RMSE，方便对比模型性能。

In [None]:
# 模型解释 - 特征重要性分析

In [None]:
import matplotlib.pyplot as plt


# 随机森林特征重要性分析
feature_importances = pd.Series(best_rf.feature_importances_, index=X.columns)
feature_importances.nlargest(10).plot(kind='barh')
plt.title('Top 10 Feature Importances - Random Forest')
plt.xlabel('Importance')
plt.show()

# 保存特征重要性图为PNG
plt.savefig('feature_importance.png')

注释：
导入matplotlib.pyplot用于数据可视化。
获取调优后随机森林模型的特征重要性，并转换为Series，索引为特征名称。
绘制前 10 个最重要特征的水平柱状图，展示特征重要性。
保存特征重要性图为feature_importance.png文件。

In [None]:
performance_df.to_csv('model_performance.csv', index=False)

注释：
将模型性能对比表保存为model_performance.csv文件，不保存索引列。

数据集说明：在报告中详细描述sales_data.csv数据集的来源、各字段的含义、数据类型以及数据量等信息。说明数据预处理过程中对缺失值、类别特征和数值特征的处理方法及其原因。
模型性能对比表：展示上述代码生成的performance_df表格，分析不同模型（决策树、Adaboost、随机森林以及调优后的 Adaboost 和随机森林）的 RMSE 差异，说明集成学习方法相较于单一决策树模型在性能上的提升。
集成学习效果分析：解释 Adaboost 和随机森林这两种集成学习方法的原理，分析它们在本实验中的表现。例如，说明 Adaboost 如何通过迭代训练弱学习器并调整样本权重来提升性能，随机森林如何通过构建多个决策树并综合结果来减少方差。分析两种集成方法在本数据集上的优缺点。
参数调优过程：阐述在GridSearchCV中选择param_grid_ada和param_grid_rf参数范围的依据。说明调优过程如何帮助找到最佳超参数，以及这些超参数对模型性能的影响。例如，增加n_estimators可能提高模型的拟合能力，但也可能增加计算时间和过拟合风险；调整max_depth可以控制树的复杂度，避免过拟合或欠拟合。
集成方法的选择依据：在报告中解释选择 Adaboost 和随机森林的原因。例如，随机森林适用于高维数据，具有较好的抗噪声能力和泛化性能，适合处理本数据集中多个特征的情况；Adaboost 对异常值敏感，所以选择简单的浅层决策树作为基模型，通过不断调整样本权重，能够提升弱学习器的性能。
不同集成方法的适用场景：分析随机森林和 Adaboost 在不同场景下的优势。例如，随机森林在特征交互复杂时表现更优，因为它通过随机选择特征和样本构建多个决策树，能够捕捉到更多的特征组合和复杂关系；Adaboost 适用于对精度要求较高且数据噪声较小的场景，因为它通过迭代训练可以逐步聚焦于难以分类的样本。