In [None]:
import pandas as pd         # 导入pandas库，它就像一个超级强大的Excel工具，专门用来处理表格数据（DataFrame）。
from sklearn.model_selection import train_test_split # 从sklearn.model_selection模块导入train_test_split函数，用于将数据集划分为训练集和测试集。
from sklearn.ensemble import RandomForestRegressor # 从sklearn.ensemble模块导入RandomForestRegressor类，这是我们将要使用的随机森林回归模型。
import pickle               # 导入pickle库，用于序列化和反序列化Python对象，这里主要用于保存和加载训练好的模型。
from sklearn.metrics import mean_squared_error, r2_score # 从sklearn.metrics模块导入均方误差（MSE）和决定系数（R²）这两个评估回归模型性能的指标。
import xgboost as xgb       # 导入xgboost库，用于构建XGBoost模型，这是一种流行的梯度提升树算法。

# 加载数据集
df = pd.read_csv('fitness analysis.csv') # 使用pandas的read_csv函数，读取名为 'fitness analysis.csv' 的CSV文件到DataFrame `df` 中。

# 显示前五行数据
print(df.head())            # 打印DataFrame `df` 的前5行，帮助用户快速预览数据。

# 去除所有字符串字段的前后空格
df = df.applymap(lambda x: x.strip() if isinstance(x, str) else x)
# `applymap` 方法用于对DataFrame中的每一个元素应用一个函数。
# `lambda x: x.strip() if isinstance(x, str) else x`: 这是一个匿名函数。
# 它检查每个元素 `x` 是否是字符串类型 (`isinstance(x, str)`)。
# 如果是字符串，就调用 `.strip()` 方法去除字符串两端的空白字符，否则就保持原样。
# 这个步骤对于数据清洗非常重要，可以避免因为多余空格导致的数据匹配错误或建模问题。

# 检查和清理列名
df.columns = df.columns.str.strip()
# `df.columns` 获取DataFrame的所有列名。
# `df.columns.str.strip()` 对所有列名（它们是字符串）应用 `.strip()` 方法，去除列名两端的空白字符。
# 这可以避免因为列名有隐藏空格而在选择列时出错。

# 选择相关特征进行建模
X = df[['Your gender', 'How important is exercise to you ?', 'How healthy do you consider yourself?']]
# 选取 DataFrame `df` 中的三列作为特征（自变量），赋值给 `X`。
# 这些列包含了性别、对运动的重视程度和对自身健康的看法，它们都是分类变量。
X = pd.get_dummies(X)  # 将分类变量转为数值变量
# `pd.get_dummies(X)` 使用独热编码（One-Hot Encoding）将 `X` 中的分类变量转换为数值变量。
# 例如，'Your gender' 列中的 'Male' 和 'Female' 会被转换为两列，一列为1另一列为0。
# 这是因为大多数机器学习模型只能处理数值数据。

# 将年龄段转为数值变量
y = df['Your age'].apply(lambda x: int(x.split(' ')[0]))  # 假设年龄段为整数
# 选取 'Your age' 列作为目标变量（因变量），赋值给 `y`。
# `.apply(lambda x: int(x.split(' ')[0]))`: 这对 'Your age' 列中的每个元素 `x` 应用一个函数。
# `x.split(' ')[0]`: 假设年龄段是类似 "25-34 years" 这样的字符串，`split(' ')` 会按空格分割字符串，`[0]` 取第一个部分（即 "25"）。
# `int(...)`: 将取到的字符串部分（如 "25"）转换为整数。
# 这样，目标变量 `y` 就转换成了数值型的年龄。

# 将数据集划分为训练集和测试集（测试集占比20%）
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=42)
# 使用train_test_split函数将数据划分为训练集和测试集。
# `X`, `y`: 要分割的特征和目标变量。
# `test_size=0.2`: 测试集占总数据的20%。
# `random_state=42`: 随机种子，确保每次运行代码时分割结果一致。

# 创建随机森林回归模型（创建的决策树的数量为100）
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
# 创建一个 `RandomForestRegressor`（随机森林回归）模型实例。
# `n_estimators=100`: 指定森林中包含100棵决策树。构建更多的树通常能提高模型性能，但也增加计算成本。
# `random_state=42`: 随机种子，确保模型训练结果的可复现性。
# 训练随机森林回归模型
rf_model.fit(X_train,y_train) # 使用训练集特征 `X_train` 和训练集目标 `y_train` 训练随机森林回归模型。

# 保存训练好的模型
with open('2.2.3_model.pkl', 'wb') as model_file: # 以二进制写入模式 ('wb') 打开一个文件，用于保存模型。
    pickle.dump(rf_model,model_file) # 使用pickle.dump() 将训练好的 `rf_model` 对象序列化并写入文件。

# 进行结果预测
y_pred = rf_model.predict(X_test) # 使用训练好的 `rf_model` 对测试集特征 `X_test` 进行回归预测。
results_df = pd.DataFrame(y_pred, columns=['预测结果']) # 将预测结果 `y_pred` 转换为一个pandas DataFrame，列名为 '预测结果'。
results_df.to_csv('2.2.3_results.txt', index=False) # 将预测结果DataFrame保存为CSV文件 `2.2.3_results.txt`。
                                                    # `index=False` 表示在保存时不要写入DataFrame的索引。

# 使用测试工具对模型进行测试，并记录测试结果
train_score = rf_model.score(X_train,y_train)   #训练集分数
# `rf_model.score(X_train, y_train)` 计算模型在训练集上的性能得分 (R²)。R²表示模型解释因变量方差的比例。
test_score = rf_model.score(X_test,y_test)    #测试集分数
# `rf_model.score(X_test, y_test)` 计算模型在测试集上的性能得分 (R²)。测试集得分更能反映模型的泛化能力。
mse = mean_squared_error(y_test,y_pred)  #均方误差
# `mean_squared_error(y_test, y_pred)` 计算均方误差 (MSE)。MSE是预测值与真实值之差平方的平均值，反映了预测的精确度。
r2 = r2_score(y_test,y_pred) #决定系数
# `r2_score(y_test, y_pred)` 计算决定系数 (R²)。

with open('2.2.3_report.txt', 'w') as report_file: # 以写入模式 ('w') 打开一个文本文件，用于保存报告。
    report_file.write(f'训练集得分: {train_score}\n') # 写入训练集R²得分。
    report_file.write(f'测试集得分: {test_score}\n') # 写入测试集R²得分。
    report_file.write(f'均方误差(MSE): {mse}\n')     # 写入均方误差。
    report_file.write(f'决定系数(R^2): {r2}\n')     # 写入决定系数。

# 运用工具分析算法中错误案例产生的原因并进行纠正
# 初始化XGBoost回归模型（构建100棵树）
xgb_model = xgb.XGBRegressor(n_estimators=100, random_state=42)
# 创建一个 `xgb.XGBRegressor`（XGBoost回归）模型实例。
# XGBoost是一种高效、灵活且可移植的梯度提升决策树实现，常在各种机器学习竞赛中取得优异成绩。
# `n_estimators=100`: 指定构建100棵树。
# `random_state=42`: 随机种子，确保模型训练结果的可复现性。
# 训练XGBoost回归模型
xgb_model.fit(X_train,y_train) # 使用训练集特征 `X_train` 和训练集目标 `y_train` 训练XGBoost回归模型。
# 使用XGBoost回归模型在测试集上进行结果预测
y_pred_xgb = xgb_model.predict(X_test) # 使用训练好的 `xgb_model` 对测试集特征 `X_test` 进行回归预测。

results_df_xgb = pd.DataFrame(y_pred_xgb, columns=['预测结果']) # 将XGBoost模型的预测结果 `y_pred_xgb` 转换为DataFrame。
results_df_xgb.to_csv('2.2.3_results_xgb.txt', index=False) # 将这个DataFrame保存为CSV文件 `2.2.3_results_xgb.txt`。

with open('2.2.3_report_xgb.txt', 'w') as xgb_report_file: # 打开文件保存XGBoost模型的报告。
    xgb_report_file.write(f'XGBoost训练集得分: {xgb_model.score(X_train,y_train)}\n') # 写入XGBoost模型在训练集上的R²得分。
    xgb_report_file.write(f'XGBoost测试集得分: {xgb_model.score(X_test,y_test)}\n') # 写入XGBoost模型在测试集上的R²得分。
    xgb_report_file.write(f'XGBoost均方误差(MSE): {mean_squared_error(y_test,y_pred_xgb)}\n') # 写入XGBoost模型的均方误差。
    xgb_report_file.write(f'XGBoost决定系数(R^2): {r2_score(y_test,y_pred_xgb)}\n') # 写入XGBoost模型的决定系数。
