In [None]:
import pandas as pd         # 导入pandas库，它就像一个超级强大的Excel工具，专门用来处理表格数据（DataFrame）。
from sklearn.model_selection import train_test_split # 从sklearn.model_selection模块导入train_test_split函数，用于将数据集划分为训练集和测试集。
from sklearn.tree import DecisionTreeRegressor # 从sklearn.tree模块导入DecisionTreeRegressor类，这是我们将要使用的决策树回归模型。
import pickle               # 导入pickle库，用于序列化和反序列化Python对象，这里主要用于保存和加载训练好的模型。
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score # 从sklearn.metrics模块导入均方误差（MSE）、平均绝对误差（MAE）和决定系数（R²）这三个评估回归模型性能的指标。

# 加载数据集
df = pd.read_csv('fitness analysis.csv') # 使用pandas的read_csv函数，读取名为 'fitness analysis.csv' 的CSV文件到DataFrame `df` 中。

# 显示前五行数据
print(df.head())            # 打印DataFrame `df` 的前5行，帮助用户快速预览数据。

# 选择相关特征进行建模
X = df[['Your gender ', 'How important is exercise to you ?', 'How healthy do you consider yourself?']]
# 选取 DataFrame `df` 中的三列作为特征（自变量），赋值给 `X`。
# 这些列包含了性别、对运动的重视程度和对自身健康的看法，它们都是分类变量。
X = pd.get_dummies(X)  # 将分类变量转为数值变量
# `pd.get_dummies(X)` 使用独热编码（One-Hot Encoding）将 `X` 中的分类变量转换为数值变量。
# 例如，'Your gender' 列中的 'Male' 和 'Female' 会被转换为两列，一列为1另一列为0。
# 这是因为大多数机器学习模型（包括决策树）处理起来更方便或要求数值数据。

# 设置目标变量
y = df['daily_steps']  # 选取 'daily_steps' 列作为目标变量（因变量），赋值给 `y`。假设这个列是表示每日步数的数值。

# 将数据集划分为训练集和测试集（测试集占20%）
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=42)
# 使用train_test_split函数将数据集划分为训练集和测试集。
# `X`, `y`: 要分割的特征和目标变量。
# `test_size=0.2`: 测试集占总数据的20%。
# `random_state=42`: 随机种子，确保每次运行代码时分割结果一致。

# 创建并训练决策树回归模型
model = DecisionTreeRegressor(random_state=42)
# 创建一个 `DecisionTreeRegressor`（决策树回归）模型实例。
# `random_state=42`: 随机种子，确保决策树的构建过程（如特征选择和分裂点）是可复现的。
# 决策树模型会将特征空间划分成若干个矩形区域，每个区域内的预测值是一个常数。
# 训练决策树回归模型
model.fit(X_train,y_train) # 使用训练集特征 `X_train` 和训练集目标 `y_train` 训练决策树回归模型。

# 保存训练好的模型
with open('2.2.5_model.pkl', 'wb') as model_file: # 以二进制写入模式 ('wb') 打开一个文件，用于保存模型。
    pickle.dump(model,model_file) # 使用pickle.dump() 将训练好的 `model` 对象序列化并写入文件。

# 进行预测
y_pred = model.predict(X_test) # 使用训练好的 `model` 对测试集特征 `X_test` 进行回归预测。

# 将结果保存到文本文件中
results = pd.DataFrame({'实际值': y_test, '预测值': y_pred})
# 创建一个pandas DataFrame，包含两列：'实际值'（来自 `y_test`）和 '预测值'（来自 `y_pred`）。
results_filename = '2.2.5_results.txt' # 定义保存结果的文件名。
results.to_csv(results_filename, index=False, sep='\t')  # 使用制表符分隔值保存到文本文件
# 将结果DataFrame保存为CSV文件 (`.txt` 扩展名但内容是CSV格式，`sep='\t'` 指定使用制表符作为分隔符)。
# `index=False` 表示在保存时不要写入DataFrame的索引。

# 将测试结果保存到报告文件中
report_filename = '2.2.5_report.txt' # 定义保存报告的文件名。
with open(report_filename,'w') as f: # 以写入模式 ('w') 打开一个文本文件，用于保存报告。
    f.write(f'均方误差: {mean_squared_error(y_test,y_pred)}\n')   # 写入均方误差 (MSE)。
    # MSE：预测值与真实值之差平方的平均值，对大误差反应敏感，值越小越好。
    f.write(f'平均绝对误差: {mean_absolute_error(y_test,y_pred)}\n') # 写入平均绝对误差 (MAE)。
    # MAE：预测值与真实值之差绝对值的平均值，直观反映预测误差的平均大小，值越小越好。
    f.write(f'决定系数: {r2_score(y_test,y_pred)}\n')             # 写入决定系数 (R²)。
    # R²：表示模型解释因变量方差的比例，范围通常在0到1之间，越接近1表示模型拟合得越好。
