In [2]:
# ============================================================================
# 导入必要的库和模块
# ============================================================================

# pandas用于数据处理和分析
from pandas import read_csv

# sklearn用于机器学习
from sklearn.model_selection import KFold  # K折交叉验证
from sklearn.model_selection import cross_val_score  # 交叉验证评分
from sklearn.linear_model import LinearRegression  # 线性回归模型

# ============================================================================
# 第一步：数据加载和预处理
# ============================================================================

# 指定数据文件路径（波士顿房价数据集）
filename = 'housing.csv'

# 定义数据列名（特征和目标变量）
names = [
    'CRIM',  # 城镇人均犯罪率
    'ZN',  # 住宅用地超过25000平方英尺的比例
    'INDUS',  # 非零售商业用地比例
    'CHAS',  # 查尔斯河虚拟变量（1表示靠近河流，0表示不靠近）
    'NOX',  # 一氧化氮浓度
    'RM',  # 每栋住宅的平均房间数
    'AGE',  # 1940年以前建成的业主自住单位比例
    'DIS',  # 与五个波士顿就业中心的加权距离
    'RAD',  # 放射状公路的可达性指数
    'TAX',  # 每10000美元的全值财产税率
    'PRTATIO',  # 城镇师生比例
    'B',  # 1000(Bk - 0.63)^2，其中Bk是城镇黑人比例
    'LSTAT',  # 人口中地位低下者的比例
    'MEDV'  # 目标变量：自住房的中位数价值（千美元）
]

# 读取CSV文件，使用自定义列名，以空格为分隔符
data = read_csv(filename, names=names, delim_whitespace=True)

# ============================================================================
# 第二步：数据准备 - 分离特征和目标变量
# ============================================================================

# 将pandas数据框转换为numpy数组，便于数值计算
array = data.values

# 提取特征变量X（前13列）：用于预测的输入特征
X = array[:, 0:13]  # 选择第0到第12列（索引0-12）

# 提取目标变量Y（第14列）：要预测的结果（房价）
Y = array[:, 13]  # 选择第13列（索引13）

# ============================================================================
# 第三步：设置交叉验证参数
# ============================================================================

# 设置K折交叉验证的折数
n_splits = 10  # 将数据分为10份，每次用9份训练，1份测试

# 设置随机种子，确保结果可重现
seed = 7

# 创建KFold交叉验证对象
kfold = KFold(
    n_splits=n_splits,  # 10折交叉验证
    random_state=seed,  # 随机种子
    shuffle=True  # 打乱数据顺序，确保随机性
)

# ============================================================================
# 第四步：创建模型和设置评估指标
# ============================================================================

# 创建线性回归模型实例
model = LinearRegression()

# 设置评估指标为负平均绝对误差
# 注意：sklearn返回负值，因为sklearn总是最大化指标（越小越好）
scoring = 'neg_mean_absolute_error'

# ============================================================================
# 第五步：执行交叉验证
# ============================================================================

# 使用交叉验证评估模型性能
result = cross_val_score(
    model,  # 要评估的模型
    X, Y,  # 特征和目标变量
    cv=kfold,  # 交叉验证策略
    scoring=scoring  # 评估指标
)

# ============================================================================
# 第六步：输出结果
# ============================================================================

# 打印交叉验证结果
# result.mean()：10次验证的平均MAE
# result.std()：10次验证的MAE标准差
print('MAE: %.3f (%.3f)' % (result.mean(), result.std()))

# ============================================================================
# 结果解读说明
# ============================================================================

"""
交叉验证结果解读：

1. 结果格式：MAE: -3.387 (±0.234)
   - 负号：sklearn返回负值，实际MAE为3.387
   - 3.387：平均绝对误差为3.387千美元
   - ±0.234：标准差，表示结果的可信度

2. 交叉验证过程：
   - 数据被分为10份
   - 每次用9份训练，1份测试
   - 重复10次，每次使用不同的测试集
   - 最终得到10个MAE值，计算平均值和标准差

3. 业务含义：
   - 模型预测房价的平均误差为3.387千美元
   - 标准差0.234表示模型性能相对稳定
   - 在房价预测中，3.387千美元的误差是可以接受的

4. 优势：
   - 避免了过拟合评估
   - 充分利用了有限的数据
   - 提供了模型性能的置信区间
"""

MAE: -3.387 (0.667)


  data = read_csv(filename, names=names, delim_whitespace=True)


In [5]:
# ============================================================================
# 导入必要的库和模块
# ============================================================================

# pandas用于数据处理和分析
from pandas import read_csv

# sklearn用于机器学习
from sklearn.model_selection import KFold              # K折交叉验证
from sklearn.model_selection import cross_val_score    # 交叉验证评分
from sklearn.linear_model import LinearRegression      # 线性回归模型

# ============================================================================
# 第一步：数据加载和预处理
# ============================================================================

# 指定数据文件路径（波士顿房价数据集）
filename = 'housing.csv'

# 定义数据列名（特征和目标变量）
names = [
    'CRIM',     # 城镇人均犯罪率
    'ZN',       # 住宅用地超过25000平方英尺的比例
    'INDUS',    # 非零售商业用地比例
    'CHAS',     # 查尔斯河虚拟变量（1表示靠近河流，0表示不靠近）
    'NOX',      # 一氧化氮浓度
    'RM',       # 每栋住宅的平均房间数
    'AGE',      # 1940年以前建成的业主自住单位比例
    'DIS',      # 与五个波士顿就业中心的加权距离
    'RAD',      # 放射状公路的可达性指数
    'TAX',      # 每10000美元的全值财产税率
    'PRTATIO',  # 城镇师生比例
    'B',        # 1000(Bk - 0.63)^2，其中Bk是城镇黑人比例
    'LSTAT',    # 人口中地位低下者的比例
    'MEDV'      # 目标变量：自住房的中位数价值（千美元）
]

# 读取CSV文件，使用自定义列名，以空格为分隔符
data = read_csv(filename, names=names, delim_whitespace=True)

# ============================================================================
# 第二步：数据准备 - 分离特征和目标变量
# ============================================================================

# 将pandas数据框转换为numpy数组，便于数值计算
array = data.values

# 提取特征变量X（前13列）：用于预测的输入特征
X = array[:, 0:13]  # 选择第0到第12列（索引0-12）

# 提取目标变量Y（第14列）：要预测的结果（房价）
Y = array[:, 13]    # 选择第13列（索引13）

# ============================================================================
# 第三步：设置交叉验证参数
# ============================================================================

# 设置K折交叉验证的折数
n_splits = 10  # 将数据分为10份，每次用9份训练，1份测试

# 设置随机种子，确保结果可重现
seed = 7

# 创建KFold交叉验证对象
kfold = KFold(
    n_splits=n_splits,      # 10折交叉验证
    random_state=seed,       # 随机种子
    shuffle=True             # 打乱数据顺序，确保随机性
)

# ============================================================================
# 第四步：创建模型和设置评估指标
# ============================================================================

# 创建线性回归模型实例
model = LinearRegression()

# 设置评估指标为负均方误差
# 注意：sklearn返回负值，因为sklearn总是最大化指标（越小越好）
scoring = 'neg_mean_squared_error'

# ============================================================================
# 第五步：执行交叉验证
# ============================================================================

# 使用交叉验证评估模型性能
result = cross_val_score(
    model,           # 要评估的模型
    X, Y,           # 特征和目标变量
    cv=kfold,       # 交叉验证策略
    scoring=scoring  # 评估指标
)

# ============================================================================
# 第六步：输出结果
# ============================================================================

# 打印交叉验证结果
# result.mean()：10次验证的平均MSE
# result.std()：10次验证的MSE标准差
print('MSE: %.3f (%.3f)' % (result.mean(), result.std()))




MSE: -23.747 (11.143)


  data = read_csv(filename, names=names, delim_whitespace=True)


In [7]:
# ============================================================================
# 导入必要的库和模块
# ============================================================================

# pandas用于数据处理和分析
from pandas import read_csv

# sklearn用于机器学习
from sklearn.model_selection import KFold              # K折交叉验证
from sklearn.model_selection import cross_val_score    # 交叉验证评分
from sklearn.linear_model import LinearRegression      # 线性回归模型

# ============================================================================
# 第一步：数据加载和预处理
# ============================================================================

# 指定数据文件路径（波士顿房价数据集）
filename = 'housing.csv'

# 定义数据列名（特征和目标变量）
names = [
    'CRIM',     # 城镇人均犯罪率
    'ZN',       # 住宅用地超过25000平方英尺的比例
    'INDUS',    # 非零售商业用地比例
    'CHAS',     # 查尔斯河虚拟变量（1表示靠近河流，0表示不靠近）
    'NOX',      # 一氧化氮浓度
    'RM',       # 每栋住宅的平均房间数
    'AGE',      # 1940年以前建成的业主自住单位比例
    'DIS',      # 与五个波士顿就业中心的加权距离
    'RAD',      # 放射状公路的可达性指数
    'TAX',      # 每10000美元的全值财产税率
    'PRTATIO',  # 城镇师生比例
    'B',        # 1000(Bk - 0.63)^2，其中Bk是城镇黑人比例
    'LSTAT',    # 人口中地位低下者的比例
    'MEDV'      # 目标变量：自住房的中位数价值（千美元）
]

# 读取CSV文件，使用自定义列名，以空格为分隔符
data = read_csv(filename, names=names, delim_whitespace=True)

# ============================================================================
# 第二步：数据准备 - 分离特征和目标变量
# ============================================================================

# 将pandas数据框转换为numpy数组，便于数值计算
array = data.values

# 提取特征变量X（前13列）：用于预测的输入特征
X = array[:, 0:13]  # 选择第0到第12列（索引0-12）

# 提取目标变量Y（第14列）：要预测的结果（房价）
Y = array[:, 13]    # 选择第13列（索引13）

# ============================================================================
# 第三步：设置交叉验证参数
# ============================================================================

# 设置K折交叉验证的折数
n_splits = 10  # 将数据分为10份，每次用9份训练，1份测试

# 设置随机种子，确保结果可重现
seed = 7

# 创建KFold交叉验证对象
kfold = KFold(
    n_splits=n_splits,      # 10折交叉验证
    random_state=seed,      # 随机种子
    shuffle=True
)

# ============================================================================
# 第四步：创建模型和设置评估指标
# ============================================================================

# 创建线性回归模型实例
model = LinearRegression()

# 设置评估指标为R²（决定系数）
# R²衡量模型解释数据变异性的能力，范围[0,1]，越接近1越好
scoring = 'r2'

# ============================================================================
# 第五步：执行交叉验证
# ============================================================================

# 使用交叉验证评估模型性能
result = cross_val_score(
    model,           # 要评估的模型
    X, Y,           # 特征和目标变量
    cv=kfold,       # 交叉验证策略
    scoring=scoring  # 评估指标
)

# ============================================================================
# 第六步：输出结果
# ============================================================================

# 打印交叉验证结果
# result.mean()：10次验证的平均R²
# result.std()：10次验证的R²标准差
print('R2: %.3f (%.3f)' % (result.mean(), result.std()))

# ============================================================================
# R²概念详解
# ============================================================================

"""
R²（决定系数）详解：

1. 定义：R² = 1 - (SS_res / SS_tot)
   - SS_res：残差平方和（模型无法解释的变异）
   - SS_tot：总平方和（数据的总变异）
   - 范围：[0, 1]，越接近1越好

2. 特点：
   - 相对指标：无量纲，便于比较不同模型
   - 解释能力：衡量模型解释数据变异性的比例
   - 标准化：不受数据规模影响

3. 与MSE/MAE的区别：
   - MSE/MAE：绝对误差指标，单位与目标变量相同
   - R²：相对指标，无量纲，便于模型比较

4. 波士顿房价数据集中的R²：
   - 含义：模型能解释多少房价的变异性
   - 业务解释：R²越高，模型预测越可靠
   - 应用价值：为模型选择和优化提供依据
"""

R2: 0.718 (0.099)


  data = read_csv(filename, names=names, delim_whitespace=True)


'\nR²（决定系数）详解：\n\n1. 定义：R² = 1 - (SS_res / SS_tot)\n   - SS_res：残差平方和（模型无法解释的变异）\n   - SS_tot：总平方和（数据的总变异）\n   - 范围：[0, 1]，越接近1越好\n\n2. 特点：\n   - 相对指标：无量纲，便于比较不同模型\n   - 解释能力：衡量模型解释数据变异性的比例\n   - 标准化：不受数据规模影响\n\n3. 与MSE/MAE的区别：\n   - MSE/MAE：绝对误差指标，单位与目标变量相同\n   - R²：相对指标，无量纲，便于模型比较\n\n4. 波士顿房价数据集中的R²：\n   - 含义：模型能解释多少房价的变异性\n   - 业务解释：R²越高，模型预测越可靠\n   - 应用价值：为模型选择和优化提供依据\n'