In [230]:
import pandas as pd
from sklearn.linear_model import Ridge, LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.impute import SimpleImputer
import numpy as np
import re
import ast

In [95]:
# 加载 One-Hot 编码后的数据
encoded_df = pd.read_json("../data/onehot_encoded_data.json", orient="records", encoding="utf-8")

# 显示数据的前几行，确认数据加载正确
print(encoded_df.head())

          title  douban_score          watch_time  user_score    year  \
0  爱，死亡和机器人 第四季           4.9 2025-05-16 13:26:29           3  2025.0   
1  爱，死亡和机器人 第二季           6.9 2025-05-15 23:24:54           4  2021.0   
2  爱，死亡和机器人 第三季           8.5 2025-05-15 23:24:24           5  2022.0   
3      马勒冈的超级男孩           NaN 2025-05-11 19:22:01           4  2024.0   
4         惊天魔盗团           7.8 2025-05-03 12:54:07           4  2013.0   

                                            director  \
0  [大卫·芬奇, 罗伯特·比斯, 安迪·里昂, 吕寅荣, 罗伯特·瓦利, 帕特里克·奥斯本, ...   
1  [蒂姆·米勒, 肉食部门, 罗伯特·瓦利, 吕寅荣, 里昂·贝雷尔, 多米尼克·博伊丁, 雷...   
2  [帕特里克·奥斯本, 大卫·芬奇, 埃米莉·迪恩, 罗伯特·比斯, 安迪·里昂, 吕寅荣, ...   
3                                            [里马·卡蒂]   
4                                         [路易斯·莱特里尔]   

                         cast  region_中国台湾  region_中国大陆  region_中国香港  ...  \
0            [红辣椒乐队, 安东尼·凯迪斯]            0            0            0  ...   
1           [诺兰·诺斯, 艾米丽·奥布莱恩]            0            0            0  

In [96]:
def safe_parse_list(x):
    """
    安全地将字符串解析为列表。
    如果解析失败，返回空列表。
    """
    if isinstance(x, str):
        try:
            # 使用 ast.literal_eval 安全地解析字符串
            return ast.literal_eval(x)
        except (ValueError, SyntaxError):
            # 如果解析失败，返回空列表
            return []
    elif isinstance(x, list):
        # 如果已经是列表，则直接返回
        return x
    else:
        # 如果不是字符串也不是列表，返回空列表
        return []

In [97]:
# 1. 使用 director 和 cast 的数量作为特征
encoded_df['director_count'] = encoded_df['director'].apply(safe_parse_list).apply(len)
encoded_df['cast_count'] = encoded_df['cast'].apply(safe_parse_list).apply(len)

# 2. 加入 douban_score 特征
# 注意：需要处理 NaN 值，可以用均值填充或者其他策略
# 直接使用 douban_score 列，假设它已经是数值类型
encoded_df['douban_score'] = encoded_df['douban_score'].fillna(encoded_df['douban_score'].mean())

# 3. 拆分 watch_time 为年度和季度
encoded_df['watch_time'] = pd.to_datetime(encoded_df['watch_time'])
encoded_df['watch_year'] = encoded_df['watch_time'].dt.year
encoded_df['watch_quarter'] = encoded_df['watch_time'].dt.quarter

# 显示新创建的特征
# print(encoded_df[['director', 'director_count', 'cast', 'cast_count', 'douban_score', 'watch_time', 'watch_year', 'watch_quarter']].head())
print(encoded_df.head())

          title  douban_score          watch_time  user_score    year  \
0  爱，死亡和机器人 第四季      4.900000 2025-05-16 13:26:29           3  2025.0   
1  爱，死亡和机器人 第二季      6.900000 2025-05-15 23:24:54           4  2021.0   
2  爱，死亡和机器人 第三季      8.500000 2025-05-15 23:24:24           5  2022.0   
3      马勒冈的超级男孩      8.011574 2025-05-11 19:22:01           4  2024.0   
4         惊天魔盗团      7.800000 2025-05-03 12:54:07           4  2013.0   

                                            director  \
0  [大卫·芬奇, 罗伯特·比斯, 安迪·里昂, 吕寅荣, 罗伯特·瓦利, 帕特里克·奥斯本, ...   
1  [蒂姆·米勒, 肉食部门, 罗伯特·瓦利, 吕寅荣, 里昂·贝雷尔, 多米尼克·博伊丁, 雷...   
2  [帕特里克·奥斯本, 大卫·芬奇, 埃米莉·迪恩, 罗伯特·比斯, 安迪·里昂, 吕寅荣, ...   
3                                            [里马·卡蒂]   
4                                         [路易斯·莱特里尔]   

                         cast  region_中国台湾  region_中国大陆  region_中国香港  ...  \
0            [红辣椒乐队, 安东尼·凯迪斯]            0            0            0  ...   
1           [诺兰·诺斯, 艾米丽·奥布莱恩]            0            0            0  

**1 基准线性回归**

In [111]:
# 确定标签列
label_column = 'user_score'

# 创建标题长度特征
encoded_df['title_length'] = encoded_df['title'].str.split().str.len()

# 确定特征列（'title', 'watch_time', 'director', 'cast','user_score'之外的所有列）
feature_columns = [col for col in encoded_df.columns if col not in ['title', 'watch_time', 'director', 'cast','user_score']]

# 创建特征矩阵 X 和标签向量 y
X = encoded_df[feature_columns]
y = encoded_df[label_column]

# 打印特征矩阵和标签向量的形状，以进行确认
print("特征矩阵 X 的形状:", X.shape)
print("标签向量 y 的形状:", y.shape)

特征矩阵 X 的形状: (218, 57)
标签向量 y 的形状: (218,)


In [113]:
# 划分数据集，例如 80% 用于训练，20% 用于测试
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 打印训练集和测试集的形状
print("训练集特征 X_train 的形状:", X_train.shape)
print("测试集特征 X_test 的形状:", X_test.shape)
print("训练集标签 y_train 的形状:", y_train.shape)
print("测试集标签 y_test 的形状:", y_test.shape)

训练集特征 X_train 的形状: (174, 57)
测试集特征 X_test 的形状: (44, 57)
训练集标签 y_train 的形状: (174,)
测试集标签 y_test 的形状: (44,)


In [115]:
# 检查特征矩阵中是否存在缺失值
print("特征矩阵 X_train 中是否存在缺失值:", X_train.isnull().sum().any())
print("特征矩阵 X_test 中是否存在缺失值:", X_test.isnull().sum().any())

# 如果存在缺失值，使用均值填充
imputer = SimpleImputer(strategy='mean')
X_train = imputer.fit_transform(X_train)
X_test = imputer.transform(X_test)

# 或者，删除包含缺失值的行（请谨慎使用，这会减少数据量）
# missing_rows_train = X_train[X_train.isnull().any(axis=1)].index
# y_train = y_train.drop(missing_rows_train)
# X_train = X_train.dropna()
#
# missing_rows_test = X_test[X_test.isnull().any(axis=1)].index
# y_test = y_test.drop(missing_rows_test)
# X_test = X_test.dropna()

# 再次检查是否还存在缺失值
print("处理后，训练集特征 X_train 中是否存在缺失值:", pd.DataFrame(X_train).isnull().sum().any())
print("处理后，测试集特征 X_test 中是否存在缺失值:", pd.DataFrame(X_test).isnull().sum().any())

特征矩阵 X_train 中是否存在缺失值: True
特征矩阵 X_test 中是否存在缺失值: False
处理后，训练集特征 X_train 中是否存在缺失值: False
处理后，测试集特征 X_test 中是否存在缺失值: False


In [117]:
# 初始化线性回归模型
model = LinearRegression()

# 在训练集上训练模型
model.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = model.predict(X_test)

# 评估模型性能
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("线性回归模型在测试集上的性能:")
print(f"均方误差 (Mean Squared Error): {mse:.2f}")
print(f"R 平方 (R-squared): {r2:.2f}")

线性回归模型在测试集上的性能:
均方误差 (Mean Squared Error): 0.37
R 平方 (R-squared): 0.54


**2 岭回归**

In [201]:
# 初始化岭回归模型，可以先尝试一个 alpha 值，比如 1.0
ridge_model = Ridge(alpha=10.0)

# 在训练集上训练模型
ridge_model.fit(X_train, y_train)

In [203]:
# 使用训练好的岭回归模型在测试集上进行预测
y_pred_ridge = ridge_model.predict(X_test)

In [205]:
# 计算评估指标
mse_ridge = mean_squared_error(y_test, y_pred_ridge)
r2_ridge = r2_score(y_test, y_pred_ridge)

print("岭回归模型在测试集上的性能:")
print(f"均方误差 (Mean Squared Error): {mse_ridge:.2f}")
print(f"R 平方 (R-squared): {r2_ridge:.2f}")

岭回归模型在测试集上的性能:
均方误差 (Mean Squared Error): 0.36
R 平方 (R-squared): 0.56


**3 K-近邻回归**

In [216]:
# 定义你想要尝试的 n_neighbors 值列表
param_grid_knn = {
    'n_neighbors': [3, 5, 7, 9, 11, 13, 15],
    'weights': ['uniform', 'distance'],
    'p': [1, 1.5, 2]
}

# 初始化 K-近邻回归模型
knn = KNeighborsRegressor()

# 使用 GridSearchCV 进行交叉验证
# cv=5 表示 5 折交叉验证
grid_search_knn = GridSearchCV(knn, param_grid_knn, cv=5, scoring='neg_mean_squared_error')

# 在训练集上运行网格搜索
grid_search_knn.fit(X_train, y_train)

# 打印最佳的超参数和对应的性能
print("K-近邻回归模型的最佳超参数:", grid_search_knn.best_params_)
print("K-近邻回归模型的最佳负均方误差:", grid_search_knn.best_score_)

# 使用最佳的超参数在测试集上进行预测
best_knn = grid_search_knn.best_estimator_
y_pred_knn_grid = best_knn.predict(X_test)

# 评估模型性能
mse_knn_grid = mean_squared_error(y_test, y_pred_knn_grid)
r2_knn_grid = r2_score(y_test, y_pred_knn_grid)

print("使用 GridSearchCV 调优后的 K-近邻回归模型在测试集上的性能:")
print(f"均方误差 (Mean Squared Error): {mse_knn_grid:.2f}")
print(f"R 平方 (R-squared): {r2_knn_grid:.2f}")

K-近邻回归模型的最佳超参数: {'n_neighbors': 9, 'p': 2, 'weights': 'uniform'}
K-近邻回归模型的最佳负均方误差: -0.5318995746446726
使用 GridSearchCV 调优后的 K-近邻回归模型在测试集上的性能:
均方误差 (Mean Squared Error): 0.48
R 平方 (R-squared): 0.41


**4 决策树模型**

In [228]:
# 定义你想要尝试的超参数值网格
param_grid_dt = {
    'max_depth': [None, 5, 10, 15, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 3, 5]
}

# 初始化决策树回归模型
decision_tree = DecisionTreeRegressor(random_state=42) # 设置随机种子以保证结果可复现

# 使用 GridSearchCV 进行交叉验证
# cv=5 表示 5 折交叉验证
grid_search_dt = GridSearchCV(decision_tree, param_grid_dt, cv=5, scoring='neg_mean_squared_error')

# 在训练集上运行网格搜索
grid_search_dt.fit(X_train, y_train)

# 打印最佳的超参数和对应的性能
print("决策树回归模型的最佳超参数:", grid_search_dt.best_params_)
print("决策树回归模型的最佳负均方误差:", grid_search_dt.best_score_)

# 使用最佳的超参数在测试集上进行预测
best_dt = grid_search_dt.best_estimator_
y_pred_dt_grid = best_dt.predict(X_test)

# 评估模型性能
mse_dt_grid = mean_squared_error(y_test, y_pred_dt_grid)
r2_dt_grid = r2_score(y_test, y_pred_dt_grid)

print("使用 GridSearchCV 调优后的决策树回归模型在测试集上的性能:")
print(f"均方误差 (Mean Squared Error): {mse_dt_grid:.2f}")
print(f"R 平方 (R-squared): {r2_dt_grid:.2f}")

决策树回归模型的最佳超参数: {'max_depth': 5, 'min_samples_leaf': 5, 'min_samples_split': 2}
决策树回归模型的最佳负均方误差: -0.6098517895400831
使用 GridSearchCV 调优后的决策树回归模型在测试集上的性能:
均方误差 (Mean Squared Error): 0.36
R 平方 (R-squared): 0.56


**5 随机森林**

In [241]:
# 定义你想要尝试的超参数值网格
param_grid_rf = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 5, 10, 15],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 3, 5],
    'random_state': [42] # 设置随机种子以保证结果可复现
}

# 初始化随机森林回归模型
random_forest = RandomForestRegressor()

# 使用 GridSearchCV 进行交叉验证
# cv=5 表示 5 折交叉验证
grid_search_rf = GridSearchCV(random_forest, param_grid_rf, cv=5, scoring='neg_mean_squared_error', n_jobs=-1) # n_jobs=-1 使用所有可用的 CPU 核心

# 在训练集上运行网格搜索
grid_search_rf.fit(X_train, y_train)

# 打印最佳的超参数和对应的性能
print("随机森林回归模型的最佳超参数:", grid_search_rf.best_params_)
print("随机森林回归模型的最佳负均方误差:", grid_search_rf.best_score_)

# 使用最佳的超参数在测试集上进行预测
best_rf = grid_search_rf.best_estimator_
y_pred_rf_grid = best_rf.predict(X_test)

# 评估模型性能
mse_rf_grid = mean_squared_error(y_test, y_pred_rf_grid)
r2_rf_grid = r2_score(y_test, y_pred_rf_grid)

print("使用 GridSearchCV 调优后的随机森林回归模型在测试集上的性能:")
print(f"均方误差 (Mean Squared Error): {mse_rf_grid:.2f}")
print(f"R 平方 (R-squared): {r2_rf_grid:.2f}")

随机森林回归模型的最佳超参数: {'max_depth': 5, 'min_samples_leaf': 5, 'min_samples_split': 2, 'n_estimators': 200, 'random_state': 42}
随机森林回归模型的最佳负均方误差: -0.4715283872639362
使用 GridSearchCV 调优后的随机森林回归模型在测试集上的性能:
均方误差 (Mean Squared Error): 0.36
R 平方 (R-squared): 0.55


**模型集成**

In [246]:
# 使用最佳模型在测试集上进行预测
y_pred_ridge_ensemble = best_ridge.predict(X_test)
y_pred_dt_ensemble = best_dt.predict(X_test)
y_pred_rf_ensemble = best_rf.predict(X_test)

In [248]:
# 对三个模型的预测结果进行平均
y_pred_ensemble = (y_pred_ridge_ensemble + y_pred_dt_ensemble + y_pred_rf_ensemble) / 3

In [252]:
# 评估集成模型的性能
mse_ensemble = mean_squared_error(y_test, y_pred_ensemble)
r2_ensemble = r2_score(y_test, y_pred_ensemble)

print("集成模型 (岭回归 + 决策树 + 随机森林) 在测试集上的性能:")
print(f"均方误差 (Mean Squared Error): {mse_ensemble:.2f}")
print(f"R 平方 (R-squared): {r2_ensemble:.2f}")

集成模型 (岭回归 + 决策树 + 随机森林) 在测试集上的性能:
均方误差 (Mean Squared Error): 0.34
R 平方 (R-squared): 0.59
