#### 这个Notebook中的代码用于合并40个游戏评论数据集，并添加 **游戏名称** 列标签

In [None]:
import pandas as pd
from pathlib import Path

In [2]:
data_dir = Path(r"D:\GitHubRepos\is6941-ml-social-media\taptap\data\games")
output_file = data_dir / "taptap_reviews.csv"

In [3]:
def process_file(file_path):
    """处理单个CSV文件，添加游戏名称列"""
    # 读取CSV（自动处理编码）
    df = pd.read_csv(file_path, engine='python')
    
    # 提取游戏名称（安全处理多扩展名情况）
    game_name = Path(file_path).stem  # 自动去除".csv"
    
    # 添加新列到最右侧
    return df.assign(游戏名称=game_name)

In [4]:
# 获取所有CSV文件路径（按文件名排序）
all_csv = sorted(data_dir.glob("*.csv"))

# 并行处理文件（提升大文件处理速度）
dfs = [process_file(f) for f in all_csv]

In [5]:
# 内存优化合并
combined_df = pd.concat(dfs, axis=0, ignore_index=True, copy=False)

# 保存合并结果（包含数据验证）
(
    combined_df
    .drop_duplicates()  # 去除完全重复的行
    .to_csv(output_file, index=False, encoding='utf_8_sig')  # 支持中文Excel
)

In [7]:
print(f"合并完成！总记录数：{len(combined_df):,}")
print("首行示例：")
combined_df.head()

合并完成！总记录数：40,000
首行示例：


Unnamed: 0,用户ID,用户名,评分,评论内容,点赞数,发布时间,设备型号,游戏名称
0,696432312,。。。,5,可以体验一下，剧情不错，但可能会有点迷,,2025-04-05 20:13,OPPO K7x中国版,7_years_from_now
1,679295528,云淡风轻,5,剧情很好,,2025-04-05 17:35,Honor Play 40 5G,7_years_from_now
2,700357357,qqqqq美女,5,刺激，感受到了友情，亲情，自我，爱慕，传承，等待 ，与纯真,1.0,2025-04-04 22:59,OPPO PGGM10,7_years_from_now
3,402380140,User402380140,5,毋庸置疑的神作<br />第一次回溯时间的是葵啊,2.0,2025-04-03 09:48,Redmi Note 10 Pro,7_years_from_now
4,434114561,不忆往事,5,没有别的可以说，剧情神作,1.0,2025-04-03 01:08,Vivo V2148A,7_years_from_now
