**1 处理前的准备**

In [66]:
# 导入必要的库
import pandas as pd
import numpy as np
from pathlib import Path
import os
import re
import pickle

In [67]:
# 设置显示选项
pd.set_option('display.max_columns', None)  # 显示所有列
pd.set_option('display.max_rows', 50)      # 显示最多 50行 

**2 读取 01-data-ingest.ipynb 中处理后的 csv 文件**

In [68]:
# 读取 processed 目录下的所有以“*_processed.csv”结尾 CSV 文件
processed_dir = Path('../data/processed')
csv_files = list(processed_dir.glob('*_processed.csv'))

# 若未匹配到任何文件，则报错
if not csv_files:
    raise FileNotFoundError("未找到处理后的CSV文件！请先运行01-data-ingest.ipynb导入数据。")

# 读取所有 CSV 文件
data_dict = {} # 存放所有数据内容，键是 sheet 名称，值是对应的 DataFrame
for file_path in csv_files:
    sheet_name = file_path.stem.replace('_processed', '')
    data_dict[sheet_name] = pd.read_csv(file_path)
    print(f"\n已读取 {sheet_name} 数据：")
    print(f"行数: {len(data_dict[sheet_name])}")
    print(f"列数: {len(data_dict[sheet_name].columns)}")
    print("列名：")
    print(data_dict[sheet_name].columns.tolist())
    print("\n前5行数据：")
    display(data_dict[sheet_name].head())



已读取 在玩 数据：
行数: 2
列数: 5
列名：
['标题', '简介', '豆瓣评分', '创建时间', '我的评分']

前5行数据：


Unnamed: 0,标题,简介,豆瓣评分,创建时间,我的评分
0,巫师3：狂猎 The Witcher 3: Wild Hunt,The Witcher III: Wild Hunt/猎魔人3：狂猎/角色扮演/冒险/动作/...,9.5,2025-05-06 16:11:28,5
1,荒野大镖客：救赎2 Red Dead Redemption 2,碧血狂杀2/碧血狂殺2/血色救赎2/血色救贖2/Red Dead Redemption II...,9.7,2025-05-06 16:10:36,5



已读取 想玩 数据：
行数: 3
列数: 4
列名：
['标题', '简介', '豆瓣评分', '创建时间']

前5行数据：


Unnamed: 0,标题,简介,豆瓣评分,创建时间
0,博德之门3 Baldur's Gate 3,角色扮演/冒险/策略/PC/Mac/PlayStation 5/Xbox Series X/...,9.6,2025-05-01 19:39:15
1,苏丹的游戏,Sultan's Game/スルタンのゲーム/卡牌/模拟/角色扮演/策略/PC/2025-0...,暂无评分,2025-04-25 21:57:26
2,光与影：33号远征队 Clair Obscur: Expedition 33,光與影：33號遠征隊/클레르 옵스퀴르: 33 원정대/角色扮演/冒险/动作/PC/Play...,暂无评分,2025-04-25 21:56:54



已读取 想看 数据：
行数: 76
列数: 4
列名：
['标题', '简介', '豆瓣评分', '创建时间']

前5行数据：


Unnamed: 0,标题,简介,豆瓣评分,创建时间
0,PBC Season 1,2022 / 美国 / Michael J. Gallagher Joshua Sims /...,0.0,2025-05-09 20:41:07
1,企鹅人,2024 / 美国 / 剧情 犯罪 / 克雷格·卓贝 凯文·布瑞 海伦·谢费 詹妮弗·盖辛格...,8.7,2025-05-06 22:12:12
2,会计刺客,2016 / 美国 / 动作 惊悚 犯罪 / 加文·欧康诺 / 本·阿弗莱克 安娜·肯德里克,7.6,2025-04-29 22:26:59
3,告白,2010 / 日本 / 剧情 悬疑 / 中岛哲也 / 松隆子 冈田将生,8.8,2025-04-28 23:05:44
4,成瘾剂量,2021 / 美国 / 剧情 / 巴瑞·莱文森 迈克尔·科斯塔 派翠西亚·里根 丹尼·斯特朗...,9.3,2025-04-25 18:57:20



已读取 想读 数据：
行数: 169
列数: 4
列名：
['标题', '简介', '豆瓣评分', '创建时间']

前5行数据：


Unnamed: 0,标题,简介,豆瓣评分,创建时间
0,追风筝的人,[美] 卡勒德·胡赛尼 / 2006 / 上海人民出版社,8.9,2025-05-05 13:45:38
1,组织部来了个年轻人,王蒙 / 2021 / 花城出版社,8.1,2025-05-05 13:44:35
2,公司财务的法律规制,刘燕 / 2021 / 北京大学出版社,9.4,2025-05-03 18:43:28
3,宣传,刘海龙 / 2020 / 中国大百科全书出版社,9.4,2025-04-26 14:34:32
4,寻找百忧解,陈百忧 / 2023 / 台海出版社,8.2,2025-04-26 13:35:00



已读取 玩过 数据：
行数: 15
列数: 5
列名：
['标题', '简介', '豆瓣评分', '创建时间', '我的评分']

前5行数据：


Unnamed: 0,标题,简介,豆瓣评分,创建时间,我的评分
0,山海旅人 The Rewinder,横版过关/角色扮演/冒险/PC/Mac/Xbox Series X/Nintendo Swi...,8.7,2025-05-06 16:14:28,4
1,完蛋！我被美女包围了！,Love Is All Around/文字冒险/PC/Mac/iPhone/Android/...,7.7,2025-05-06 16:14:09,5
2,艾尔登法环 Elden Ring,艾爾登法環/老头环/上古之环/エルデンリング/角色扮演/冒险/动作/PC/PlayStati...,9.4,2025-05-06 16:13:05,5
3,求生之路2 Left 4 Dead 2,L4D2/惡靈勢力 2/第一人称射击/射击/冒险/动作/PC/Mac/Linux/Xbox ...,9.0,2025-05-06 16:09:56,4
4,森林 The Forest,角色扮演/冒险/PC/PlayStation 4/Steam VR/Endnight Gam...,8.5,2025-05-06 16:09:12,4



已读取 看过 数据：
行数: 214
列数: 5
列名：
['标题', '简介', '豆瓣评分', '创建时间', '我的评分']

前5行数据：


Unnamed: 0,标题,简介,豆瓣评分,创建时间,我的评分
0,马勒冈的超级男孩,2024 / 印度 / 剧情 喜剧 / 里马·卡蒂 / 阿达什·古拉夫 Manjiri Pu...,0.0,2025-05-11 19:22:01,4
1,惊天魔盗团,2013 / 美国 法国 / 剧情 悬疑 犯罪 / 路易斯·莱特里尔 / 杰西·艾森伯格 艾...,7.8,2025-05-03 12:54:07,4
2,唐探1900,2025 / 中国大陆 中国香港 / 喜剧 动作 悬疑 / 陈思诚 戴墨 / 王宝强 刘昊然,6.5,2025-05-02 14:00:17,4
3,恶缘,2025 / 韩国 / 剧情 惊悚 犯罪 / 李日炯 / 朴海秀 申敏儿,8.4,2025-05-02 11:58:51,4
4,穿越火线,2020 / 中国大陆 / 剧情 奇幻 / 许宏宇 / 鹿晗 吴磊,7.9,2025-05-01 23:29:51,5



已读取 读过 数据：
行数: 36
列数: 5
列名：
['标题', '简介', '豆瓣评分', '创建时间', '我的评分']

前5行数据：


Unnamed: 0,标题,简介,豆瓣评分,创建时间,我的评分
0,13 67,陳浩基 / 2014 / 皇冠文化出版有限公司,9.1,2025-05-06 20:52:13,5
1,无人生还,[英] 阿加莎・克里斯蒂 / 2008 / 人民文学出版社,9.0,2025-05-06 20:46:27,5
2,城南旧事,林海音 文 关维兴 图 / 2003 / 中国青年出版社,9.1,2025-05-06 20:46:05,5
3,东方快车谋杀案,[英] 阿加莎·克里斯蒂 / 2006 / 人民文学出版社,9.1,2025-05-06 20:45:53,5
4,麦田里的守望者,[美国] J. D. 塞林格 / 2007 / 译林出版社,8.1,2025-05-05 13:46:23,5


**3 清洗数据**

In [69]:
cleaned_data = {}

for sheet_name, df in data_dict.items():
    print(f"\n=== 开始清洗 {sheet_name} ===")

    # 创建副本避免修改原始数据
    df_clean = df.copy()

    # 1. 删除关键字段缺失的行（标题、简介、豆瓣评分、创建时间）
    required_cols = ['标题', '简介', '豆瓣评分', '创建时间']
    missing_cols = [col for col in required_cols if col not in df_clean.columns]

    # 判断是否存在必要列
    if len(missing_cols) > 0:
        print(f"⚠️ 警告：{sheet_name} 缺少以下必要列：{', '.join(missing_cols)}，跳过此表。")
        continue

    # 统计原始行数
    original_rows = len(df_clean)

    # 删除除 "豆瓣评分" 外的关键字段缺失行
    non_rating_cols = [col for col in missing_cols if col != '豆瓣评分']
    df_clean.dropna(subset=non_rating_cols, inplace=True)

    # 对 “豆瓣评分” 进行特殊处理：
    # - 如果是字符串 “暂无评分” ，保留
    # - 否则尝试转为浮点，并过滤掉小于等于2或大于10的值
    def clean_rating(value):
        if isinstance(value, str) and value.strip() == '暂无评分':
            return value  # 保留原值
        try:
            rating = float(value)
            return rating if 2 < rating <= 10 else np.nan
        except:
            return np.nan

    # 应用清理函数
    df_clean['豆瓣评分'] = df_clean['豆瓣评分'].apply(clean_rating)

    # 再次删除“豆瓣评分”为空的行（只删掉非“暂无评分”且无法解析或不在范围内的记录）
    df_clean.dropna(subset=['豆瓣评分'], inplace=True)

    # 恢复“豆瓣评分”为字符串类型（如果需要保留“暂无评分”）
    df_clean['豆瓣评分'] = df_clean['豆瓣评分'].astype(object)

    # 统计删除后行数
    cleaned_rows = len(df_clean)

    # 显示删除了多少条记录
    removed_count = original_rows - cleaned_rows
    print(f"- 总共删除了 {removed_count} 条不符合规定的记录")
    print(f"- 清洗后剩余 {cleaned_rows} 行数据")

    # 保存清洗后的数据
    cleaned_data[sheet_name] = df_clean

    # 显示清洗后前几行数据
    print(f"\n--- {sheet_name} 清洗后前5行数据 ---")
    display(df_clean.head())


=== 开始清洗 在玩 ===
- 总共删除了 0 条不符合规定的记录
- 清洗后剩余 2 行数据

--- 在玩 清洗后前5行数据 ---


Unnamed: 0,标题,简介,豆瓣评分,创建时间,我的评分
0,巫师3：狂猎 The Witcher 3: Wild Hunt,The Witcher III: Wild Hunt/猎魔人3：狂猎/角色扮演/冒险/动作/...,9.5,2025-05-06 16:11:28,5
1,荒野大镖客：救赎2 Red Dead Redemption 2,碧血狂杀2/碧血狂殺2/血色救赎2/血色救贖2/Red Dead Redemption II...,9.7,2025-05-06 16:10:36,5



=== 开始清洗 想玩 ===
- 总共删除了 0 条不符合规定的记录
- 清洗后剩余 3 行数据

--- 想玩 清洗后前5行数据 ---


Unnamed: 0,标题,简介,豆瓣评分,创建时间
0,博德之门3 Baldur's Gate 3,角色扮演/冒险/策略/PC/Mac/PlayStation 5/Xbox Series X/...,9.6,2025-05-01 19:39:15
1,苏丹的游戏,Sultan's Game/スルタンのゲーム/卡牌/模拟/角色扮演/策略/PC/2025-0...,暂无评分,2025-04-25 21:57:26
2,光与影：33号远征队 Clair Obscur: Expedition 33,光與影：33號遠征隊/클레르 옵스퀴르: 33 원정대/角色扮演/冒险/动作/PC/Play...,暂无评分,2025-04-25 21:56:54



=== 开始清洗 想看 ===
- 总共删除了 3 条不符合规定的记录
- 清洗后剩余 73 行数据

--- 想看 清洗后前5行数据 ---


Unnamed: 0,标题,简介,豆瓣评分,创建时间
1,企鹅人,2024 / 美国 / 剧情 犯罪 / 克雷格·卓贝 凯文·布瑞 海伦·谢费 詹妮弗·盖辛格...,8.7,2025-05-06 22:12:12
2,会计刺客,2016 / 美国 / 动作 惊悚 犯罪 / 加文·欧康诺 / 本·阿弗莱克 安娜·肯德里克,7.6,2025-04-29 22:26:59
3,告白,2010 / 日本 / 剧情 悬疑 / 中岛哲也 / 松隆子 冈田将生,8.8,2025-04-28 23:05:44
4,成瘾剂量,2021 / 美国 / 剧情 / 巴瑞·莱文森 迈克尔·科斯塔 派翠西亚·里根 丹尼·斯特朗...,9.3,2025-04-25 18:57:20
5,道格拉斯被取消了,2024 / 英国 / 剧情 喜剧 / 本·帕尔马 / 休·博纳维尔 凯伦·吉兰,9.4,2025-04-12 14:20:59



=== 开始清洗 想读 ===
- 总共删除了 14 条不符合规定的记录
- 清洗后剩余 155 行数据

--- 想读 清洗后前5行数据 ---


Unnamed: 0,标题,简介,豆瓣评分,创建时间
0,追风筝的人,[美] 卡勒德·胡赛尼 / 2006 / 上海人民出版社,8.9,2025-05-05 13:45:38
1,组织部来了个年轻人,王蒙 / 2021 / 花城出版社,8.1,2025-05-05 13:44:35
2,公司财务的法律规制,刘燕 / 2021 / 北京大学出版社,9.4,2025-05-03 18:43:28
3,宣传,刘海龙 / 2020 / 中国大百科全书出版社,9.4,2025-04-26 14:34:32
4,寻找百忧解,陈百忧 / 2023 / 台海出版社,8.2,2025-04-26 13:35:00



=== 开始清洗 玩过 ===
- 总共删除了 0 条不符合规定的记录
- 清洗后剩余 15 行数据

--- 玩过 清洗后前5行数据 ---


Unnamed: 0,标题,简介,豆瓣评分,创建时间,我的评分
0,山海旅人 The Rewinder,横版过关/角色扮演/冒险/PC/Mac/Xbox Series X/Nintendo Swi...,8.7,2025-05-06 16:14:28,4
1,完蛋！我被美女包围了！,Love Is All Around/文字冒险/PC/Mac/iPhone/Android/...,7.7,2025-05-06 16:14:09,5
2,艾尔登法环 Elden Ring,艾爾登法環/老头环/上古之环/エルデンリング/角色扮演/冒险/动作/PC/PlayStati...,9.4,2025-05-06 16:13:05,5
3,求生之路2 Left 4 Dead 2,L4D2/惡靈勢力 2/第一人称射击/射击/冒险/动作/PC/Mac/Linux/Xbox ...,9.0,2025-05-06 16:09:56,4
4,森林 The Forest,角色扮演/冒险/PC/PlayStation 4/Steam VR/Endnight Gam...,8.5,2025-05-06 16:09:12,4



=== 开始清洗 看过 ===
- 总共删除了 2 条不符合规定的记录
- 清洗后剩余 212 行数据

--- 看过 清洗后前5行数据 ---


Unnamed: 0,标题,简介,豆瓣评分,创建时间,我的评分
1,惊天魔盗团,2013 / 美国 法国 / 剧情 悬疑 犯罪 / 路易斯·莱特里尔 / 杰西·艾森伯格 艾...,7.8,2025-05-03 12:54:07,4
2,唐探1900,2025 / 中国大陆 中国香港 / 喜剧 动作 悬疑 / 陈思诚 戴墨 / 王宝强 刘昊然,6.5,2025-05-02 14:00:17,4
3,恶缘,2025 / 韩国 / 剧情 惊悚 犯罪 / 李日炯 / 朴海秀 申敏儿,8.4,2025-05-02 11:58:51,4
4,穿越火线,2020 / 中国大陆 / 剧情 奇幻 / 许宏宇 / 鹿晗 吴磊,7.9,2025-05-01 23:29:51,5
5,好小子们,2019 / 美国 / 喜剧 儿童 冒险 / 吉恩·斯图普尼兹基 / 雅各布·特伦布莱 基思...,7.2,2025-05-01 23:29:15,5



=== 开始清洗 读过 ===
- 总共删除了 2 条不符合规定的记录
- 清洗后剩余 34 行数据

--- 读过 清洗后前5行数据 ---


Unnamed: 0,标题,简介,豆瓣评分,创建时间,我的评分
0,13 67,陳浩基 / 2014 / 皇冠文化出版有限公司,9.1,2025-05-06 20:52:13,5
1,无人生还,[英] 阿加莎・克里斯蒂 / 2008 / 人民文学出版社,9.0,2025-05-06 20:46:27,5
2,城南旧事,林海音 文 关维兴 图 / 2003 / 中国青年出版社,9.1,2025-05-06 20:46:05,5
3,东方快车谋杀案,[英] 阿加莎·克里斯蒂 / 2006 / 人民文学出版社,9.1,2025-05-06 20:45:53,5
4,麦田里的守望者,[美国] J. D. 塞林格 / 2007 / 译林出版社,8.1,2025-05-05 13:46:23,5


3.1 “简介”列拆分

In [70]:
# 影视作品类数据简介列拆分
# 定义正则表达式来匹配影视简介中的信息
def extract_movie_info(summary):
    parts = [p.strip() for p in summary.split('/') if p.strip()]
    
    year = None
    country = None
    genre = None
    director = None
    actors = None

    # 第一部分是年份
    if len(parts) >= 1:
        year_match = re.search(r'\b\d{4}\b', parts[0])
        if year_match:
            year = year_match.group()
            parts[0] = parts[0].replace(year, '').strip()
            
    # 第二部分是国家地区
    if len(parts) >= 2:
        country = [item.strip() for item in parts[1].split(' ') if item.strip()]

    # 第三部分是类型
    if len(parts) >= 3:
        genre = [item.strip() for item in parts[2].split(' ') if item.strip()]
        
    # 第四部分是导演  
    if len(parts) >= 4:
        director = [item.strip() for item in parts[3].split(' ') if item.strip()]

    # 第五部分是演员
    if len(parts) >= 5:
        actors_str = ' '.join(parts[4:])
        actors = [item.strip() for item in actors_str.split(' ') if item.strip()]
    
    return pd.Series([year, country, genre, director, actors])

# 处理所有属于'影视作品'的 sheet
movie_sheets = ['想看', '在看', '看过']

for sheet_name in movie_sheets:
    if sheet_name not in cleaned_data:
        print(f"⚠️ 警告：未找到 {sheet_name} 数据，请确认是否已完成清洗")
        continue
        
    df = cleaned_data[sheet_name].copy()
    
    print(f"\n🎬 正在处理 {sheet_name} 的'简介'字段...")
    
    # 应用提取函数
    df[['年份', '国家/地区', '类型', '导演', '主演']] = df['简介'].apply(extract_movie_info)
    
    # 替换空值为占位符或保留为空列表
    df['年份'] = df['年份'].fillna('未知')
    df['国家/地区'] = df['国家/地区'].apply(lambda x: x if isinstance(x, list) else [])
    df['类型'] = df['类型'].apply(lambda x: x if isinstance(x, list) else [])
    df['导演'] = df['导演'].apply(lambda x: x if isinstance(x, list) else [])
    df['主演'] = df['主演'].apply(lambda x: x if isinstance(x, list) else [])
    
    # 更新 cleaned_data
    cleaned_data[sheet_name] = df
    
    print(f"✅ {sheet_name} 简介提取完成，新增字段：年份、国家/地区、类型、导演、主演")
    print(f"前5行数据：")
    display(df.head()[['标题', '简介', '年份', '国家/地区', '类型', '导演', '主演']])



🎬 正在处理 想看 的'简介'字段...
✅ 想看 简介提取完成，新增字段：年份、国家/地区、类型、导演、主演
前5行数据：


Unnamed: 0,标题,简介,年份,国家/地区,类型,导演,主演
1,企鹅人,2024 / 美国 / 剧情 犯罪 / 克雷格·卓贝 凯文·布瑞 海伦·谢费 詹妮弗·盖辛格...,2024,[美国],"[剧情, 犯罪]","[克雷格·卓贝, 凯文·布瑞, 海伦·谢费, 詹妮弗·盖辛格]","[科林·法瑞尔, 莱齐·费利兹]"
2,会计刺客,2016 / 美国 / 动作 惊悚 犯罪 / 加文·欧康诺 / 本·阿弗莱克 安娜·肯德里克,2016,[美国],"[动作, 惊悚, 犯罪]",[加文·欧康诺],"[本·阿弗莱克, 安娜·肯德里克]"
3,告白,2010 / 日本 / 剧情 悬疑 / 中岛哲也 / 松隆子 冈田将生,2010,[日本],"[剧情, 悬疑]",[中岛哲也],"[松隆子, 冈田将生]"
4,成瘾剂量,2021 / 美国 / 剧情 / 巴瑞·莱文森 迈克尔·科斯塔 派翠西亚·里根 丹尼·斯特朗...,2021,[美国],[剧情],"[巴瑞·莱文森, 迈克尔·科斯塔, 派翠西亚·里根, 丹尼·斯特朗]","[迈克尔·基顿, 彼得·萨斯加德]"
5,道格拉斯被取消了,2024 / 英国 / 剧情 喜剧 / 本·帕尔马 / 休·博纳维尔 凯伦·吉兰,2024,[英国],"[剧情, 喜剧]",[本·帕尔马],"[休·博纳维尔, 凯伦·吉兰]"


⚠️ 警告：未找到 在看 数据，请确认是否已完成清洗

🎬 正在处理 看过 的'简介'字段...
✅ 看过 简介提取完成，新增字段：年份、国家/地区、类型、导演、主演
前5行数据：


Unnamed: 0,标题,简介,年份,国家/地区,类型,导演,主演
1,惊天魔盗团,2013 / 美国 法国 / 剧情 悬疑 犯罪 / 路易斯·莱特里尔 / 杰西·艾森伯格 艾...,2013,"[美国, 法国]","[剧情, 悬疑, 犯罪]",[路易斯·莱特里尔],"[杰西·艾森伯格, 艾拉·菲舍尔]"
2,唐探1900,2025 / 中国大陆 中国香港 / 喜剧 动作 悬疑 / 陈思诚 戴墨 / 王宝强 刘昊然,2025,"[中国大陆, 中国香港]","[喜剧, 动作, 悬疑]","[陈思诚, 戴墨]","[王宝强, 刘昊然]"
3,恶缘,2025 / 韩国 / 剧情 惊悚 犯罪 / 李日炯 / 朴海秀 申敏儿,2025,[韩国],"[剧情, 惊悚, 犯罪]",[李日炯],"[朴海秀, 申敏儿]"
4,穿越火线,2020 / 中国大陆 / 剧情 奇幻 / 许宏宇 / 鹿晗 吴磊,2020,[中国大陆],"[剧情, 奇幻]",[许宏宇],"[鹿晗, 吴磊]"
5,好小子们,2019 / 美国 / 喜剧 儿童 冒险 / 吉恩·斯图普尼兹基 / 雅各布·特伦布莱 基思...,2019,[美国],"[喜剧, 儿童, 冒险]",[吉恩·斯图普尼兹基],"[雅各布·特伦布莱, 基思·L·威廉姆斯]"


In [71]:
# 图书类数据简介列拆分
def extract_book_info(summary):
    # 使用 '/' 拆分字符串，并去除前后空格
    parts = [p.strip() for p in summary.split('/') if p.strip()]

    authors = []
    year = None
    publisher = None

    # 提取作者（第一部分）
    if len(parts) >= 1:
        author_str = parts[0]
        # 用“/”或空格分割多个作者
        raw_authors = [a.strip() for a in re.split(r'[\/\s]+', author_str) if a.strip()]
        
        # 筛选规则：
        # - 排除只有单个字的情况（如“文”、“图”等）
        # - 排除形如 “[英]”、“[美]” 这样的国籍标签
        filtered_authors = [
            a for a in raw_authors 
            if len(a) > 1 and not re.fullmatch(r'(\[.*?\]|\(.*?\)|[a-zA-Z]\.)', a)  # 排除类似 [英]、[日] 这种标签
        ]
        
        authors = filtered_authors

    # 提取出版年份（第二部分）
    if len(parts) >= 2:
        year_match = re.search(r'\b\d{4}\b', parts[1])
        if year_match:
            year = year_match.group()

    # 提取出版社（第三部分）
    if len(parts) >= 3:
        publisher = parts[2]

    return pd.Series([authors, year, publisher])

# 处理所有属于"图书类"的sheet
book_sheets = ['想读', '在读', '读过']

for sheet_name in book_sheets:
    if sheet_name not in cleaned_data:
        print(f"⚠️ 警告：未找到 {sheet_name} 数据，请确认是否已完成清洗")
        continue

    df = cleaned_data[sheet_name].copy()
    
    print(f"\n📖 正在处理 {sheet_name} 的'简介'字段...")
    
    # 应用提取函数
    df[['作者', '出版年份', '出版社']] = df['简介'].apply(extract_book_info)
    
    # 替换空值为占位符
    df['作者'] = df['作者'].apply(lambda x: x if isinstance(x, list) else [])
    df['出版年份'] = df['出版年份'].fillna('未知')
    df['出版社'] = df['出版社'].fillna('未知')
    
    # 更新 cleaned_data
    cleaned_data[sheet_name] = df
    
    print(f"✅ {sheet_name} 简介提取完成，新增字段：作者（列表）、出版年份、出版社")
    print(f"前5行数据展示：")
    display(df.head()[['标题', '简介', '作者', '出版年份', '出版社']])


📖 正在处理 想读 的'简介'字段...
✅ 想读 简介提取完成，新增字段：作者（列表）、出版年份、出版社
前5行数据展示：


Unnamed: 0,标题,简介,作者,出版年份,出版社
0,追风筝的人,[美] 卡勒德·胡赛尼 / 2006 / 上海人民出版社,[卡勒德·胡赛尼],2006,上海人民出版社
1,组织部来了个年轻人,王蒙 / 2021 / 花城出版社,[王蒙],2021,花城出版社
2,公司财务的法律规制,刘燕 / 2021 / 北京大学出版社,[刘燕],2021,北京大学出版社
3,宣传,刘海龙 / 2020 / 中国大百科全书出版社,[刘海龙],2020,中国大百科全书出版社
4,寻找百忧解,陈百忧 / 2023 / 台海出版社,[陈百忧],2023,台海出版社


⚠️ 警告：未找到 在读 数据，请确认是否已完成清洗

📖 正在处理 读过 的'简介'字段...
✅ 读过 简介提取完成，新增字段：作者（列表）、出版年份、出版社
前5行数据展示：


Unnamed: 0,标题,简介,作者,出版年份,出版社
0,13 67,陳浩基 / 2014 / 皇冠文化出版有限公司,[陳浩基],2014,皇冠文化出版有限公司
1,无人生还,[英] 阿加莎・克里斯蒂 / 2008 / 人民文学出版社,[阿加莎・克里斯蒂],2008,人民文学出版社
2,城南旧事,林海音 文 关维兴 图 / 2003 / 中国青年出版社,"[林海音, 关维兴]",2003,中国青年出版社
3,东方快车谋杀案,[英] 阿加莎·克里斯蒂 / 2006 / 人民文学出版社,[阿加莎·克里斯蒂],2006,人民文学出版社
4,麦田里的守望者,[美国] J. D. 塞林格 / 2007 / 译林出版社,[塞林格],2007,译林出版社


In [72]:
# 游戏类类数据简介列拆分

# 预定义的游戏类型列表（中文）
game_types_zh = [
    "冒险", "角色扮演", "动作", "横版过关", "策略", "益智", "模拟", "竞速", "射击", "格斗",
    "体育", "音乐/节奏", "桌面/卡牌", "文字冒险", "视觉小说", "沙盒", "生存", "恐怖", "潜行",
    "解谜", "塔防", "即时战略", "回合制策略", "大战略", "战术角色扮演", "弹幕射击", "清版动作",
    "银河恶魔城", "Roguelike", "Roguelite", "派对游戏", "教育", "严肃游戏", "独立游戏",
    "大型多人在线角色扮演游戏", "大型多人在线策略游戏", "第一人称射击游戏", "第三人称射击游戏",
    "MOBA", "ARPG", "CRPG", "开放世界", "建造", "管理", "点击冒险", "寻物解谜", "卡牌构建",
    "自走棋", "轻度游戏", "硬核游戏", "怀旧游戏", "VR", "AR"
]

# 构建集合用于快速查找
game_types_set = set(game_types_zh)

def extract_game_info(summary):
    parts = [p.strip() for p in summary.split('/') if p.strip()]

    # 提取时间（最后一个字段）
    create_time = parts[-1] if re.match(r'\d{4}-\d{2}-\d{2}', parts[-1]) else None

    # 前面所有非时间部分作为候选字段
    candidates = parts[:-1] if create_time else parts[:]

    # 匹配游戏类型
    genres = [item for item in candidates if item in game_types_set]

    return pd.Series([genres, create_time])

# 处理所有属于"游戏类"的sheet
game_sheets = ['想玩', '在玩', '玩过']

for sheet_name in game_sheets:
    if sheet_name not in cleaned_data:
        print(f"⚠️ 警告：未找到 {sheet_name} 数据，请确认是否已完成清洗")
        continue

    df = cleaned_data[sheet_name].copy()

    print(f"\n🎮 正在处理 {sheet_name} 的'简介'字段...")

    # 应用提取函数
    df[['类型', '创建时间']] = df['简介'].apply(extract_game_info)

    # 替换空值为占位符
    df['类型'] = df['类型'].apply(lambda x: x if isinstance(x, list) and len(x) > 0 else [])
    df['创建时间'] = df['创建时间'].fillna('未知')

    # 更新 cleaned_data
    cleaned_data[sheet_name] = df

    print(f"✅ {sheet_name} 简介提取完成，新增字段：类型（列表）、创建时间")
    print(f"前5行数据展示：")
    display(df.head()[['标题', '简介', '类型', '创建时间']])


🎮 正在处理 想玩 的'简介'字段...
✅ 想玩 简介提取完成，新增字段：类型（列表）、创建时间
前5行数据展示：


Unnamed: 0,标题,简介,类型,创建时间
0,博德之门3 Baldur's Gate 3,角色扮演/冒险/策略/PC/Mac/PlayStation 5/Xbox Series X/...,"[角色扮演, 冒险, 策略]",2023-08-03
1,苏丹的游戏,Sultan's Game/スルタンのゲーム/卡牌/模拟/角色扮演/策略/PC/2025-0...,"[模拟, 角色扮演, 策略]",2025-03-31
2,光与影：33号远征队 Clair Obscur: Expedition 33,光與影：33號遠征隊/클레르 옵스퀴르: 33 원정대/角色扮演/冒险/动作/PC/Play...,"[角色扮演, 冒险, 动作]",2025-04-24



🎮 正在处理 在玩 的'简介'字段...
✅ 在玩 简介提取完成，新增字段：类型（列表）、创建时间
前5行数据展示：


Unnamed: 0,标题,简介,类型,创建时间
0,巫师3：狂猎 The Witcher 3: Wild Hunt,The Witcher III: Wild Hunt/猎魔人3：狂猎/角色扮演/冒险/动作/...,"[角色扮演, 冒险, 动作]",2015-05-19
1,荒野大镖客：救赎2 Red Dead Redemption 2,碧血狂杀2/碧血狂殺2/血色救赎2/血色救贖2/Red Dead Redemption II...,"[射击, 冒险, 动作]",2018-10-26



🎮 正在处理 玩过 的'简介'字段...
✅ 玩过 简介提取完成，新增字段：类型（列表）、创建时间
前5行数据展示：


Unnamed: 0,标题,简介,类型,创建时间
0,山海旅人 The Rewinder,横版过关/角色扮演/冒险/PC/Mac/Xbox Series X/Nintendo Swi...,"[横版过关, 角色扮演, 冒险]",2021-09-10
1,完蛋！我被美女包围了！,Love Is All Around/文字冒险/PC/Mac/iPhone/Android/...,[文字冒险],2023-10-18
2,艾尔登法环 Elden Ring,艾爾登法環/老头环/上古之环/エルデンリング/角色扮演/冒险/动作/PC/PlayStati...,"[角色扮演, 冒险, 动作]",2022-02-25
3,求生之路2 Left 4 Dead 2,L4D2/惡靈勢力 2/第一人称射击/射击/冒险/动作/PC/Mac/Linux/Xbox ...,"[射击, 冒险, 动作]",2009-11-17
4,森林 The Forest,角色扮演/冒险/PC/PlayStation 4/Steam VR/Endnight Gam...,"[角色扮演, 冒险]",2018-05-01


**4 保存清洗后的数据**

In [73]:
# 确保目录存在
output_dir = Path('../data/interim')
output_dir.mkdir(exist_ok=True)

# 保存 cleaned_data 到本地
with open(output_dir / 'cleaned_data.pkl', 'wb') as f:
    pickle.dump(cleaned_data, f)

print("✅ cleaned_data 已保存，可供 03-eda.ipynb 加载使用")

✅ cleaned_data 已保存，可供 03-eda.ipynb 加载使用
