In [97]:
import os
import pandas as pd
import numpy as np
import re
import json

**1. 读取数据**

In [99]:
# 读取数据（注意相对路径）
file_path = "../data/raw.xlsx"
sheet_name = "看过"
usecols = ["标题", "简介", "豆瓣评分", "创建时间", "我的评分"]

df = pd.read_excel(file_path, sheet_name=sheet_name, usecols=usecols)

In [100]:
# 重命名列，统一字段
df.columns = ["title", "summary", "douban_score", "watch_time", "user_score"]

In [101]:
# 查看前几行
df.head()

Unnamed: 0,title,summary,douban_score,watch_time,user_score
0,爱，死亡和机器人 第四季,2025 / 美国 / 剧情 喜剧 动作 动画 恐怖 奇幻 冒险 / 大卫·芬奇 罗伯特·比...,4.9,2025-05-16 13:26:29,3
1,爱，死亡和机器人 第二季,2021 / 美国 / 喜剧 科幻 动画 恐怖 短片 奇幻 / 蒂姆·米勒 肉食部门 罗伯特...,6.9,2025-05-15 23:24:54,4
2,爱，死亡和机器人 第三季,2022 / 美国 / 喜剧 科幻 动画 恐怖 短片 奇幻 / 帕特里克·奥斯本 大卫·芬奇...,8.5,2025-05-15 23:24:24,5
3,马勒冈的超级男孩,2024 / 印度 / 剧情 喜剧 / 里马·卡蒂 / 阿达什·古拉夫 Manjiri Pu...,0.0,2025-05-11 19:22:01,4
4,惊天魔盗团,2013 / 美国 法国 / 剧情 悬疑 犯罪 / 路易斯·莱特里尔 / 杰西·艾森伯格 艾...,7.8,2025-05-03 12:54:07,4


**2. 清洗数据**

In [103]:
def parse_summary(summary):
    # 如果 summary 不是字符串，直接返回空字段
    if not isinstance(summary, str):
        return pd.Series([None, [], [], [], []], index=["year", "region", "genre", "director", "cast"])
    
    parts = [p.strip() for p in summary.split("/")]

    # 容错处理：确保长度为5
    while len(parts) < 5:
        parts.append("")

    year = parts[0]
    region = parts[1].split() if parts[1] else []
    genre = parts[2].split() if parts[2] else []
    director = parts[3].split() if parts[3] else []
    cast = parts[4].split() if parts[4] else []

    return pd.Series([year, region, genre, director, cast],
                     index=["year", "region", "genre", "director", "cast"])


In [104]:
parsed_summary = df["summary"].apply(parse_summary)
df_cleaned = pd.concat([df.drop(columns=["summary"]), parsed_summary], axis=1)

In [105]:
df_cleaned.head()

Unnamed: 0,title,douban_score,watch_time,user_score,year,region,genre,director,cast
0,爱，死亡和机器人 第四季,4.9,2025-05-16 13:26:29,3,2025,[美国],"[剧情, 喜剧, 动作, 动画, 恐怖, 奇幻, 冒险]","[大卫·芬奇, 罗伯特·比斯, 安迪·里昂, 吕寅荣, 罗伯特·瓦利, 帕特里克·奥斯本, ...","[红辣椒乐队, 安东尼·凯迪斯]"
1,爱，死亡和机器人 第二季,6.9,2025-05-15 23:24:54,4,2021,[美国],"[喜剧, 科幻, 动画, 恐怖, 短片, 奇幻]","[蒂姆·米勒, 肉食部门, 罗伯特·瓦利, 吕寅荣, 里昂·贝雷尔, 多米尼克·博伊丁, 雷...","[诺兰·诺斯, 艾米丽·奥布莱恩]"
2,爱，死亡和机器人 第三季,8.5,2025-05-15 23:24:24,5,2022,[美国],"[喜剧, 科幻, 动画, 恐怖, 短片, 奇幻]","[帕特里克·奥斯本, 大卫·芬奇, 埃米莉·迪恩, 罗伯特·比斯, 安迪·里昂, 吕寅荣, ...","[乔什·布雷纳, 加里·安东尼·威廉斯]"
3,马勒冈的超级男孩,0.0,2025-05-11 19:22:01,4,2024,[印度],"[剧情, 喜剧]",[里马·卡蒂],"[阿达什·古拉夫, Manjiri, Pupala]"
4,惊天魔盗团,7.8,2025-05-03 12:54:07,4,2013,"[美国, 法国]","[剧情, 悬疑, 犯罪]",[路易斯·莱特里尔],"[杰西·艾森伯格, 艾拉·菲舍尔]"


In [106]:
# 1️⃣ 处理非法豆瓣评分（小于2或大于10）
df_cleaned.loc[
    (df_cleaned["douban_score"] < 2) | (df_cleaned["douban_score"] > 10),
    "douban_score"
] = np.nan

# 2️⃣ 处理 title、watch_time、user_score、year 为空的情况
columns_to_check = ["title", "watch_time", "user_score", "year"]
df_cleaned[columns_to_check] = df_cleaned[columns_to_check].replace("", np.nan)

# 3️⃣ 对 region, genre, director, cast 若为空列表或仅包含空字符串，视为缺失
def list_or_nan(lst):
    if not isinstance(lst, list) or len(lst) == 0:
        return np.nan
    # 若列表中只有空串或空白
    if all((not item or str(item).strip() == "") for item in lst):
        return np.nan
    return lst

for col in ["region", "genre", "director", "cast"]:
    df_cleaned[col] = df_cleaned[col].apply(list_or_nan)

# ✅ 结果检查
df_cleaned.info()
df_cleaned.head(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 218 entries, 0 to 217
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   title         218 non-null    object 
 1   douban_score  216 non-null    float64
 2   watch_time    218 non-null    object 
 3   user_score    218 non-null    int64  
 4   year          217 non-null    object 
 5   region        217 non-null    object 
 6   genre         217 non-null    object 
 7   director      217 non-null    object 
 8   cast          215 non-null    object 
dtypes: float64(1), int64(1), object(7)
memory usage: 15.5+ KB


Unnamed: 0,title,douban_score,watch_time,user_score,year,region,genre,director,cast
0,爱，死亡和机器人 第四季,4.9,2025-05-16 13:26:29,3,2025,[美国],"[剧情, 喜剧, 动作, 动画, 恐怖, 奇幻, 冒险]","[大卫·芬奇, 罗伯特·比斯, 安迪·里昂, 吕寅荣, 罗伯特·瓦利, 帕特里克·奥斯本, ...","[红辣椒乐队, 安东尼·凯迪斯]"
1,爱，死亡和机器人 第二季,6.9,2025-05-15 23:24:54,4,2021,[美国],"[喜剧, 科幻, 动画, 恐怖, 短片, 奇幻]","[蒂姆·米勒, 肉食部门, 罗伯特·瓦利, 吕寅荣, 里昂·贝雷尔, 多米尼克·博伊丁, 雷...","[诺兰·诺斯, 艾米丽·奥布莱恩]"
2,爱，死亡和机器人 第三季,8.5,2025-05-15 23:24:24,5,2022,[美国],"[喜剧, 科幻, 动画, 恐怖, 短片, 奇幻]","[帕特里克·奥斯本, 大卫·芬奇, 埃米莉·迪恩, 罗伯特·比斯, 安迪·里昂, 吕寅荣, ...","[乔什·布雷纳, 加里·安东尼·威廉斯]"
3,马勒冈的超级男孩,,2025-05-11 19:22:01,4,2024,[印度],"[剧情, 喜剧]",[里马·卡蒂],"[阿达什·古拉夫, Manjiri, Pupala]"
4,惊天魔盗团,7.8,2025-05-03 12:54:07,4,2013,"[美国, 法国]","[剧情, 悬疑, 犯罪]",[路易斯·莱特里尔],"[杰西·艾森伯格, 艾拉·菲舍尔]"
5,唐探1900,6.5,2025-05-02 14:00:17,4,2025,"[中国大陆, 中国香港]","[喜剧, 动作, 悬疑]","[陈思诚, 戴墨]","[王宝强, 刘昊然]"
6,恶缘,8.4,2025-05-02 11:58:51,4,2025,[韩国],"[剧情, 惊悚, 犯罪]",[李日炯],"[朴海秀, 申敏儿]"
7,穿越火线,7.9,2025-05-01 23:29:51,5,2020,[中国大陆],"[剧情, 奇幻]",[许宏宇],"[鹿晗, 吴磊]"
8,好小子们,7.2,2025-05-01 23:29:15,5,2019,[美国],"[喜剧, 儿童, 冒险]",[吉恩·斯图普尼兹基],"[雅各布·特伦布莱, 基思·L·威廉姆斯]"
9,爱，死亡和机器人 第一季,9.2,2025-04-28 23:42:42,5,2019,[美国],"[喜剧, 科幻, 动画, 恐怖, 奇幻]","[维克多·马尔多纳多, 加布里埃尔·彭纳基奥利, 阿尔弗雷多·托雷斯, 弗兰克·巴尔森, 阿...","[斯科特·怀特, 诺兰·诺斯]"


In [107]:
# 查看每列缺失值数量
df_cleaned.isna().sum()

title           0
douban_score    2
watch_time      0
user_score      0
year            1
region          1
genre           1
director        1
cast            3
dtype: int64

In [108]:
# 保存清洗后的数据为 JSON 文件
with open("../data/cleaned_data.json", "w", encoding="utf-8") as f:
    df_cleaned.to_json(f, orient="records", force_ascii=False, indent=2)