**1 导入数据前的准备**

In [40]:
# 导入必要的库
import pandas as pd
import numpy as np
from pathlib import Path
import os

In [41]:
# 设置显示选项
pd.set_option('display.max_columns', None)  # 显示所有列
pd.set_option('display.max_rows', 50)      # 显示最多 50行 
pd.set_option('display.width', 1000)  

**2 导入数据**

In [42]:
# 读取 Excel文件
file_path = Path('../data/raw/豆伴.xlsx')

# 读取所有 sheet
excel_data = pd.read_excel(file_path, sheet_name=None)

# 显示所有 sheet 名称
print("Excel文件包含以下sheet：")
for sheet_name in excel_data.keys():
    print(f"- {sheet_name}")

Excel文件包含以下sheet：
- 看过
- 在看
- 想看
- 听过
- 在听
- 想听
- 读过
- 在读
- 想读
- 玩过
- 在玩
- 想玩
- 看过的舞台剧
- 想看的舞台剧
- 影评
- 乐评
- 书评
- 剧评
- 游戏评论&攻略


**3 初步分析**

In [43]:
# 对非空的 sheet 进行详细分析，并保存为 csv 文件
for sheet_name, df in excel_data.items():
    # 检查是否为空表（只有标题行）
    if len(df) <= 1:
        print(f"\n=== {sheet_name} 是空表，跳过分析 ===")
        continue
        
    print(f"\n=== {sheet_name} 内容分析 ===")
    
    # 检查第六列是否为空
    if df.iloc[:, 5].isnull().all():
        # 如果第六列为空，只读取 1,2,3,5列
        selected_columns = [0, 1, 2, 4]  # 对应第 1,2,3,5 列（索引从 0 开始）
    else:
        # 如果第六列不为空，读取 1,2,3,5,6列
        selected_columns = [0, 1, 2, 4, 5]  # 对应第 1,2,3,5,6 列
    
    # 选择指定列
    df_selected = df.iloc[:, selected_columns]
    
    print("\n1. 基本信息：")
    print(df_selected.info())
    
    print("\n2. 数值列统计描述：")
    print(df_selected.describe().round(2))
    
    print("\n3. 缺失值统计：")
    missing_values = df_selected.isnull().sum()  # 统计每列的缺失值数量
    missing_values_filtered = missing_values[missing_values > 0] # 筛选出有缺失值的列  
    if not missing_values_filtered.empty:
        # 如果存在缺失值，则打印列名及缺失数量
        for column, count in missing_values_filtered.items():
            print(f"'{column}' 列缺失值数量: {count}")
    else:
        # 如果没有缺失值，则跳过
        print("- 无缺失值")

    # 保存处理后的数据
    processed_dir = Path('../data/processed')
    processed_dir.mkdir(exist_ok=True)
        
    output_file = processed_dir / f"{sheet_name}_processed.csv"
    df_selected.to_csv(output_file, index=False, encoding='utf-8-sig') # 使用 encoding='utf-8' 会乱码
    print(f"\n已保存处理后的数据到 {output_file}")


=== 看过 内容分析 ===

1. 基本信息：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 214 entries, 0 to 213
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   标题      214 non-null    object 
 1   简介      213 non-null    object 
 2   豆瓣评分    214 non-null    float64
 3   创建时间    214 non-null    object 
 4   我的评分    214 non-null    int64  
dtypes: float64(1), int64(1), object(3)
memory usage: 8.5+ KB
None

2. 数值列统计描述：
         豆瓣评分    我的评分
count  214.00  214.00
mean     7.95    4.36
std      1.39    0.84
min      0.00    1.00
25%      7.32    4.00
50%      8.20    5.00
75%      8.98    5.00
max      9.70    5.00

3. 缺失值统计：
'简介' 列缺失值数量: 1

已保存处理后的数据到 ..\data\processed\看过_processed.csv

=== 在看 是空表，跳过分析 ===

=== 想看 内容分析 ===

1. 基本信息：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76 entries, 0 to 75
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   标题      76 non-null     object