In [None]:
# 检索包含"我这辈子"的评论及其相似度特征
import pandas as pd
import numpy as np

# 加载原始数据
print("加载数据...")
train_df = pd.read_pickle('train.pkl')
val_df = pd.read_pickle('val.pkl')
test_df = pd.read_pickle('test.pkl')

# 加载时间密度特征
train_td = pd.read_pickle('train_time_density.pkl')
val_td = pd.read_pickle('val_time_density.pkl')
test_td = pd.read_pickle('test_time_density.pkl')

# 合并所有数据
train_df['数据集'] = 'train'
val_df['数据集'] = 'val'
test_df['数据集'] = 'test'
all_df = pd.concat([train_df, val_df, test_df], ignore_index=True)

# 合并时间密度特征
all_td = pd.concat([train_td, val_td, test_td], ignore_index=True)
print(f"总数据量: {len(all_df):,} 条")
print(f"时间密度特征: {len(all_td):,} 条")

In [None]:
# 将时间密度特征合并到原数据
all_df = all_df.merge(all_td, on='序号', how='left')

# 筛选包含"我这辈子"的评论
keyword = '我这辈子'
mask = all_df['评论文案'].str.contains(keyword, na=False)
filtered_df = all_df[mask].copy()
print(f"包含"{keyword}"的评论数量: {len(filtered_df):,} 条")

# 按时间顺序索引排序
filtered_df = filtered_df.sort_values('时间顺序索引').reset_index(drop=True)

In [None]:
# 显示结果
pd.set_option('display.max_colwidth', 100)
pd.set_option('display.max_rows', None)

# 选择需要显示的列
display_cols = ['时间顺序索引', '序号', '发布时间', '评论文案', '最大相似度', '重复次数', '数据集']
result = filtered_df[display_cols]

print(f"按时间顺序显示包含"{keyword}"的评论:
")
for idx, row in result.iterrows():
    print(f"[时间索引 {row['时间顺序索引']:>6}] 序号: {row['序号']:>6} | 相似度: {row['最大相似度']:.4f} | 重复次数: {row['重复次数']:>4} | {row['数据集']}")
    print(f"  发布时间: {row['发布时间']}")
    print(f"  评论: {row['评论文案'][:150]}{'...' if len(str(row['评论文案'])) > 150 else ''}")
    print()

In [None]:
# 统计信息
print("=" * 60)
print(f"统计信息:")
print(f"  总数量: {len(filtered_df)} 条")
print(f"  最大相似度 - 均值: {filtered_df['最大相似度'].mean():.4f}, 最大: {filtered_df['最大相似度'].max():.4f}, 最小: {filtered_df['最大相似度'].min():.4f}")
print(f"  重复次数 - 均值: {filtered_df['重复次数'].mean():.2f}, 最大: {filtered_df['重复次数'].max()}, 最小: {filtered_df['重复次数'].min()}")
print(f"  时间范围: {filtered_df['发布时间'].min()} ~ {filtered_df['发布时间'].max()}")