In [4]:
import pandas as pd
from collections import Counter
import ast

# 读取CSV文件
file_path = '../data/0421句子更新 - 0421句子列表_result.csv'
df = pd.read_csv(file_path)

# 安全地将“合集”列从字符串转换为列表，处理NaN
def safe_eval(val):
    if pd.isna(val):
        return []
    try:
        return ast.literal_eval(val)
    except Exception as e:
        print(f"解析错误: {val}，原因: {e}")
        return []

df['合集'] = df['合集'].apply(safe_eval)

# 所有合法合集标签
valid_collections = [
    '艰难时刻', '平静内心', '抗击抑郁', '心碎疗愈', '自我关怀', '减压放松', '感恩练习', '爱我的身体', '爱自己',
    '自尊心', '积极心态', '愉悦心情', '焕发生命力', '点燃动力', '自信', '拥抱女性身份', '女性力量', '亲密关系',
    '人际交往', '爱家人', '原谅', '个人成长', '事业成功', '擦拭信念', '追梦无悔','我很好'
]

# 统计所有合集标签频率
all_collections = [item for sublist in df['合集'] for item in sublist]
collection_counter = Counter(all_collections)

# 总句子数
total_sentences = len(df)

# 构建统计表
collection_stats = pd.DataFrame(valid_collections, columns=['合集'])
collection_stats['数量'] = collection_stats['合集'].map(collection_counter).fillna(0).astype(int)
collection_stats['占比'] = collection_stats['数量'].apply(
    lambda v: f"{v}/{total_sentences} ({v / total_sentences:.2%})"
)

# 按数量排序
collection_stats = collection_stats.sort_values(by='数量', ascending=False).reset_index(drop=True)

# 打印统计结果
print(collection_stats)

# 将合集为空的数据行单独保存
empty_rows = df[df['合集'].apply(lambda x: len(x) == 0)]
empty_rows.to_csv('empty_collections.csv', index=False, encoding='utf-8-sig')
print(f"\n已保存合集为空的句子，共 {len(empty_rows)} 行，路径：empty_collections.csv")


        合集  数量              占比
0       自信  38  38/91 (41.76%)
1     个人成长  37  37/91 (40.66%)
2     积极心态  28  28/91 (30.77%)
3     自我关怀  21  21/91 (23.08%)
4      自尊心  19  19/91 (20.88%)
5     人际交往  19  19/91 (20.88%)
6     平静内心  16  16/91 (17.58%)
7     亲密关系  13  13/91 (14.29%)
8     抗击抑郁   9    9/91 (9.89%)
9      爱自己   9    9/91 (9.89%)
10    点燃动力   8    8/91 (8.79%)
11   焕发生命力   7    7/91 (7.69%)
12    追梦无悔   6    6/91 (6.59%)
13    减压放松   5    5/91 (5.49%)
14    擦拭信念   4    4/91 (4.40%)
15    艰难时刻   3    3/91 (3.30%)
16    愉悦心情   3    3/91 (3.30%)
17    感恩练习   3    3/91 (3.30%)
18    心碎疗愈   3    3/91 (3.30%)
19    女性力量   2    2/91 (2.20%)
20   爱我的身体   2    2/91 (2.20%)
21    事业成功   2    2/91 (2.20%)
22  拥抱女性身份   1    1/91 (1.10%)
23     爱家人   0    0/91 (0.00%)
24      原谅   0    0/91 (0.00%)
25     我很好   0    0/91 (0.00%)

已保存合集为空的句子，共 2 行，路径：empty_collections.csv


In [12]:
import pandas as pd
from collections import Counter
import ast

# 读取CSV文件
file_path = '../data/0421句子更新 - 0421句子列表_result.csv'
df = pd.read_csv(file_path)

# 将“合集”列从字符串转换为列表
df['合集'] = df['合集'].apply(ast.literal_eval)

# 所有合法合集标签
valid_collections = [
  '艰难时刻', '平静内心', '抗击抑郁', '心碎疗愈', '自我关怀', '减压放松', '感恩练习', '爱我的身体', '爱自己',
  '自尊心', '积极心态', '愉悦心情', '焕发生命力', '点燃动力', '自信', '拥抱女性身份', '女性力量', '亲密关系',
  '人际交往', '爱家人', '原谅', '个人成长', '事业成功', '擦拭信念', '追梦无悔','我很好'
]

# 统计所有合集出现的频率
all_collections = [item for sublist in df['合集'] for item in sublist]
collection_counter = Counter(all_collections)

# 总句子数量
total_sentences = len(df)

# 构建包含所有 valid_collections 的统计表
collection_stats = pd.DataFrame(valid_collections, columns=['合集'])
collection_stats['数量'] = collection_stats['合集'].map(collection_counter).fillna(0).astype(int)
collection_stats['占比'] = collection_stats['数量'].apply(
    lambda v: f"{v}/{total_sentences} ({v / total_sentences:.2%})"
)

# 排序
collection_stats = collection_stats.sort_values(by='数量', ascending=False).reset_index(drop=True)

# 显示结果
print(collection_stats)


        合集   数量                占比
0       自信  114  114/198 (57.58%)
1     个人成长  100  100/198 (50.51%)
2     积极心态   56   56/198 (28.28%)
3      我很好   30   30/198 (15.15%)
4     平静内心   26   26/198 (13.13%)
5     点燃动力   25   25/198 (12.63%)
6     人际交往   24   24/198 (12.12%)
7     追梦无悔   22   22/198 (11.11%)
8      自尊心   19    19/198 (9.60%)
9     自我关怀   18    18/198 (9.09%)
10    擦拭信念   18    18/198 (9.09%)
11    亲密关系   17    17/198 (8.59%)
12    艰难时刻   15    15/198 (7.58%)
13    感恩练习   13    13/198 (6.57%)
14   焕发生命力   10    10/198 (5.05%)
15    愉悦心情    8     8/198 (4.04%)
16    抗击抑郁    7     7/198 (3.54%)
17    减压放松    7     7/198 (3.54%)
18      原谅    6     6/198 (3.03%)
19     爱家人    4     4/198 (2.02%)
20     爱自己    4     4/198 (2.02%)
21    事业成功    3     3/198 (1.52%)
22  拥抱女性身份    2     2/198 (1.01%)
23   爱我的身体    2     2/198 (1.01%)
24    女性力量    2     2/198 (1.01%)
25    心碎疗愈    0     0/198 (0.00%)


In [13]:
# 计算每个句子的合集数量
df['合集数量'] = df['合集'].apply(len)

# 统计每种合集数量对应的句子数量
collection_count_stats = df['合集数量'].value_counts().sort_index()

# 转换为 DataFrame 格式，便于查看
collection_count_stats_df = collection_count_stats.reset_index()
collection_count_stats_df.columns = ['合集数量', '句子数量']

# 显示结果
print(collection_count_stats_df)


   合集数量  句子数量
0     1     9
1     2    44
2     3   125
3     4    20


In [None]:
import pandas as pd
test_df = pd.read_csv('../data/note_test.csv')
test_df.head()
# note.py -> 自我肯定语 -> 合集 -> check(test_df[i]['合集'] in result_df['合集'].values) Count -> Recall
# 根据test_df的id对齐
result_df = pd.read_csv('../data/note_test_result.csv')

score = 0
for i in range(len(test_df)):
    if test_df[i]['合集'] in result_df[test_df[i]['序号']]['合集'].values:
        score += 1
        test_df[i]['得分']=1
    else:
        test_df[i]['得分']=0
        print(f"第{i}行合集不匹配: {test_df[i]['合集']} vs {result_df[test_df[i]['序号']]['合集'].values}")



In [20]:
import pandas as pd
import ast

# 读取数据
test_df = pd.read_csv('../data/note_test.csv')
result_df = pd.read_csv('../data/note_test_result_sorted.csv')

# 统一清洗合集列
test_df['合集'] = test_df['合集'].astype(str).str.strip()
result_df['合集'] = result_df['合集'].astype(str).str.strip()

test_df['得分'] = 0
score = 0
total = len(test_df)
collection_stats = {}

for i in range(total):
    idx = test_df.loc[i, '序号']
    true_label = test_df.loc[i, '合集'].strip()
    
    pred_str_list = result_df[result_df['序号'] == idx]['合集'].values
    pred_labels = []
    if len(pred_str_list) > 0:
        try:
            pred_labels = [x.strip() for x in ast.literal_eval(pred_str_list[0])]
        except Exception:
            pass

    # 初始化合集统计
    if true_label not in collection_stats:
        collection_stats[true_label] = {'total': 0, 'correct': 0}
    collection_stats[true_label]['total'] += 1

    if true_label in pred_labels:
        test_df.at[i, '得分'] = 1
        collection_stats[true_label]['correct'] += 1
        score += 1
    else:
        print(f"第{i}行合集不匹配: GT={true_label} vs Pred={pred_labels}")


# 输出整体准确率
print(f"\n总得分: {score}/{total}")
print(f"准确率: {score / total:.2%}")

# 输出每类 recall
print("\n各合集召回率统计：")
print(f"{'合集':<10} {'正确数':<6} {'总数':<6} {'Recall':<8}")
for label, stats in collection_stats.items():
    recall = stats['correct'] / stats['total']
    print(f"{label:<10} {stats['correct']:<6} {stats['total']:<6} {recall:.2%}")

# 可选保存
test_df.to_csv('../data/note_test_scored.csv', index=False)


第0行合集不匹配: GT=艰难时刻 vs Pred=['平静内心', '自我关怀', '个人成长']
第9行合集不匹配: GT=艰难时刻 vs Pred=['平静内心', '人际交往']
第11行合集不匹配: GT=艰难时刻 vs Pred=['个人成长']
第16行合集不匹配: GT=平静内心 vs Pred=['积极心态', '个人成长', '我很好']
第29行合集不匹配: GT=抗击抑郁 vs Pred=['积极心态', '自信', '追梦无悔']
第37行合集不匹配: GT=抗击抑郁 vs Pred=['自信', '积极心态', '愉悦心情']
第38行合集不匹配: GT=心碎疗愈 vs Pred=['亲密关系', '自信', '我很好']
第39行合集不匹配: GT=心碎疗愈 vs Pred=['亲密关系', '自我关怀', '爱自己']
第42行合集不匹配: GT=心碎疗愈 vs Pred=['亲密关系', '自我关怀', '自信']
第44行合集不匹配: GT=心碎疗愈 vs Pred=['亲密关系', '自我关怀', '人际交往']
第46行合集不匹配: GT=心碎疗愈 vs Pred=['亲密关系', '自我关怀']
第47行合集不匹配: GT=心碎疗愈 vs Pred=['亲密关系', '自我关怀']
第48行合集不匹配: GT=心碎疗愈 vs Pred=['自我关怀', '人际交往', '亲密关系']
第49行合集不匹配: GT=心碎疗愈 vs Pred=['亲密关系', '自信', '我很好']
第50行合集不匹配: GT=心碎疗愈 vs Pred=['亲密关系', '自信', '个人成长']
第51行合集不匹配: GT=心碎疗愈 vs Pred=['亲密关系', '追梦无悔']
第64行合集不匹配: GT=减压放松 vs Pred=['感恩练习', '平静内心', '我很好']
第65行合集不匹配: GT=减压放松 vs Pred=['平静内心', '自我关怀', '我很好']
第83行合集不匹配: GT=爱我的身体 vs Pred=['自我关怀', '减压放松', '我很好']
第95行合集不匹配: GT=爱自己 vs Pred=['自信', '个人成长', '我很好']
第101行合集不匹配: GT=爱自己 vs Pred=['自我关

In [19]:
# note_test_result.csv 按照序号排序
import pandas as pd
df = pd.read_csv('../data/note_test_result.csv')
df = df.sort_values(by='序号').reset_index(drop=True)
df.to_csv('../data/note_test_result_sorted.csv', index=False, encoding='utf-8')


In [1]:
import pandas as pd
df = pd.read_csv('./data/待打标_result.csv')
print(df.head())

     序号              自我肯定语                              合集  \
0  4382   我自己就拥有实现那些愿望的能力。  ['个人成长', '自信', '点燃动力', '事业成功']   
1  4381      我总能找到自己身上的闪光点           ['自信', '个人成长', '我很好']   
2  4379  我不甘平凡，我要轰轰烈烈地去追求。          ['追梦无悔', '点燃动力', '自信']   
3  4378        会有很多人和我合得来。                        ['人际交往']   
4  4380             我人见人爱。           ['自信', '愉悦心情', '我很好']   

                                                合集理由  权重  曝光点赞率  不感兴趣次数  \
0  {'未选合集及理由': {'艰难时刻': '语句不涉及自我安抚或情绪困境的接纳。', '平静... NaN    NaN     NaN   
1  {'未选合集及理由': {'艰难时刻': '语句不涉及自我安抚或情绪困境的接纳。', '平静... NaN    NaN     NaN   
2  {'未选合集及理由': {'个人成长': '语句强调的是追求梦想的激情和行动，而非个人成长或... NaN    NaN     NaN   
3  {'未选合集及理由': {'艰难时刻': '语句不涉及自我安抚或情绪困境的接纳。', '平静... NaN    NaN     NaN   
4  {'未选合集及理由': {'艰难时刻': '语句不涉及自我安抚或情绪困境的接纳。', '平静... NaN    NaN     NaN   

   是否短断句  生产者                                 感情状况  \
0    NaN  NaN  ['正在恋爱', '快乐地单身着', '单身但准备好了开始新的恋情']   
1    NaN  NaN  ['正在恋爱', '快乐地单身着', '单身但准备好了开始新的恋情']   
2    NaN  NaN 

In [2]:
# 按照序号排序
df = df.sort_values(by='序号').reset_index(drop=True)
df.to_csv('./data/待打标_result_sorted.csv', index=False, encoding='utf-8')

In [22]:
df.to_csv('./data/0512.csv', index=False, encoding='utf-8-sig')

In [29]:
df = pd.read_csv('./data/0512_result_sorted.csv')

# 检查重复的序号
duplicates = df[df.duplicated(subset='序号', keep=False)]
if not duplicates.empty:
    print("以下序号重复：")
    print(duplicates['序号'].values)
else:
    print("没有重复的序号。")

没有重复的序号。
