In [1]:
# 导入必要的库
import sys
import os
import pandas as pd
from pathlib import Path

# 添加scripts目录到Python路径
sys.path.append('scripts')
sys.path.append('scripts/preprocess')

# 导入自定义模块
from scripts.preprocess.emo_dict import merge_emotion_dicts
from scripts.preprocess.stop_words import merge_stopwords, load_merged_stopwords

In [2]:
# 合并情感词典
print("开始处理情感词典合并...")
emo_dict_result = merge_emotion_dicts()

if emo_dict_result:
    print(f"✅ 情感词典合并成功！输出文件: {emo_dict_result}")
    
    # 查看合并结果
    emo_dict_df = pd.read_csv(emo_dict_result)
    print(f"\n📊 合并后的情感词典统计:")
    print(f"积极词数量: {emo_dict_df['positive'].notna().sum()}")
    print(f"消极词数量: {emo_dict_df['negative'].notna().sum()}")
    
    # 显示前几行数据
    print("\n📋 情感词典样例:")
    print(emo_dict_df.head(10))
else:
    print("❌ 情感词典合并失败")

2025-06-17 16:12:02,207 - INFO - 开始处理情感词典合并...


开始处理情感词典合并...


2025-06-17 16:12:02,564 - INFO - Excel文件包含工作表: ['说明', 'negative', 'positive']
2025-06-17 16:12:02,720 - INFO - 从工作表 'positive' 加载积极词: 3338个
2025-06-17 16:12:02,855 - INFO - 从工作表 'negative' 加载消极词: 5890个
2025-06-17 16:12:02,855 - INFO - 中文金融情感词典加载完成，积极词: 3338个，消极词: 5890个
2025-06-17 16:12:02,859 - INFO - RFS词表加载完成，积极词: 1425个，消极词: 1583个
2025-06-17 16:12:02,877 - INFO - 情感词典合并完成，积极词: 4067个，消极词: 6465个
2025-06-17 16:12:02,878 - INFO - 合并后的词典已保存至: data\processed_data\emo_dict.csv


✅ 情感词典合并成功！输出文件: data\processed_data\emo_dict.csv

📊 合并后的情感词典统计:
积极词数量: 4067
消极词数量: 6465

📋 情感词典样例:
  positive negative
0       安定     败坏名声
1       安康     被没收的
2       帮助       变节
3       榜样       不便
4       饱满      不适当
5       保证       妨碍
6     筚路蓝缕       腐败
7     变得更好     焦头烂额
8     举手称赞       困惑
9       标杆      落后于


In [3]:
# 合并停用词
print("开始处理停用词合并...")
stopwords_result = merge_stopwords()

if stopwords_result:
    print(f"✅ 停用词合并成功！输出文件: {stopwords_result}")
    
    # 加载并查看停用词统计
    stopwords_set = load_merged_stopwords()
    print(f"\n📊 停用词统计: 共 {len(stopwords_set)} 个停用词")
    
    # 显示部分停用词
    print("\n📋 停用词样例（前20个）:")
    sample_stopwords = sorted(list(stopwords_set))[:20]
    print(sample_stopwords)
else:
    print("❌ 停用词合并失败")

2025-06-17 16:13:52,972 - INFO - 开始处理停用词合并...
2025-06-17 16:13:52,974 - INFO - 找到停用词文件: data\original_data\stop_words\baidu_stopwords.txt
2025-06-17 16:13:52,976 - INFO - 找到停用词文件: data\original_data\stop_words\cn_stopwords.txt
2025-06-17 16:13:52,976 - INFO - 找到停用词文件: data\original_data\stop_words\hit_stopwords.txt
2025-06-17 16:13:52,977 - INFO - 找到停用词文件: data\original_data\stop_words\scu_stopwords.txt
2025-06-17 16:13:52,978 - INFO - 成功加载停用词文件 data\original_data\stop_words\baidu_stopwords.txt (编码: utf-8)，词汇数: 1395
2025-06-17 16:13:52,978 - INFO - 已合并文件 baidu_stopwords.txt，当前总词数: 1395
2025-06-17 16:13:52,980 - INFO - 成功加载停用词文件 data\original_data\stop_words\cn_stopwords.txt (编码: utf-8)，词汇数: 746
2025-06-17 16:13:52,981 - INFO - 已合并文件 cn_stopwords.txt，当前总词数: 1623
2025-06-17 16:13:52,982 - INFO - 成功加载停用词文件 data\original_data\stop_words\hit_stopwords.txt (编码: utf-8)，词汇数: 748
2025-06-17 16:13:52,983 - INFO - 已合并文件 hit_stopwords.txt，当前总词数: 1859
2025-06-17 16:13:52,984 - INFO - 成功加载停用词文件 data

开始处理停用词合并...
✅ 停用词合并成功！输出文件: data\processed_data\stop_words.txt

📊 停用词统计: 共 2311 个停用词

📋 停用词样例（前20个）:
['"', '$', '&', "'", '(', ')', '*', '+', ',', '-', '--', '.', '...', '......', '...................', './', '.一', '.数', '.日', '/']
