In [None]:
import jieba
import re
from collections import Counter
import pandas as pd

file_path = 'neutral.csv' # 读取CSV文件
df = pd.read_csv(file_path, encoding='utf-8-sig')  # 编码根据文件调整

# 加载停用词表
def load_stopwords(filepath):
    """从文件中加载停用词表"""
    with open(filepath, 'r', encoding='utf-8') as f:
        stopwords = set(line.strip() for line in f)
    return stopwords
# 调用load_stopwords函数
stopwords = load_stopwords('cn_stopwords.txt')

# 数据清洗（清洗+分词）
def clean_text(text, stopwords):
    """清洗文本，去除特殊字符、标点符号，并去除停用词"""
    cleaned_text = re.sub(r'[^\w\s]', '', text) #去除特殊字符和标点符号
    words = jieba.lcut(cleaned_text) #使用 jieba 进行分词
    filtered_words = [word for word in words if word not in stopwords and len(word) > 1 and not word.isdigit()] #去除停用词，并过滤掉长度为 1 的词语
    return filtered_words #返回分词结果

# 将所有文本数据拼接为一个大文本
all_text_data = ' '.join(df.iloc[:, 1].astype(str).tolist())

# 对文本进行清洗+分词处理
cleaned_words = clean_text(all_text_data, stopwords)

# 统计词频
word_counts = Counter(cleaned_words)

# 获取词频大于等于10的高频词
top_words = [(word, count) for word, count in word_counts.items() if count >= 10]

# 将结果转换为 DataFrame，并按词频降序排列
top_words_df = pd.DataFrame(top_words, columns=['词语', '词频'])
top_words_df = top_words_df.sort_values(by='词频', ascending=False).reset_index(drop=True)

# 输出前词频大于等于10的高频词及其出现次数
for word, count in top_words:
    print(f'{word}: {count}')

# 将结果输出至csv
top_words_df.to_csv('disney_neutral_topWords.csv', index=False, encoding='utf-8-sig')

门票: 18
迪士尼: 211
已经: 14
一起: 38
看到: 19
一个: 51
是不是: 13
回家: 17
必须: 13
一次: 28
生日: 21
公主: 32
知道: 22
贝儿: 146
终于: 33
开园: 14
我要: 66
带我去: 58
一定: 18
真的: 31
上海: 55
以后: 12
不能: 21
呜呜: 40
有点: 20
哦哦哦: 15
哇哇: 17
好玩: 10
巴勒斯坦: 22
衣服: 37
可爱: 65
儿儿: 21
olu: 21
今天: 14
第一: 23
贝尔: 15
喜欢: 18
宝宝: 51
宝贝: 12
感觉: 12
好看: 31
马上: 14
直拍: 15
玲娜: 26
乐园: 28
评论: 13
今年: 11
中国: 10
哇塞: 13
女鹅: 21
露露: 56
啊啊啊: 10
前排: 11
我来: 10
里面: 13
不会: 15
好好: 23
孩子: 13
托尼: 14
地方: 16
一点: 10
朋友: 13
啥时候: 17
希望: 12
朱迪: 16
奇奇: 13
蒂蒂: 11
没有: 30
闪电: 21
尼克: 31
以色列: 17
去过: 35
看看: 16
现在: 16
需要: 11
声音: 10
不要: 12
布鲁托: 16
达菲: 11
玛丽: 22
黄牛: 11
谢帝: 16
鞋底: 10
飞机: 23
