In [20]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.model_selection import GridSearchCV

def perform_lda_topic_modeling(data, text_column, category_column, param_grid, cv=5, num_words_per_topic=10):
    categories = data[category_column].unique()  # 获取所有分区的唯一值
    for category in categories:
        print(f"\nAnalyzing topics for category: {category}")
        category_data = data[data[category_column] == category]  # 筛选特定分区的数据
        texts = category_data[text_column].astype(str).dropna().tolist()  # 确保没有NaN值
        if not texts:
            print(f"No text data available for category: {category}")
            continue
        vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, max_features=10000)  # 调整参数
        tfidf = vectorizer.fit_transform(texts)
        lda = LatentDirichletAllocation(random_state=42)
        grid_search = GridSearchCV(lda, param_grid, cv=cv)
        grid_search.fit(tfidf)
        print("Best parameters found: ", grid_search.best_params_)
        print("Best score: ", grid_search.best_score_)
        best_lda = grid_search.best_estimator_
        feature_names = vectorizer.get_feature_names_out()
        num_topics = best_lda.n_components
        for topic_idx, topic in enumerate(best_lda.components_):
            message = f"Topic #{topic_idx}: "
            message += " ".join([feature_names[i] for i in topic.argsort()[-num_words_per_topic - 1:-1]])
            print(message)

if __name__ == "__main__":
    try:
        data = pd.read_csv('./output_withdanmaku_csv.csv')
        param_grid = {
            'n_components': [3, 5, 7, 9, 11, 13]  # 增加主题数量的范围
        }
        perform_lda_topic_modeling(data, '所有评论和弹幕', '分区', param_grid, cv=5, num_words_per_topic=10)
    except FileNotFoundError:
        print("文件未找到，请检查文件路径是否正确。")
    except KeyError:
        print("指定的文本列名不存在，请检查列名是否正确。")


Analyzing topics for category: douga
Best parameters found:  {'n_components': 3}
Best score:  -556.2728825937919
Topic #0: 喜欢 动画 苍蝇 森林 女巫 西格玛 结局 明年 天才 求生
Topic #1: 哈哈哈 加油 仙尊 手机 视频 好看 方源 更新 喜欢 甲方
Topic #2: 小鸟 病中 垂死 妈妈 飞踢 阎王 雷欧 啊啊啊 红色 可爱

Analyzing topics for category: music
Best parameters found:  {'n_components': 3}
Best score:  -490.3805937768945
Topic #0: 张牌 心心 保重 广西 小姐 视频 丞相 好听 感觉 喜欢
Topic #1: 玩家 英文 机器人 中国 悟空 文化 最佳 神话 年度 游戏
Topic #2: 时间 水母 四首 春天 万岁 珍惜 太阳 天黑 真神 公式

Analyzing topics for category: dance
Best parameters found:  {'n_components': 3}
Best score:  -473.3272200894784
Topic #0: 对不起 回响 老师 明月 啊啊啊 宝宝 厉害 小鹿 心心 感觉
Topic #1: 脱单 白丝 东方 更新 少女 好看 幻想 日常 太太 心心
Topic #2: 核心 东西 视频 老师 从容 春晚 学校 厉害 好看 可爱

Analyzing topics for category: game
Best parameters found:  {'n_components': 3}
Best score:  -549.6611595813681
Topic #0: 回答 改写 括号 飞雷 星野 夏侯惇 好评 数学 夏侯 刻晴
Topic #1: 绿龙 马西 数据 卡托 赛事 丸辣 撒花 完结 杨戬 小女孩
Topic #2: 异常 年度 索尼 回来 星见雅 妹妹 电视 这下 哈哈哈 机器人

Analyzing topics for category: knowledge
Best paramet