In [1]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import pandas as pd
import jieba
import re
import os

In [15]:
import pyLDAvis
import pyLDAvis.sklearn

In [2]:
# 本地 csv 文件，可以是本地文件，也可以是远程文件
source_csv_path = 'D:\my_research\gensim_group\group_1\group_1_final.csv'
# 文本 csv 文件里面文本所处的列名,注意这里一定要填对，要不然会报错的！
document_column_name = 'content'
# 输出主题词的文件路径
top_words_csv_path = 'D:\my_research\sklearn_group\group_1words.csv'
# 输出各文档所属主题的文件路径
predict_topic_csv_path = 'D:\my_research\sklearn_group\group_1distri.csv'
# 可视化 html 文件路径
html_path = 'D:\my_research\sklearn_group\group_1.html'
# 选定的主题数
n_topics = 5
# 要输出的每个主题的前 n_top_words 个主题词数
n_top_words = 20
# 去除无意义字符的正则表达式
pattern = u'[\\s\\d,.<>/?:;\'\"[\\]{}()\\|~!\t"@#$%^&*\\-_=+a-zA-Z，。\n《》、？：；“”‘’｛｝【】（）…￥！—┄－]+'

In [3]:
def top_words_data_frame(model: LatentDirichletAllocation,
                         tf_idf_vectorizer: TfidfVectorizer,
                         n_top_words: int) -> pd.DataFrame:
    '''
    求出每个主题的前 n_top_words 个词

    Parameters
    ----------
    model : sklearn 的 LatentDirichletAllocation 
    tf_idf_vectorizer : sklearn 的 TfidfVectorizer
    n_top_words :前 n_top_words 个主题词

    Return
    ------
    DataFrame: 包含主题词分布情况
    '''
    rows = []
    feature_names = tf_idf_vectorizer.get_feature_names()
    for topic in model.components_:
        top_words = [feature_names[i]
                     for i in topic.argsort()[:-n_top_words - 1:-1]]
        rows.append(top_words)
    columns = [f'topic {i+1}' for i in range(n_top_words)]
    df = pd.DataFrame(rows, columns=columns)

    return df

In [4]:
def predict_to_data_frame(model: LatentDirichletAllocation, X: np.ndarray) -> pd.DataFrame:
    '''
    求出文档主题概率分布情况

    Parameters
    ----------
    model : sklearn 的 LatentDirichletAllocation 
    X : 词向量矩阵

    Return
    ------
    DataFrame: 包含主题词分布情况
    '''
    matrix = model.transform(X)
    columns = [f'P(topic {i+1})' for i in range(len(model.components_))]
    df = pd.DataFrame(matrix, columns=columns)
    return df

In [5]:
df = (
    pd.read_csv(
        source_csv_path,
        encoding='utf-8-sig')
    .drop_duplicates()
    .rename(columns={
        document_column_name: 'text'
    }))

In [6]:
df

Unnamed: 0.1,Unnamed: 0,text,date,time,user_id,cut_content,del
0,0,#上海疫情##上海民生##就这一刻##返乡# 上海返乡潮开启，安徽、江苏和河南人最多，隔离和...,2022-04-24,2022-04-24 08:33:43,1000074972,# 上海 疫情 ## 上海 民生 ## 就 这 一刻 ## 返乡 # 上海 返乡 潮 开...,疫情 民生 一刻 返乡 返乡 潮 开启 安徽 江苏 河南人 隔离 做 核酸 钱 返乡 潮...
1,1,#上海疫情##上海民生##上海现状# .上海的现状为什么会变成这样我忍不住地继续瞎想外行领导...,2022-04-23,2022-04-23 05:46:14,1000074972,# 上海 疫情 ## 上海 民生 ## 上海 现状 # . 上海 的 现状 为什么 会 ...,疫情 民生 现状 现状 忍不住 瞎 想 外行 领导 内行 内行 闭嘴 同理 衍生 行业 ...
2,2,#上海疫情##上海民生# 无间道，罗生门，可能本来就是人生如戏吧，是我太认真了。算...,2022-04-22,2022-04-22 11:47:31,1000074972,# 上海 疫情 ## 上海 民生 # 无间道 ， 罗生门 ， 可能 ...,疫情 民生 无间道 罗生门 本来 人生 如戏 是我太 算了 干脆 眼...
3,3,#上海民生##上海疫情##上海团长# 还是你牛逼呀，团长。开个车照送，还是封控小区。,2022-04-22,2022-04-22 09:41:33,1000074972,# 上海 民生 ## 上海 疫情 ## 上海 团长 # 还是 你 牛 逼 呀 ， 团长 ...,民生 疫情 团长 牛 逼 团长 开个 车照 送 封控 小区
4,4,明康汇的采购员你成功地把你们老板一个月来的光辉形象給黑了。@明康汇 @市场监管 @江丄孤舟 ...,2022-04-21,2022-04-21 08:54:29,1000074972,明康汇 的 采购员 你 成功 地 把 你们 老板 一个月 来 的 光辉 形象 給黑 了 。 ...,明康汇 采购员 成功 老板 一个月 光辉 形象 給黑 明康汇 市场监管 江 丄 孤 ...
...,...,...,...,...,...,...,...
284768,284768,#上海防疫# 梅陇镇猪肉以次充好问题引发的深思 通过“企查查”我们可以知道，上...,2022-04-19,2022-04-19 11:13:14,7755234771,# 上海 防疫 # 梅陇镇 猪肉 以次充好 问题 引发 的 深思 ...,防疫 梅陇镇 猪肉 以次充好 引发 深思 企 查查 咨谕...
284769,284769,#上海防疫# 大发国难财会不会被追责？！ 作为封控区的一员，大家都在通过各种形...,2022-04-19,2022-04-19 10:33:41,7755234771,# 上海 防疫 # 大 发国难财 会 不会 被 追责 ？ ！ ...,防疫 发国难财 追责 封控区 一员 形式 团购 跑腿 解...
284770,284770,#上海防疫# 三名老人的去世值得我们深思！“动态清零”多时的上海，在4月17日公布了三个死亡...,2022-04-19,2022-04-19 02:18:01,7755234771,# 上海 防疫 # 三名 老人 的 去世 值得 我们 深思 ！ “ 动态 清零 ” 多时...,防疫 三名 老人 去世 值得 深思 动态 清零 多时 月 日 公布 三个 死亡 病例 ...
284771,284771,#上海防疫# 核酸检测是奥密克戎的最大传播漏洞！上海为何20多天每天新冠人数持续性超2万！？...,2022-04-18,2022-04-18 11:41:17,7755234771,# 上海 防疫 # 核酸 检测 是 奥密克戎 的 最大 传播 漏洞 ！ 上海 为何 20...,防疫 核酸 检测 奥密克戎 传播 漏洞 多天 新冠 人数 持续性 超 万 专家 说 病...


In [7]:
# 去重、去缺失、分词
df['cut'] = (
    df['text']
    .apply(lambda x: str(x))
    .apply(lambda x: re.sub(pattern, ' ', x))
    .apply(lambda x: " ".join(jieba.lcut(x)))
)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Administrator\AppData\Local\Temp\jieba.cache
Loading model cost 0.636 seconds.
Prefix dict has been built successfully.


In [10]:
# 构造 tf-idf
tf_idf_vectorizer = TfidfVectorizer(min_df = 0.001,max_df = 0.9)
tf_idf = tf_idf_vectorizer.fit_transform(df['cut'])

lda = LatentDirichletAllocation(
    n_components=n_topics,
    max_iter=50,
    learning_method='online',
    learning_offset=50,
    random_state=0)

In [11]:
# 使用 tf_idf 语料训练 lda 模型
lda.fit(tf_idf)

# 计算 n_top_words 个主题词
top_words_df = top_words_data_frame(lda, tf_idf_vectorizer, n_top_words)

# 保存 n_top_words 个主题词到 csv 文件中
top_words_df.to_csv(top_words_csv_path, encoding='utf-8-sig', index=None)

# 转 tf_idf 为数组，以便后面使用它来对文本主题概率分布进行计算
X = tf_idf.toarray()

# 计算完毕主题概率分布情况
predict_df = predict_to_data_frame(lda, X)

# 保存文本主题概率分布到 csv 文件中
predict_df.to_csv(predict_topic_csv_path, encoding='utf-8-sig', index=None)

In [16]:
# 使用 pyLDAvis 进行可视化
data = pyLDAvis.sklearn.prepare(lda, tf_idf, tf_idf_vectorizer)
pyLDAvis.save_html(data, html_path)
# 清屏
os.system('clear')
# 浏览器打开 html 文件以查看可视化结果
os.system(f'start {html_path}')

print('本次生成了文件：',
      top_words_csv_path,
      predict_topic_csv_path,
      html_path)

  default_term_info  = pd.DataFrame({'saliency': saliency, 'Term': vocab, \


本次生成了文件： D:\my_research\sklearn_group\group_1words.csv D:\my_research\sklearn_group\group_1distri.csv D:\my_research\sklearn_group\group_1.html


In [17]:
lda.perplexity(tf_idf)

1898.0500592124558