**主题建模**    
指识别文本数据隐藏模式的过程，其目的是发现一组文档的隐藏主题结构。     
主题建模可以更好地组织文档，以便对这些文档进行分析。

**工作原理**    
主题建模通过识别文档中最有意义，最能表征主题的词来实现主题分类，这些单词往往可以确定主题的内容      
- 使用正则表达式标记器是因为只需要那些没有标点或者其他标记的单词
- 停用词去除可以减小一些常用词('is','the')的噪声干扰。
- 之后对单词做词干提取，以获取其原形

本例中用到了隐含狄利克雷分布技术来构建主题建模。
隐含狄利克雷分布将文档表示成不同主题的混合，这些主题可以“吐出”单词，
这些“吐出”的单词是有一定概率的。隐含狄利克雷分布的目标是找到这些主题。        
隐含狄利克雷分布是一个生出主题的模型，该模型视图找到所有主题，而所有主题又负责生成给定主题的文档。

In [5]:
from nltk.tokenize import RegexpTokenizer  
from nltk.stem.snowball import SnowballStemmer
from gensim import models, corpora
from nltk.corpus import stopwords

# 加载数据
def txt_read(filename):
    x_data = []
    with open(filename,'r') as f:
        for line in f:
            data = line.strip()
            x_data.append(data)

    return x_data

# 定义一个预处理文本类
# 处理相应对象，并从输入文本中提取相关的特征
class Preprocessor(object):
    # 对各种操作进行初始化
    def __init__(self):
        # 创建正则表达式解析器
        self.tokenizer = RegexpTokenizer(r'\w+')
        # 获取停用词列表
        self.stop_words_english = stopwords.words('english')
        # 创建Snowball词干提取器
        self.stemmer = SnowballStemmer('english')
        
    # 标记解析、移除停用词、词干提取
    def process(self, input_text):
        # 标记解析
        tokens = self.tokenizer.tokenize(input_text.lower())
        # 移除停用词
        tokens_stopwords = [x for x in tokens if not x in self.stop_words_english]
        # 词干提取
        tokens_stemmed = [self.stemmer.stem(x) for x in tokens_stopwords]
        return tokens_stemmed
    
# 输入数据的文件
input_file = 'data_topic_modeling.txt'
data = txt_read(input_file)
# 创建预处理对象
preprocessor = Preprocessor()
# 创建一组经过预处理的文档
processed_tokens = [preprocessor.process(x) for x in data]
# 创建基于标记文档的词典
dict_tokens = corpora.Dictionary(processed_tokens)
# 创建文档-词矩阵
corpus = [dict_tokens.doc2bow(text) for text in processed_tokens]
# 假定文本可以分成两个主题。我们将用隐含狄利克雷分布做主题建模
# 基于刚刚创建的语料库生成LDA模型
num_topics = 2
num_words = 4
ldamodel = models.ldamodel.LdaModel(corpus, 
        num_topics=num_topics, id2word=dict_tokens, passes=25)
# 识别出两个主题后，可以看到它是如何将两个主题分开来看的
print("\nMost contributing words to the topics:")
for item in ldamodel.print_topics(num_topics=num_topics, num_words=num_words):
    print("\nTopic", item[0], "==>", item[1])


Most contributing words to the topics:

Topic 0 ==> 0.054*"need" + 0.033*"order" + 0.033*"polici" + 0.033*"develop"

Topic 1 ==> 0.059*"need" + 0.036*"parti" + 0.036*"messag" + 0.036*"make"
