In [1]:
### 如何用Python从海量文本抽取主题？
# 需要
# pip install jieba
# pip install pyldavis

In [3]:
# 为了处理表格数据，我们依然使用数据框工具Pandas。先调用它。
import pandas as pd

# 然后读入我们的数据文件datascience.csv，注意它的编码是中文GB18030，不是Pandas默认设置的编码，所以此处需要显式指定编码类型，以免出现乱码错误。
df = pd.read_csv("datascience.csv", encoding='gb18030')

# 我们来看看数据框的头几行，以确认读取是否正确。
df.head()

Unnamed: 0,title,author,content
0,大数据产业迎政策暖风 最新大数据概念股一览,财经热点扒客,大数据产业发展受到国家重视，而大数据已经上升为国家战略，未来发展前景很广阔。大数据产业“十三...
1,Google发布机器学习平台Tensorflow游乐场～带你一起玩神经网络！,硅谷周边,点击上方“硅谷周边”关注我，收到最新的文章哦！昨天，Google发布了Tensorflow游...
2,李克强：中国大数据和云计算产业是开放的,苏州高新区金融办,国务院总理李克强当地时间20日上午在纽约下榻饭店同美国经济、金融、智库、媒体等各界人士座谈，...
3,全峰集团持续挖掘大数据,快递物流网,2016年，全峰集团持续挖掘大数据、云计算、“互联网+”等前沿技术和物流快递的融合，并通过优...
4,第366期【微理工】贵州理工学院召开大数据分析与应用专题分享会,贵州理工学院,贵州理工学院召开大数据分析与应用专题分享会 借“创响中国”贵安站巡回接力活动暨2016贵安大...


In [4]:
# 我们看看数据框的长度，以确认数据是否读取完整。
df.shape

(1024, 3)

In [5]:
import jieba
# 我们此次需要处理的，不是单一文本数据，而是1000多条文本数据，因此我们需要把这项工作并行化。这就需要首先编写一个函数，处理单一文本的分词。
def chinese_word_cut(mytext):
    return " ".join(jieba.cut(mytext))

# 有了这个函数之后，我们就可以不断调用它来批量处理数据框里面的全部文本（正文）信息了。你当然可以自己写个循环来做这项工作。但这里我们使用更为高效的apply函数

In [6]:
# 下面这一段代码执行起来，可能需要一小段时间。请耐心等候。
df["content_cutted"] = df.content.apply(chinese_word_cut)

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 5.688 seconds.
Prefix dict has been built succesfully.


In [7]:
# 执行完毕之后，我们需要查看一下，文本是否已经被正确分词。
df.content_cutted.head()
# 单词之间都已经被空格区分开了。下面我们需要做一项重要工作，叫做文本的向量化。

0    大 数据 产业 发展 受到 国家 重视 ， 而 大 数据 已经 上升 为 国家 战略 ， 未...
1    点击 上方 “ 硅谷 周边 ” 关注 我 ， 收到 最新 的 文章 哦 ！ 昨天 ， Goo...
2    国务院 总理 李克强 当地 时间 20 日 上午 在 纽约 下榻 饭店 同 美国 经济 、 ...
3    2016 年 ， 全峰 集团 持续 挖掘 大 数据 、 云 计算 、 “ 互联网 + ” 等...
4    贵州 理工学院 召开 大 数据分析 与 应用 专题 分享 会   借 “ 创响 中国 ” 贵...
Name: content_cutted, dtype: object

In [8]:
# 原理弄清楚了，让我们引入相关软件包吧。
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
# 只从文本中提取1000个最重要的特征关键词，然后停止。
n_features = 1000

In [9]:
# 下面我们开始关键词提取和向量转换过程：
tf_vectorizer = CountVectorizer(strip_accents = 'unicode',
                                max_features=n_features,
                                stop_words='english',
                                max_df = 0.5,
                                min_df = 10)
tf = tf_vectorizer.fit_transform(df.content_cutted)

In [10]:
from sklearn.decomposition import LatentDirichletAllocation
# 这里我们先设定为5个分类试试。
n_topics = 5
lda = LatentDirichletAllocation(n_topics=n_topics, max_iter=50,
                                learning_method='online',
                                learning_offset=50.,
                                random_state=0)

In [11]:
# 等待一会儿就好，不要着急。
lda.fit(tf)



LatentDirichletAllocation(batch_size=128, doc_topic_prior=None,
             evaluate_every=-1, learning_decay=0.7,
             learning_method='online', learning_offset=50.0,
             max_doc_update_iter=100, max_iter=50, mean_change_tol=0.001,
             n_components=10, n_jobs=None, n_topics=5, perp_tol=0.1,
             random_state=0, topic_word_prior=None,
             total_samples=1000000.0, verbose=0)

In [12]:
# 主题没有一个确定的名称，而是用一系列关键词刻画的。我们定义以下的函数，把每个主题里面的前若干个关键词显示出来：
def print_top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic #%d:" % topic_idx)
        print(" ".join([feature_names[i]
                        for i in topic.argsort()[:-n_top_words - 1:-1]]))
    print()

# 定义好函数之后，我们暂定每个主题输出前20个关键词。
n_top_words = 20

# 以下命令会帮助我们依次输出每个主题的关键词表：
tf_feature_names = tf_vectorizer.get_feature_names()
print_top_words(lda, tf_feature_names, n_top_words)

Topic #0:
学习 模型 使用 算法 方法 机器 可视化 神经网络 特征 处理 不同 计算 用户 数据库 系统 如果 分类 训练 一种 基于
Topic #1:
这个 就是 可能 没有 如果 他们 自己 很多 什么 不是 但是 或者 因为 时候 这样 现在 电子 一些 所以 孩子
Topic #2:
企业 平台 服务 管理 互联网 数据分析 公司 产品 用户 业务 行业 客户 金融 创新 实现 价值 系统 能力 工作 需求
Topic #3:
中国 2016 市场 增长 10 城市 用户 2015 关注 行业 其中 30 人口 检索 阅读 大众 投资 全国 美国 20
Topic #4:
人工智能 学习 领域 智能 机器人 机器 人类 公司 深度 研究 未来 识别 已经 系统 计算机 目前 医疗 语音 方面 服务
()


In [13]:
# 执行以下命令，会有有趣的事情发生。
import pyLDAvis
import pyLDAvis.sklearn
pyLDAvis.enable_notebook()
pyLDAvis.sklearn.prepare(lda, tf, tf_vectorizer)

In [None]:
# 由于pyLDAvis这个包兼容性有些问题。因此在某些操作系统和软件环境下，你执行了刚刚的语句后，没有报错，却也没有图形显示出来。
# 没关系。这时候请你写下以下语句并执行：
data = pyLDAvis.sklearn.prepare(lda, tf, tf_vectorizer)
pyLDAvis.show(data)
# Jupyter会给你提示一些警告。不用管它。因为此时你的浏览器会弹出一个新的标签页，结果图形会在这个标签页里正确显示出来。
# 如果你看完了图后，需要继续程序，就回到原先的标签页，点击Kernel菜单下的第一项Interrupt停止绘图，然后往下运行新的语句。


Note: if you're in the IPython notebook, pyLDAvis.show() is not the best command
      to use. Consider using pyLDAvis.display(), or pyLDAvis.enable_notebook().
      See more information at http://pyLDAvis.github.io/quickstart.html .

You must interrupt the kernel to end this command

Serving to http://127.0.0.1:8889/    [Ctrl-C to exit]


127.0.0.1 - - [06/Mar/2019 11:57:30] "GET / HTTP/1.1" 200 -
127.0.0.1 - - [06/Mar/2019 11:57:30] "GET /LDAvis.css HTTP/1.1" 200 -
127.0.0.1 - - [06/Mar/2019 11:57:30] "GET /d3.js HTTP/1.1" 200 -
127.0.0.1 - - [06/Mar/2019 11:57:30] "GET /LDAvis.js HTTP/1.1" 200 -
127.0.0.1 - - [06/Mar/2019 11:57:31] code 404, message Not Found
127.0.0.1 - - [06/Mar/2019 11:57:31] "GET /favicon.ico HTTP/1.1" 404 -
127.0.0.1 - - [06/Mar/2019 11:59:49] "GET / HTTP/1.1" 200 -
127.0.0.1 - - [06/Mar/2019 11:59:49] "GET /LDAvis.css HTTP/1.1" 200 -
127.0.0.1 - - [06/Mar/2019 11:59:49] "GET /d3.js HTTP/1.1" 200 -
127.0.0.1 - - [06/Mar/2019 11:59:49] "GET /LDAvis.js HTTP/1.1" 200 -


In [None]:
# 以上是认为设定主题数为5的情况。可如果我们把主题数量设定为10呢？
# 你不需要重新运行所有代码，只需要执行下面这几行就可以了。
# 这段程序还是需要运行一段时间，请耐心等待。
n_topics = 10
lda = LatentDirichletAllocation(n_topics=n_topics, max_iter=50,
                                learning_method='online',
                                learning_offset=50.,
                                random_state=0)
lda.fit(tf)
print_top_words(lda, tf_feature_names, n_top_words)
pyLDAvis.sklearn.prepare(lda, tf, tf_vectorizer)

In [None]:
#如果不能直接输出图形，还是按照前面的做法，执行：
data = pyLDAvis.sklearn.prepare(lda, tf, tf_vectorizer)
pyLDAvis.show(data)
# from: https://www.jianshu.com/p/fdde9fc03f94