In [34]:
# 机器学习 非监督学习范畴 主题抽取

import pandas as pd
df = pd.read_csv("datascience.csv",encoding='gb18030')
df.head()
df.shape

(1024, 3)

In [35]:
import jieba
def chinese_word_cut(mytext):
    return " ".join(jieba.cut(mytext))
df["content_cutted"] = df.content.apply(chinese_word_cut)

In [36]:
df.content_cutted.head()

0    大 数据 产业 发展 受到 国家 重视 ， 而 大 数据 已经 上升 为 国家 战略 ， 未...
1    点击 上方 “ 硅谷 周边 ” 关注 我 ， 收到 最新 的 文章 哦 ！ 昨天 ， Goo...
2    国务院 总理 李克强 当地 时间 20 日 上午 在 纽约 下榻 饭店 同 美国 经济 、 ...
3    2016 年 ， 全峰 集团 持续 挖掘 大 数据 、 云 计算 、 “ 互联网 + ” 等...
4    贵州 理工学院 召开 大 数据分析 与 应用 专题 分享 会   借 “ 创响 中国 ” 贵...
Name: content_cutted, dtype: object

In [37]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.svm import SVC
n_features = 1000

tf_vectorizer = CountVectorizer(strip_accents = 'unicode',
                                max_features=n_features,
                                stop_words='english',
                                max_df = 0.5,
                                min_df = 10)
tf = tf_vectorizer.fit_transform(df.content_cutted)

In [38]:
from sklearn.decomposition import LatentDirichletAllocation
n_topics = 5
lda = LatentDirichletAllocation(n_topics=n_topics, max_iter=50,
                                learning_method='online',
                                learning_offset=50.,
                                random_state=0)

In [39]:
lda.fit(tf)



LatentDirichletAllocation(batch_size=128, doc_topic_prior=None,
             evaluate_every=-1, learning_decay=0.7,
             learning_method='online', learning_offset=50.0,
             max_doc_update_iter=100, max_iter=50, mean_change_tol=0.001,
             n_components=10, n_jobs=1, n_topics=5, perp_tol=0.1,
             random_state=0, topic_word_prior=None,
             total_samples=1000000.0, verbose=0)

In [40]:
def print_top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic #%d:" % topic_idx)
        print(" ".join([feature_names[i]
                        for i in topic.argsort()[:-n_top_words - 1:-1]]))
    print()
n_top_words = 20

tf_feature_names = tf_vectorizer.get_feature_names()
print_top_words(lda, tf_feature_names, n_top_words)

Topic #0:
学习 模型 使用 算法 方法 机器 可视化 神经网络 特征 处理 不同 计算 用户 数据库 系统 如果 分类 训练 一种 基于
Topic #1:
这个 就是 可能 没有 如果 他们 自己 很多 什么 不是 但是 或者 因为 时候 这样 现在 电子 一些 所以 孩子
Topic #2:
企业 平台 服务 管理 互联网 数据分析 公司 产品 用户 业务 行业 客户 金融 创新 实现 价值 系统 能力 工作 需求
Topic #3:
中国 2016 市场 增长 10 城市 用户 2015 关注 行业 其中 30 人口 检索 阅读 大众 投资 全国 美国 20
Topic #4:
人工智能 学习 领域 智能 机器人 机器 人类 公司 深度 研究 未来 识别 已经 系统 计算机 目前 医疗 语音 方面 服务



In [41]:
docres = lda.fit_transform(tf)
print(docres.shape)  # 主题属于哪一类
print(lda.components_)  # 说明主题的分布情况



(1024, 5)
[[7.06654583e+00 1.85923145e+02 7.35586109e+01 ... 1.10826371e+02
  6.86279440e+01 7.24956089e+01]
 [2.00612107e-01 1.04245168e+02 5.25730649e+01 ... 6.31098706e+01
  5.19419211e+00 2.86925379e+00]
 [2.06925489e-01 4.35577137e+01 8.45386087e+00 ... 1.94425607e+01
  9.92578109e+01 9.61467284e+01]
 [2.49794235e+02 5.90533038e+02 1.37608118e+02 ... 2.11722667e-01
  6.65750415e+00 3.26140189e+01]
 [2.02685324e-01 5.66762711e+01 4.83600405e+01 ... 2.31630154e-01
  1.84168250e+01 1.26504752e+01]]


In [42]:
# 打印类别结果
print("shape: {}".format(docres.shape))
for i in range(docres.shape[0]):  
    #print(doc_topic[i])
    topic_most_pr = docres[i].argmax()  
    label.append(topic_most_pr)  
    print("doc: {} topic: {}".format(i, topic_most_pr))  
print(label)

shape: (1024, 5)
doc: 0 topic: 2
doc: 1 topic: 0
doc: 2 topic: 2
doc: 3 topic: 2
doc: 4 topic: 2
doc: 5 topic: 2
doc: 6 topic: 0
doc: 7 topic: 2
doc: 8 topic: 2
doc: 9 topic: 0
doc: 10 topic: 2
doc: 11 topic: 2
doc: 12 topic: 2
doc: 13 topic: 0
doc: 14 topic: 0
doc: 15 topic: 2
doc: 16 topic: 3
doc: 17 topic: 3
doc: 18 topic: 1
doc: 19 topic: 2
doc: 20 topic: 3
doc: 21 topic: 3
doc: 22 topic: 2
doc: 23 topic: 3
doc: 24 topic: 2
doc: 25 topic: 2
doc: 26 topic: 3
doc: 27 topic: 2
doc: 28 topic: 1
doc: 29 topic: 1
doc: 30 topic: 4
doc: 31 topic: 0
doc: 32 topic: 2
doc: 33 topic: 0
doc: 34 topic: 0
doc: 35 topic: 2
doc: 36 topic: 1
doc: 37 topic: 2
doc: 38 topic: 2
doc: 39 topic: 2
doc: 40 topic: 2
doc: 41 topic: 2
doc: 42 topic: 3
doc: 43 topic: 2
doc: 44 topic: 1
doc: 45 topic: 3
doc: 46 topic: 3
doc: 47 topic: 0
doc: 48 topic: 2
doc: 49 topic: 0
doc: 50 topic: 2
doc: 51 topic: 2
doc: 52 topic: 3
doc: 53 topic: 2
doc: 54 topic: 0
doc: 55 topic: 2
doc: 56 topic: 1
doc: 57 topic: 0
doc: 58

In [43]:
import pyLDAvis
import pyLDAvis.sklearn
pyLDAvis.enable_notebook()
pyLDAvis.sklearn.prepare(lda, tf, tf_vectorizer)

In [44]:
#使用LDA进行模型训练，得到每个文档的主题分布，即每个文档包含的每个主题的权重，此权重即可作为特征，然后将此特征进行svm训练，即可进行后续的文本的分类