In [19]:
import pandas as pd
df = pd.read_csv("datascience.csv", encoding='gb18030')

In [21]:
df.head()

Unnamed: 0,title,author,content
0,大数据产业迎政策暖风 最新大数据概念股一览,财经热点扒客,大数据产业发展受到国家重视，而大数据已经上升为国家战略，未来发展前景很广阔。大数据产业“十三...
1,Google发布机器学习平台Tensorflow游乐场～带你一起玩神经网络！,硅谷周边,点击上方“硅谷周边”关注我，收到最新的文章哦！昨天，Google发布了Tensorflow游...
2,李克强：中国大数据和云计算产业是开放的,苏州高新区金融办,国务院总理李克强当地时间20日上午在纽约下榻饭店同美国经济、金融、智库、媒体等各界人士座谈，...
3,全峰集团持续挖掘大数据,快递物流网,2016年，全峰集团持续挖掘大数据、云计算、“互联网+”等前沿技术和物流快递的融合，并通过优...
4,第366期【微理工】贵州理工学院召开大数据分析与应用专题分享会,贵州理工学院,贵州理工学院召开大数据分析与应用专题分享会 借“创响中国”贵安站巡回接力活动暨2016贵安大...


In [22]:
df.shape

(1024, 3)

In [23]:
import jieba


In [24]:
def chinese_word_cut(mytext):
    return " ".join(jieba.cut(mytext))

In [25]:
df["content_cutted"] = df.content.apply(chinese_word_cut)

In [26]:
df.content_cutted.head()

0    大 数据 产业 发展 受到 国家 重视 ， 而 大 数据 已经 上升 为 国家 战略 ， 未...
1    点击 上方 “ 硅谷 周边 ” 关注 我 ， 收到 最新 的 文章 哦 ！ 昨天 ， Goo...
2    国务院 总理 李克强 当地 时间 20 日 上午 在 纽约 下榻 饭店 同 美国 经济 、 ...
3    2016 年 ， 全峰 集团 持续 挖掘 大 数据 、 云 计算 、 “ 互联网 + ” 等...
4    贵州 理工学院 召开 大 数据分析 与 应用 专题 分享 会   借 “ 创响 中国 ” 贵...
Name: content_cutted, dtype: object

In [27]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
n_features = 1000

In [28]:
tf_vectorizer = CountVectorizer(strip_accents = 'unicode',
                                max_features=n_features,
                                stop_words='english',
                                max_df = 0.5,
                                min_df = 10)
tf = tf_vectorizer.fit_transform(df.content_cutted)

In [29]:
from sklearn.decomposition import LatentDirichletAllocation


In [30]:
n_topics = 15
lda = LatentDirichletAllocation(n_topics=n_topics, max_iter=50,
                                learning_method='online',
                                learning_offset=50.,
                                random_state=0)


In [31]:
lda.fit(tf)




LatentDirichletAllocation(batch_size=128, doc_topic_prior=None,
             evaluate_every=-1, learning_decay=0.7,
             learning_method='online', learning_offset=50.0,
             max_doc_update_iter=100, max_iter=50, mean_change_tol=0.001,
             n_components=10, n_jobs=1, n_topics=15, perp_tol=0.1,
             random_state=0, topic_word_prior=None,
             total_samples=1000000.0, verbose=0)

In [32]:
def print_top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic #%d:" % topic_idx)
        print(" ".join([feature_names[i]
                        for i in topic.argsort()[:-n_top_words - 1:-1]]))
    print()


In [33]:
n_top_words = 20
tf_feature_names = tf_vectorizer.get_feature_names()
print_top_words(lda, tf_feature_names, n_top_words)

Topic #0:
用户 这个 产品 企业 就是 客户 如果 可能 很多 公司 一些 价值 什么 如何 数据分析 他们 自己 预测 没有 营销
Topic #1:
市场 大众 投资 投资者 汽车 销售 2016 品牌 销量 目前 中国 来看 美国 资产 资金 增长 未来 机会 选择 10
Topic #2:
数据分析 工作 项目 数据挖掘 经验 业务 公司 能力 http 相关 com 产品 data 运营 专业 行业 团队 案例 分析师 咨询
Topic #3:
网络 用户 内容 互联网 网站 电影 平台 视频 设计 保护 科研 时代 产业 中国 投资 类型 制作 市场 规模 研究
Topic #4:
系统 存储 数据库 处理 采集 使用 支持 hadoop 数据仓库 查询 平台 计算 设备 实现 基于 工具 用户 架构 功能 实时
Topic #5:
可视化 使用 这个 模型 如果 就是 函数 不同 参数 图表 计算 方法 训练 可能 简单 图片 但是 特征 一些 然后
Topic #6:
算法 方法 分类 特征 检索 模型 样本 变量 回归 预测 距离 聚类 专利 信用卡 案件 关系 规则 结果 法院 基于
Topic #7:
企业 管理 金融 服务 政府 研究 医疗 安全 资源 建立 社会 互联网 建设 开放 实现 信息化 国家 创新 能力 平台
Topic #8:
人工智能 人类 机器人 他们 已经 可能 未来 智能 机器 这个 公司 现在 没有 工作 领域 就是 研究 但是 不是 世界
Topic #9:
中国 增长 城市 人口 行业 2016 2015 同比 用户 报告 其中 地区 全国 消费者 达到 显示 旅游 消费 市场 亿元
Topic #10:
企业 公司 领域 产业 智能 服务 平台 中国 人工智能 创新 行业 互联网 科技 工业 创业 市场 机器人 计算 百度 产品
Topic #11:
孩子 教育 学生 学习 自己 老师 学校 什么 成绩 家长 专业 知识 他们 没有 课程 如果 能力 中国 这个 很多
Topic #12:
电子 应当 或者 新闻 收集 规定 提取 通知 相关 是否 记录 无法 气象 审查 要求 文件 关于 远程 人员 原始
Topic #13:
10 阅读 2016 30 00 20 11 12 点击 中国 14 15

In [34]:
import pyLDAvis
import pyLDAvis.sklearn
pyLDAvis.enable_notebook()
pyLDAvis.sklearn.prepare(lda, tf, tf_vectorizer)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.


  return pd.concat([default_term_info] + list(topic_dfs))
