# 文本数据的读取与处理

### 读取数据

In [11]:
import pandas as pd
df = pd.read_excel('新闻.xlsx')
df.head()

Unnamed: 0,关键词,标题,网址,来源,时间
0,华能信托,信托公司2019年上半年经营业绩概览,http://www.financialnews.com.cn/jrsb_m/xt/zx/2...,中国金融新闻网,2019年07月23日 00:00
1,华能信托,首单信托型企业ABS获批,http://www.jjckb.cn/2018-10/23/c_137552198.htm,经济参考网,2018年10月23日 12:21
2,华能信托,华能贵诚信托孙磊:金融科技助力打造开放信托生态,https://baijiahao.baidu.com/s?id=1639276579449...,同花顺财经,2019年07月17日 10:49
3,华能信托,华能贵诚信托孙磊:金融科技已经成为信托行业重要的基础设施,https://finance.qq.com/a/20190716/007898.htm,腾讯财经,2019年07月16日 18:53
4,华能信托,格力电器股权转让意向方闭门开会 华能信托赫然在列,https://finance.sina.com.cn/trust/roll/2019-05...,新浪,2019年05月22日 22:53


### 中文分词

In [12]:
import jieba
words = []
for i, row in df.iterrows():
    word = jieba.cut(row['标题'])
    result = ' '.join(word) 
    words.append(result)

In [13]:
words[0:3]

['信托公司 2019 年 上半年 经营 业绩 概览',
 '首单 信托 型 企业 ABS 获批',
 '华能 贵 诚信 托孙磊 : 金融 科技 助力 打造 开放 信托 生态']

### 文字转数字：通过建立词频矩阵构造特征变量

In [21]:
# 将之前所有的新闻标题进行文本向量化并通过pandas展示
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

# 文本向量化
vect = CountVectorizer()
X = vect.fit_transform(words)  # 将分词后的内容文本向量化
X = X.toarray()

# 查看文本向量化的结果
words_bag2 = vect.get_feature_names()
df = pd.DataFrame(X, columns=words_bag2)
df.head()



Unnamed: 0,00700,03,04,08s,09,10,100,11,12,150,...,黄萍,黄金,黑客,黑灰产,黑金,黑马,鼓手,鼻祖,齐聚,龙风
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


# 模型搭建与使用

### 通过KMeans算法进行聚类分群

In [22]:
from sklearn.cluster import KMeans
kms = KMeans(n_clusters=10, random_state=123)
k_data = kms.fit_predict(df)

In [23]:
print(k_data)

[7 8 2 2 2 2 2 8 8 2 2 2 2 8 2 7 2 2 2 2 2 8 2 2 8 8 2 8 2 8 2 2 2 7 2 3 8
 2 6 2 2 2 7 2 3 8 2 6 2 2 2 7 2 3 8 2 6 2 2 2 7 2 3 8 2 6 2 2 2 7 2 3 8 2
 6 2 2 2 7 2 3 8 2 6 2 2 2 7 2 3 8 2 6 8 8 8 8 8 8 5 8 8 8 8 7 8 7 8 8 8 8
 8 8 8 8 8 8 8 7 8 7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 7 8 8 8
 8 8 8 8 8 8 8 8 8 8 8 7 7 8 7 7 8 8 8 8 8 7 8 8 8 8 8 8 7 8 8 8 8 8 8 8 7
 7 8 8 8 8 7 7 7 8 8 8 8 7 8 8 8 8 7 8 8 7 8 8 8 7 8 8 8 8 8 8 8 8 8 8 8 8
 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 7 8 8 8
 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 7 8 8 8 7 8 8 8 8 8 8 8 8 8 8
 8 8 8 8 8 8 8 8 8 8 8 7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8
 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8
 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 7 1 1 1 1 1 1 1 8 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 8 8 8 8 8 7 8 8 8 8 8 8 8 8 8 7 8
 8 8 8 8 8 8 8 8 8 8 8 8 

In [24]:
import numpy as np
words_ary = np.array(words)
print(words_ary[k_data == 1])

['数据 科学 哪家 强 ? Python 和 R 的 对决   -   博客园 新闻 手机 版'
 '数字化 阅读 空间   |   怎么 用 Python 迅速 获取 网站 数据 ?'
 '今天 破解 了 压缩文件 的 密码 : 使用 python 轻松 编写 破解 程序'
 '程序员 如何 利用   Python   解决 女朋友 不看 天气 的 坏习惯 ?'
 '向 Excel 说 再见 , 神级 编辑器 统一 表格 与 Python'
 '谷歌 大脑 实习生 做出 Python 排版 工具 , 在线 运行 出 结果'
 '懂 Excel 就 能 轻松 入门 Python 数据分析 包 pandas ( 三 ) : 制作 成绩 条'
 '还 在 花钱 建网站 吗 ? 教你用 Python 把 github 变身 个人 网站'
 '现在 的 孩子 们 都 在 学 编程 , 是 学 C语言 还是 Python ?'
 '吴恩达 的 TensorFlow 实践 课 上线 , 有 Python 基础 就 能 听 , 4 个 月 学完'
 '让 Python 提速 超过 30 倍 的 必杀技 : Cython' '三体 究竟 有 多 可怕 ? 用 Python 建模 来 深度 了解'
 '再见 Excel ! 我 开源 了 一款 与 Python 深度 集成 的 神器 级 IDE'
 'PyTorch - Transformers : 最 先进 的 自然语言 处理 库 ( 附带 python 代码 )'
 '今日 芯声 | 要 重构 ? Python 之父 考虑 重构 Python 解释器' 'Python 之父 考虑 重构 Python 解释器'
 'Python 之父 考虑 重构 Python 解释器' 'vn . py   2.0 . 6   发布 , Python   量化 交易 框架'
 '微软 官方 上线   Python   教程 《 Develop   with   Python   on   Windows 》'
 '微软 上线 官方   Python   教程' 'Python 传奇 : 30 年 崛起 之 路'
 '如何 在 Windows 上 做 Python 开发 ? 微软 出 了 官方 教程'
 'Python   为何 能 坐 稳   A

### 通过DBSCAN算法进行聚类分群

In [25]:
from sklearn.cluster import DBSCAN
dbs = DBSCAN(eps=1, min_samples=3)
d_data = dbs.fit_predict(df)

In [26]:
print(d_data)

[-1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1  0  1  2  3  4  5  6  7  8  0  1  2  3  4  5  6  7  8
  0  1  2  3  4  5  6  7  8  0  1  2  3  4  5  6  7  8  0  1  2  3  4  5
  6  7  8  0  1  2  3  4  5  6  7  8  0  1  2  3  4  5  6  7  8 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1

# 模型优化（利用余弦相似度进行优化）

In [27]:
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarities  = cosine_similarity(df)
print(cosine_similarities)

[[1.         0.         0.         ... 0.         0.         0.        ]
 [0.         1.         0.14142136 ... 0.         0.         0.        ]
 [0.         0.14142136 1.         ... 0.         0.         0.        ]
 ...
 [0.         0.         0.         ... 1.         0.18490007 0.10050378]
 [0.         0.         0.         ... 0.18490007 1.         0.0836242 ]
 [0.         0.         0.         ... 0.10050378 0.0836242  1.        ]]


In [28]:
from sklearn.cluster import KMeans
kms = KMeans(n_clusters=10, random_state=123)
k_data = kms.fit_predict(cosine_similarities)

In [29]:
print(k_data)

[1 3 3 3 3 3 3 1 1 3 3 3 3 3 3 3 3 3 3 3 3 1 3 3 1 1 3 1 3 3 3 3 3 3 3 3 3
 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 1 0 0 0 0 1 1 8 8 8 8 1 8 8 8 8 8 8 8 8 8 8 8 8 8 1 8 8 8 8 8 8 8 8
 8 8 8 8 8 8 8 8 8 8 8 8 8 8 1 8 8 1 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8
 8 8 8 1 8 8 8 1 8 8 8 8 8 8 8 8 1 8 8 8 8 8 8 8 8 8 8 8 8 1 8 8 8 8 7 1 1
 7 7 1 7 7 7 1 1 1 7 1 7 7 7 1 7 7 7 7 1 7 7 7 7 7 1 7 1 7 1 1 7 1 1 7 7 7
 7 7 1 7 1 1 1 1 7 7 7 7 1 7 7 7 1 7 7 7 7 7 7 7 7 7 7 7 7 7 1 7 7 7 7 1 1
 7 7 1 7 7 7 7 7 7 7 7 7 1 7 7 7 7 7 7 7 7 1 7 4 4 4 4 4 4 4 1 4 4 4 4 4 4
 4 4 4 4 4 4 4 4 4 0 4 4 4 4 4 4 4 4 4 0 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 1 1 1 1 1 1 8 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 

In [38]:
# 查看分类结果
import numpy as np
words_ary = np.array(words)
print(words_ary[k_data == 5])

['来 腾讯 音乐 娱乐 蔡 徐坤 全新 EP 派对 探寻 不 一 《 YOUNG 》 的 青春 答案'
 'TGC 腾讯 数字 文创 : 腾讯 的 文化 抱负'
 '中国 盈利 最高 的 公司 , 不是 阿里巴巴 , 也 不是 腾讯 , 第一名 实至名归'
 '阿里巴巴 支付宝 大 出行 板块 用户 达 4 亿 , 腾讯 要 慌 了 吗 ?'
 '阿里巴巴 与 腾讯 : 两大 巨头 竞争 升级 , 纷纷 斥 巨资 抢占 这个 新 领域 !'
 '全球 《 财富 》 榜 再次 更新 , 阿里巴巴 腾讯 被 反超 ? 京东 成 最大 黑马 !'
 '华为 收入 超过 阿里巴巴 腾讯 总和   任正非 : 还是 赚 多 了'
 '腾讯 云 进入 日本 市场   今年 目标 是 使 国际 营收 增长 至多 5 倍'
 '湖南省政府 与 腾讯 公司 签署 深化 合作 框架 协议' '腾讯 ( 00700 ) 需要 喜茶'
 '腾讯 零 信任 安全 解决方案 亮相 CSS   开启 企业 安全 新 时代'
 '态 ℃ | 多 闪兵败 后 进攻 百度   今日 头条 走上 了 腾讯 老路' 'TGC 腾讯 数字 文创 : 腾讯 的 文化 抱负'
 '腾讯 优图 提出 半 监督 对抗 单目 深度 估计 , 被 人工智能 顶级 期刊 TPAMI 收录'
 '腾讯 启动 愿景 演讲 : 文体 科学 多位 大 咖与 青年人 跨界 交流 梦想'
 '腾讯 策略 协作 型   AI 「 绝悟 」 升级 至 王者 荣耀 电竞 职业 水平'
 '腾讯 Nintendo   Switch ? 媒体 见面会   首次 分享 国行 引进 新进展'
 '港股 通北水 追捧 建行 、 腾讯 、 工行 、 万洲 、 神华' '打击 网络 黑灰产 ! 滴滴 与 腾讯 成立 互联网安全 联合 实验室'
 '三倍 原价 拿下 转播权   腾讯 续约 “ 流量 巨星 ” NBA'
 '腾讯 众创 空间 延安 开园 , 红色 文创 旅游 迎来 发展 新 契机'
 '来 腾讯 音乐 娱乐 蔡 徐坤 全新 EP 派对 探寻 不 一 《 YOUNG 》 的 青春 答案' '腾讯 音乐 “ 等 风来 ”'
 '刷 乘车 码 坐 公交   腾讯 携手 昆明 打造 智慧 出行 新体验'
 '网 曝 《 我要 打篮球 》 播出 