In [1]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.manifold import TSNE
from sklearn.cluster import KMeans
from data_utils import *
import jieba
import matplotlib.pyplot as plt

  from ._conv import register_converters as _register_converters


## 加载语料

In [2]:
#bigram 分词
segment_bigram = lambda text:" ".join([word + text[idx + 1] for idx,word in enumerate(text) if idx < len(text) - 1])
#jieba分词
segment_jieba = lambda text:" ".join(jieba.cut(text))
#加载语料
corpus = []
with open("test.txt","r",encoding = "utf-8")as f:
    for line in f:
        #去掉标点符号
        corpus.append(line.strip())
        

## 计算tf-idf权重

In [3]:
#计算tf-idf设为权重
vectorizer = CountVectorizer()
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
"""
获取词袋模型中的所有词语特征
如果特征数量非常多的情况下可以按照权重降维
"""
word = vectorizer.get_feature_names()

In [4]:
print("word feature lenth:{}".format(len(word)))
#导出权重
tfidf_weight = tfidf.toarray()

word feature lenth:25321


将文本向量化的方式其实有很多，最简单的就是one-hot(独热编码)方式，在之前的文章中也讲过这种方式的实现原理，如果不用TF-IDF设置权重，那么，后面进行文本向量化之后的矩阵值只有0、1两种，词与词之间的权重没有进行区分，所以用这种方式设置权重。



## 文本聚类

In [5]:
# 指定成7个分类
kmeans = KMeans(n_clusters=7)
kmeans.fit(tfidf_weight)
#打印出每个簇的中心
print(kmeans.cluster_centers_)
for index,label in enumerate(kmeans.labels_,1):
    print("index:{},label:{}".format(index,label))
# 样本距其最近的聚类中心的平方距离之和，用来评判分类的准确度，值越小越好
# k-means的超参数n_clusters可以通过该值来评估
print("inertia: {}".format(kmeans.inertia_))

[[ 3.90818955e-05  3.19550620e-05  1.88675755e-04 ...  5.97824468e-05
   6.66756155e-05  6.94526546e-05]
 [ 6.77626358e-21  6.77626358e-21  0.00000000e+00 ... -1.35525272e-20
   0.00000000e+00  0.00000000e+00]
 [-4.06575815e-20 -3.38813179e-20  0.00000000e+00 ... -2.03287907e-20
   2.71050543e-20  9.48676901e-20]
 ...
 [ 4.74338450e-20 -6.09863722e-20  3.79470760e-19 ... -2.03287907e-20
   8.13151629e-20  1.49077799e-19]
 [ 6.77626358e-21  6.77626358e-21  0.00000000e+00 ... -6.77626358e-21
   0.00000000e+00  0.00000000e+00]
 [ 5.42101086e-20 -6.09863722e-20  5.42101086e-19 ... -2.03287907e-20
   8.13151629e-20  6.77626358e-20]]
index:1,label:0
index:2,label:0
index:3,label:0
index:4,label:0
index:5,label:0
index:6,label:0
index:7,label:0
index:8,label:0
index:9,label:0
index:10,label:0
index:11,label:0
index:12,label:0
index:13,label:0
index:14,label:0
index:15,label:0
index:16,label:0
index:17,label:0
index:18,label:0
index:19,label:0
index:20,label:0
index:21,label:0
index:22,label:0

index:473,label:0
index:474,label:0
index:475,label:0
index:476,label:0
index:477,label:0
index:478,label:0
index:479,label:0
index:480,label:0
index:481,label:0
index:482,label:0
index:483,label:0
index:484,label:0
index:485,label:0
index:486,label:0
index:487,label:0
index:488,label:0
index:489,label:0
index:490,label:0
index:491,label:0
index:492,label:0
index:493,label:0
index:494,label:0
index:495,label:0
index:496,label:0
index:497,label:0
index:498,label:0
index:499,label:0
index:500,label:0
index:501,label:0
index:502,label:0
index:503,label:0
index:504,label:0
index:505,label:0
index:506,label:0
index:507,label:0
index:508,label:0
index:509,label:0
index:510,label:0
index:511,label:0
index:512,label:0
index:513,label:0
index:514,label:0
index:515,label:0
index:516,label:0
index:517,label:0
index:518,label:0
index:519,label:0
index:520,label:0
index:521,label:0
index:522,label:0
index:523,label:4
index:524,label:0
index:525,label:0
index:526,label:0
index:527,label:0
index:528,

index:2858,label:0
index:2859,label:0
index:2860,label:0
index:2861,label:0
index:2862,label:0
index:2863,label:0
index:2864,label:0
index:2865,label:0
index:2866,label:0
index:2867,label:0
index:2868,label:0
index:2869,label:1
index:2870,label:0
index:2871,label:0
index:2872,label:0
index:2873,label:0
index:2874,label:0
index:2875,label:0
index:2876,label:0
index:2877,label:0
index:2878,label:0
index:2879,label:0
index:2880,label:0
index:2881,label:0
index:2882,label:0
index:2883,label:0
index:2884,label:0
index:2885,label:0
index:2886,label:0
index:2887,label:0
index:2888,label:0
index:2889,label:0
index:2890,label:0
index:2891,label:0
index:2892,label:0
index:2893,label:0
index:2894,label:0
index:2895,label:0
index:2896,label:0
index:2897,label:0
index:2898,label:0
index:2899,label:0
index:2900,label:0
index:2901,label:0
index:2902,label:0
index:2903,label:0
index:2904,label:0
index:2905,label:0
index:2906,label:0
index:2907,label:0
index:2908,label:0
index:2909,label:0
index:2910,l

index:4545,label:0
index:4546,label:0
index:4547,label:0
index:4548,label:0
index:4549,label:0
index:4550,label:0
index:4551,label:0
index:4552,label:0
index:4553,label:0
index:4554,label:0
index:4555,label:0
index:4556,label:0
index:4557,label:0
index:4558,label:0
index:4559,label:0
index:4560,label:0
index:4561,label:0
index:4562,label:0
index:4563,label:0
index:4564,label:0
index:4565,label:0
index:4566,label:0
index:4567,label:0
index:4568,label:0
index:4569,label:0
index:4570,label:0
index:4571,label:0
index:4572,label:0
index:4573,label:0
index:4574,label:0
index:4575,label:0
index:4576,label:2
index:4577,label:4
index:4578,label:0
index:4579,label:0
index:4580,label:0
index:4581,label:0
index:4582,label:0
index:4583,label:0
index:4584,label:0
index:4585,label:0
index:4586,label:0
index:4587,label:2
index:4588,label:0
index:4589,label:0
index:4590,label:0
index:4591,label:0
index:4592,label:6
index:4593,label:0
index:4594,label:0
index:4595,label:0
index:4596,label:0
index:4597,l

index:6894,label:0
index:6895,label:0
index:6896,label:0
index:6897,label:0
index:6898,label:0
index:6899,label:0
index:6900,label:0
index:6901,label:0
index:6902,label:0
index:6903,label:0
index:6904,label:0
index:6905,label:0
index:6906,label:0
index:6907,label:0
index:6908,label:0
index:6909,label:0
index:6910,label:0
index:6911,label:0
index:6912,label:0
index:6913,label:0
index:6914,label:0
index:6915,label:0
index:6916,label:0
index:6917,label:0
index:6918,label:0
index:6919,label:0
index:6920,label:0
index:6921,label:0
index:6922,label:0
index:6923,label:0
index:6924,label:0
index:6925,label:0
index:6926,label:0
index:6927,label:0
index:6928,label:0
index:6929,label:0
index:6930,label:0
index:6931,label:0
index:6932,label:0
index:6933,label:0
index:6934,label:0
index:6935,label:0
index:6936,label:0
index:6937,label:0
index:6938,label:0
index:6939,label:0
index:6940,label:0
index:6941,label:0
index:6942,label:0
index:6943,label:0
index:6944,label:0
index:6945,label:0
index:6946,l

index:7470,label:0
index:7471,label:0
index:7472,label:0
index:7473,label:0
index:7474,label:0
index:7475,label:0
index:7476,label:0
index:7477,label:0
index:7478,label:0
index:7479,label:0
index:7480,label:0
index:7481,label:4
index:7482,label:0
index:7483,label:0
index:7484,label:0
index:7485,label:0
index:7486,label:0
index:7487,label:0
index:7488,label:0
index:7489,label:0
index:7490,label:0
index:7491,label:0
index:7492,label:0
index:7493,label:0
index:7494,label:0
index:7495,label:0
index:7496,label:0
index:7497,label:0
index:7498,label:0
index:7499,label:0
index:7500,label:0
index:7501,label:0
index:7502,label:0
index:7503,label:0
index:7504,label:0
index:7505,label:0
index:7506,label:0
index:7507,label:0
index:7508,label:0
index:7509,label:0
index:7510,label:0
index:7511,label:0
index:7512,label:0
index:7513,label:0
index:7514,label:0
index:7515,label:0
index:7516,label:0
index:7517,label:0
index:7518,label:4
index:7519,label:0
index:7520,label:0
index:7521,label:0
index:7522,l

index:9744,label:0
index:9745,label:0
index:9746,label:0
index:9747,label:0
index:9748,label:0
index:9749,label:0
index:9750,label:0
index:9751,label:0
index:9752,label:0
index:9753,label:0
index:9754,label:0
index:9755,label:0
index:9756,label:0
index:9757,label:0
index:9758,label:0
index:9759,label:0
index:9760,label:0
index:9761,label:0
index:9762,label:0
index:9763,label:0
index:9764,label:0
index:9765,label:0
index:9766,label:0
index:9767,label:0
index:9768,label:0
index:9769,label:0
index:9770,label:0
index:9771,label:0
index:9772,label:0
index:9773,label:0
index:9774,label:0
index:9775,label:0
index:9776,label:0
index:9777,label:0
index:9778,label:0
index:9779,label:0
index:9780,label:0
index:9781,label:0
index:9782,label:0
index:9783,label:0
index:9784,label:0
index:9785,label:0
index:9786,label:0
index:9787,label:0
index:9788,label:0
index:9789,label:0
index:9790,label:0
index:9791,label:0
index:9792,label:1
index:9793,label:0
index:9794,label:0
index:9795,label:0
index:9796,l

index:11696,label:0
index:11697,label:0
index:11698,label:0
index:11699,label:0
index:11700,label:0
index:11701,label:0
index:11702,label:0
index:11703,label:0
index:11704,label:0
index:11705,label:0
index:11706,label:0
index:11707,label:0
index:11708,label:0
index:11709,label:0
index:11710,label:2
index:11711,label:0
index:11712,label:0
index:11713,label:0
index:11714,label:0
index:11715,label:0
index:11716,label:6
index:11717,label:0
index:11718,label:0
index:11719,label:0
index:11720,label:0
index:11721,label:0
index:11722,label:0
index:11723,label:0
index:11724,label:0
index:11725,label:0
index:11726,label:0
index:11727,label:0
index:11728,label:0
index:11729,label:0
index:11730,label:0
index:11731,label:0
index:11732,label:0
index:11733,label:0
index:11734,label:0
index:11735,label:0
index:11736,label:0
index:11737,label:0
index:11738,label:0
index:11739,label:0
index:11740,label:0
index:11741,label:0
index:11742,label:0
index:11743,label:0
index:11744,label:0
index:11745,label:0


## 可视化

In [6]:
# 使用T-SNE算法对权重进行降维，准确度比PCA算法高，但是耗时长
tsne = TSNE(n_components = 2)
decomposition_data = tsne.fit_transform(tfidf_weight)
x = []
y = []
for i in decomposition_data:
    x.append(i[0])
    y.append(i[1])
fig = plt.fit_transform(figsize = (10,10))
ax = plt.axes()
plt.scatter(x,y,c = kmeans.labels_,marker = "x")
plt.xticks(())
plt.yticks(())
plt.savefig('/.sample.pbg',aspect = 1)

AttributeError: module 'matplotlib.pyplot' has no attribute 'fit_transform'