In [1]:
import pandas as pd
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

In [2]:
data = pd.read_excel('data.xlsx')
x = data.loc[:, '留言主题']  # 对留言主题进行文本聚类分析
x

0              A3区一米阳光婚纱艺术摄影是否合法纳税了？
1           咨询A6区道路命名规划初步成果公示和城乡门牌问题
2            反映A7县春华镇金鼎村水泥路、自来水到户的问题
3             A2区黄兴路步行街大古道巷住户卫生间粪便外排
4       A市A3区中海国际社区三期与四期中间空地夜间施工噪音扰民
                    ...             
4321           A市经济学院寒假过年期间组织学生去工厂工作
4322              A市经济学院组织学生外出打工合理吗？
4323                    A市经济学院强制学生实习
4324                  A市经济学院强制学生外出实习
4325                A市经济学院体育学院变相强制实习
Name: 留言主题, Length: 4326, dtype: object

In [3]:
# 停用词加载
stopwords = []
with open('stopwords.txt', encoding='UTF-8') as sf:
    for line in sf.readlines():
        stopwords.append(line.strip())

In [4]:
# 分词处理
def text_cut(in_text):
    words = jieba.lcut(in_text)
    cut_text = ' '.join([w for w in words if w not in stopwords and len(w) > 1])
    return cut_text

In [5]:
x_cut_word = []  # x进行分词之后的结果
for i in x:
    x_cut_word.append(text_cut(i))

x_cut_word.remove('')
x_cut_word

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\duanm\AppData\Local\Temp\jieba.cache
Loading model cost 0.716 seconds.
Prefix dict has been built successfully.


['A3 一米阳光 婚纱 艺术摄影 合法 纳税',
 '咨询 A6 道路 命名 规划 初步 成果 公示 城乡 门牌',
 'A7 春华 镇金鼎村 水泥路 自来水 到户',
 'A2 黄兴路 步行街 古道 住户 卫生间 粪便 外排',
 'A3 中海 国际 社区 三期 四期 空地 夜间 施工 噪音 扰民',
 'A3 区麓 社区 单方面 改变 明珠 小区 架空层 性质',
 'A2 区富 新村 房产 性质',
 '地铁 违规 用工 质疑',
 '公交车 随意 变道 通行',
 'A3 保利 谷林语 桐梓 坡路 与麓 松路 交汇处 地铁 凌晨 施工 扰民',
 'A7 特立 东四 路口 高峰 太堵 建议 调整 信号灯 配时',
 'A3 青青 家园 小区 乐果 零食 炒货 公共 通道 摆放 空调 扰民',
 '拆除 聚美龙楚 西地省 商学院 宿舍 安装 变压器 请求',
 '市利保 壹号 公馆 项目 夜间 噪声 扰民',
 '地铁 号线 星沙 大道 地铁 出入口 设置 不合理',
 'A4 北辰 小区 非法 改商 何时能 解决',
 'K3 乡村 医生 卫生室 执业 许可证',
 'A7 春华 石塘 铺村 党员 家开 麻将馆',
 '咨询 异地 办理 出国 签证',
 '投诉 温斯顿 英语 培训 学校 拖延 退费',
 'A6 区乾源 国际 广场 停车场 违章 乱建 现象',
 'A7 时代 星城 非法经营 家庭旅馆',
 'A2 区佳兆业 水新 小区 垃圾 无人',
 '沙坪 街上 有无 理疗 骗取 老人 钱财',
 '市德鸿 餐饮店 拖欠工资 员工 维权',
 '市长 房云 时代 小区 三期 要建 垃圾站',
 '市松雅湖 东方 航标 楼有 传销 窝点',
 '希望 市政府 出台 解决 落实 退休 教师 各项 补贴 长效 办法',
 '举报 市仕弘 教育 培训 机构 涉嫌 欺诈',
 'A2 区政府 东门 路段 改装车 飙车 真的 扰民',
 '依法 解决 A7 黄花镇 梁坪村 黄泥 山地 建房',
 'A7 橄榄 小区 孩子 到泉塘 小学 上学',
 '投诉 滨河 广铁 职工 购房 霸王',
 '万家 南路 丽发 新城 居民区 搅拌站 扰民',
 '市星沙 城区 旧城区 棚户 改造 项目',
 'A2 先锋 派出所 办个 签证 拒收 现金',
 'A3 区谷园 3

In [6]:
# tfidf提取词特征
vectorizer = TfidfVectorizer(min_df=2,
                             ngram_range=(1, 2),
                             strip_accents='unicode',
                             norm='l2')

X = vectorizer.fit_transform(x_cut_word)
X.toarray()

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [None]:
# 对提取的特征矩阵进行kmeans聚类
num_clusters = 390
birch_cluster = KMeans(n_clusters=num_clusters)
birch_result = birch_cluster.fit_predict(X)
print("Predicting result: ", birch_result)

