# 对话聚类

## 1. 数据清洗
- 将每段对话合并为一行
- 正则表达式替换特定字符串
- 分词
- 删除停用词（包括长度为1的词）

In [53]:
import re
import jieba
import logging
import time

raw_file = 'chat-short-20w.txt'
stop_wrods_file = 'stop_words.txt'

jieba.setLogLevel(logging.INFO)
logging.basicConfig(format='%(message)s', level=logging.DEBUG)

def substitute(sent):
    exps = [
        r'#E-\w\[数字x\]|~O\(∩_∩\)O/~',
        r'http[s]?://[a-zA-Z0-9|\.|/]+',
        r'http[s]?://[a-zA-Z0-9\./-]*\[链接x\]',
        r'\[ORDERID_[0-9]+\]',
        r'\[日期x\]',
        r'\[时间x\]',
        r'\[金额x\]',
        r'\[站点x\]',
        r'\[数字x\]',
        r'\[地址x\]',
        r'\[姓名x\]',
        r'\[邮箱x\]',
        r'\[电话x\]',
        r'\[商品快照\]',
        r'<s>',
        r'\s+',
        r'[a-z|0-9]+'
        "[\s+\.\!\/_,$%^:*(+\"\')]+",
        "[+——()?:【】‘’“”`！，。？、~@#￥%……&*（）]+"
    ]
    for exp in exps:
        sent = re.sub(exp, ' ', sent)
    return sent

logging.info('数据清洗开始...')

# 读取原始数据文件
with open(raw_file, encoding='utf-8') as f:
    data = f.read().strip().split('\n\n')  # '\n\n'分隔每段对话
    
# 将每段对话合并为一行
corpus = []
for conv_raw in data:
    conv = conv_raw.strip().split('\n')  # '\n'分隔每句话
    conv = list(map(lambda x: x.strip()[2:], conv))  # 去除开头的0/1标记
    corpus.append(' '.join(conv))    
logging.info('Step1: 合并完成 (共%d段对话)' % len(corpus))


# 正则表达式替换特定字符串
corpus = list(map(substitute, corpus))
logging.info('Setp2: 正则表达式替换完成')

# 分词
t = time.time()
corpus = list(map(jieba.cut, corpus))
logging.info('Step3: 分词完成')

# 删除停用词
logging.info('Step4: 删除停用词开始...')
with open(stop_wrods_file, encoding='utf-8') as f:
    stop_words = f.read().strip().split('\n')
    
t = time.time()
for i in range(len(corpus)):
    tokens = []
    for token in corpus[i]:
        token = token.strip()
        if len(token) > 1 and token not in stop_words:
            tokens.append(token)
    corpus[i] = tokens
logging.info('Step4: 删除停用词完成 (用时: %.2fs)' % (time.time() - t))

# 组合
corpus = list(map(lambda x: ' '.join(x), corpus))

logging.info('数据清洗完成.')

数据清洗开始...
Step1: 合并完成 (共10942段对话)
Setp2: 正则表达式替换完成
Step3: 分词完成
Step4: 删除停用词开始...
Step4: 删除停用词完成 (用时: 21.08s)
数据清洗完成.


## 2. 转化为TFIDF标签

In [55]:
from sklearn.feature_extraction.text import TfidfVectorizer

# 关键超参数
max_df=0.1
min_df = 20
max_features=1000

tfidf_vectorizer = TfidfVectorizer(max_df=max_df, min_df=min_df, max_features=max_features)
tfidf = tfidf_vectorizer.fit_transform(corpus)
logging.info('tfifd标签转化完成')

tfifd标签转化完成


In [69]:
import matplotlib.pyplot as plt

print('words:', len(tfidf_vectorizer.vocabulary_), end='\n\n')
print()

terms = tfidf_vectorizer.get_feature_names()
conv_idx = 0
for row in tfidf[:2]:
    conv_idx += 1
    print('Conv %d: ' % conv_idx, end='')
    row = row.toarray().squeeze()
    num = min(20, (row != 0).sum())
    row_sub = row.argsort()[:-1-num:-1]
    words = [terms[idx] for idx in row_sub]
    print(' '.join(words), end='\n\n')

words: 1000

Conv 1: 先发 有货 到货 操作 我家 啥时候 一周 快点 希望 关注 库房 多久 左右 两个 物流 稍等一下 建议您

Conv 2: 耽误 及时 着急 拦截 签收 下发 我点 过程 能查 第一次 灰常 这次 这种 估计 算了 积极 这么久 为止 直到 包裹



## 3. Cluster
- Use kmeans

In [12]:
from sklearn.cluster import KMeans

In [13]:
n_clusters=50
max_iter=100

In [28]:
kmeans = KMeans(n_clusters=n_clusters,
                    max_iter=max_iter,
                    n_init=8,
                    init='k-means++',
                    n_jobs=-1,
                    random_state=0,
                    verbose=2)
labels = kmeans.fit_predict(tfidf)

Initialization complete
Initialization complete
Initialization complete
Initialization complete
Initialization complete
Initialization complete
Initialization complete
Initialization complete
Iteration  0, inertia 10561.943
Iteration  0, inertia 15622.129
Iteration  0, inertia 15525.568
Iteration  0, inertia 10546.624
Iteration  0, inertia 10628.762
Iteration  0, inertia 15603.777
Iteration  0, inertia 15458.489
Iteration  0, inertia 10600.951
Iteration  1, inertia 9196.286
Iteration  1, inertia 9683.404
Iteration  1, inertia 9582.199
Iteration  1, inertia 9540.153
Iteration  1, inertia 9238.047
Iteration  1, inertia 9166.440
Iteration  1, inertia 9674.196
Iteration  1, inertia 9174.358
Iteration  2, inertia 9062.136
Iteration  2, inertia 9292.410
Iteration  2, inertia 9285.002
Iteration  2, inertia 9003.151
Iteration  2, inertia 9293.386
Iteration  2, inertia 9177.764
Iteration  2, inertia 9018.696
Iteration  2, inertia 8969.824
Iteration  3, inertia 9150.783
Iteration  3, inertia 916

Iteration 37, inertia 8966.341
Iteration 38, inertia 9000.015
Iteration 38, inertia 8835.459
Iteration 38, inertia 8966.283
Iteration 39, inertia 8999.977
Iteration 39, inertia 8835.404
Iteration 39, inertia 8966.136
Iteration 40, inertia 8835.392
Iteration 40, inertia 8999.962
Iteration 40, inertia 8965.971
Iteration 41, inertia 8835.388
Iteration 41, inertia 8999.934
Iteration 41, inertia 8965.645
Iteration 42, inertia 8835.384
Iteration 42, inertia 8999.902
Iteration 42, inertia 8965.472
Iteration 43, inertia 8835.376
Iteration 43, inertia 8999.895
Iteration 43, inertia 8965.246
Iteration 44, inertia 8835.370
Iteration 44, inertia 8965.073
Iteration 44, inertia 8999.889
Converged at iteration 44: center shift 0.000000e+00 within tolerance 9.743080e-08
Iteration 45, inertia 8835.352
Iteration 45, inertia 8965.006
Iteration 46, inertia 8835.310
Iteration 46, inertia 8964.980
Iteration 47, inertia 8835.292
Iteration 47, inertia 8964.956
Iteration 48, inertia 8835.288
Iteration 48, iner

## 4. Key words

In [29]:
from sklearn.feature_extraction.text import CountVectorizer

In [30]:
clusters = [[] for _ in range(n_clusters)]
for i in range(len(corpus)):
    clusters[labels[i]].append(corpus[i])

In [31]:
for k in range(n_clusters):
    vectorizer = CountVectorizer()
    count = vectorizer.fit_transform(clusters[k])
    words = vectorizer.get_feature_names()
    counts = count.toarray().sum(0)
    index = counts.argsort()[-1:-1-15:-1]

    print('total', len(clusters[k]), end=': ')
    for i in index:
        print(words[i], end=' ')
    print('\n')

total 222: 取消 拦截 订单 退款 成功 处理 请问 申请 问题 谢谢 拒收 配送 已经 帮到 下单 

total 68: 需要 联系 电脑 谢谢 请问 处理 问题 亲爱 一直 客气 客户 为您服务 乐意 帮到 订单 

total 321: 取件 问题 处理 上门 请问 退货 申请 售后 需要 谢谢 解决 帮到 地址 一下 商品 

total 40: 售后 申请 gt 处理 问题 订单 打开 京东 确认 退换货 返修 商品 收货 手机 维修 

total 58: 工作日 退款 取消 时效 问题 一下 微信 处理 订单 支付 两个 零钱 信用卡 储蓄卡 客户 

total 303: 修改 订单 地址 请问 问题 处理 取消 下单 解决 时间 一下 您好 配送 谢谢 帮到 

total 251: 请问 再见 问题 京东 支持 订单 帮到 祝您 生活 感谢您 愉快 谢谢 处理 解决 取消 

total 133: 申请 价保 订单 问题 请问 处理 成功 谢谢 需要 商品 订单号 解决 帮到 降价 支付 

total 233: 安装 请问 问题 订单 处理 需要 服务 电话 预约 解决 一下 谢谢 帮到 售后 厂家 

total 97: 退款 亲爱 处理 返还 订单 回复 之后 需要 问题 拒收 取消 一直 完成 咨询 申请 

total 245: 问题 客服 处理 请问 订单 谢谢 申请 解决 一下 需要 余额 退款 帮到 麻烦 提供 

total 239: 发票 请问 订单 处理 问题 开具 一下 谢谢 商品 解决 需要 您好 帮到 查询 已经 

total 230: 物流 问题 处理 请问 订单 配送 信息 解决 更新 谢谢 帮到 京东 时间 发货 今天 

total 258: 拒收 退款 处理 订单 问题 请问 取消 商品 申请 已经 谢谢 帮到 解决 退货 需要 

total 151: 师傅 处理 配送 联系 问题 电话 请问 站点 订单 解决 地址 帮到 谢谢 一下 快递 

total 178: 发票 电子 订单 开具 问题 请问 处理 查询 谢谢 完成 帮到 解决 需要 您好 下载 

total 132: 发货 请问 调货 仓库 商品 需要 问题 时间 显示 订单 下单 您好 解决 一下 处理 

total 185:

## 5. Conversations

In [32]:
with open('chat-short-20w.txt', encoding='utf8') as f:
    cons = f.read().strip().split('\n\n')

In [33]:
clusters = [[] for _ in range(n_clusters)]
for i in range(len(cons)):
    clusters[labels[i]].append(cons[i])

In [39]:
topic_idx = 5

for conv in clusters[topic_idx][:15]:
    print(conv, end='\n\n')

0 你好我地址写错了能改吗? 那个地址是我家但是已经回老家了没人收货
1 有什么问题我可以帮您处理或解决呢? 您好 还辛苦您再等待下哦，这里正在为您查询中哈! [商品快照] 请问是这个商品吗
0 好的 是
1 哦哦 您好，正常情况下订单提交成功是不支持修改的呢，麻烦您看下订单详情页是否有“修改”的按钮，如有，您可点击修改末级地址/联系人/电话号码/送货时间信息，如没有修改按钮，说明订单已不支持修改了呢，还请您理解哦~#E-s[数字x]#E-s[数字x]
0 那个地址没有人收货了啊 下单时间:[日期x] 那如果我申请退货呢
1 可以的 需要我给您取消下的吗
0 得多长时间能退回款? 申请取消订单后我再下单改地址 是你们帮我申请快还是我自己申请快啊? 我已经自己申请退款了
1 财务审核通过，退款中 已经在操作了 最快今天可以退款完成原路返回的
0 ok 谢谢您了
1 正常周期是[数字x]-[数字x]天左右的 辛苦了 不客气的，您的满意是我们的追求。期待能再次为您服务，#E-s[数字x] 请问还有其他还可以帮到您的吗?
0 没有了谢谢
1 “满意度评价”为我加油，也好让我们能再续良缘哦~谢谢您哦#E-s[数字x] 感谢您对京东的支持，祝您生活愉快，再见!
0 对了，我要在哪里查看退款进度啊?
1 点击售后哪里 有这个订单是进度的 我可以在退款完成后短信通知下您的
0 没找到啊
1 您是手机 还是电脑
0 手机 我再次购买发现地址没错啊，怎么就发到廊坊去了呢

0 你好
1 有什么问题我可以帮您处理或解决呢?
0 我地址错了 你帮我改一下地址 潍坊[地址x]
1 您好，正常情况下订单提交成功是不支持修改的呢，麻烦您看下订单详情页是否有“修改”的按钮，如有，您可点击修改末级地址/联系人/电话号码/送货时间信息，如没有修改按钮，说明订单已不支持修改了呢，还请您理解哦~#E-s[数字x]#E-s[数字x]
0 我想取消订单
1 我代为申请下可以吗
0 直接取消吧
1 [ORDERID_10006574] 稍等 申请了
0 退款就行了
1 嗯
0 麻烦了

0 [时间x]] 你好
1 您好，请问有什么可以帮您?#E-s[数字x]
0 你好，我这个订单想修改下地址
1 亲不好意思哈
0 能不能麻烦你直接改?还是我取消订单重新拍?
1 这边不能修改的 麻烦您重新拍一下
0 哦，好吧
1

In [19]:
import os

cluster_path = './cluster/'

if not os.path.exists(cluster_path):
    os.mkdir(cluster_path)

for i in range(n_clusters):
    file_name = cluster_path + 'cluster-%d.txt' % i
    with open(file_name, 'w', encoding='utf8') as f:
        for conv in clusters[i]:
            f.write(conv + '\n\n')