In [1]:
import jieba
import pandas as pd
import sklearn
import numpy as np

In [3]:
data = pd.read_csv("../data/sim_train_seg.csv", sep="\t")

In [4]:
from sklearn.feature_extraction.text import CountVectorizer

def my_tokenizer(x):
    return x.split()

vectorizer = CountVectorizer(tokenizer=my_tokenizer) 
# Document-term matrix.

In [5]:
corpus = list(data["sent_1_seg"].values)
print("-----the number of sent_1_seg------", len(corpus))
corpus.extend(list(data["sent_2_seg"].values))
print("-----the number of last corpus------", len(corpus))

-----the number of sent_1_seg------ 102477
-----the number of last corpus------ 204954


In [6]:
corpus_matrix = vectorizer.fit_transform(corpus)

In [7]:
from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer(smooth_idf=False)
corpus_tfidf = transformer.fit_transform(corpus_matrix)

In [8]:
import pickle
pickle.dump(vectorizer, open("../data/countvector.model", "wb"), 2)
pickle.dump(transformer, open("../data/tfidf.model", "wb"), 2)

In [9]:
corpus_tfidf_matrix = corpus_tfidf.toarray()

In [10]:
corpus_score = []

from scipy.spatial.distance import cosine

for index in range(corpus_tfidf_matrix.shape[0] // 2):
    score = 1 - cosine (corpus_tfidf_matrix[index], corpus_tfidf_matrix[corpus_tfidf_matrix.shape[0] // 2 + index])
    corpus_score.append(score)

In [11]:
corpus_score_ = np.array(corpus_score)
corpus_score_ = corpus_score_ > 0.5
predicted = corpus_score_.astype(int)
predicted

array([0, 0, 0, ..., 0, 0, 0])

In [12]:
print(len(predicted[predicted == 1]))
predicted[predicted == 1]

15595


array([1, 1, 1, ..., 1, 1, 1])

In [13]:
label = data["label"].values
import sklearn.metrics
print(sklearn.metrics.classification_report(label, predicted))

             precision    recall  f1-score   support

          0       0.85      0.88      0.87     83792
          1       0.36      0.30      0.33     18685

avg / total       0.76      0.78      0.77    102477



In [14]:
data["sim_score"] = corpus_score
data.head(10)

Unnamed: 0.1,Unnamed: 0,sent_1,sent_2,label,sent_1_seg,sent_2_seg,sim_score
0,0,﻿怎么更改花呗手机号码,我的花呗是以前的手机号码怎么更改成现在的支付宝的号码手机号,1,﻿ 怎么 更改 花呗 手机号码,我 的 花呗 是 以前 的 手机号码 怎么 更 改成 现在 的 支付宝 的 号码 手机号,0.154271
1,1,也开不了花呗就这样了完事了,真的嘛就是花呗付款,0,也 开 不了 花呗 就 这样 了 完事 了,真的 嘛 就是 花呗 付款,0.007821
2,2,花呗冻结以后还能开通吗,我的条件可以开通花呗借款吗,0,花呗 冻结 以后 还 能 开通 吗,我 的 条件 可以 开通 花呗 借款 吗,0.186301
3,3,如何得知关闭借呗,想永久关闭借呗,0,如何 得知 关闭 借呗,想 永久 关闭 借呗,0.171652
4,4,花呗扫码付钱,二维码扫描可以用花呗吗,0,花呗 扫 码 付钱,二维码 扫描 可以 用 花呗 吗,0.012389
5,5,花呗逾期后不能分期吗,我这个 逾期后还完了 最低还款 后 能分期吗,0,花呗 逾期 后 不能 分期 吗,我 这个 逾期 后 还 完 了 最低 还款 后 能 分期 吗,0.58848
6,6,花呗分期清空,花呗分期查询,0,花呗 分期 清空,花呗 分期 查询,0.171163
7,7,借呗逾期短信通知,如何购买花呗短信通知,0,借呗 逾期 短信 通知,如何 购买 花呗 短信 通知,0.676022
8,8,借呗即将到期要还的账单还能分期吗,借呗要分期还是吗,0,借呗 即将 到期 要 还 的 账单 还 能 分期 吗,借呗 要 分期 还是 吗,0.315185
9,9,花呗为什么不能支付手机交易,花呗透支了为什么不可以继续用了,0,花呗 为什么 不能 支付 手机 交易,花呗 透支 了 为什么 不 可以 继续 用 了,0.080589


In [15]:
data.loc[lambda x: (x.sim_score >= 0.5) & (x.label == 0), :].sort_values(by="sim_score", ascending=False)

Unnamed: 0.1,Unnamed: 0,sent_1,sent_2,label,sent_1_seg,sent_2_seg,sim_score
5947,5947,花呗分期退款,花呗分期 退款,0,花呗 分期 退款,花呗 分期 退款,1.000000
54978,54978,花呗付款要密码吗,花呗付款要密码吗,0,花呗 付款 要 密码 吗,花呗 付款 要 密码 吗,1.000000
69590,69590,支付宝N花呗今天将从余额、储蓄卡或余额宝自动还N元可登录支付宝-花呗核对已还忽略【花呗】,支付宝N花呗今天将从余额、储蓄卡或余额宝自动还N元可登录支付宝-花呗核对已还忽略【花呗】,0,支付宝 N 花呗 今天 将 从 余额 、 储蓄卡 或 余额宝 自动 还 N 元 可 登录 支...,支付宝 N 花呗 今天 将 从 余额 、 储蓄卡 或 余额宝 自动 还 N 元 可 登录 支...,1.000000
40085,40085,借呗可以转入余额宝吗,借呗可以转入余额宝吗,0,借呗 可以 转入 余额宝 吗,借呗 可以 转入 余额宝 吗,1.000000
19700,19700,您是可以进入支付宝——花呗——我的账单——截图给小二一下,您是可以进入支付宝——花呗——我的账单——截图给小二一下或者是,0,您 是 可以 进入 支付宝 — — 花呗 — — 我 的 账单 — — 截图 给 小 二 一下,您 是 可以 进入 支付宝 — — 花呗 — — 我 的 账单 — — 截图 给 小 二 一...,0.991489
87355,87355,花呗借呗取消授权,借呗取消授权,0,花呗 借呗 取消 授权,借呗 取消 授权,0.988156
71031,71031,借呗跟网商银行有什么区别,网商银行跟花呗有什么区别,0,借呗 跟 网 商 银行 有 什么 区别,网 商 银行 跟 花呗 有 什么 区别,0.987547
61568,61568,怎么为好友花呗加分,花呗 好友怎么为我加分,0,怎么 为 好友 花呗 加 分,花呗 好友 怎么 为 我 加 分,0.987272
58929,58929,网商银行 就是花呗吗,网商银行就是借呗吗,0,网 商 银行 就是 花呗 吗,网 商 银行 就是 借呗 吗,0.982456
83729,83729,借呗还款余额限制金额多少,余额还款限制金额多少,0,借呗 还款 余额 限制 金额 多少,余额 还款 限制 金额 多少,0.981831


In [16]:
data.loc[lambda x: (x.sim_score < 0.5) & (x.label == 1), :].sort_values(by="sim_score", ascending=False)

Unnamed: 0.1,Unnamed: 0,sent_1,sent_2,label,sent_1_seg,sent_2_seg,sim_score
91442,91442,提前还借呗会受到信用影响,提前还借呗 对信用有影响吗,1,提前 还 借呗 会 受到 信用 影响,提前 还 借呗 对 信用 有 影响 吗,0.499998
5825,5825,借呗逾期不良信用记录保留几年,借呗的逾期会保留多久,1,借呗 逾期 不良 信用 记录 保留 几年,借呗 的 逾期 会 保留 多久,0.499963
12062,12062,花呗刷脸不成功怎么办,花呗刷不上脸怎么半,1,花呗 刷 脸 不 成功 怎么办,花呗 刷 不 上 脸 怎么 半,0.499880
12711,12711,今天早上的退款退回花呗以后 还款额度没有减少,退到花呗但是下月还款额度没有减少,1,今天 早上 的 退款 退回 花呗 以后 还款额 度 没有 减少,退 到 花呗 但是 下 月 还款额 度 没有 减少,0.499878
99093,99093,借呗授权开启,借呗芝麻授权,1,借呗 授权 开启,借呗 芝麻 授权,0.499877
39513,39513,现在能取消花呗分期,选了花呗账单分期还能取消吗,1,现在 能 取消 花呗 分期,选 了 花呗 账单 分期 还 能 取消 吗,0.499859
21261,21261,借呗提前还款为什么还不了,我的借呗不能提前还款了,1,借呗 提前 还款 为什么 还 不了,我 的 借呗 不能 提前 还款 了,0.499847
69749,69749,能不能帮我从余额宝里扣钱 还借呗,借呗的钱能在余额宝里还吗,1,能 不能 帮 我 从 余额宝 里 扣钱 还 借呗,借呗 的 钱 能 在 余额宝 里 还 吗,0.499846
16603,16603,我想关掉花呗业务怎么关,我想关掉花呗 怎么弄,1,我 想 关掉 花呗 业务 怎么 关,我 想 关掉 花呗 怎么弄,0.499819
7942,7942,为啥花呗重复扣钱,支付宝花呗重复扣款,1,为啥 花呗 重复 扣钱,支付宝 花呗 重复 扣款,0.499807
