In [1]:
# 数据增强
import pandas as pd

train_query = pd.read_csv("./train/train.query.tsv", sep="\t", header=None)
train_reply = pd.read_csv("./train/train.reply.tsv", sep="\t", header=None)
test_query = pd.read_csv("./test/test.query.tsv", sep="\t", header=None)
test_reply = pd.read_csv("./test/test.reply.tsv", sep="\t", header=None)
train_query.columns = ["cid", "d1"]
train_reply.columns = ["cid", "rid", "d2", "label"]
train_df = pd.merge(train_query, train_reply, how="left", on="cid")
test_query.columns = ["cid", "d1"]
test_reply.columns = ["cid", "rid", "d2"]
test_df = pd.merge(test_query, test_reply, how="left", on="cid")
train_df.head(5)

Unnamed: 0,cid,d1,rid,d2,label
0,0,采荷一小是分校吧,0,杭州市采荷第一小学钱江苑校区，杭州市钱江新城实验学校。,1
1,0,采荷一小是分校吧,1,是的,0
2,0,采荷一小是分校吧,2,这是5楼,0
3,1,毛坯吗？,0,因为公积金贷款贷的少,0
4,1,毛坯吗？,1,是呢,0


In [2]:
# 填补缺失值
train_df['d2'] = train_df.d2.fillna("好的")

In [3]:
import re

# 数据清洗
def clean_special_tokens(text):
    text = text.replace("😂", "哈哈")
    text = text.replace("👌", "好")
    text = text.replace("😊", "好")
    text = text.replace("😓", "汗")
    text = text.replace("😁", "哈哈")
    text = text.replace("👌🏻", "好")
    text = text.replace(" 🏻", "")
    text = text.replace("ù", "")
    text = text.replace("🈶️", "有")
    text = text.replace("🔑", "钥匙")
    text = text.replace("➕", "加")
    text = text.replace("🏠", "房子")
    text = text.replace("👍", "可以")
    text = text.replace("(✪▽✪)", "")
    text = text.replace("㎡", "平米")
    text = text.replace("🉐", "得")
    text = text.replace("Ｖ", "v")
    text = text.replace("Ｒ", "r")
    text = text.replace("❓", "？")
    text = text.replace("☀", "")
    text = text.replace("ｖ", "v")
    text = text.replace("ｒ", "r")
    text = text.replace("㥪", "楼")
    text = text.replace("￼", "")
    text = text.replace("＃", "#")
    text = text.replace("(?▽?)", "")
    text = text.replace("√", "对")
    text = text.replace("＋", "加")
    text = text.replace("﹉", "")
    text = text.replace("⊙ω⊙", "")
    text = text.replace("⊙o⊙", "")
    text = text.replace("⊙?⊙", "")
    text = text.replace("②", "二")
    text = text.replace("Ｗ", "万")
    text = text.replace("?*??(ˊωˋ*)??*?", "")
    text = text.replace("λ", "")
    text = text.replace("nh", "你好")
    text = text.replace("zaima", "在吗")
    text = text.replace("me", "么")
    text = text.replace("ceng", "层")
    text = text.replace("keyi", "可以")
    text = text.replace("taobao", "淘宝")
    text = text.replace("VR", "vr")
    text = text.replace("vR", "vr")
    text = text.replace("Vr", "vr")
    text = text.replace("NAMEPHONE", "NAME / PHONE")
    text = text.replace("l", "")
    text = text.replace("o^^o", "")
    text = text.replace("keyitan", "可以谈")
    text = text.replace("be", "")
    text = text.replace("ve", "vr")
    text = text.replace("key", "可以")
    text = text.replace("laile", "来了")
    text = text.replace("haole", "好了")
    text = text.replace("shaodeng", "稍等")
    text = text.replace("ninha", "您好")
    text = text.replace("nihao", "您好")
    text = text.replace("Ｐ", "P")
    text = text.replace("wan", "万")
    text = text.replace("DAU", "带")
    text = text.replace("lou", "楼")
    text = text.replace("kanfang", "看房")
    text = text.replace("is", "")
    text = text.replace("shenm", "")
    text = text.replace("＆", "&")
    text = text.replace("gaosunoi", "告诉你")
    text = text.replace("Va", "vr")
    text = text.replace("hao", "好")
    text = text.replace("ma", "")
    text = text.replace("zengzhi", "增值")
    text = text.replace("one", "")
    text = text.replace("vt", "vr")
    text = text.replace("。in", "您")
    text = text.replace("ou", "噢")
    text = text.replace("i你好ao", "hi你好")
    text = text.replace("几F？", "几楼？")
    text = text.replace("^_^", "好的")
    text = text.replace("yes", "是的")
    text = text.replace("车位另算o", "车位另算哦")
    text = text.replace("my", "没有")
    
    
    # url直接清洗
    html = re.compile(r'(https?://)([\da-zA-Z=&\?_\.-]+)\.([a-z=&\?_\.]{2,6})([/\w =&\?_\.-]*)*/?')
    text = re.sub(html, "URL", text)
    return text

train_df['d1'] = train_df['d1'].apply(lambda x: clean_special_tokens(str(x)))
train_df['d2'] = train_df['d2'].apply(lambda x: clean_special_tokens(str(x)))
test_df['d1'] = test_df['d1'].apply(lambda x: clean_special_tokens(str(x)))
test_df['d2'] = test_df['d2'].apply(lambda x: clean_special_tokens(str(x)))

In [4]:
ids = list(range(len(train_df)))
train_df['id'] = ids
train_df.to_csv("train_test.tsv", sep='\t')
test_df.to_csv("test.tsv", index=None, sep='\t')

In [5]:
df = pd.concat([train_df, test_df])
df

Unnamed: 0,cid,d1,rid,d2,label,id
0,0,采荷一小是分校吧,0,杭州市采荷第一小学钱江苑校区，杭州市钱江新城实验学校。,1.0,0.0
1,0,采荷一小是分校吧,1,是的,0.0,1.0
2,0,采荷一小是分校吧,2,这是5楼,0.0,2.0
3,1,毛坯吗？,0,因为公积金贷款贷的少,0.0,3.0
4,1,毛坯吗？,1,是呢,0.0,4.0
...,...,...,...,...,...,...
53752,13998,这套房子有啥问题吗 我看价格不高,3,租约还有两年,,
53753,13998,这套房子有啥问题吗 我看价格不高,4,都有学位的,,
53754,13999,我看看时间吧,0,没有呢,,
53755,13999,我看看时间吧,1,今天新上的,,


In [6]:
# 获取重复数据，把标点符号和助词、语气词去掉先
import jieba.posseg as psg

def remove_meaningless_words(string):
    res = psg.cut(string)
    ans = [_.word for _ in res if 'u' not in _.flag and 'w' not in _.flag and 'y' not in _.flag and 'x' not in _.flag]
    return ans

train_df['d1_'] = train_df['d1'].apply(lambda x: remove_meaningless_words(str(x)))
train_df['d2_'] = train_df['d2'].apply(lambda x: remove_meaningless_words(str(x)))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.449 seconds.
Prefix dict has been built successfully.


In [7]:
# 拿出不一致标签
train_df['agg'] = train_df.apply(lambda x: str(x['d1_']).strip() + str(x['d2_']).strip(), axis=1)
dumplicated = train_df.groupby(['agg'])
dumplicated = [x[1] for x in dumplicated if len(x[1]) > 1]
dumplicated = pd.concat(dumplicated)
dumplicated

Unnamed: 0,cid,d1,rid,d2,label,id,d1_,d2_,agg
4221,1181,01户 还是02户,1,是的,0,4221,"[01, 户, 还是, 02, 户]",[是],"['01', '户', '还是', '02', '户']['是']"
4223,1181,01户 还是02户,3,是的呢,0,4223,"[01, 户, 还是, 02, 户]",[是],"['01', '户', '还是', '02', '户']['是']"
14461,4023,17号楼有没有毛坯？,3,对,0,14461,"[17, 号, 楼, 有没有, 毛坯]",[对],"['17', '号', '楼', '有没有', '毛坯']['对']"
14462,4023,17号楼有没有毛坯？,4,对,0,14462,"[17, 号, 楼, 有没有, 毛坯]",[对],"['17', '号', '楼', '有没有', '毛坯']['对']"
10596,2943,1750这套临街吗？,0,临街,1,10596,"[1750, 这, 套, 临街]",[临街],"['1750', '这', '套', '临街']['临街']"
...,...,...,...,...,...,...,...,...,...
12671,3528,龙博这个能到130吗,1,不行肯定卖不了，您要给到146以上我估计我能跟房主聊聊，,0,12671,"[龙博, 这个, 能到, 130]","[不行, 肯定, 卖, 不了, 您, 要, 给到, 146, 以上, 我, 估计, 我, 能...","['龙博', '这个', '能到', '130']['不行', '肯定', '卖', '不了..."
5011,1403,龙博这个能到130吗,2,之前我问过他价位,0,5011,"[龙博, 这个, 能到, 130]","[之前, 我, 问, 他, 价位]","['龙博', '这个', '能到', '130']['之前', '我', '问', '他',..."
12672,3528,龙博这个能到130吗,2,之前我问过他价位,0,12672,"[龙博, 这个, 能到, 130]","[之前, 我, 问, 他, 价位]","['龙博', '这个', '能到', '130']['之前', '我', '问', '他',..."
5009,1403,龙博这个能到130吗,0,龙博花园4楼那个吗，,0,5009,"[龙博, 这个, 能到, 130]","[龙博, 花园, 4, 楼, 那个]","['龙博', '这个', '能到', '130']['龙博', '花园', '4', '楼'..."


In [8]:
# 这部分数据人工清洗
unmatched = dumplicated.groupby(['agg'])
unmatched = [x[1] for x in unmatched if sum(x[1]['label']) > 0 and sum(x[1]['label']) < len(x[1])]
unmatched = pd.concat(unmatched)
del unmatched['agg']
del unmatched['d1_']
del unmatched['d2_']
del train_df['agg']
del train_df['d1_']
del train_df['d2_']
unmatched.to_csv("unmatched.tsv", sep='\t', index=None)

In [9]:
unmatched = pd.read_csv("unmatched.tsv", sep='\t')
for i, row in unmatched.iterrows():
    train_df.loc[int(row['id']), 'label'] = int(row['label'])

In [10]:
del train_df['id']

In [11]:
train_df.to_csv("train.tsv", index=None, sep="\t")

In [55]:
# 数据增强部分
# 思路：某些问题会反复出现，虽然问题的形式不一样但是意思是一样的，因此他们的回答是通用的，可以基于规则找出一些问题的回答做数据增强

# 相似问题一：靠近xxx吗？抽取关键字“靠”，然后人工筛选意思相近的问答对，互相使用其问答数据
df_kao = train_df['d1'].apply(lambda x: '靠' in str(x))
train_df[df_kao].to_csv("数据增强/靠.tsv", index=None, sep='\t')

In [62]:
# 相似问题：看房
df_kan = train_df['d1'].apply(lambda x: bool(re.match(r'(看看|看房)', str(x))) and not (bool(re.match(r'(时候|现在|久)', str(x)))))
train_df[df_kan].to_csv("数据增强/看房.tsv", index=None, sep='\t')

In [None]:
# 相似问题句式：是...吗？回答可以为：“是/是的/是....的/对的”，可以构造很多


In [None]:
# 回译法： 将句子翻译成其他语言再翻译回来


In [14]:
# 随机替换
from gensim.models.word2vec import Word2Vec

model = Word2Vec.load("w2v.pkt")
train = pd.read_csv("train.tsv", sep='\t')

In [15]:
train[train['d2'].isnull()]

Unnamed: 0,cid,d1,rid,d2,label


In [1]:
from LAC import LAC
from tqdm import tqdm
import pandas as pd
import random
lac = LAC(mode='seg')

def in_model(word):
    if word in model.wv:
        return True
    else:
        print("单词\"%s\"不在词典中"%word)
        return False
    
error = pd.read_csv("error_pred.tsv", sep='\t')
augmentation = error.copy()


In [40]:
%%time
import numpy as np

def replace(x):
    words_list = lac.run(str(x))
    index_list = list(range(len(words_list)))
    # 打乱索引顺序
    random.shuffle(index_list)
    # 替换的单词数目
    replace_num = random.randint(0, len(words_list))
    replacement = str(x)

    for index in index_list[:replace_num]:
        word = words_list[index]
        if not in_model(word):
            print("\n"+str(x)+" "+str(words_list)+ str(i) + " "+ str(index)+" 长度" + str(len(words_list))+"\n" )
            continue
        similar = model.wv.most_similar(word)
        for si in range(len(similar)):
            if similar[si][1] >= 0.75:
                print("将原句中的单词%s替换成%s"%(word, similar[si][0]))
                replacement = replacement.replace(word, similar[si][0])
                break
    return replacement
%time augmentation['q1'] = augmentation['q1'].apply(lambda x: replace(x))
%time augmentation['q2'] = augmentation['q2'].apply(lambda x: replace(x))

将原句中的单词总替换成18层
将原句中的单词2替换成3
将原句中的单词小学替换成中学
将原句中的单词几期替换成第几期
将原句中的单词初中替换成小学
将原句中的单词吗替换成么
将原句中的单词明天替换成今天
将原句中的单词吗替换成么
将原句中的单词147号替换成佛
将原句中的单词147号替换成佛
将原句中的单词吗替换成么
将原句中的单词吗替换成么
将原句中的单词二套替换成首套
将原句中的单词贷款替换成公积金
将原句中的单词空间替换成浮动
将原句中的单词吗替换成么
将原句中的单词吗替换成么
将原句中的单词影响替换成受
将原句中的单词明天替换成今天
将原句中的单词谈替换成商量
将原句中的单词吗替换成么
将原句中的单词吗替换成么
将原句中的单词毛坯替换成毛胚
将原句中的单词西湖郡替换成青林
将原句中的单词个税替换成契税
将原句中的单词吗替换成么
将原句中的单词学校替换成小学
将原句中的单词学校替换成小学
将原句中的单词时间替换成有空
将原句中的单词晚上替换成下午
将原句中的单词首付替换成二套房
将原句中的单词能够替换成侨力大厦
将原句中的单词下替换成一下
将原句中的单词下替换成一下
将原句中的单词哪里替换成哪儿
将原句中的单词保养替换成保持
将原句中的单词谈替换成商量
将原句中的单词吗替换成么
将原句中的单词能够替换成侨力大厦
将原句中的单词什么时候替换成几点
将原句中的单词看看替换成看一下
将原句中的单词吗替换成么
将原句中的单词正在替换成绿城
将原句中的单词家悦替换成三兴
将原句中的单词能够替换成侨力大厦
将原句中的单词什么时候替换成几点
将原句中的单词哪儿替换成哪里
将原句中的单词吗替换成么
将原句中的单词吗替换成么
将原句中的单词哪里替换成哪儿
将原句中的单词么替换成吗
将原句中的单词贷款替换成公积金
将原句中的单词首付替换成二套房
将原句中的单词能够替换成侨力大厦
将原句中的单词中小学替换成大佛段小学
将原句中的单词吗替换成么
将原句中的单词明天替换成今天
将原句中的单词首付替换成二套房
将原句中的单词能够替换成侨力大厦
将原句中的单词什么时候替换成几点
将原句中的单词能够替换成侨力大厦
将原句中的单词齐全替换成生活
将原句中的单词付款替换成周期
将原句中的单词吗替换成么
将原句中的单词一次性替换成付清
将原句中的单词吗替换成么
将原句中的单词怎么样替换成咋样
将原

In [42]:
augmentation.to_csv("aug_train.tsv", index=None, sep='\t')

In [43]:
error.head(5)

Unnamed: 0,cid,q1,rid,q2,label
0,0,采荷一小是分校吧,1,是的,0
1,7,有房子可以带我看看吗？,1,笋盘,1
2,39,您好，请问这个户型有啥优缺点,2,81坪的小三房,0
3,47,总的税费？,1,一共8点多,1
4,53,2楼这套给256万能谈下来吗,0,我可以努力去帮你试试,1


In [73]:
augmentation_data = pd.concat([train, augmentation])
augmentation_data

Unnamed: 0,cid,d1,rid,d2,label
0,0,采荷一小是分校吧,0,杭州市采荷第一小学钱江苑校区，杭州市钱江新城实验学校。,1
1,0,采荷一小是分校吧,1,是的,0
2,0,采荷一小是分校吧,2,这是5楼,0
3,1,毛坯吗？,0,因为公积金贷款贷的少,0
4,1,毛坯吗？,1,是呢,0
...,...,...,...,...,...
21580,5998,您好，我正在看尚林家园的房子,1,有啊,0
21581,5998,您好，我正在看尚林家园的房子,2,我带你看看,0
21582,5999,明天可以安排看房子么？,0,我约下业主，发送晚点你,1
21583,5999,明天可以安排看房子吗？,1,可以看，你几点钟有有空来呢？,1


In [None]:
augmentation_data.drop(augmentation_data[augmentation_data['d1'].isnull()].index, inplace=True)
augmentation_data.drop(augmentation_data[augmentation_data['d2'].isnull()].index, inplace=True)

In [74]:
augmentation_data.to_csv("aug_train.tsv", sep='\t', index=None)

In [75]:
(len(augmentation_data) - sum(augmentation_data['label'])) / sum(augmentation_data['label'])

3.0068683868572488

In [2]:
# 训练doc2vec，将每一个句子表示成句向量，然后通过句向量和关键词匹配程度寻找特征
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
import pandas as pd
from LAC import LAC

lac = LAC(mode='seg')

train = pd.read_csv("train.tsv", sep='\t')
test = pd.read_csv("test.tsv", sep='\t')
df = pd.concat([train, test])


# 将句子都分好词，然后包装好，生成句子向量
def wrap_sentence(data):
    sentences = []
    unique_sentences = set()
    for i, row in data.iterrows():
        unique_sentences.add(str(row['d2']))
    sen_list = list(unique_sentences)
    # 把回答做句子编码就成
    for i, sen in enumerate(sen_list):
        sentences.append(TaggedDocument(lac.run(sen), tags=[i]))
        print("\r{}".format(i), end='')
    return sen_list, sentences

sen_list, sentences = wrap_sentence(df)

16821

In [3]:
import logging

logging.basicConfig(level=logging.INFO)

d2v = Doc2Vec(sentences, window=5, vector_size=300, sample=1e-3, workers=4, negative=5)
d2v.train(sentences, total_examples=d2v.corpus_count, epochs=30)

INFO:gensim.models.doc2vec:collecting all words and their counts
INFO:gensim.models.doc2vec:PROGRESS: at example #0, processed 0 words (0/s), 0 word types, 0 tags
INFO:gensim.models.doc2vec:PROGRESS: at example #10000, processed 75339 words (934398/s), 6760 word types, 10000 tags
INFO:gensim.models.doc2vec:collected 9197 word types and 16822 unique tags from a corpus of 16822 examples and 126640 words
INFO:gensim.models.word2vec:Loading a fresh vocabulary
INFO:gensim.models.word2vec:effective_min_count=5 retains 1689 unique words (18% of original 9197, drops 7508)
INFO:gensim.models.word2vec:effective_min_count=5 leaves 115878 word corpus (91% of original 126640, drops 10762)
INFO:gensim.models.word2vec:deleting the raw counts dictionary of 9197 items
INFO:gensim.models.word2vec:sample=0.001 downsamples 66 most-common words
INFO:gensim.models.word2vec:downsampling leaves estimated 77727 word corpus (67.1% of prior 115878)
INFO:gensim.models.base_any2vec:estimated required memory for 16

In [7]:
sen_list[:10], sentences[:10]

(['我们约了大巴车',
  '俪城的东面',
  '报价 126满二',
  '客户反应',
  '但是这个房子需要全款，更改一手合同',
  '是的，对口南湖二小',
  '就现在',
  '现在贷不了',
  '英伦联邦算比较新的',
  '您是主要考虑两房吗？'],
 [TaggedDocument(words=['我们', '约', '了', '大巴', '车'], tags=[0]),
  TaggedDocument(words=['俪城', '的', '东面'], tags=[1]),
  TaggedDocument(words=['报价', ' ', '126', '满', '二'], tags=[2]),
  TaggedDocument(words=['客户', '反应'], tags=[3]),
  TaggedDocument(words=['但是', '这个', '房子', '需要', '全', '款', '，', '更改', '一手', '合同'], tags=[4]),
  TaggedDocument(words=['是', '的', '，', '对口', '南湖', '二小'], tags=[5]),
  TaggedDocument(words=['就', '现在'], tags=[6]),
  TaggedDocument(words=['现在', '贷', '不', '了'], tags=[7]),
  TaggedDocument(words=['英伦联邦', '算', '比较', '新', '的'], tags=[8]),
  TaggedDocument(words=['您', '是', '主要', '考虑', '两房', '吗', '？'], tags=[9])])

In [8]:
sen2index = {sen: idx for idx, sen in enumerate(sen_list)}

In [32]:
def find_sims(sen):
    result = []
    if sen not in sen2index:
        print("不存在这句话", sen)
        return None
    idx = sen2index[sen]
    result.append(sen_list[idx])
    out = d2v.docvecs.most_similar(idx)
    thresh_hold = 0.90
    if out[0][1] > thresh_hold:
        for _ in out:
            if _[1] > thresh_hold:
                result.append(sen_list[_[0]])
    if len(result) <= 1:
        return None
    # 太多的直接截断
    return result[:3]

ans = []
for i, row in error.iterrows():
    res = find_sims(str(row['q2']))
    if res is not None:
        ans.append(res)
with open("sim_sen.txt", 'w', encoding='utf-8') as fin:
    fin.write(str(ans).replace("],", "],\n"))

不存在这句话 960??


In [41]:
error = pd.read_csv("aug.tsv", sep='\t')

In [38]:
with open("sim_sen.txt", encoding='utf-8') as fin:
    augment = eval(fin.read())
for i, row in error.iterrows():
    for sl in augment:
        if row['q2'] == sl[0]:
            for i in range(1, len(sl)):
                new_row = row.copy()
                new_row['q2'] = sl[i]
                new_row['rid'] = int(new_row['rid'])+1
                error = error.append(new_row)

In [52]:
aug = pd.read_csv("aug.tsv",sep='\t')

In [55]:
from nlpcda import Similarword

# 数据增强的方式：
augmenter = {
    Similarword(create_num=1, change_rate=0.8),
}
aug_data = []

for i, row in aug.iterrows():
    print("\r %d"%i, end='')
    for smw in augmenter:
        for aug_sen in smw.replace(str(row['q2'])):
            print(aug_sen)
            aug.loc[i, 'q2'] = aug_sen
aug

load :d:\miniconda\lib\site-packages\nlpcda\data\同义词.txt done
 0您是说的那套房子？
 1您看这周末来看房吗？
 21个点的契税
 3初中距离大约1公里内
 4我先联系一下业主，明天您几点方便
 5首付最少40%
 6您什么时间过来？
 7对，实际空间楼上一摸一样，即便有误差，也在1.2平以内，因为有的建筑面积95平
 8之前有过来看过吗
 9税费契税1%，个税1%
 10春兰苑还有一套6楼的
 11这套就是毛坯
 12贷款还清了吗？
 13这套房子可以贷款100万，首付全下来是560万
 14您说的是哪套房子呢？
 15明天上午可以吗？老师
 16您是说华凤国际学区
 17业主自住的
 18我给你发vr看房吧
 19您明天上午还是下午约您
 20这套房子业主之前降价30万，现在价格浮动的不多了?
 21您什么时候看房子呢
 22目前要看的话，我这边约下业主
 23我觉的价格在3.2-3.3差不多
 24您想什么时候考
 25是的，房本没办呢
 26您首套还是二套呢
 27我们有vr看房
 28有钥匙
 29有些是有钥匙的，方便看
 30全款的话，税费是70万
 31房子很不错的
 32您打算多钱买？
 33我看一下啊，稍等
 34请问您是问多大面积的
 351
 36您是考虑买房吗？
 37看什么房子
 38您几点可以过来？
 39送部分家具家电
 40我马上发给你
 41三房的315万
 42是的
 43可以
 44现在房子空着得业主过来开门
 45房产证过户时交
 46海淀区温泉镇
 47百望山北边一点
 48这个业主有点不好说话，她都要遇到那个对的主了
 49想要看哪里的房子
 50户型整体还是挺好的
 51497万这套四房吗
 52整体性价比还是蛮不错的，本身的房子单价也不高
 53您是考虑二十九中的学区吗。
 54这个今天10点到12点可以看
 55您看下这两套，都是新上架的三室
 56前天有客户谈，最低363万，客户出价361万业主都没卖
 57您看的是哪小区的
 58个税免征，契税首套1%，二套3%
 59没有遮挡的
 60中间的，户型还可以，门口没有墙壁挡的


Unnamed: 0,cid,q1,rid,q2,label,id
0,62,上哪个小学呢,0,您是说的那套房子？,1,212
1,86,这疫情能看？,2,您看这周末来看房吗？,0,303
2,97,这个税费多少？小产权哦,3,1个点的契税,0,343
3,132,初中呢,0,初中距离大约1公里内,0,471
4,138,明天能看吗？,2,我先联系一下业主，明天您几点方便,1,497
...,...,...,...,...,...,...
56,4070,最低能多少,2,前天有客户谈，最低363万，客户出价361万业主都没卖,1,14630
57,4093,您好！是哪个小学的学区？,1,您看的是哪小区的,1,14717
58,4251,个税都没有，还有增值税？,4,个税免征，契税首套1%，二套3%,1,15300
59,4278,哦哦 采光有遮挡吗,0,没有遮挡的,1,15388


In [15]:
with open("sim_sen.txt", 'w', encoding='utf-8') as fin:
    for x in aug_data:
        fin.write(x)

In [1]:
import pandas as pd

train = pd.read_csv("df_rm_sw.tsv", sep='\t')
train['id'] = list(range(len(train)))

In [24]:
# 近义词
shi = ['是的','对的','嗯','嗯嗯','对']
keyi = ['可以','可以的','能','行']
hao = ['好','好的']

# 错误一：回答相似但是数据标签不一致
# 如：
# 147号02户型的吗？	嗯嗯	1
# 147号02户型的吗？	是的	0
# 什么时候可以看	您啥时候方便	1
# 什么时候可以看	您什么时候方便	0

# 错误二：回答和问题毫不相关
# 如：
# 这是几期的	房子在西区呢	1

# 错误三：没有充分学到pattern
# 如：
# 2楼这套给256万能谈下来吗	我可以努力去帮你试试	1



In [25]:
# 不一致标签的清洗：
# 对于第一类不一致标签，采取的策略是基于规则的选取
# 对于第二类不一致标签，采取的策略是基于n-gram找
# 首先需要对原始数据进行更进一步的聚类，这里用n-gram来对问题进行聚类
import re

unmatched = []

def not_match(arr):
    return 1 in arr and 0 in arr


for group in train.groupby(['cid']):
    data = group[1]
    s, k, h = [], [], []
    for q, l in zip(data['d2'], data['label']):
        for x in shi:
            for _ in x:
                if len(str(q)) <= 3 and _ in str(q):
                    s.append(l)
    for q, l in zip(data['d2'], data['label']):
        for x in keyi:
            for _ in x:
                if len(str(q)) <= 3 and _ in str(q):
                    k.append(l)
    for q, l in zip(data['d2'], data['label']):
        for x in hao:
            for _ in x:
                if len(str(q)) <= 3 and _ in str(q):
                    h.append(l)
    if not_match(s) or not_match(k) or not_match(h):
        unmatched.append(data)

len(unmatched)

31

In [26]:
df = pd.read_csv("train.tsv", sep='\t')
# 为了便于人工筛选，所以把去停用词后的句子还原
unmatch = pd.concat(unmatched)
unmatch['d1'] = df['d1']
unmatch['d2'] = df['d2']
unmatch.to_csv("un.tsv", sep='\t', index=None)

In [13]:
unmatched_v1 = pd.read_csv("unmatched_精洗.tsv", sep='\t')
train = pd.read_csv("train.tsv", sep='\t')

In [9]:
unmatched_v1

Unnamed: 0,cid,d1,rid,d2,label,id,edit
0,229,这个房子是毛坯对吗,1,嗯嗯,0,830,1
1,229,这个房子是毛坯对吗,2,嗯,0,831,1
2,268,147号02户型的吗？,2,是的,0,981,1
3,1376,这种户型是南北通吗,2,是的，发错了?,1,4919,0
4,1376,这种户型是南北通吗,3,嗯嗯,0,4920,1
5,1607,全明吗？,4,嗯嗯,0,5736,1
6,1733,五金2500一下，性价比高一点当然最好。主要是配套幼儿园，有小孩子,2,好的,0,6190,1
7,2442,你能带看吗,1,能啊,0,8757,1
8,2582,和其他一层方便看的都看看,2,嗯嗯，行,0,9262,1
9,2773,八楼这个是靠近高压线那边哈,0,嗯嗯,0,9972,1


In [10]:
unmatched = unmatched_v1[unmatched_v1['edit'].notnull()]
for idx, edit in zip(unmatched['id'], unmatched['edit']):
    train.loc[idx, 'label'] = int(edit)
train.to_csv("train_v1.tsv", sep='\t', index=None)

In [11]:
train

Unnamed: 0,cid,d1,rid,d2,label
0,0,采荷一小是分校吧,0,杭州市采荷第一小学钱江苑校区，杭州市钱江新城实验学校。,1
1,0,采荷一小是分校吧,1,是的,0
2,0,采荷一小是分校吧,2,这是5楼,0
3,1,毛坯吗？,0,因为公积金贷款贷的少,0
4,1,毛坯吗？,1,是呢,0
...,...,...,...,...,...
21580,5998,您好，我正在看尚林家园的房子,1,有啊,0
21581,5998,您好，我正在看尚林家园的房子,2,我带你看看,0
21582,5999,今天可以安排看房子吗？,0,我约下房东，稍后回你,1
21583,5999,今天可以安排看房子吗？,1,可以看，你几点有时间过来呢？,1


In [87]:
unmatched_v2

Unnamed: 0,cid,d1,rid,d2,label,id,edit
0,371,嗯！价位多少？有房产证么,1,这套房子58万,0,1346,1
1,371,嗯！价位多少？有房产证么,3,有房产证，满五年了！但是房子是商品附属房，税是按商品铺子算的,1,1348,0
2,1523,方便看房吗,1,有些是有钥匙的，方便看,0,5436,1
3,1523,方便看房吗,2,您先看一下哪套您比较喜欢，我再带您看一下vr,0,5437,1
4,2598,他是带家电？家具？,4,这个房子家具家电全送,0,9319,1
5,2845,这个房子能看吗？,2,等您回来了，就可以看,0,10232,1
6,3434,这个房有房本吗？,3,这个是法院的房子，房本正在办理中,0,12341,1
7,3488,税费35明细我看下,3,好的 我加下您微信。晚点把税费发给您,0,12528,1
8,3826,这个房的性价比怎么样,2,整体性价比还是蛮不错的，本身的房子单价也不高,0,13752,1
9,3937,您好，请问这套房源首付是多少？,0,首付是根据您的资质决定的！最低可以首付三层,0,14154,1


In [12]:
unmatched_v2 = pd.read_csv("unmatched_精洗2.txt", sep='\t')
unmatched = unmatched_v2[unmatched_v2['edit'].notnull()]
for idx, edit in zip(unmatched['id'], unmatched['edit']):
    train.loc[idx, 'label'] = int(edit)
train.to_csv("train_v2.tsv", sep='\t', index=None)

In [29]:
relabeled_v1 = pd.read_csv("relabeled_1.tsv", sep='\t')
relabeled_v1['edit'] = relabeled_v1['edit'].fillna(-1)
relabeled_v1['edit'] = relabeled_v1['edit'].astype(int)
relabeled_v1

Unnamed: 0,cid,q1,rid,q2,label,edit
0,0,采荷一小是分校吧,1,是的,0,1
1,7,有房子可以带我看看吗？,1,笋盘,1,0
2,39,您好，请问这个户型有啥优缺点,2,81坪的小三房,0,-1
3,47,总的税费？,1,一共8点多,1,-1
4,53,2楼这套给256万能谈下来吗,0,我可以努力去帮你试试,1,-1
...,...,...,...,...,...,...
94,1604,复地便宜的原因是因为地点配套对吧,0,房子很不错的,1,0
95,1638,精装房是一次性付清吗,3,是的,0,1
96,1654,宝山什么位置？,0,宝山罗泾板块,0,1
97,1660,现在房主能降多少,0,您打算多钱买？,1,-1


In [43]:
# -1的是模型预测错误，需要数据增强的数据
# 大于等于0的是数据标注有问题
need_aug = relabeled_v1[relabeled_v1['edit'] < 0]
relabeled = relabeled_v1[relabeled_v1['edit'] >= 0]

# 复制一份train
train_copy = train.copy()
train_copy['id'] = list(range(len(train)))

# 修正标签
for i, row in relabeled.iterrows():
    loc = train_copy[(train_copy['cid'] == row['cid']) & (train_copy['rid'] == row['rid'])]['id']
    train_copy.loc[loc, 'label'] = int(row['edit'])


In [45]:
train_copy.to_csv("train_v3.tsv", sep='\t', index=None)

In [3]:
import pandas as pd

relabeled_v2 = pd.read_csv("relabeled_v2.tsv", sep='\t')
relabeled_v2['edit'] = relabeled_v2['edit'].fillna(-1)
relabeled_v2['edit'] = relabeled_v2['edit'].astype(int)
train = pd.read_csv("train.tsv", sep='\t')
relabeled_v2

Unnamed: 0,cid,q1,rid,q2,label,edit
0,0,采荷一小是分校吧,1,是的,0,1
1,7,有房子可以带我看看吗？,1,笋盘,1,0
2,39,您好，请问这个户型有啥优缺点,2,81坪的小三房,0,-1
3,47,总的税费？,1,一共8点多,1,-1
4,53,2楼这套给256万能谈下来吗,0,我可以努力去帮你试试,1,-1
...,...,...,...,...,...,...
330,5921,那就必须全款了是吧,1,是的,0,1
331,5931,靠马路和外环吗,0,靠外环，不过因为楼层比较低所以声音不吵,0,1
332,5936,79的房子什么时候可以看,1,您这边什么时候方便？我这边帮您约业主,0,1
333,5939,现在方便看吗,1,是的,0,1


In [6]:
# -1的是模型预测错误，需要数据增强的数据
# 大于等于0的是数据标注有问题
need_aug = relabeled_v2[relabeled_v2['edit'] < 0]
relabeled = relabeled_v2[relabeled_v2['edit'] >= 0]

# 复制一份train
train_copy = train.copy()
train_copy['id'] = list(range(len(train)))

# 修正标签
for i, row in relabeled.iterrows():
    loc = train_copy[(train_copy['cid'] == row['cid']) & (train_copy['rid'] == row['rid'])]['id']
    train_copy.loc[loc, 'label'] = int(row['edit'])

train_copy.to_csv("train_v4.tsv", sep='\t', index=None)

In [55]:
# 看有没有n_gram相似但是标签不一致的
from LAC import LAC
import itertools
lac = LAC(mode='seg')

%time train['bigram'] = train['d2'].apply(lambda x: set(n_gram(lac.run(str(x)))))

sim_data = []
i = 0
for group in train.groupby(['cid']):
    data = group[1]
    print("\r处理第%d条数据中"%i,end='')
    i += 1
    # 两两之间检查是不是有交集。。。
    for combine in itertools.permutations(list(range(len(data))), 2):
        a = data.iloc[combine[1], 6]
        b = data.iloc[combine[0], 6]
        collection = a.intersection(b)
        if len(collection) >= 2:
            # 如果交集数量大于2，就看标签是不是一致的
            if data.iloc[combine[0], 4] != data.iloc[combine[1], 4]:
                sim_data.append(data)
                flag = True
                break
len(sim_data)

Wall time: 11.1 s
处理第5999条数据中

58

In [57]:
sim_ans = pd.concat(sim_data)
del sim_ans['bigram']
sim_ans['d1'] = df['d1']
sim_ans['d2'] = df['d2']

# 生成文件之后还需要人工筛选一下
sim_ans.to_csv("unmatched_精洗1.tsv", sep='\t', index=None)

In [27]:
# 基于二元语法来做聚类

# 生成某个句子的n-gram
def n_gram(x, n=2):
    if len(x) <= (n-1):
        return x
    result = []
    # zip函数在达到最短长度时就停止迭代
    n_grams = set(zip(*[x[i:] for i in range(n)]))
    for n_gram in n_grams:
        result.append("".join(n_gram))
    return result

# 对于5个字以内的问题，有一个公共的bigram就成，大于5个字的问题，有2个公共的bigram就成
questions_ = set(train['d1'])
q_bigrams = []
for q in questions_:
    q_bigrams.append((q, set(list(n_gram(str(q))))))
len(q_bigrams)

3884

In [3]:
# 对于某一个问题，遍历所有问题，寻找到相似的之后，把索引装在一起，然后删除掉聚类的问题，继续循环
import copy

questions = {idx:(_,q) for idx, (_,q) in enumerate(q_bigrams)}
backup = copy.deepcopy(questions)
indices = []
while len(questions) > 0:
    print("\r还剩下%d个问题"%len(questions), end='')
    # 临时list，用于保存聚类文本的索引
    tmp = []
    # 取第一个问题
    idx, (_,q) = list(questions.items())[0]
    if len(q) <= 4:
        for idx, (_,quest) in questions.items():
            if len(quest) <= 4:
                if len(q.intersection(quest)) >= 1:
                    tmp.append(idx)
            else:
                if len(q.intersection(quest)) >= 2:
                    tmp.append(idx)
    else:
        for idx, (_,quest) in questions.items():
            if len(quest) <= 4:
                if len(q.intersection(quest)) >= 1:
                    tmp.append(idx)
            else:
                if len(q.intersection(quest)) >= 3:
                    tmp.append(idx)
    indices.append(tmp)
    # 然后删除已经聚类了的问题
    for i in tmp:
        del questions[i]
len(questions), len(backup)

还剩下1个问题题题题

(0, 3884)

In [4]:
all_q = []

with open("聚类.txt", 'w', encoding="utf-8") as fin:
    for j in range(len(indices)):
        fin.write(str(j)+"\n")
        for i in indices[j]:
            fin.write(str(backup[i][0]) + "\n")
        fin.write("\n")

In [16]:
unmatch = []

for group in groups:
    data = group[1]
    data['dumplicated'] = data.apply(lambda x: str(x['d2'])+str(x['label']), axis=1)
    dump = set(data['dumplicated'].values.tolist())
    del data['dumplicated']
    if len(dump) != len(data):
        unmatch.append(data)
len(unmatch)

177

In [17]:
unmatch[0]

Unnamed: 0,cid,d1,rid,d2,label
75,21,我想看看碧桂园的房子。,0,OK,0
76,21,我想看看碧桂园的房子。,1,OK,0
77,21,我想看看碧桂园的房子。,2,可以的,1
