In [1]:
import pandas as pd
import re

In [2]:
class CleanData:
    # 要去除的固定词
    unUselessWords = ['[语音]', '[图片]']
    unUselessSymbol = '[`~!@#$^&*()_\\-+=|{}\':;\',\\[\\]<>/?~！@#￥……&*（）——+|{}【】‘；：”“’。，、？]'
    web_reg = r'(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]'
    taobao_reg = r"￥[A-Za-z0-9]+￥"

    @staticmethod
    def cleanData(string):
        # 去除无用关键词
        string = CleanData.removeUselessWords(string)
        # 去除网址
        string = CleanData.removeWeb(string)
        # 去除淘口令
        string = CleanData.removeTaobao(string)
        # 去除特殊符号保留 符号.
        string = CleanData.removeSymbols(string)
        return string

    @staticmethod
    def removeUselessWords(string):
        for word in CleanData.unUselessWords:
            if (word in string):
                string = string.replace(word, ' ')
        return string

    # 去除网址
    @staticmethod
    def removeWeb(string):
        pattern = re.compile(CleanData.web_reg)
        return pattern.sub(" ", string)

    # 去除手淘链接例如 ￥orIk0ITYkCs￥
    @staticmethod
    def removeTaobao(string):
        pattern = re.compile(CleanData.taobao_reg)
        return pattern.sub("", string)

    # 去除特殊符号 ? ,| 等但是保留.
    @staticmethod
    def removeSymbols(string):
        pattern = re.compile(CleanData.unUselessSymbol)
        return pattern.sub(" ", string)

In [3]:
trianData = 'datas/AutoMaster_TrainSet.csv'
testData = 'datas/AutoMaster_TestSet.csv'

In [4]:
dataFrame = pd.read_csv(trianData, encoding="UTF-8")
# 获取所需列
dataFrame = dataFrame.iloc[:, 1:6]
# 将所有列拼接成一个list
text_list = []
for index, row in dataFrame.iteritems():
    text_list.extend(dataFrame[index].tolist())

In [5]:
text_list[300000:300020]

['技师说：您就是跑起来嗡嗡嗡的声音大？',
 '技师说：不需要更换的，全合成机油，建议一年换一次|技师说：爱车跑了多少公里了|车主说：两万|车主说：两万公里我都保养四次了|车主说：三次美孚一号|技师说：5000保养一次|车主说：一次是送的保养|技师说：美孚一号完全可以跑10000公里换一次|车主说：三千公里保养送的|车主说：8000换的美孚一号|技师说：首保3000做的|车主说：然后一万三做的第三次|车主说：现在公里数没到时间到了|技师说：我说这个机油不用5000换油一次|技师说：可以延长换油公里数|技师说：上次换油是几月份|车主说：大概七月份|技师说：上次保养后跑了多少公里|车主说：到现在大概三四千公里|技师说：不需要|技师说：不需要换油|车主说：那到什么时候换？|技师说：这款机油建议跑7500公里换油一次|技师说：最合适|技师说：5000换油太浪费了|车主说：时间呢？|车主说：一年？|车主说：我刚刚打电话问了，上次离现在已经八个月了，公里数是六千不到|技师说：你问的是4s|车主说：嗯|车主说：大概八个月的时间了|技师说：4s都是这种套路|技师说：全合成机油完全可以一年或者10000公里换油一次|车主说：没有，我能确定是的，时间八个月，14000保的|车主说：哦，那我就在跑跑|技师说：可以的|车主说：嗯，谢谢|技师说：客气了|车主说：全合成就是一年可以的是吗？|技师说：是的|车主说：好|车主说：谢谢',
 '技师说：你好，直接向里调就可以，锁紧螺母后面的螺丝向里调，拉线就会拉紧。|车主说：我紧了，可客户说没反应，让我好尴尬|车主说：这是江铃驭胜35016款的|技师说：不能够啊',
 '技师说：你好，按照你说的这种情况很大的，可能是车辆气门位置，也就是液压挺杆发出来的声响。还有可能是碳罐电磁阀发出来的声响，大概就这两方面的原因，如果是液压挺杆发出来的声响，这种情况需要更换新的液压挺杆。|车主说：一般修理厂更换液压挺杆大约价位应该是多少，更换碳罐电磁阀价位应该是多少|技师说：更换液压挺杆，1000左右 碳罐电磁阀150左右|车主说：有没有可能是气门间隙过大产生这种哒哒哒的声音|车主说：说话啊|技师说：气门间隙大，就是液压挺杆磨损导致的，液压挺杆的间隙量大|车主说：有没有气门间隙调整的说法，奥迪的气门间隙是自动调整还是可以手调|技师说：没有调节气门间隙的这一说法，这款

In [6]:
text_list = [CleanData.cleanData(str(a)) for a in text_list]

In [7]:
text_list[300000:300020]

['技师说 您就是跑起来嗡嗡嗡的声音大 ',
 '技师说 不需要更换的 全合成机油 建议一年换一次 技师说 爱车跑了多少公里了 车主说 两万 车主说 两万公里我都保养四次了 车主说 三次美孚一号 技师说 5000保养一次 车主说 一次是送的保养 技师说 美孚一号完全可以跑10000公里换一次 车主说 三千公里保养送的 车主说 8000换的美孚一号 技师说 首保3000做的 车主说 然后一万三做的第三次 车主说 现在公里数没到时间到了 技师说 我说这个机油不用5000换油一次 技师说 可以延长换油公里数 技师说 上次换油是几月份 车主说 大概七月份 技师说 上次保养后跑了多少公里 车主说 到现在大概三四千公里 技师说 不需要 技师说 不需要换油 车主说 那到什么时候换  技师说 这款机油建议跑7500公里换油一次 技师说 最合适 技师说 5000换油太浪费了 车主说 时间呢  车主说 一年  车主说 我刚刚打电话问了 上次离现在已经八个月了 公里数是六千不到 技师说 你问的是4s 车主说 嗯 车主说 大概八个月的时间了 技师说 4s都是这种套路 技师说 全合成机油完全可以一年或者10000公里换油一次 车主说 没有 我能确定是的 时间八个月 14000保的 车主说 哦 那我就在跑跑 技师说 可以的 车主说 嗯 谢谢 技师说 客气了 车主说 全合成就是一年可以的是吗  技师说 是的 车主说 好 车主说 谢谢',
 '技师说 你好 直接向里调就可以 锁紧螺母后面的螺丝向里调 拉线就会拉紧  车主说 我紧了 可客户说没反应 让我好尴尬 车主说 这是江铃驭胜35016款的 技师说 不能够啊',
 '技师说 你好 按照你说的这种情况很大的 可能是车辆气门位置 也就是液压挺杆发出来的声响 还有可能是碳罐电磁阀发出来的声响 大概就这两方面的原因 如果是液压挺杆发出来的声响 这种情况需要更换新的液压挺杆  车主说 一般修理厂更换液压挺杆大约价位应该是多少 更换碳罐电磁阀价位应该是多少 技师说 更换液压挺杆 1000左右 碳罐电磁阀150左右 车主说 有没有可能是气门间隙过大产生这种哒哒哒的声音 车主说 说话啊 技师说 气门间隙大 就是液压挺杆磨损导致的 液压挺杆的间隙量大 车主说 有没有气门间隙调整的说法 奥迪的气门间隙是自动调整还是可以手调 技师说 没有调节气门间隙的这一说法 这款

In [8]:
text = ''
for a in text_list:
    text += a
    text += ' '

In [10]:
print(len(text))

28746377
