# 外部分词

In [12]:
import re
import jieba
import logging
import time
from sklearn.feature_extraction.text import TfidfVectorizer

raw_file = 'chat-short-20w.txt'
clean_file = 'chat-short-clean-20w.txt'
stop_wrods_file = 'stop_words.txt'

jieba.setLogLevel(logging.INFO)
logging.basicConfig(format='%(message)s', level=logging.DEBUG)

def substitute(sent):
    exps = [
        r'#E-\w\[数字x\]|~O\(∩_∩\)O/~',
        r'http[s]?://[a-zA-Z0-9|\.|/]+',
        r'http[s]?://[a-zA-Z0-9\./-]*\[链接x\]',
        r'\[ORDERID_[0-9]+\]',
        r'\[日期x\]',
        r'\[时间x\]',
        r'\[金额x\]',
        r'\[站点x\]',
        r'\[数字x\]',
        r'\[地址x\]',
        r'\[姓名x\]',
        r'\[邮箱x\]',
        r'\[电话x\]',
        r'\[商品快照\]',
        r'<s>',
        r'\s+',
        r'[a-z|0-9]+'
        "[\s+\.\!\/_,$%^:*(+\"\')]+",
        "[+——()?:【】‘’“”`！，。？、~@#￥%……&*（）]+"
    ]
    for exp in exps:
        sent = re.sub(exp, ' ', sent)
    return sent

logging.info('数据清洗开始...')
tt = time.time()

# 读取原始数据文件
with open(raw_file, encoding='utf-8') as f:
    corpus = f.read()

# 将每段对话合并为一行
corpus = corpus.strip().split('\n\n')  # '\n\n'分隔每段对话
for i in range(len(corpus)):
    corpus[i] = corpus[i].strip().split('\n')  # '\n'分隔每句话
    for j in range(len(corpus[i])):
        corpus[i][j] = corpus[i][j].strip()[2:]  # 去除开头的0/1标记
    corpus[i] = ' '.join(corpus[i])
logging.info('Step1: 合并完成 (共%d段对话)' % len(corpus))


# 正则表达式替换特定字符串
corpus = list(map(substitute, corpus))
logging.info('Setp2: 正则表达式替换完成')

# 分词
t = time.time()
corpus = list(map(jieba.cut, corpus))
logging.info('Step3: 分词完成')

# 删除停用词
with open(stop_wrods_file, encoding='utf-8') as f:
    stop_words = f.read().strip().split('\n')
    
t = time.time()
for i in range(len(corpus)):
    tokens = []
    for token in corpus[i]:
        token = token.strip()
        if len(token) > 1 and token not in stop_words:
            tokens.append(token)
    corpus[i] = tokens
logging.info('Step3: 删除停用词完成 (用时: %.2fs)' % (time.time() - t))

# Combine
corpus = list(map(lambda x: ' '.join(x), corpus))

logging.info('数据清洗完成.')




max_df=0.1
min_df = 20
max_features=None

tfidf_vectorizer = TfidfVectorizer(max_df=max_df, min_df=min_df, max_features=max_features)
tfidf = tfidf_vectorizer.fit_transform(corpus)

# Show data
print('words:', len(tfidf_vectorizer.vocabulary_))

print('Time:', time.time() - tt)

print(tfidf_vectorizer.get_feature_names()[:100])

数据清洗开始...
Step1: 合并完成 (共10942段对话)
Setp2: 正则表达式替换完成
Step3: 分词完成
Step3: 删除停用词完成 (用时: 20.33s)
数据清洗完成.


words: 1229
Time: 21.31999707221985
['30', 'app', 'gt', 'id', 'nbsp', 'ok', 'pc', 'plus', 'pos', 'skui', 'source', '一个月', '一些', '一件', '一会', '一会儿', '一共', '一切正常', '一单', '一双', '一台', '一号', '一周', '一块', '一声', '一大', '一天', '一套', '一定', '一家', '一对一', '一年', '一张', '一条', '一次', '一款', '一点', '一直', '一看', '一致', '一起', '七天', '七点', '三个', '三件', '三包', '三天', '三年', '三点', '三级', '上传', '上午', '上帝', '上次', '上海', '上班', '上门', '上面', '下个', '下午', '下发', '下哈', '下次', '下班', '下载', '下面', '不上', '不便', '不到', '不变', '不够', '不太', '不好', '不好意思', '不想', '不换', '不接', '不敢', '不用', '不知', '不能取消', '不行', '不见', '不让', '不足', '不远', '不退', '不送', '不通', '不错', '专业', '专员', '专用发票', '专票', '业务', '东西', '两个', '两件', '两天', '两张']
