In [1]:
from torch_data import UserCommentDataset
from train_config import targets, data_path_config
import re
from gensim.models import KeyedVectors
from utils import build_tok2idx, build_embedding_matrix
hierarchical_model_config = {
    'max_sentences': 240,
    'max_sentence_length': 40
}




In [2]:
def remove_special_tokens(sent):
    tokens = {'*', '^', 'O'}
    for token in tokens:
        sent = sent.replace(token, '')
    return sent

In [3]:
def process_error_seg(sent):
    repls = [('(是\s吗\s*){1,}', '是吗'),
             ('(去\s吧\s*){1,}', '去吧'),
             ('(坑\s爹\s*){1,}', '坑爹')]
    for pattern, repl in repls:
        sent = re.sub(pattern, repl, sent)
    return sent

In [4]:
def split_sentence(sent):
    splits = ';+|。+|！+|…+|\r+|\n+|，+|~+|!+|\s{2,}|,+|\.{1,}|～+|、+|\'+|≡+|·+|-+|〜'
    return re.split(splits, sent)

In [5]:
def process_sentence(sents):
    processed_sents = []
    void_set = {' ', '', '*', '^', 'O'}
    for sent in sents:
        sent = sent.lstrip(' ').rstrip(' ')
        if sent in void_set:
            continue
        processed_sents.append(sent)
    return processed_sents

In [6]:
def remove_dups(sents):
    processed_sents = []
    appeared_sents = set()
    for sent in sents:
        if sent in appeared_sents:
            continue
        appeared_sents.add(sent)
        processed_sents.append(sent)
    return processed_sents

In [7]:
transformers = [remove_special_tokens, process_error_seg, split_sentence, process_sentence, remove_dups]

In [8]:
sample = UserCommentDataset(data_path_config['train_data_path'], targets, content='jieba_seg', transformers= None)

In [9]:
sents, tag_cat = zip(*sample)

In [10]:
tag_cat[0]

[array([1, 0, 0, 0], dtype=int8),
 array([1, 0, 0, 0], dtype=int8),
 array([1, 0, 0, 0], dtype=int8),
 array([1, 0, 0, 0], dtype=int8),
 array([0, 0, 0, 1], dtype=int8),
 array([1, 0, 0, 0], dtype=int8),
 array([1, 0, 0, 0], dtype=int8),
 array([1, 0, 0, 0], dtype=int8),
 array([1, 0, 0, 0], dtype=int8),
 array([0, 0, 0, 1], dtype=int8),
 array([1, 0, 0, 0], dtype=int8),
 array([1, 0, 0, 0], dtype=int8),
 array([1, 0, 0, 0], dtype=int8),
 array([1, 0, 0, 0], dtype=int8),
 array([1, 0, 0, 0], dtype=int8),
 array([1, 0, 0, 0], dtype=int8),
 array([0, 0, 0, 1], dtype=int8),
 array([1, 0, 0, 0], dtype=int8),
 array([0, 0, 0, 1], dtype=int8),
 array([1, 0, 0, 0], dtype=int8)]

In [None]:
max_len = 0
max_len_sent = ''
max_idx = 0
for idx, sent in enumerate(sents):
    for words in sent:
        n_words = len([x for x in words.split(' ') if x != ''])
        if n_words > max_len:
            print(words)
            max_len = n_words
            max_len_sent = words
            max_idx = idx
max_len

In [None]:
max_len_sent

In [None]:
max_idx

In [None]:
import pandas as pd
data = pd.read_csv(data_path_config['train_data_path'])

In [None]:
data['content'].values[max_idx]

In [None]:
data['jieba_seg'].values[max_idx]

In [None]:
re.split(splits, sents[86749])

In [None]:
sents[29505]

In [None]:
def transform(sents):
    processed_sents = []
    for sent in sents:
        sent = sent.lstrip(' ').rstrip(' ')
        if sent == ' ' or sent == '':
            continue
        print(sent)
        processed_sents.append(sent)
    return processed_sents

In [None]:
transform(re.split(splits, sents[86749]))

In [None]:
re.split(splits, sents[86749])[50].lstrip(' ').rstrip(' ')

In [None]:
sent = " 吼吼 吼 ， 萌死 人 的 棒棒糖 ， 中 了 大众 点评 的 霸王餐 ， 太 可爱 了 。 一直 就 好奇 这个 棒棒糖 是 怎么 个 东西 ， 大众 点评 给 了 我 这个 土老冒 一个 见识 的 机会 。 看 介绍 棒棒糖 是 用 德国 糖 做 的 ， 不会 很甜 ， 中间 的 照片 是 糯米 的 ， 能 食用 ， 真是太 高端 大气 上档次 了 ， 还 可以 买 蝴蝶结 扎口 ， 送人 可以 买 礼盒 。 我 是 先 打 的 卖家 电话 ， 加 了 微信 ， 给 卖家 传 的 照片 。 等 了 几天 ， 卖家 就 告诉 我 可以 取货 了 ， 去 大官 屯 那取 的 。 虽然 连 卖家 的 面 都 没 见到 ， 但是 还是 谢谢 卖家 送 我 这么 可爱 的 东西 ， 太 喜欢 了 ， 这 哪 舍得吃 啊 。 "

In [None]:
remove_token(sent)

In [None]:
sent = sent.lstrip('"').rstrip('"')

In [None]:
sent

In [None]:
import jieba

In [None]:
jieba.lcut('"位于愉景花园斜对面，交通方便，环境一般般，味道一般般，*^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^*"')

In [None]:
'asd  asd'.replace('a', 'b')

In [None]:
sent = '是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗'

In [None]:
sents[0]

In [None]:
re.sub('(是\s吗\s*){1,}','是吧',sent)

In [None]:
import numpy as np
np.zeros((len(sample), 240, 100), dtype='int16')

In [None]:
2 ** 16 - 1

In [None]:
def sentence2array(data, tok2idx):
    max_sentences = hierarchical_model_config['max_sentences']
    max_words = hierarchical_model_config['max_sentence_length']
    n_sentences = len(data)
    sentence_array = np.zeros((n_sentences, max_sentences, max_words), dtype='int32')
    for row_idx, sentences in enumerate(data):
        for sent_idx, sentence in enumerate(sentences):
            if sent_idx >= max_sentences:
                continue
            words_list = sentence.split(' ')
            print(words_list)
            for word_idx, word in enumerate(words_list):
                if word_idx >= max_words:
                    print(word_idx)
                    continue
                if word not in tok2idx:
                    continue
                print(tok2idx[word])
                sentence_array[row_idx, sent_idx, word_idx] = tok2idx[word]
    return sentence_array

In [None]:
w2v = KeyedVectors.load_word2vec_format(data_path_config['embedding_path'],
                                            binary=True, unicode_errors='ignore')

In [None]:
tok2idx = build_tok2idx(w2v)

In [None]:
sss = sentence2array([sents[0]], tok2idx)

In [None]:
sss[sss<0]

In [None]:
tok2idx['萌死']

In [None]:
sents[0]

In [None]:
sss[0,:,:]

In [None]:
len(sents[0])

In [None]:
'棒棒糖' in tok2idx

In [None]:
'萌死 人 的 棒棒糖'.split(' ')