In [44]:
from torch_data import UserCommentDataset
from train_config import targets, data_path_config
import re
from gensim.models import KeyedVectors
from utils import build_tok2idx, build_embedding_matrix
hierarchical_model_config = {
    'max_sentences': 240,
    'max_sentence_length': 40
}


In [2]:
def remove_special_tokens(sent):
    tokens = {'*', '^', 'O'}
    for token in tokens:
        sent = sent.replace(token, '')
    return sent

In [3]:
def process_error_seg(sent):
    repls = [('(是\s吗\s*){1,}', '是吗'),
             ('(去\s吧\s*){1,}', '去吧'),
             ('(坑\s爹\s*){1,}', '坑爹')]
    for pattern, repl in repls:
        sent = re.sub(pattern, repl, sent)
    return sent

In [19]:
def split_sentence(sent):
    splits = ';+|。+|！+|…+|\r+|\n+|，+|~+|!+|\s{2,}|,+|\.{1,}|～+|、+|\'+|≡+|·+|-+|〜'
    return re.split(splits, sent)

In [20]:
def process_sentence(sents):
    processed_sents = []
    void_set = {' ', '', '*', '^', 'O'}
    for sent in sents:
        sent = sent.lstrip(' ').rstrip(' ')
        if sent in void_set:
            continue
        processed_sents.append(sent)
    return processed_sents

In [21]:
def remove_dups(sents):
    processed_sents = []
    appeared_sents = set()
    for sent in sents:
        if sent in appeared_sents:
            continue
        appeared_sents.add(sent)
        processed_sents.append(sent)
    return processed_sents

In [22]:
transformers = [remove_special_tokens, process_error_seg, split_sentence, process_sentence, remove_dups]

In [23]:
sample = UserCommentDataset(data_path_config['train_data_path'], targets=None, content='jieba_seg', transformers= transformers)

In [24]:
sents, tag, tag_cat = zip(*sample)

In [25]:
max([len(x) for x in sents])

240

In [26]:
max_len = 0
max_len_sent = ''
max_idx = 0
for idx, sent in enumerate(sents):
    for words in sent:
        n_words = len([x for x in words.split(' ') if x != ''])
        if n_words > max_len:
            print(words)
            max_len = n_words
            max_len_sent = words
            max_idx = idx
max_len

吼吼 吼
萌死 人 的 棒棒糖
中 了 大众 点评 的 霸王餐
一直 就 好奇 这个 棒棒糖 是 怎么 个 东西
大众 点评 给 了 我 这个 土老冒 一个 见识 的 机会
所以 4 个人 花 了 100 不到 【 这个 优惠券 只能 在 1 层用
你 厨师 哪里 请来 的 啊 大街 上 随便 拉 个人 过来 都 烤 的 比 你好 吧 ？
果然 是 老 厦门 的 地方 吗 ？ 我 一般 是从 角滨路 禾祥西 那个 十字路口 附近 的 消防大队 旁边 的 那条 小路 走进 去
根据 介绍 这到 想 吃 麻辣 就 红 汤锅            bbb     b   b  b    
单身 狗 你 占 了 便宜 还 要求 怎么样 啊 ） 带 着 妈妈 一 起飞 ✌ ️ 七楼 唯一 不用 排队 旁边 一直 是 蜜桃 叫 号 约会 建议 不要 饭点 去 点菜 自助 写 编码 就 可以 啦 棒棒 嗒 ✌ ️
鱼肉 也 是 鲜嫩 至极 感觉 上面 还淋上 了 少许 的 柠檬汁 还是 这样 的 烤鱼 比较 原汁原味 （ 有 鲳鱼 和 鲈鱼 两种 ） 毛蟹 炒年糕 也 不错 但 就是 酱汁 有 一点 偏甜 需要 改进 而且 年糕 块 也 可以 再 小 一点 要是 放 上 一点 牛柳 可能 会 更好
可能 是 可能 是 去 的 比较 早 所以 提前 去 的 时候 打个 电话 就 可以 了 店 里面 很 干净 的 主导 是 铁板烧 点 了 好几份 刺身 但是 服务员 的 态度 很 好 很 好 饮料 梅列会 主动 来 询问 你 二 饮料 够不够 或者 是 要 不要 再 加一点 啊 刺身 新鲜 的 铁板烧 的 师傅 态度 也 很 好点 了 很多 也 一直 给 我们 做 材料 也 挺 新鲜 的
你 要 请 我 吃 章鱼 小丸子 炸 臭豆腐 上校 鸡块 烤 面筋 麻辣 鸭 脖 酸辣粉 鳕鱼 盖浇饭 手 抓 饼 瘦肉 丸 布丁 巧克力 奶茶 寿司 森永 水果糖 不 二家 棒棒糖 悠哈 烤肉 汉堡 冰淇淋 黑森林 奶昔 慕斯 毛血旺 鸡公 煲 串 烧烤 羊腿 牛 板筋 糖醋 花生 驴打滚 儿 果脯 绿豆糕 夫妻 肺片 圆笼 粉蒸肉 麻辣 猪肝 掉渣饼 东坡肉 板栗 烧鸡 可乐 鸡翅 纸包 酸奶 冰棒 芒果 西米露 肉末 茄子 软式 法国 面包 猫舌饼 

157

In [27]:
max_len_sent

'大家 觉得 惊喜交加 大家 都 快点 快点 看看 的 大结局 都 觉得 亟待解决 的 就 大哭 大哭 大哭 的 亟待解决 的 觉得 亟待解决 大姐 大姐 大姐大 姐姐 代扣代缴 大家 坑爹 坑 爹 坑 爹 坑 爹 坑 爹 坑 爹 坑 爹 坑 爹 看看 大哭 大哭 大哭 大哭 大家 觉得 亟待解决 大姐 大姐 大姐 大姐 大姐 打开 看看 大家 亟待解决 的 基督教 的 亟待解决 的 亟待解决 额 呵呵 呵呵 呵 电话 电话 好多好多 好多好多 计划 大姐 大姐 大姐 大姐 亟待解决 的 觉得 亟待解决 的 亟待解决 大姐 大姐 的 亟待解决 就是 襟江带湖 大家 都 觉得 亟待解决 的 还 大喊大叫 大姐 经济 的 觉得 亟待解决 大姐 大姐 的 亟待解决 的 觉得 大姐 经济 大姐 大姐 大姐 大姐 的 亟待解决 的 大 姐姐 大姐 大姐 大姐 经济 大姐 大姐 大姐 的 亟待解决 大姐 大姐 大姐 大姐 大姐 大姐 大姐 大姐 的 亟待解决 大姐 大姐 大姐 大姐 大姐 不是 宝宝 打扮 打扮 打扮 巴登 巴登 吧 不失时机 徐徐 嘻嘻 弟弟'

In [28]:
max_idx

41331

In [None]:
import pandas as pd
data = pd.read_csv(data_path_config['train_data_path'])

In [None]:
data['content'].values[max_idx]

In [None]:
data['jieba_seg'].values[max_idx]

In [None]:
re.split(splits, sents[86749])

In [None]:
sents[29505]

In [None]:
def transform(sents):
    processed_sents = []
    for sent in sents:
        sent = sent.lstrip(' ').rstrip(' ')
        if sent == ' ' or sent == '':
            continue
        print(sent)
        processed_sents.append(sent)
    return processed_sents

In [None]:
transform(re.split(splits, sents[86749]))

In [None]:
re.split(splits, sents[86749])[50].lstrip(' ').rstrip(' ')

In [None]:
sent = " 吼吼 吼 ， 萌死 人 的 棒棒糖 ， 中 了 大众 点评 的 霸王餐 ， 太 可爱 了 。 一直 就 好奇 这个 棒棒糖 是 怎么 个 东西 ， 大众 点评 给 了 我 这个 土老冒 一个 见识 的 机会 。 看 介绍 棒棒糖 是 用 德国 糖 做 的 ， 不会 很甜 ， 中间 的 照片 是 糯米 的 ， 能 食用 ， 真是太 高端 大气 上档次 了 ， 还 可以 买 蝴蝶结 扎口 ， 送人 可以 买 礼盒 。 我 是 先 打 的 卖家 电话 ， 加 了 微信 ， 给 卖家 传 的 照片 。 等 了 几天 ， 卖家 就 告诉 我 可以 取货 了 ， 去 大官 屯 那取 的 。 虽然 连 卖家 的 面 都 没 见到 ， 但是 还是 谢谢 卖家 送 我 这么 可爱 的 东西 ， 太 喜欢 了 ， 这 哪 舍得吃 啊 。 "

In [None]:
remove_token(sent)

In [None]:
sent = sent.lstrip('"').rstrip('"')

In [None]:
sent

In [None]:
import jieba

In [None]:
jieba.lcut('"位于愉景花园斜对面，交通方便，环境一般般，味道一般般，*^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^**^O^*"')

In [None]:
'asd  asd'.replace('a', 'b')

In [None]:
sent = '是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗 是 吗'

In [29]:
sents[0]

['吼吼 吼',
 '萌死 人 的 棒棒糖',
 '中 了 大众 点评 的 霸王餐',
 '太 可爱 了',
 '一直 就 好奇 这个 棒棒糖 是 怎么 个 东西',
 '大众 点评 给 了 我 这个 土老冒 一个 见识 的 机会',
 '看 介绍 棒棒糖 是 用 德国 糖 做 的',
 '不会 很甜',
 '中间 的 照片 是 糯米 的',
 '能 食用',
 '真是太 高端 大气 上档次 了',
 '还 可以 买 蝴蝶结 扎口',
 '送人 可以 买 礼盒',
 '我 是 先 打 的 卖家 电话',
 '加 了 微信',
 '给 卖家 传 的 照片',
 '等 了 几天',
 '卖家 就 告诉 我 可以 取货 了',
 '去 大官 屯 那取 的',
 '虽然 连 卖家 的 面 都 没 见到',
 '但是 还是 谢谢 卖家 送 我 这么 可爱 的 东西',
 '太 喜欢 了',
 '这 哪 舍得吃 啊']

In [None]:
re.sub('(是\s吗\s*){1,}','是吧',sent)

In [36]:
import numpy as np
np.zeros((len(sample), 240, 100), dtype='int16')

array([[[0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        ...,
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0]],

       [[0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        ...,
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0]],

       [[0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        ...,
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0]],

       ...,

       [[0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        ...,
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0]],

       [[0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        ...,
        [0, 0, 0, ..., 

In [35]:
2 ** 16 - 1

65535

In [95]:
def sentence2array(data, tok2idx):
    max_sentences = hierarchical_model_config['max_sentences']
    max_words = hierarchical_model_config['max_sentence_length']
    n_sentences = len(data)
    sentence_array = np.zeros((n_sentences, max_sentences, max_words), dtype='int16')
    for row_idx, sentences in enumerate(data):
        for sent_idx, sentence in enumerate(sentences):
            if sent_idx >= max_sentences:
                continue
            words_list = sentence.split(' ')
            print(words_list)
            for word_idx, word in enumerate(words_list):
                if word_idx >= max_words:
                    print(word_idx)
                    continue
                if word not in tok2idx:
                    continue
                print(tok2idx[word])
                sentence_array[row_idx, sent_idx, word_idx] = tok2idx[word]
    return sentence_array

In [53]:
w2v = KeyedVectors.load_word2vec_format(data_path_config['embedding_path'],
                                            binary=True, unicode_errors='ignore')

In [54]:
tok2idx = build_tok2idx(w2v)

In [96]:
sss = sentence2array([sents[0]], tok2idx)

['吼吼', '吼']
7468
7365
['萌死', '人', '的', '棒棒糖']
46210
30
2
13778
['中', '了', '大众', '点评', '的', '霸王餐']
167
4
161
101
2
293
['太', '可爱', '了']
113
840
4
['一直', '就', '好奇', '这个', '棒棒糖', '是', '怎么', '个', '东西']
159
13
2651
60
13778
5
335
91
166
['大众', '点评', '给', '了', '我', '这个', '土老冒', '一个', '见识', '的', '机会']
161
101
65
4
14
60
38
7366
2
441
['看', '介绍', '棒棒糖', '是', '用', '德国', '糖', '做', '的']
111
484
13778
5
105
3591
1128
93
2
['不会', '很甜']
142
1245
['中间', '的', '照片', '是', '糯米', '的']
606
2
1059
5
1021
2
['能', '食用']
104
2532
['真是太', '高端', '大气', '上档次', '了']
2457
2180
1823
3578
4
['还', '可以', '买', '蝴蝶结', '扎口']
18
23
200
25824
57037
['送人', '可以', '买', '礼盒']
14016
23
200
8066
['我', '是', '先', '打', '的', '卖家', '电话']
14
5
496
465
2
5582
997
['加', '了', '微信']
210
4
1094
['给', '卖家', '传', '的', '照片']
65
5582
7053
2
1059
['等', '了', '几天']
102
4
1322
['卖家', '就', '告诉', '我', '可以', '取货', '了']
5582
13
794
14
23
21127
4
['去', '大官', '屯', '那取', '的']
26
8228
2
['虽然', '连', '卖家', '的', '面', '都', '没', '见到']
145
632
5582
2
222
11
58
18

In [98]:
sss[sss<0]

array([-19326,  -8499], dtype=int16)

In [97]:
tok2idx['萌死']

46210

In [71]:
sents[0]

['吼吼 吼',
 '萌死 人 的 棒棒糖',
 '中 了 大众 点评 的 霸王餐',
 '太 可爱 了',
 '一直 就 好奇 这个 棒棒糖 是 怎么 个 东西',
 '大众 点评 给 了 我 这个 土老冒 一个 见识 的 机会',
 '看 介绍 棒棒糖 是 用 德国 糖 做 的',
 '不会 很甜',
 '中间 的 照片 是 糯米 的',
 '能 食用',
 '真是太 高端 大气 上档次 了',
 '还 可以 买 蝴蝶结 扎口',
 '送人 可以 买 礼盒',
 '我 是 先 打 的 卖家 电话',
 '加 了 微信',
 '给 卖家 传 的 照片',
 '等 了 几天',
 '卖家 就 告诉 我 可以 取货 了',
 '去 大官 屯 那取 的',
 '虽然 连 卖家 的 面 都 没 见到',
 '但是 还是 谢谢 卖家 送 我 这么 可爱 的 东西',
 '太 喜欢 了',
 '这 哪 舍得吃 啊']

In [92]:
sss[0,:,:]

array([[  7468,   7365,      0, ...,      0,      0,      0],
       [-19326,     30,      2, ...,      0,      0,      0],
       [   167,      4,    161, ...,      0,      0,      0],
       ...,
       [     0,      0,      0, ...,      0,      0,      0],
       [     0,      0,      0, ...,      0,      0,      0],
       [     0,      0,      0, ...,      0,      0,      0]], dtype=int16)

In [74]:
len(sents[0])

23

In [79]:
'棒棒糖' in tok2idx

True

In [80]:
'萌死 人 的 棒棒糖'.split(' ')

['萌死', '人', '的', '棒棒糖']