In [1]:
import data_preprocess
import tokenize_data_helper
import nengo
from nengo.exceptions import SpaParseError, ValidationError
import sys
import numpy as np
from nengo.spa import pointer
from tensorflow.python.keras.preprocessing.text import Tokenizer
from tensorflow.python.keras.preprocessing.sequence import pad_sequences


  from ._conv import register_converters as _register_converters


In [2]:
DIM = 100
W2V_MODEL = '100features_20context_20mincount_zht'
CONTROL_TRAIN = 'control.txt'
DEMENTIA_TRAIN = 'dementia.txt'
CONTROL_TEST = 'control_test.txt'
DEMENTIA_TEST = 'dementia_test.txt'

In [3]:
w2v_model, _, w2v_dict = data_preprocess.load_wordvec_model(W2V_MODEL)
vocab = nengo.spa.Vocabulary(100, max_similarity=0.3) # optional max_similarity: 0.1

Load word2vec model sucess ...
Number of token: 259425
Dimensions of word vector: 100


In [4]:
num_words = 1000
x_train, y_train = data_preprocess.read_sentence(DEMENTIA_TRAIN, CONTROL_TRAIN)
x_train_seg = data_preprocess.segmentation(x_train)
x_test, y_test = data_preprocess.read_sentence(DEMENTIA_TEST, CONTROL_TEST)
x_test_seg = data_preprocess.segmentation(x_test)
data_helper = tokenize_data_helper.tokenize_data_helper(x_train_seg, num_words)
x_train_tokens, x_test_tokens = data_helper.tokenize_data(x_train_seg, x_test_seg)
x_train_pad, x_test_pad = data_helper.pad_tokenize(x_train_tokens, x_test_tokens)


Building prefix dict from /home/yyliu/code/NLP/data/dict.txt.big ...
Loading model from cache /tmp/jieba.u74f96b08eeb68fe4b0ac4c13a6f276ed.cache


total number of train set: 784
sentence number of dementia subject: 394
sentence number of control normal subject: 390


Loading model cost 1.320 seconds.
Prefix dict has been built succesfully.


total number of train set: 89
sentence number of dementia subject: 48
sentence number of control normal subject: 41


In [5]:
x_train_tokens[0]

[150, 115]

In [6]:
# test_text = []
# for i in x_train_tokens[0]:
#     test_text.append(data_helper.tokens_to_string(i))
# print(test_text)
data_helper.tokens_to_string(x_train_tokens[0])

'三個 人'

In [7]:
oov = []
# for sentences in x_train_seg:
#     for token in sentences.split():
#         try:
#             vocab.add(str('V'+token), w2v_dict[token])
#         except KeyError:
#             oov.append(token)
#             value = vocab.create_pointer(attempts=100)
#             vocab.add(str('V'+token), value)
#             continue
#         except ValidationError:
#             pass
# data_helper.tokenizer.word_index
for token, i in data_helper.tokenizer.word_index.items():
    try:
        vocab.add(str('V'+token), w2v_dict[token])
    except KeyError:
        oov.append(token)
        value = vocab.create_pointer(attempts=100)
        vocab.add(str('V'+token), value)
        continue
vocab.add('Start', np.zeros(DIM))

In [8]:
print(len(oov))

100


In [9]:
assert len(vocab.keys) == len(data_helper.tokenizer.word_index.keys())

AssertionError: 

In [10]:
# print(vocab.keys[0], vocab[vocab.keys[0]])
print(vocab.keys[-5:-1])

['V椅去', 'V分給', 'V一片', 'V心事重重']


In [11]:
model_path = 'edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz'

In [12]:
s = u"媽媽 在 洗 盤子"

# 依存分析
from nltk.parse.stanford import StanfordDependencyParser
parser = StanfordDependencyParser(model_path=model_path)
result = list(parser.parse(s.split()))
for row in result[0].triples():
    print(row)

# 句法结构分析
from nltk.parse.stanford import StanfordParser
parser = StanfordParser(model_path=model_path)
result_2 = list(parser.parse(s.split()))
for r in result_2:
    print(r)
#     print(r.draw())


(('洗', 'VV'), 'nsubj', ('媽媽', 'NR'))
(('洗', 'VV'), 'advmod', ('在', 'AD'))
(('洗', 'VV'), 'dobj', ('盤子', 'NN'))
(ROOT (IP (NP (NR 媽媽)) (VP (ADVP (AD 在)) (VP (VV 洗) (NP (NN 盤子))))))


In [13]:
for i, r in enumerate(result_2[0].subtrees()):
    print(r, i)
# result_2[0].subtrees()

(ROOT (IP (NP (NR 媽媽)) (VP (ADVP (AD 在)) (VP (VV 洗) (NP (NN 盤子)))))) 0
(IP (NP (NR 媽媽)) (VP (ADVP (AD 在)) (VP (VV 洗) (NP (NN 盤子))))) 1
(NP (NR 媽媽)) 2
(NR 媽媽) 3
(VP (ADVP (AD 在)) (VP (VV 洗) (NP (NN 盤子)))) 4
(ADVP (AD 在)) 5
(AD 在) 6
(VP (VV 洗) (NP (NN 盤子))) 7
(VV 洗) 8
(NP (NN 盤子)) 9
(NN 盤子) 10


In [14]:
tree = result_2[0]
print(tree.pos())

[('媽媽', 'NR'), ('在', 'AD'), ('洗', 'VV'), ('盤子', 'NN')]


In [15]:
for s in tree.subtrees(lambda tree: tree.height() == 2):
    print(s.productions())

[NR -> '媽媽']
[AD -> '在']
[VV -> '洗']
[NN -> '盤子']


In [16]:
import nltk
# nltk.download('tagsets')
from nltk.data import load
tagdict = load('help/tagsets/upenn_tagset.pickle')

In [17]:
tagdict.keys()

dict_keys(['LS', 'TO', 'VBN', "''", 'WP', 'UH', 'VBG', 'JJ', 'VBZ', '--', 'VBP', 'NN', 'DT', 'PRP', ':', 'WP$', 'NNPS', 'PRP$', 'WDT', '(', ')', '.', ',', '``', '$', 'RB', 'RBR', 'RBS', 'VBD', 'IN', 'FW', 'RP', 'JJR', 'JJS', 'PDT', 'MD', 'VB', 'WRB', 'NNP', 'EX', 'NNS', 'SYM', 'CC', 'CD', 'POS'])

In [18]:
# parser = StanfordParser(model_path=model_path)
# def parser_tree(sentence):
#     result = list(parser.parse(sentence.split()))
#     return result

In [19]:
# x_train_tree = []
# for s in x_train_seg:
#     tree_tmp = list(parser.parse(s.split()))
#     x_train_tree.append(tree_tmp)

In [20]:
import jieba.posseg as pseg

In [21]:
x_train_postag = []
for s in x_train:
    x_train_postag.append(pseg.lcut(s))

In [22]:
flag_dict = {}
for s in x_train_postag:
    for word, flag in s:
        if flag not in flag_dict:
            flag_dict[flag] = 1
        print(word, flag)

三個 m
人 n
一個 m
媽媽 n
兩個 m
小孩 n
小孩 n
站 v
在 p
椅子 n
上要 b
拿 v
西點 n
椅子 n
都 d
快 a
倒 v
下來 t
了 ul
在 p
拿 v
這個 r
西點 n
餅乾 n
要 v
吃 v
手下 s
還 d
拿著 v
一塊 m
這 r
是 v
姊姊 n
還 d
妹妹 n
叫 v
他 r
多 m
拿 v
一塊 m
給 p
他 r
他 r
的 uj
椅子 n
都 d
快 a
倒 v
了 ul
這個 r
媽媽 n
在 p
洗 v
碗筷 n
但 c
可能 v
在 p
想 v
一些 m
心事 n
吧 y
所以 c
這個 r
水 n
都 d
已經 d
溢 n
出來 v
了 ul
他 r
還 d
在 p
洗 v
沒有 v
注意 v
到 v
窗子 n
外面 f
很漂亮 n
有 v
院子 n
有 v
草 n
樹 v
甚麼 r
的 uj
那他 r
這個 r
洗 v
的 uj
有 v
咖啡杯 n
盤子 n
這 zg
廚房 n
倒 v
是 v
很 d
乾淨 a
這個 r
水噴 nz
的 uj
到處 d
都 d
是 v
他 r
還 d
穿著 n
圍裙 n
拿著 v
抹布 v
再 d
擦 v
擦 v
這個 r
盤子 n
好像 v
在 p
想 v
心事 n
的 uj
樣子 n
所以 c
他 r
的 uj
孩子 n
在 p
這裡 r
這樣 r
他 r
都 d
不 d
知道 v
水溢 nr
出來 v
他 r
也 d
不 d
知道 v
一個 m
房子 n
這 r
是 v
甚麼 r
是 v
花 v
餅乾 n
拿 v
起來 v
吃 v
這個 r
拿 v
的 uj
甚麼 r
我 r
看不懂 v
這個 r
孩子 n
拿 v
了 ul
個 q
東西 ns
放到 v
上面 f
有 v
一個 m
流水 n
台 q
這 r
是 v
他 r
的 uj
家庭主婦 n
一個 m
媽媽 n
在 p
洗 v
盤子 n
然後 c
水 n
都 d
流下來 l
了 ul
那個 r
小孩子 n
在 p
偷拿 v
美 j
酥 a
他 r
站 v
在 p
凳子 n
上 f
凳子 n
快 a
倒 v
了 ul
就是 d
這個 r
兒子 n
跟 p
女兒 n
在 p
偷吃 v
餅乾 n
然後 c
凳子 n
快 a
倒 v
了 ul
那 r
那個 r
水 n
一直 d
流 n
媽媽 n
沒 v
注

在 p
圓形 n
的 uj
板凳 n
上 f
正要 a
拿 v
放在 v
櫃子 n
裡 zg
餅乾盒 r
內 f
的 uj
餅乾 n
給 p
妹妹 n
感覺 n
站不穩 l
快要 d
從 zg
板凳 n
上 f
摔下來 v
了 ul
媽媽 n
正 d
拿 v
抹布 v
在 p
擦 v
盤子 n
沒有 v
注意 v
到 v
流理台 n
放 v
的 uj
水 n
已經 d
滿 a
出來 v
且 c
流到 v
地板 n
上 f
把 p
地板 n
弄 v
濕 a
了 ul
妹妹 n
的 uj
手 n
伸長 v
等著 v
哥哥 ns
從 zg
櫃子 n
裡面 f
的 uj
餅乾盒 r
內 n
拿 v
餅乾 n
給 p
她 r
吃 v
從 zg
窗戶 n
裡面 f
看 v
外面 f
外面 f
的 uj
院子 n
看起來 v
很大 a
流理台 n
上面 f
看起來 v
還有 v
兩個 m
杯子 n
跟 p
一個 m
盤子 n
還 d
沒洗 v
乾淨 a
圖片 n
中 f
三 m
人 n
的 uj
衣服 n
是 v
短袖 b
的 uj
所以 c
應該 v
是 v
夏天 t
媽媽 n
看起來 v
很 zg
年輕 a
兩個 m
小孩 n
看起來 v
還 d
小 a
應該 v
是 v
小學生 nr
一個 m
媽媽 n
在 p
洗碗 n
水槽 n
的 uj
水 n
漏 v
了 ul
哥哥 ns
爬 v
上 f
椅子 n
拿 v
零食 n
哥哥 ns
重心 a
不 d
穩要 a
摔下來 v
了 ul
妹妹 n
焦急 a
的 uj
大叫 v
窗戶 n
窗簾 n
半開 m
著 n
媽媽 n
似乎 d
沒 v
發現 v
發生 v
什麼 r
事 n
小男孩 n
爬 v
上 f
椅子 n
想要 v
拿 v
櫃子 n
上 f
的 uj
東西 ns
但 c
一個 m
站不穩 l
快要 d
從 zg
椅子 n
上 f
摔下來 v
一旁 s
的 uj
妹妹 n
嚇 v
到 v
大叫 v
並 c
伸出手 v
想要 v
拉 v
住 v
哥哥 ns
但 c
媽媽 n
很 zg
認真 ad
在 p
洗碗盤 n
且 zg
水龍頭 n
忘記 v
關閉 v
導致 v
水槽 n
淹水 v
根本 a
沒 v
注意 v
到 v
哥哥 ns
要 v
從 p
椅子 n
上 f
跌下來 l
了 ul
今天 t
是 v
晴朗 a
的 u

In [23]:
print(len(flag_dict))

39


In [24]:
sp = []
for word, flag in x_train_postag[0]:
    print(word)
    sp.append(vocab['V'+word])

三個
人


In [25]:
sp

[<nengo.spa.pointer.SemanticPointer at 0x7fc7965616a0>,
 <nengo.spa.pointer.SemanticPointer at 0x7fc79655beb8>]

In [26]:
x_train_postag[0]

[pair('三個', 'm'), pair('人', 'n')]

In [27]:
for i in flag_dict:
    vocab.parse(i.upper())

In [28]:
len(vocab.keys)

940

In [29]:
sentence_bind_pos = []
for s in x_train_postag:
    new_s = vocab['Start']
    for word, flag in s:
        new_token = vocab['V'+str(word)]*vocab[flag.upper()]
        new_s += new_token
    sentence_bind_pos.append(new_s)

In [30]:
print(sentence_bind_pos[0].v)

[ -12.79780718 -155.70495023  -55.17018979  107.66792046   28.27751691
   60.64991985   -5.93196017 -158.86358098  -69.16572922   59.01161175
  -24.82931342  144.45338568   59.15976756 -136.67242921   18.74875821
 -107.09845595  -88.17864288  -50.61666593   94.35297478   -7.53322983
 -126.22010481   32.29398116  -62.86037128  -19.32730855  -56.61902631
  111.7860922   -99.90017808  -37.828716    -42.48994447   96.15412005
  -48.28229286 -164.84397654  -16.71111703 -205.5592739  -230.28002969
   49.89235636  -16.67909978 -201.31975516  236.46733682  -28.73683692
  -56.78721886   40.62321429   -1.27914948   92.05589605  135.07022113
  -31.98571581 -161.75032895  152.52983396  -57.66906416  -35.66815313
  -11.70335729  -52.71353574   -7.58325957  -44.08304587 -207.38547534
   36.8107102   -39.72774656  -33.21096162   41.89230082   97.39181567
   -2.30499573  -14.00430059  194.75911937 -178.97440624 -118.83212641
  129.04846012  -79.98132627   46.24920555  -82.68120928  -24.61334949
   33.

In [33]:
x_train_sp = np.zeros((len(x_train),DIM))

In [37]:
for i in range(len(sentence_bind_pos)):
    x_train_sp[i] = sentence_bind_pos[i].v

In [40]:
x_train_sp[0]

array([ -12.79780718, -155.70495023,  -55.17018979,  107.66792046,
         28.27751691,   60.64991985,   -5.93196017, -158.86358098,
        -69.16572922,   59.01161175,  -24.82931342,  144.45338568,
         59.15976756, -136.67242921,   18.74875821, -107.09845595,
        -88.17864288,  -50.61666593,   94.35297478,   -7.53322983,
       -126.22010481,   32.29398116,  -62.86037128,  -19.32730855,
        -56.61902631,  111.7860922 ,  -99.90017808,  -37.828716  ,
        -42.48994447,   96.15412005,  -48.28229286, -164.84397654,
        -16.71111703, -205.5592739 , -230.28002969,   49.89235636,
        -16.67909978, -201.31975516,  236.46733682,  -28.73683692,
        -56.78721886,   40.62321429,   -1.27914948,   92.05589605,
        135.07022113,  -31.98571581, -161.75032895,  152.52983396,
        -57.66906416,  -35.66815313,  -11.70335729,  -52.71353574,
         -7.58325957,  -44.08304587, -207.38547534,   36.8107102 ,
        -39.72774656,  -33.21096162,   41.89230082,   97.39181

In [66]:
from tensorflow.python.keras.models import Sequential
from tensorflow.python.keras.layers import Dense, LSTM

In [74]:
model = Sequential()
model.add(Dense(64,input_dim=DIM, kernel_initializer='normal', activation='relu'))
model.add(Dense(32, kernel_initializer='normal', activation='relu'))
model.add(Dense(2, kernel_initializer='normal', activation='sigmoid'))
model.compile(optimizer='Adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(x_train_sp, y_train, validation_split=0.1, epochs=10, batch_size=16, 
            shuffle=True)

Train on 705 samples, validate on 79 samples
Epoch 1/10

Epoch 2/10

Epoch 3/10

Epoch 4/10

Epoch 5/10

Epoch 6/10

Epoch 7/10

Epoch 8/10

Epoch 9/10

Epoch 10/10



<tensorflow.python.keras._impl.keras.callbacks.History at 0x7fc74101dd68>