### 导入需要的库

In [1]:
from keras.layers import Bidirectional, Dense, Embedding, Input, Lambda, LSTM, RepeatVector, TimeDistributed, Layer, Activation, Dropout
from keras.preprocessing.sequence import pad_sequences
from keras.layers.advanced_activations import ELU
from keras.preprocessing.text import Tokenizer
from keras.callbacks import ModelCheckpoint
from keras.optimizers import Adam
from keras import backend as K
from keras.models import Model
from scipy import spatial
import tensorflow as tf
import pandas as pd
import numpy as np
import codecs
import os

Using TensorFlow backend.


# 加载目录和文档
首先，我们将设置主目录和一些有关文本特征的变量。我们将序列长度设置为5-40，将词汇表中的最大单词数设置为93250(93254)，我们将使用300维embeddings。最后，从txt加载文本。文本文件来源于人民日报，包含大约10万个句子。

In [2]:
BASE_DIR = './data/'
TRAIN_DATA_FILE = BASE_DIR + 'train.txt'# 10+万条问句
GLOVE_EMBEDDING = BASE_DIR + 'sgns.renmin.bigram-char'#单词->300维embedding
MIN_SEQUENCE_LENGTH = 5  #最小序列长度5
MAX_SEQUENCE_LENGTH = 40 #最大序列长度40
MAX_NB_WORDS = 93250
EMBEDDING_DIM = 300 #embedding维度300

texts = [] #通过列表来存储句子
with codecs.open(TRAIN_DATA_FILE, encoding='utf-8') as f:
    reader = f.readline()
    while reader: #取出句子,存入texts
        if (len(reader.split()) <= MAX_SEQUENCE_LENGTH) and (len(reader.split()) >= MIN_SEQUENCE_LENGTH):
            texts.append(reader)
        reader = f.readline()
f.close()

n_sents = len(texts)
print('Found %s texts in train.txt' % n_sents) #训练用句子个数

Found 106508 texts in train.txt


### 文本预处理
使用Keras的tokenizer和text_to_sequences函数预处理文本

In [3]:
tokenizer = Tokenizer(MAX_NB_WORDS+1, oov_token='unk') #Tokenizer是一个用于向量化文本，或将文本转换为序列（即单词在字典中的下标构成的列表，从1算起）的类
tokenizer.fit_on_texts(texts)
print('Found %s unique tokens' % len(tokenizer.word_index))

## **关键步骤** 若不能正常工作，丢弃OOV_Token
tokenizer.word_index = {e:i for e,i in tokenizer.word_index.items() if i <= MAX_NB_WORDS} # <= 从1开始
#tokenizer.word_index[tokenizer.oov_token] = MAX_NB_WORDS + 1
word_index = tokenizer.word_index #word到index的字典
index2word = {v: k for k, v in word_index.items()} #index到word的字典

sequences = tokenizer.texts_to_sequences(texts)#序列的列表，列表中每个序列对应于一段输入文本
data_1 = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGTH) #序列全部填充到25维，尾补0
print('Shape of data tensor:', data_1.shape)
NB_WORDS = (min(tokenizer.num_words, len(word_index))+1) #+1 for zero padding 
print('NB_WORDS:', NB_WORDS)

data_val = data_1[100000:106500]
data_train = data_1[:100000]


Found 93254 unique tokens
Shape of data tensor: (106508, 40)
NB_WORDS: 93251


In [4]:
print(word_index['unk'])

1


In [5]:
print(index2word[93250])

外八庙


### Word embeddings
使用预训练的Glove word embeddings。创建一个矩阵，在词汇表中为每个单词对应一个embedding，然后我们将这个矩阵作为权重传递给我们模型的embedding layer 

In [8]:
embeddings_index = {}

#取出word及其对应的embeddings，存入字典embeddings_index
with codecs.open(GLOVE_EMBEDDING, encoding='utf-8') as f:
    line = f.readline()
    line = f.readline()
    while line: #取出句子,存入texts
        values = line.split()
        word = values[0]
        coefs = np.asarray(values[1:], dtype='float32')
        embeddings_index[word] = coefs
        line = f.readline()
f.close()
print('Found %s word vectors.' % len(embeddings_index))


glove_embedding_matrix = np.zeros((NB_WORDS, EMBEDDING_DIM)) #申请0数组，(93251,300)
for word, i in word_index.items():
    if i < NB_WORDS+1: #+1 for 'unk' oov token 
        embedding_vector = embeddings_index.get(word)
        if embedding_vector is not None:
            glove_embedding_matrix[i] = embedding_vector
        else:
            # 在embeddings索引中找不到的单词，将是unk的embeddings
            #print('i=',i)
            glove_embedding_matrix[i] = embeddings_index.get('unk')
print('Null word embeddings: %d' % np.sum(np.sum(glove_embedding_matrix, axis=1) == 0))

Found 355776 word vectors.
i= 1
i= 4
i= 5
i= 217
i= 229
i= 242
i= 254
i= 269
i= 281
i= 305
i= 369
i= 424
i= 523
i= 527
i= 625
i= 662
i= 843
i= 891
i= 924
i= 1033
i= 1134
i= 1210
i= 1218
i= 1234
i= 1249
i= 1381
i= 1470
i= 1601
i= 1605
i= 1624
i= 1669
i= 1672
i= 1717
i= 1728
i= 1752
i= 1786
i= 1833
i= 1932
i= 1977
i= 1983
i= 1993
i= 2034
i= 2039
i= 2051
i= 2090
i= 2093
i= 2102
i= 2104
i= 2150
i= 2151
i= 2167
i= 2169
i= 2192
i= 2219
i= 2222
i= 2290
i= 2358
i= 2377
i= 2388
i= 2392
i= 2428
i= 2439
i= 2470
i= 2473
i= 2506
i= 2520
i= 2521
i= 2526
i= 2573
i= 2586
i= 2621
i= 2641
i= 2643
i= 2652
i= 2685
i= 2692
i= 2712
i= 2714
i= 2718
i= 2720
i= 2727
i= 2729
i= 2743
i= 2744
i= 2752
i= 2807
i= 2809
i= 2824
i= 2839
i= 2855
i= 2878
i= 2934
i= 2967
i= 2986
i= 2995
i= 3006
i= 3018
i= 3022
i= 3035
i= 3037
i= 3045
i= 3075
i= 3122
i= 3123
i= 3124
i= 3173
i= 3193
i= 3225
i= 3227
i= 3263
i= 3290
i= 3332
i= 3351
i= 3370
i= 3441
i= 3516
i= 3521
i= 3550
i= 3561
i= 3562
i= 3565
i= 3576
i= 3577
i= 3638
i= 364

i= 18096
i= 18098
i= 18100
i= 18106
i= 18139
i= 18161
i= 18282
i= 18294
i= 18331
i= 18334
i= 18364
i= 18369
i= 18370
i= 18376
i= 18378
i= 18382
i= 18387
i= 18401
i= 18455
i= 18471
i= 18474
i= 18485
i= 18493
i= 18526
i= 18535
i= 18537
i= 18538
i= 18541
i= 18545
i= 18561
i= 18563
i= 18596
i= 18607
i= 18620
i= 18683
i= 18690
i= 18691
i= 18692
i= 18709
i= 18734
i= 18735
i= 18754
i= 18761
i= 18775
i= 18868
i= 18903
i= 18953
i= 18979
i= 19065
i= 19070
i= 19079
i= 19099
i= 19122
i= 19141
i= 19163
i= 19206
i= 19217
i= 19237
i= 19243
i= 19245
i= 19246
i= 19250
i= 19252
i= 19270
i= 19274
i= 19280
i= 19286
i= 19287
i= 19290
i= 19293
i= 19294
i= 19295
i= 19302
i= 19303
i= 19305
i= 19306
i= 19309
i= 19316
i= 19318
i= 19325
i= 19332
i= 19333
i= 19334
i= 19336
i= 19337
i= 19338
i= 19345
i= 19346
i= 19347
i= 19349
i= 19359
i= 19360
i= 19363
i= 19366
i= 19367
i= 19372
i= 19373
i= 19377
i= 19382
i= 19383
i= 19384
i= 19388
i= 19393
i= 19397
i= 19401
i= 19402
i= 19403
i= 19405
i= 19410
i= 19411
i= 19413
i

i= 26311
i= 26342
i= 26344
i= 26386
i= 26403
i= 26408
i= 26411
i= 26426
i= 26445
i= 26453
i= 26482
i= 26484
i= 26486
i= 26503
i= 26515
i= 26557
i= 26570
i= 26602
i= 26632
i= 26639
i= 26660
i= 26672
i= 26676
i= 26681
i= 26714
i= 26732
i= 26750
i= 26756
i= 26789
i= 26796
i= 26851
i= 26856
i= 26863
i= 26871
i= 26876
i= 26913
i= 26915
i= 26925
i= 26929
i= 26934
i= 26936
i= 26949
i= 26981
i= 27012
i= 27070
i= 27074
i= 27102
i= 27106
i= 27114
i= 27122
i= 27124
i= 27128
i= 27131
i= 27135
i= 27160
i= 27161
i= 27172
i= 27182
i= 27195
i= 27196
i= 27209
i= 27215
i= 27218
i= 27231
i= 27275
i= 27277
i= 27282
i= 27284
i= 27285
i= 27286
i= 27287
i= 27290
i= 27292
i= 27295
i= 27304
i= 27306
i= 27312
i= 27314
i= 27315
i= 27318
i= 27329
i= 27335
i= 27339
i= 27353
i= 27365
i= 27378
i= 27392
i= 27393
i= 27397
i= 27398
i= 27400
i= 27402
i= 27405
i= 27421
i= 27423
i= 27424
i= 27425
i= 27426
i= 27427
i= 27431
i= 27433
i= 27434
i= 27442
i= 27443
i= 27444
i= 27445
i= 27453
i= 27459
i= 27462
i= 27466
i= 27468
i

i= 33216
i= 33223
i= 33225
i= 33226
i= 33227
i= 33228
i= 33231
i= 33232
i= 33234
i= 33235
i= 33236
i= 33238
i= 33239
i= 33241
i= 33242
i= 33252
i= 33265
i= 33267
i= 33274
i= 33275
i= 33276
i= 33278
i= 33280
i= 33281
i= 33282
i= 33284
i= 33285
i= 33290
i= 33294
i= 33296
i= 33297
i= 33299
i= 33301
i= 33302
i= 33310
i= 33311
i= 33315
i= 33316
i= 33317
i= 33321
i= 33323
i= 33325
i= 33327
i= 33336
i= 33341
i= 33351
i= 33353
i= 33355
i= 33357
i= 33360
i= 33364
i= 33365
i= 33368
i= 33374
i= 33375
i= 33377
i= 33379
i= 33380
i= 33386
i= 33387
i= 33389
i= 33391
i= 33394
i= 33397
i= 33398
i= 33409
i= 33416
i= 33419
i= 33426
i= 33429
i= 33432
i= 33434
i= 33436
i= 33440
i= 33441
i= 33442
i= 33443
i= 33444
i= 33446
i= 33447
i= 33448
i= 33450
i= 33452
i= 33453
i= 33454
i= 33458
i= 33461
i= 33463
i= 33464
i= 33470
i= 33471
i= 33472
i= 33473
i= 33481
i= 33489
i= 33494
i= 33495
i= 33506
i= 33512
i= 33528
i= 33529
i= 33531
i= 33533
i= 33541
i= 33543
i= 33547
i= 33549
i= 33559
i= 33560
i= 33561
i= 33562
i

i= 38785
i= 38786
i= 38790
i= 38791
i= 38798
i= 38801
i= 38802
i= 38804
i= 38806
i= 38809
i= 38821
i= 38824
i= 38830
i= 38833
i= 38834
i= 38848
i= 38850
i= 38854
i= 38858
i= 38866
i= 38876
i= 38902
i= 38908
i= 38915
i= 38918
i= 38920
i= 38921
i= 38923
i= 38924
i= 38927
i= 38937
i= 38942
i= 38946
i= 38963
i= 38964
i= 38965
i= 38967
i= 38996
i= 38998
i= 39001
i= 39003
i= 39005
i= 39007
i= 39009
i= 39010
i= 39012
i= 39013
i= 39019
i= 39047
i= 39055
i= 39059
i= 39085
i= 39086
i= 39088
i= 39092
i= 39095
i= 39101
i= 39107
i= 39108
i= 39110
i= 39113
i= 39114
i= 39123
i= 39125
i= 39132
i= 39134
i= 39143
i= 39147
i= 39149
i= 39161
i= 39165
i= 39172
i= 39183
i= 39195
i= 39200
i= 39207
i= 39210
i= 39227
i= 39233
i= 39245
i= 39247
i= 39257
i= 39279
i= 39281
i= 39288
i= 39299
i= 39301
i= 39302
i= 39304
i= 39307
i= 39310
i= 39325
i= 39328
i= 39344
i= 39370
i= 39435
i= 39449
i= 39451
i= 39461
i= 39470
i= 39471
i= 39478
i= 39479
i= 39480
i= 39481
i= 39482
i= 39484
i= 39487
i= 39495
i= 39497
i= 39498
i

i= 42978
i= 42988
i= 42997
i= 42998
i= 43003
i= 43004
i= 43007
i= 43011
i= 43017
i= 43020
i= 43021
i= 43022
i= 43027
i= 43028
i= 43029
i= 43033
i= 43034
i= 43035
i= 43037
i= 43041
i= 43043
i= 43044
i= 43048
i= 43049
i= 43053
i= 43054
i= 43055
i= 43057
i= 43059
i= 43061
i= 43063
i= 43064
i= 43067
i= 43070
i= 43071
i= 43072
i= 43075
i= 43076
i= 43077
i= 43079
i= 43080
i= 43081
i= 43082
i= 43083
i= 43084
i= 43086
i= 43091
i= 43092
i= 43094
i= 43096
i= 43097
i= 43098
i= 43102
i= 43106
i= 43107
i= 43111
i= 43112
i= 43113
i= 43116
i= 43119
i= 43122
i= 43123
i= 43127
i= 43128
i= 43129
i= 43131
i= 43133
i= 43135
i= 43136
i= 43137
i= 43138
i= 43140
i= 43141
i= 43142
i= 43145
i= 43148
i= 43150
i= 43151
i= 43158
i= 43160
i= 43161
i= 43162
i= 43163
i= 43164
i= 43166
i= 43167
i= 43168
i= 43169
i= 43172
i= 43173
i= 43175
i= 43176
i= 43177
i= 43178
i= 43184
i= 43185
i= 43186
i= 43187
i= 43192
i= 43194
i= 43198
i= 43199
i= 43205
i= 43208
i= 43209
i= 43210
i= 43213
i= 43214
i= 43215
i= 43217
i= 43220
i

i= 45942
i= 45943
i= 45944
i= 45946
i= 45948
i= 45949
i= 45953
i= 45959
i= 45960
i= 45961
i= 45962
i= 45963
i= 45964
i= 45968
i= 45969
i= 45970
i= 45973
i= 45974
i= 45977
i= 45978
i= 45979
i= 45980
i= 45981
i= 45983
i= 45986
i= 45989
i= 45990
i= 45994
i= 46000
i= 46003
i= 46006
i= 46009
i= 46011
i= 46012
i= 46013
i= 46016
i= 46019
i= 46021
i= 46022
i= 46024
i= 46026
i= 46027
i= 46028
i= 46029
i= 46031
i= 46033
i= 46037
i= 46038
i= 46041
i= 46042
i= 46043
i= 46046
i= 46052
i= 46058
i= 46062
i= 46063
i= 46065
i= 46067
i= 46070
i= 46071
i= 46072
i= 46080
i= 46081
i= 46083
i= 46084
i= 46085
i= 46086
i= 46087
i= 46088
i= 46089
i= 46092
i= 46093
i= 46100
i= 46102
i= 46103
i= 46111
i= 46116
i= 46118
i= 46119
i= 46121
i= 46124
i= 46134
i= 46135
i= 46136
i= 46138
i= 46140
i= 46141
i= 46143
i= 46144
i= 46146
i= 46148
i= 46151
i= 46152
i= 46153
i= 46155
i= 46158
i= 46160
i= 46163
i= 46165
i= 46167
i= 46168
i= 46178
i= 46179
i= 46182
i= 46183
i= 46187
i= 46188
i= 46189
i= 46190
i= 46191
i= 46192
i

i= 49386
i= 49399
i= 49402
i= 49406
i= 49412
i= 49413
i= 49414
i= 49421
i= 49423
i= 49429
i= 49432
i= 49433
i= 49436
i= 49442
i= 49443
i= 49446
i= 49451
i= 49452
i= 49453
i= 49456
i= 49458
i= 49460
i= 49461
i= 49462
i= 49468
i= 49473
i= 49474
i= 49475
i= 49481
i= 49483
i= 49484
i= 49485
i= 49486
i= 49492
i= 49493
i= 49494
i= 49496
i= 49501
i= 49511
i= 49515
i= 49517
i= 49518
i= 49519
i= 49520
i= 49522
i= 49523
i= 49528
i= 49530
i= 49531
i= 49533
i= 49537
i= 49538
i= 49545
i= 49546
i= 49548
i= 49551
i= 49552
i= 49557
i= 49558
i= 49559
i= 49560
i= 49565
i= 49566
i= 49568
i= 49573
i= 49575
i= 49576
i= 49577
i= 49578
i= 49580
i= 49581
i= 49582
i= 49583
i= 49584
i= 49585
i= 49586
i= 49587
i= 49588
i= 49589
i= 49590
i= 49591
i= 49592
i= 49593
i= 49594
i= 49595
i= 49596
i= 49597
i= 49598
i= 49599
i= 49600
i= 49601
i= 49602
i= 49603
i= 49604
i= 49605
i= 49606
i= 49607
i= 49608
i= 49609
i= 49610
i= 49611
i= 49612
i= 49613
i= 49615
i= 49617
i= 49618
i= 49619
i= 49624
i= 49630
i= 49632
i= 49634
i

i= 52563
i= 52567
i= 52569
i= 52572
i= 52577
i= 52584
i= 52586
i= 52588
i= 52591
i= 52592
i= 52597
i= 52598
i= 52599
i= 52600
i= 52602
i= 52603
i= 52609
i= 52618
i= 52620
i= 52621
i= 52630
i= 52631
i= 52635
i= 52640
i= 52641
i= 52642
i= 52643
i= 52644
i= 52645
i= 52648
i= 52651
i= 52653
i= 52656
i= 52657
i= 52658
i= 52660
i= 52661
i= 52662
i= 52663
i= 52664
i= 52666
i= 52668
i= 52671
i= 52683
i= 52685
i= 52687
i= 52688
i= 52689
i= 52690
i= 52691
i= 52692
i= 52693
i= 52694
i= 52695
i= 52696
i= 52697
i= 52698
i= 52699
i= 52700
i= 52701
i= 52702
i= 52703
i= 52704
i= 52705
i= 52706
i= 52707
i= 52708
i= 52709
i= 52710
i= 52711
i= 52712
i= 52713
i= 52714
i= 52715
i= 52716
i= 52719
i= 52720
i= 52722
i= 52723
i= 52727
i= 52729
i= 52733
i= 52734
i= 52735
i= 52736
i= 52737
i= 52738
i= 52744
i= 52748
i= 52752
i= 52753
i= 52754
i= 52756
i= 52757
i= 52758
i= 52759
i= 52761
i= 52762
i= 52763
i= 52764
i= 52765
i= 52766
i= 52768
i= 52770
i= 52771
i= 52772
i= 52773
i= 52774
i= 52775
i= 52776
i= 52778
i

i= 57055
i= 57057
i= 57060
i= 57061
i= 57063
i= 57064
i= 57066
i= 57072
i= 57077
i= 57080
i= 57082
i= 57083
i= 57085
i= 57086
i= 57090
i= 57095
i= 57099
i= 57101
i= 57104
i= 57107
i= 57108
i= 57112
i= 57114
i= 57116
i= 57117
i= 57119
i= 57120
i= 57121
i= 57122
i= 57123
i= 57125
i= 57126
i= 57127
i= 57128
i= 57129
i= 57130
i= 57136
i= 57137
i= 57138
i= 57139
i= 57140
i= 57141
i= 57142
i= 57145
i= 57147
i= 57149
i= 57150
i= 57152
i= 57153
i= 57159
i= 57169
i= 57171
i= 57175
i= 57177
i= 57178
i= 57180
i= 57183
i= 57184
i= 57189
i= 57193
i= 57194
i= 57200
i= 57201
i= 57202
i= 57210
i= 57211
i= 57214
i= 57215
i= 57217
i= 57218
i= 57220
i= 57221
i= 57222
i= 57224
i= 57229
i= 57230
i= 57234
i= 57236
i= 57247
i= 57248
i= 57268
i= 57273
i= 57278
i= 57279
i= 57282
i= 57283
i= 57284
i= 57286
i= 57287
i= 57294
i= 57295
i= 57296
i= 57297
i= 57302
i= 57315
i= 57318
i= 57323
i= 57324
i= 57327
i= 57329
i= 57331
i= 57333
i= 57338
i= 57341
i= 57343
i= 57348
i= 57349
i= 57350
i= 57359
i= 57363
i= 57367
i

i= 61108
i= 61109
i= 61110
i= 61111
i= 61112
i= 61113
i= 61114
i= 61116
i= 61117
i= 61118
i= 61119
i= 61120
i= 61121
i= 61122
i= 61123
i= 61124
i= 61125
i= 61126
i= 61133
i= 61134
i= 61135
i= 61138
i= 61143
i= 61145
i= 61146
i= 61147
i= 61148
i= 61149
i= 61150
i= 61151
i= 61156
i= 61157
i= 61158
i= 61159
i= 61161
i= 61162
i= 61169
i= 61172
i= 61174
i= 61180
i= 61183
i= 61192
i= 61197
i= 61198
i= 61200
i= 61201
i= 61202
i= 61204
i= 61207
i= 61208
i= 61209
i= 61211
i= 61212
i= 61213
i= 61216
i= 61220
i= 61221
i= 61222
i= 61223
i= 61226
i= 61227
i= 61228
i= 61230
i= 61231
i= 61232
i= 61234
i= 61235
i= 61237
i= 61238
i= 61239
i= 61240
i= 61241
i= 61242
i= 61243
i= 61244
i= 61245
i= 61246
i= 61247
i= 61248
i= 61249
i= 61252
i= 61253
i= 61255
i= 61258
i= 61260
i= 61261
i= 61267
i= 61271
i= 61274
i= 61275
i= 61276
i= 61278
i= 61279
i= 61281
i= 61289
i= 61291
i= 61292
i= 61294
i= 61296
i= 61297
i= 61298
i= 61299
i= 61300
i= 61302
i= 61304
i= 61310
i= 61312
i= 61313
i= 61316
i= 61317
i= 61323
i

i= 63926
i= 63927
i= 63928
i= 63929
i= 63930
i= 63933
i= 63935
i= 63937
i= 63938
i= 63939
i= 63940
i= 63941
i= 63942
i= 63943
i= 63944
i= 63945
i= 63946
i= 63947
i= 63948
i= 63949
i= 63951
i= 63952
i= 63953
i= 63954
i= 63955
i= 63956
i= 63957
i= 63959
i= 63960
i= 63961
i= 63962
i= 63963
i= 63965
i= 63967
i= 63968
i= 63969
i= 63971
i= 63972
i= 63973
i= 63974
i= 63975
i= 63977
i= 63978
i= 63981
i= 63982
i= 63985
i= 63986
i= 63987
i= 63989
i= 63990
i= 63991
i= 63993
i= 63994
i= 63995
i= 63996
i= 63997
i= 63999
i= 64000
i= 64004
i= 64005
i= 64006
i= 64007
i= 64009
i= 64010
i= 64011
i= 64012
i= 64013
i= 64015
i= 64016
i= 64019
i= 64020
i= 64021
i= 64022
i= 64023
i= 64024
i= 64025
i= 64026
i= 64028
i= 64029
i= 64030
i= 64031
i= 64032
i= 64033
i= 64034
i= 64035
i= 64037
i= 64038
i= 64039
i= 64040
i= 64041
i= 64042
i= 64043
i= 64045
i= 64048
i= 64049
i= 64050
i= 64053
i= 64054
i= 64056
i= 64059
i= 64060
i= 64062
i= 64063
i= 64064
i= 64065
i= 64066
i= 64067
i= 64068
i= 64069
i= 64070
i= 64071
i

i= 65410
i= 65411
i= 65413
i= 65414
i= 65415
i= 65416
i= 65418
i= 65419
i= 65420
i= 65421
i= 65422
i= 65423
i= 65424
i= 65426
i= 65427
i= 65428
i= 65429
i= 65430
i= 65431
i= 65433
i= 65434
i= 65437
i= 65438
i= 65441
i= 65447
i= 65448
i= 65451
i= 65452
i= 65454
i= 65455
i= 65456
i= 65458
i= 65460
i= 65461
i= 65462
i= 65466
i= 65467
i= 65468
i= 65472
i= 65473
i= 65474
i= 65475
i= 65476
i= 65477
i= 65478
i= 65479
i= 65480
i= 65483
i= 65485
i= 65488
i= 65489
i= 65490
i= 65491
i= 65492
i= 65494
i= 65496
i= 65497
i= 65499
i= 65502
i= 65503
i= 65504
i= 65505
i= 65506
i= 65508
i= 65511
i= 65514
i= 65515
i= 65516
i= 65517
i= 65518
i= 65519
i= 65521
i= 65522
i= 65523
i= 65525
i= 65526
i= 65528
i= 65529
i= 65531
i= 65532
i= 65533
i= 65534
i= 65535
i= 65536
i= 65538
i= 65539
i= 65540
i= 65541
i= 65542
i= 65543
i= 65544
i= 65546
i= 65547
i= 65548
i= 65549
i= 65550
i= 65551
i= 65555
i= 65556
i= 65557
i= 65558
i= 65559
i= 65560
i= 65561
i= 65562
i= 65563
i= 65564
i= 65565
i= 65566
i= 65567
i= 65568
i

i= 68559
i= 68560
i= 68561
i= 68562
i= 68563
i= 68564
i= 68565
i= 68566
i= 68567
i= 68568
i= 68569
i= 68571
i= 68572
i= 68574
i= 68577
i= 68578
i= 68579
i= 68580
i= 68581
i= 68582
i= 68583
i= 68584
i= 68586
i= 68587
i= 68588
i= 68589
i= 68590
i= 68591
i= 68592
i= 68593
i= 68594
i= 68599
i= 68600
i= 68601
i= 68603
i= 68604
i= 68606
i= 68607
i= 68608
i= 68610
i= 68612
i= 68613
i= 68615
i= 68616
i= 68618
i= 68620
i= 68626
i= 68628
i= 68630
i= 68632
i= 68633
i= 68634
i= 68635
i= 68636
i= 68637
i= 68638
i= 68639
i= 68640
i= 68642
i= 68643
i= 68645
i= 68646
i= 68648
i= 68653
i= 68654
i= 68655
i= 68656
i= 68658
i= 68659
i= 68662
i= 68663
i= 68664
i= 68665
i= 68666
i= 68667
i= 68668
i= 68670
i= 68671
i= 68672
i= 68673
i= 68674
i= 68676
i= 68677
i= 68678
i= 68682
i= 68683
i= 68685
i= 68687
i= 68688
i= 68689
i= 68690
i= 68691
i= 68692
i= 68693
i= 68694
i= 68695
i= 68696
i= 68697
i= 68698
i= 68699
i= 68701
i= 68704
i= 68705
i= 68706
i= 68707
i= 68708
i= 68711
i= 68712
i= 68713
i= 68715
i= 68717
i

i= 69910
i= 69929
i= 69935
i= 69937
i= 69940
i= 69942
i= 69944
i= 69954
i= 69961
i= 69963
i= 69968
i= 69969
i= 69971
i= 69972
i= 69977
i= 69982
i= 69983
i= 69987
i= 69988
i= 69989
i= 69990
i= 69993
i= 69997
i= 70007
i= 70008
i= 70009
i= 70012
i= 70019
i= 70027
i= 70029
i= 70033
i= 70035
i= 70044
i= 70049
i= 70050
i= 70052
i= 70053
i= 70054
i= 70056
i= 70060
i= 70071
i= 70073
i= 70074
i= 70078
i= 70080
i= 70081
i= 70086
i= 70088
i= 70093
i= 70094
i= 70095
i= 70096
i= 70097
i= 70098
i= 70100
i= 70101
i= 70102
i= 70108
i= 70110
i= 70113
i= 70114
i= 70116
i= 70120
i= 70122
i= 70123
i= 70124
i= 70127
i= 70128
i= 70131
i= 70132
i= 70135
i= 70136
i= 70137
i= 70138
i= 70139
i= 70142
i= 70143
i= 70147
i= 70148
i= 70150
i= 70151
i= 70152
i= 70154
i= 70155
i= 70156
i= 70158
i= 70160
i= 70161
i= 70162
i= 70163
i= 70166
i= 70168
i= 70169
i= 70171
i= 70172
i= 70173
i= 70174
i= 70175
i= 70176
i= 70177
i= 70179
i= 70184
i= 70186
i= 70188
i= 70189
i= 70192
i= 70193
i= 70194
i= 70195
i= 70196
i= 70197
i

i= 72713
i= 72714
i= 72717
i= 72718
i= 72721
i= 72722
i= 72727
i= 72729
i= 72731
i= 72734
i= 72736
i= 72737
i= 72740
i= 72741
i= 72742
i= 72743
i= 72744
i= 72745
i= 72746
i= 72750
i= 72751
i= 72754
i= 72755
i= 72757
i= 72758
i= 72759
i= 72760
i= 72764
i= 72768
i= 72769
i= 72770
i= 72771
i= 72773
i= 72774
i= 72775
i= 72776
i= 72777
i= 72778
i= 72779
i= 72780
i= 72782
i= 72783
i= 72784
i= 72785
i= 72786
i= 72787
i= 72789
i= 72794
i= 72795
i= 72798
i= 72803
i= 72806
i= 72812
i= 72817
i= 72818
i= 72823
i= 72824
i= 72825
i= 72826
i= 72827
i= 72828
i= 72829
i= 72830
i= 72831
i= 72833
i= 72835
i= 72838
i= 72843
i= 72847
i= 72858
i= 72861
i= 72862
i= 72863
i= 72864
i= 72865
i= 72867
i= 72869
i= 72870
i= 72872
i= 72873
i= 72874
i= 72875
i= 72877
i= 72878
i= 72879
i= 72880
i= 72881
i= 72882
i= 72883
i= 72884
i= 72886
i= 72887
i= 72889
i= 72891
i= 72894
i= 72895
i= 72896
i= 72897
i= 72898
i= 72904
i= 72905
i= 72906
i= 72907
i= 72908
i= 72909
i= 72910
i= 72912
i= 72915
i= 72916
i= 72922
i= 72923
i

i= 75595
i= 75596
i= 75597
i= 75598
i= 75599
i= 75601
i= 75603
i= 75605
i= 75606
i= 75607
i= 75608
i= 75609
i= 75612
i= 75614
i= 75615
i= 75616
i= 75617
i= 75618
i= 75619
i= 75620
i= 75622
i= 75623
i= 75624
i= 75625
i= 75627
i= 75630
i= 75631
i= 75632
i= 75633
i= 75634
i= 75635
i= 75636
i= 75637
i= 75639
i= 75640
i= 75641
i= 75642
i= 75643
i= 75645
i= 75646
i= 75647
i= 75650
i= 75651
i= 75652
i= 75654
i= 75655
i= 75656
i= 75657
i= 75658
i= 75659
i= 75660
i= 75661
i= 75662
i= 75663
i= 75667
i= 75668
i= 75669
i= 75670
i= 75671
i= 75672
i= 75673
i= 75674
i= 75675
i= 75676
i= 75677
i= 75678
i= 75679
i= 75680
i= 75681
i= 75683
i= 75685
i= 75686
i= 75687
i= 75688
i= 75690
i= 75691
i= 75695
i= 75696
i= 75697
i= 75698
i= 75699
i= 75701
i= 75702
i= 75706
i= 75707
i= 75708
i= 75709
i= 75710
i= 75711
i= 75712
i= 75714
i= 75716
i= 75717
i= 75720
i= 75724
i= 75726
i= 75727
i= 75728
i= 75729
i= 75730
i= 75731
i= 75732
i= 75733
i= 75734
i= 75735
i= 75736
i= 75737
i= 75738
i= 75739
i= 75740
i= 75741
i

i= 77329
i= 77330
i= 77331
i= 77332
i= 77333
i= 77334
i= 77335
i= 77336
i= 77337
i= 77338
i= 77339
i= 77342
i= 77343
i= 77344
i= 77345
i= 77347
i= 77348
i= 77355
i= 77356
i= 77357
i= 77359
i= 77361
i= 77364
i= 77366
i= 77367
i= 77368
i= 77369
i= 77371
i= 77372
i= 77373
i= 77374
i= 77379
i= 77383
i= 77385
i= 77387
i= 77389
i= 77390
i= 77391
i= 77392
i= 77395
i= 77396
i= 77397
i= 77401
i= 77405
i= 77407
i= 77408
i= 77411
i= 77412
i= 77413
i= 77414
i= 77415
i= 77416
i= 77417
i= 77419
i= 77421
i= 77422
i= 77423
i= 77426
i= 77428
i= 77430
i= 77431
i= 77432
i= 77433
i= 77436
i= 77437
i= 77438
i= 77439
i= 77440
i= 77441
i= 77443
i= 77444
i= 77445
i= 77446
i= 77447
i= 77448
i= 77450
i= 77451
i= 77455
i= 77456
i= 77458
i= 77459
i= 77461
i= 77462
i= 77463
i= 77464
i= 77465
i= 77467
i= 77468
i= 77469
i= 77470
i= 77472
i= 77473
i= 77475
i= 77477
i= 77480
i= 77481
i= 77483
i= 77485
i= 77486
i= 77487
i= 77488
i= 77490
i= 77492
i= 77493
i= 77495
i= 77496
i= 77497
i= 77498
i= 77499
i= 77500
i= 77501
i

i= 79980
i= 79981
i= 79985
i= 79986
i= 79987
i= 79988
i= 79989
i= 79990
i= 79991
i= 79992
i= 79993
i= 79994
i= 79995
i= 79998
i= 79999
i= 80000
i= 80002
i= 80003
i= 80004
i= 80005
i= 80006
i= 80008
i= 80017
i= 80018
i= 80020
i= 80021
i= 80022
i= 80024
i= 80025
i= 80027
i= 80033
i= 80034
i= 80036
i= 80037
i= 80038
i= 80039
i= 80040
i= 80041
i= 80042
i= 80043
i= 80046
i= 80049
i= 80050
i= 80052
i= 80055
i= 80056
i= 80057
i= 80058
i= 80059
i= 80060
i= 80061
i= 80062
i= 80063
i= 80064
i= 80066
i= 80070
i= 80073
i= 80074
i= 80075
i= 80076
i= 80077
i= 80078
i= 80082
i= 80083
i= 80084
i= 80085
i= 80086
i= 80088
i= 80090
i= 80091
i= 80093
i= 80094
i= 80095
i= 80099
i= 80100
i= 80101
i= 80102
i= 80103
i= 80104
i= 80105
i= 80108
i= 80111
i= 80113
i= 80114
i= 80115
i= 80116
i= 80117
i= 80118
i= 80119
i= 80120
i= 80121
i= 80122
i= 80124
i= 80125
i= 80126
i= 80127
i= 80128
i= 80129
i= 80130
i= 80131
i= 80132
i= 80133
i= 80134
i= 80135
i= 80136
i= 80139
i= 80140
i= 80143
i= 80145
i= 80146
i= 80147
i

i= 81446
i= 81448
i= 81449
i= 81450
i= 81451
i= 81452
i= 81454
i= 81455
i= 81457
i= 81458
i= 81459
i= 81460
i= 81462
i= 81463
i= 81465
i= 81466
i= 81467
i= 81468
i= 81469
i= 81470
i= 81471
i= 81472
i= 81473
i= 81476
i= 81477
i= 81478
i= 81481
i= 81482
i= 81483
i= 81484
i= 81486
i= 81487
i= 81488
i= 81490
i= 81491
i= 81493
i= 81494
i= 81495
i= 81496
i= 81498
i= 81499
i= 81500
i= 81501
i= 81502
i= 81503
i= 81506
i= 81507
i= 81509
i= 81510
i= 81511
i= 81512
i= 81513
i= 81514
i= 81515
i= 81516
i= 81517
i= 81518
i= 81520
i= 81522
i= 81523
i= 81528
i= 81529
i= 81532
i= 81534
i= 81535
i= 81536
i= 81537
i= 81541
i= 81542
i= 81543
i= 81544
i= 81545
i= 81546
i= 81548
i= 81549
i= 81551
i= 81552
i= 81554
i= 81555
i= 81557
i= 81558
i= 81559
i= 81560
i= 81561
i= 81562
i= 81563
i= 81564
i= 81565
i= 81566
i= 81567
i= 81570
i= 81571
i= 81572
i= 81575
i= 81576
i= 81577
i= 81578
i= 81579
i= 81584
i= 81586
i= 81588
i= 81589
i= 81593
i= 81594
i= 81596
i= 81597
i= 81599
i= 81601
i= 81602
i= 81604
i= 81605
i

i= 84351
i= 84352
i= 84353
i= 84354
i= 84355
i= 84356
i= 84357
i= 84358
i= 84360
i= 84361
i= 84364
i= 84366
i= 84367
i= 84370
i= 84374
i= 84375
i= 84378
i= 84379
i= 84381
i= 84382
i= 84383
i= 84384
i= 84385
i= 84386
i= 84388
i= 84389
i= 84390
i= 84392
i= 84395
i= 84396
i= 84398
i= 84399
i= 84400
i= 84401
i= 84402
i= 84405
i= 84406
i= 84407
i= 84409
i= 84410
i= 84411
i= 84413
i= 84415
i= 84416
i= 84417
i= 84418
i= 84419
i= 84420
i= 84421
i= 84422
i= 84424
i= 84426
i= 84427
i= 84428
i= 84429
i= 84430
i= 84431
i= 84432
i= 84433
i= 84434
i= 84437
i= 84440
i= 84441
i= 84442
i= 84443
i= 84445
i= 84446
i= 84447
i= 84449
i= 84450
i= 84451
i= 84452
i= 84455
i= 84456
i= 84457
i= 84458
i= 84459
i= 84460
i= 84461
i= 84462
i= 84463
i= 84465
i= 84466
i= 84467
i= 84469
i= 84470
i= 84471
i= 84473
i= 84477
i= 84478
i= 84479
i= 84480
i= 84481
i= 84482
i= 84483
i= 84484
i= 84485
i= 84486
i= 84487
i= 84488
i= 84491
i= 84493
i= 84495
i= 84496
i= 84497
i= 84498
i= 84499
i= 84500
i= 84503
i= 84504
i= 84506
i

i= 85620
i= 85621
i= 85623
i= 85624
i= 85625
i= 85627
i= 85628
i= 85629
i= 85630
i= 85631
i= 85632
i= 85634
i= 85636
i= 85637
i= 85639
i= 85640
i= 85641
i= 85642
i= 85643
i= 85644
i= 85645
i= 85646
i= 85647
i= 85648
i= 85650
i= 85652
i= 85653
i= 85654
i= 85655
i= 85660
i= 85661
i= 85663
i= 85664
i= 85665
i= 85668
i= 85670
i= 85671
i= 85672
i= 85673
i= 85674
i= 85676
i= 85677
i= 85679
i= 85680
i= 85684
i= 85685
i= 85686
i= 85689
i= 85690
i= 85691
i= 85692
i= 85693
i= 85694
i= 85695
i= 85696
i= 85698
i= 85699
i= 85700
i= 85703
i= 85704
i= 85705
i= 85706
i= 85707
i= 85708
i= 85709
i= 85710
i= 85712
i= 85714
i= 85719
i= 85720
i= 85722
i= 85723
i= 85724
i= 85725
i= 85726
i= 85728
i= 85730
i= 85731
i= 85732
i= 85733
i= 85737
i= 85740
i= 85741
i= 85743
i= 85744
i= 85745
i= 85748
i= 85750
i= 85751
i= 85752
i= 85753
i= 85755
i= 85756
i= 85760
i= 85761
i= 85765
i= 85766
i= 85767
i= 85768
i= 85769
i= 85770
i= 85771
i= 85772
i= 85773
i= 85774
i= 85775
i= 85776
i= 85779
i= 85780
i= 85782
i= 85783
i

i= 88377
i= 88378
i= 88379
i= 88381
i= 88383
i= 88384
i= 88385
i= 88386
i= 88387
i= 88388
i= 88389
i= 88390
i= 88394
i= 88395
i= 88396
i= 88399
i= 88400
i= 88401
i= 88403
i= 88405
i= 88407
i= 88408
i= 88410
i= 88414
i= 88415
i= 88417
i= 88419
i= 88420
i= 88421
i= 88422
i= 88423
i= 88424
i= 88425
i= 88426
i= 88429
i= 88430
i= 88431
i= 88432
i= 88433
i= 88434
i= 88435
i= 88436
i= 88439
i= 88440
i= 88441
i= 88442
i= 88443
i= 88447
i= 88448
i= 88449
i= 88450
i= 88451
i= 88452
i= 88453
i= 88454
i= 88456
i= 88457
i= 88458
i= 88459
i= 88460
i= 88461
i= 88462
i= 88463
i= 88464
i= 88465
i= 88467
i= 88468
i= 88469
i= 88470
i= 88471
i= 88472
i= 88476
i= 88477
i= 88480
i= 88481
i= 88482
i= 88483
i= 88486
i= 88487
i= 88488
i= 88489
i= 88490
i= 88491
i= 88494
i= 88496
i= 88497
i= 88498
i= 88499
i= 88501
i= 88503
i= 88505
i= 88506
i= 88514
i= 88515
i= 88518
i= 88520
i= 88521
i= 88522
i= 88525
i= 88526
i= 88528
i= 88530
i= 88533
i= 88535
i= 88537
i= 88539
i= 88545
i= 88547
i= 88548
i= 88550
i= 88557
i

i= 89920
i= 89922
i= 89923
i= 89924
i= 89927
i= 89928
i= 89929
i= 89931
i= 89932
i= 89933
i= 89936
i= 89937
i= 89938
i= 89939
i= 89940
i= 89943
i= 89944
i= 89946
i= 89947
i= 89948
i= 89952
i= 89959
i= 89960
i= 89961
i= 89962
i= 89965
i= 89967
i= 89968
i= 89970
i= 89971
i= 89972
i= 89979
i= 89981
i= 89983
i= 89984
i= 89985
i= 89986
i= 89988
i= 89989
i= 89990
i= 89991
i= 89992
i= 89993
i= 89996
i= 89998
i= 90000
i= 90002
i= 90004
i= 90005
i= 90006
i= 90007
i= 90008
i= 90009
i= 90010
i= 90011
i= 90013
i= 90014
i= 90015
i= 90016
i= 90017
i= 90018
i= 90019
i= 90021
i= 90022
i= 90026
i= 90027
i= 90028
i= 90030
i= 90031
i= 90032
i= 90033
i= 90034
i= 90035
i= 90036
i= 90037
i= 90038
i= 90039
i= 90040
i= 90041
i= 90042
i= 90043
i= 90046
i= 90047
i= 90048
i= 90049
i= 90050
i= 90051
i= 90053
i= 90055
i= 90057
i= 90058
i= 90060
i= 90061
i= 90063
i= 90065
i= 90070
i= 90071
i= 90072
i= 90073
i= 90074
i= 90075
i= 90077
i= 90082
i= 90083
i= 90087
i= 90088
i= 90090
i= 90091
i= 90092
i= 90093
i= 90094
i

i= 91723
i= 91725
i= 91727
i= 91728
i= 91729
i= 91731
i= 91732
i= 91734
i= 91739
i= 91741
i= 91742
i= 91743
i= 91748
i= 91760
i= 91763
i= 91766
i= 91770
i= 91774
i= 91776
i= 91782
i= 91783
i= 91786
i= 91787
i= 91794
i= 91802
i= 91806
i= 91811
i= 91820
i= 91823
i= 91825
i= 91829
i= 91830
i= 91832
i= 91833
i= 91834
i= 91835
i= 91836
i= 91837
i= 91838
i= 91840
i= 91842
i= 91843
i= 91845
i= 91846
i= 91847
i= 91848
i= 91849
i= 91851
i= 91852
i= 91854
i= 91855
i= 91856
i= 91857
i= 91858
i= 91859
i= 91860
i= 91861
i= 91862
i= 91863
i= 91864
i= 91865
i= 91866
i= 91867
i= 91868
i= 91869
i= 91870
i= 91872
i= 91873
i= 91874
i= 91875
i= 91876
i= 91877
i= 91878
i= 91881
i= 91882
i= 91883
i= 91885
i= 91888
i= 91889
i= 91890
i= 91891
i= 91892
i= 91896
i= 91898
i= 91899
i= 91900
i= 91902
i= 91903
i= 91904
i= 91905
i= 91906
i= 91909
i= 91915
i= 91919
i= 91920
i= 91937
i= 91942
i= 91943
i= 91944
i= 91945
i= 91948
i= 91949
i= 91953
i= 91954
i= 91960
i= 91976
i= 91977
i= 91978
i= 91979
i= 91983
i= 91985
i

### VAE 模型
模型基于seq2seq架构，包含双向LSTM编码器和LSTM解码器。
通过 RepeatVector（max_len）函数，将每个时间步的潜在表示作为输入提供给解码器decoder。为了避免标签的独热码表示，我们使用tf.contrib.seq2seq.sequence_loss函数，它只需要单词索引作为标签（与embedding矩阵的输入相同）并在内部计算最终的softmax（所以 模型以具有线性激活的dense层结束）。 
可选地，“sequence_loss”允许使用采样的softmax，这有助于处理大型词汇表（例如，具有50k字词汇），但在此没有使用。这里使用的解码器与文中实现的解码器不同; 不是将context vector作为解码器的初始状态和预测的单词作为输入，而是在每个时间步处输入潜在表示z作为输入。

In [9]:
batch_size = 100
max_len = MAX_SEQUENCE_LENGTH
emb_dim = EMBEDDING_DIM
latent_dim = 64
intermediate_dim = 256
epsilon_std = 1.0
kl_weight = 0.01
num_sampled=500
act = ELU()


x = Input(shape=(max_len,)) #输入是按批量的40维向量(句子)
x_embed = Embedding(NB_WORDS, emb_dim, weights=[glove_embedding_matrix], input_length=max_len, trainable=False)(x)
h = Bidirectional(LSTM(intermediate_dim, return_sequences=False, recurrent_dropout=0.2), merge_mode='concat')(x_embed)
#h = Bidirectional(LSTM(intermediate_dim, return_sequences=False), merge_mode='concat')(h)
#h = Dropout(0.2)(h)
#h = Dense(intermediate_dim, activation='linear')(h)
#h = act(h)
#h = Dropout(0.2)(h)
z_mean = Dense(latent_dim)(h)
z_log_var = Dense(latent_dim)(h)

def sampling(args):
    z_mean, z_log_var = args
    epsilon = K.random_normal(shape=(batch_size, latent_dim), mean=0.,
                              stddev=epsilon_std)
    return z_mean + K.exp(z_log_var / 2) * epsilon

# note that "output_shape" isn't necessary with the TensorFlow backend
z = Lambda(sampling, output_shape=(latent_dim,))([z_mean, z_log_var])
# 分别实例化这些层，以便以后重用
repeated_context = RepeatVector(max_len)
decoder_h = LSTM(intermediate_dim, return_sequences=True, recurrent_dropout=0.2)
decoder_mean = Dense(NB_WORDS, activation='linear')#softmax is applied in the seq2seqloss by tf #TimeDistributed()
h_decoded = decoder_h(repeated_context(z))
x_decoded_mean = decoder_mean(h_decoded)


# placeholder loss
def zero_loss(y_true, y_pred):
    return K.zeros_like(y_pred)

#Sampled softmax
#logits = tf.constant(np.random.randn(batch_size, max_len, NB_WORDS), tf.float32)
#targets = tf.constant(np.random.randint(NB_WORDS, size=(batch_size, max_len)), tf.int32)
#proj_w = tf.constant(np.random.randn(NB_WORDS, NB_WORDS), tf.float32)
#proj_b = tf.constant(np.zeros(NB_WORDS), tf.float32)
#
#def _sampled_loss(labels, logits):
#    labels = tf.cast(labels, tf.int64)
#    labels = tf.reshape(labels, [-1, 1])
#    logits = tf.cast(logits, tf.float32)
#    return tf.cast(
#                    tf.nn.sampled_softmax_loss(
#                        proj_w,
#                        proj_b,
#                        labels,
#                        logits,
#                        num_sampled=num_sampled,
#                        num_classes=NB_WORDS),
#                    tf.float32)
#softmax_loss_f = _sampled_loss


# 用于计算VAE损失的自定义层
class CustomVariationalLayer(Layer):
    def __init__(self, **kwargs):
        self.is_placeholder = True
        super(CustomVariationalLayer, self).__init__(**kwargs)
        self.target_weights = tf.constant(np.ones((batch_size, max_len)), tf.float32)

    def vae_loss(self, x, x_decoded_mean):
        #xent_loss = K.sum(metrics.categorical_crossentropy(x, x_decoded_mean), axis=-1)
        labels = tf.cast(x, tf.int32)
        xent_loss = K.sum(tf.contrib.seq2seq.sequence_loss(x_decoded_mean, labels, 
                                                     weights=self.target_weights,
                                                     average_across_timesteps=False,
                                                     average_across_batch=False), axis=-1)#,
                                                     #softmax_loss_function=softmax_loss_f), axis=-1)#,
        kl_loss = - 0.5 * K.sum(1 + z_log_var - K.square(z_mean) - K.exp(z_log_var), axis=-1)
        xent_loss = K.mean(xent_loss)
        kl_loss = K.mean(kl_loss)
        return K.mean(xent_loss + kl_weight * kl_loss)
    
    #编写一个call方法，来实现自定义层
    def call(self, inputs):
        x = inputs[0]
        x_decoded_mean = inputs[1]
        print(x.shape, x_decoded_mean.shape)
        loss = self.vae_loss(x, x_decoded_mean)
        self.add_loss(loss, inputs=inputs)
        # we don't use this output, but it has to have the correct shape:
        return K.ones_like(x)
    
def kl_loss(x, x_decoded_mean):
    kl_loss = - 0.5 * K.sum(1 + z_log_var - K.square(z_mean) - K.exp(z_log_var), axis=-1)
    kl_loss = kl_weight * kl_loss
    return kl_loss

loss_layer = CustomVariationalLayer()([x, x_decoded_mean])
vae = Model(x, [loss_layer])
opt = Adam(lr=0.01) 
vae.compile(optimizer='adam', loss=[zero_loss], metrics=[kl_loss])
vae.summary()

Instructions for updating:
Colocations handled automatically by placer.
Instructions for updating:
Please use `rate` instead of `keep_prob`. Rate should be set to `rate = 1 - keep_prob`.
(?, 40) (?, 40, 93251)

For more information, please see:
  * https://github.com/tensorflow/community/blob/master/rfcs/20180907-contrib-sunset.md
  * https://github.com/tensorflow/addons
If you depend on functionality not listed there, please file an issue.

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            (None, 40)           0                                            
__________________________________________________________________________________________________
embedding_1 (Embedding)         (None, 40, 300)      27975300    input_1[0][0]                    
___________________________________________________________

### 模型训练
通过keras.fit()训练100epochs。对于验证数据，传递相同的数组两次，因为此模型的输入和标签相同。
如果不使用“tf.contrib.seq2seq.sequence_loss”（或其他类似的函数），
将必须作为标签传递单词的one-hot码高维度序列(batch_size，seq_len，vocab_size)消耗大量内存。

In [10]:
def create_model_checkpoint(dir, model_name):
    filepath = dir + '/' + model_name + ".h5" 
    directory = os.path.dirname(filepath)
    try:
        os.stat(directory)
    except:
        os.mkdir(directory)
    checkpointer = ModelCheckpoint(filepath=filepath, verbose=1, save_best_only=True)
    return checkpointer

checkpointer = create_model_checkpoint('models', 'vae_seq2seq_test_very_high_std')



vae.fit(data_train, data_train,
     shuffle=True,
     epochs=100,
     batch_size=batch_size,
     validation_data=(data_val, data_val), callbacks=[checkpointer])

#print(K.eval(vae.optimizer.lr))
#K.set_value(vae.optimizer.lr, 0.01)

vae.save('models/vae_lstm.h5')
#vae.load_weights('models/vae_lstm.h5')

Instructions for updating:
Use tf.cast instead.
Train on 100000 samples, validate on 6500 samples
Epoch 1/100


KeyboardInterrupt: 