In [None]:
'''
    @Author: King
    @Date: 2019.03.17
    @Purpose: 文本分类实战（二）—— textCNN 模型
    @Introduction:  textCNN 模型 文本分类
    @Link: https://github.com/jiangxinyang227/textClassifier/tree/master/textCNN
    @Reference: https://www.cnblogs.com/jiangxinyang/p/10207482.html
'''

In [1]:
import os
import csv
import time
import datetime
import random
import json

from collections import Counter
from math import sqrt

import gensim
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.metrics import roc_auc_score, accuracy_score, precision_score, recall_score

  from ._conv import register_converters as _register_converters


In [4]:
# 配置参数

class TrainingConfig(object):
    epoches = 10
    evaluateEvery = 100
    checkpointEvery = 100
    learningRate = 0.001
    
class ModelConfig(object):
    embeddingSize = 200
    numFilters = 128

    filterSizes = [2, 3, 4, 5]
    dropoutKeepProb = 0.5
    l2RegLambda = 0.0
    
class Config(object):
    sequenceLength = 200  # 取了所有序列长度的均值
    batchSize = 128
    
    dataSource = "../data/preProcess/labeledTrain.csv"
    
    stopWordSource = "../data/english"
    
    numClasses = 2
    
    rate = 0.8  # 训练集的比例
    
    training = TrainingConfig()
    
    model = ModelConfig()

    
# 实例化配置参数对象
config = Config()

In [6]:
# 数据预处理的类，生成训练集和测试集

class Dataset(object):
    def __init__(self, config):
        self._dataSource = config.dataSource
        self._stopWordSource = config.stopWordSource  
        
        self._sequenceLength = config.sequenceLength  # 每条输入的序列处理为定长
        self._embeddingSize = config.model.embeddingSize
        self._batchSize = config.batchSize
        self._rate = config.rate
        
        self._stopWordDict = {}
        
        self.trainReviews = []
        self.trainLabels = []
        
        self.evalReviews = []
        self.evalLabels = []
        
        self.wordEmbedding =None
        
        self._wordToIndex = {}
        self._indexToWord = {}
        
    def _readData(self, filePath):
        """
        从csv文件中读取数据集
        """
        
        df = pd.read_csv(filePath)
        labels = df["sentiment"].tolist()
        review = df["review"].tolist()
        reviews = [line.strip().split() for line in review]

        return reviews, labels

    def _reviewProcess(self, review, sequenceLength, wordToIndex):
        """
        将数据集中的每条评论用index表示
        wordToIndex中“pad”对应的index为0
        """
        
        reviewVec = np.zeros((sequenceLength))
        sequenceLen = sequenceLength
        
        # 判断当前的序列是否小于定义的固定序列长度
        if len(review) < sequenceLength:
            sequenceLen = len(review)
            
        for i in range(sequenceLen):
            if review[i] in wordToIndex:
                reviewVec[i] = wordToIndex[review[i]]
            else:
                reviewVec[i] = wordToIndex["UNK"]

        return reviewVec

    def _genTrainEvalData(self, x, y, rate):
        """
        生成训练集和验证集
        """
        
        reviews = []
        labels = []
        
        # 遍历所有的文本，将文本中的词转换成index表示
        for i in range(len(x)):
            reviewVec = self._reviewProcess(x[i], self._sequenceLength, self._wordToIndex)
            reviews.append(reviewVec)
            
            labels.append([y[i]])
            
        trainIndex = int(len(x) * rate)
        
        trainReviews = np.asarray(reviews[:trainIndex], dtype="int64")
        trainLabels = np.array(labels[:trainIndex], dtype="float32")
        
        evalReviews = np.asarray(reviews[trainIndex:], dtype="int64")
        evalLabels = np.array(labels[trainIndex:], dtype="float32")

        return trainReviews, trainLabels, evalReviews, evalLabels
        
    def _genVocabulary(self, reviews):
        """
        生成词向量和词汇-索引映射字典，可以用全数据集
        """
        
        allWords = [word for review in reviews for word in review]
        
        # 去掉停用词
        subWords = [word for word in allWords if word not in self.stopWordDict]
        
        wordCount = Counter(subWords)  # 统计词频
        sortWordCount = sorted(wordCount.items(), key=lambda x: x[1], reverse=True)
        
        # 去除低频词
        words = [item[0] for item in sortWordCount if item[1] >= 5]
        
        vocab, wordEmbedding = self._getWordEmbedding(words)
        self.wordEmbedding = wordEmbedding
        
        self._wordToIndex = dict(zip(vocab, list(range(len(vocab)))))
        self._indexToWord = dict(zip(list(range(len(vocab))), vocab))
        
        # 将词汇-索引映射表保存为json数据，之后做inference时直接加载来处理数据
        with open("../data/wordJson/wordToIndex.json", "w", encoding="utf-8") as f:
            json.dump(self._wordToIndex, f)
        
        with open("../data/wordJson/indexToWord.json", "w", encoding="utf-8") as f:
            json.dump(self._indexToWord, f)
            
    def _getWordEmbedding(self, words):
        """
        按照我们的数据集中的单词取出预训练好的word2vec中的词向量
        """
        
        wordVec = gensim.models.KeyedVectors.load_word2vec_format("../word2vec/word2Vec.bin", binary=True)
        vocab = []
        wordEmbedding = []
        
        # 添加 "pad" 和 "UNK", 
        vocab.append("pad")
        vocab.append("UNK")
        wordEmbedding.append(np.zeros(self._embeddingSize))
        wordEmbedding.append(np.random.randn(self._embeddingSize))
        
        for word in words:
            try:
                vector = wordVec.wv[word]
                vocab.append(word)
                wordEmbedding.append(vector)
            except:
                print(word + "不存在于词向量中")
                
        return vocab, np.array(wordEmbedding)
    
    def _readStopWord(self, stopWordPath):
        """
        读取停用词
        """
        
        with open(stopWordPath, "r") as f:
            stopWords = f.read()
            stopWordList = stopWords.splitlines()
            # 将停用词用列表的形式生成，之后查找停用词时会比较快
            self.stopWordDict = dict(zip(stopWordList, list(range(len(stopWordList)))))
            
    def dataGen(self):
        """
        初始化训练集和验证集
        """
        
        # 初始化停用词
        self._readStopWord(self._stopWordSource)
        
        # 初始化数据集
        reviews, labels = self._readData(self._dataSource)
        
        # 初始化词汇-索引映射表和词向量矩阵
        self._genVocabulary(reviews)
        
        # 初始化训练集和测试集
        trainReviews, trainLabels, evalReviews, evalLabels = self._genTrainEvalData(reviews, labels, self._rate)
        self.trainReviews = trainReviews
        self.trainLabels = trainLabels
        
        self.evalReviews = evalReviews
        self.evalLabels = evalLabels
        
        
data = Dataset(config)
data.dataGen()



youre不存在于词向量中
youll不存在于词向量中
theyre不存在于词向量中
youve不存在于词向量中
werent不存在于词向量中
youd不存在于词向量中
hasnt不存在于词向量中
shouldnt不存在于词向量中
weve不存在于词向量中
theyve不存在于词向量中
1010不存在于词向量中
wouldve不存在于词向量中
hed不存在于词向量中
andor不存在于词向量中
couldve不存在于词向量中
810不存在于词向量中
itthe不存在于词向量中
710不存在于词向量中
theyd不存在于词向量中
writerdirector不存在于词向量中
moviei不存在于词向量中
iti不存在于词向量中
theyll不存在于词向量中
310不存在于词向量中
410不存在于词向量中
910不存在于词向量中
itll不存在于词向量中
lees不存在于词向量中
familys不存在于词向量中
disneys不存在于词向量中
filmi不存在于词向量中
210不存在于词向量中
shouldve不存在于词向量中
*12不存在于词向量中
shakespeares不存在于词向量中
hitlers不存在于词向量中
brazil:不存在于词向量中
freddys不存在于词向量中
fords不存在于词向量中
storys不存在于词向量中
ohara不存在于词向量中
stewarts不存在于词向量中
kellys不存在于词向量中
scotts不存在于词向量中
itthis不存在于词向量中
tonys不存在于词向量中
keatons不存在于词向量中
rosemarys不存在于词向量中
ches不存在于词向量中
themthe不存在于词向量中
timethe不存在于词向量中
branaghs不存在于词向量中
mustve不存在于词向量中
kubricks不存在于词向量中
lynchs不存在于词向量中
hitchcocks不存在于词向量中
bakshis不存在于词向量中
whove不存在于词向量中
allthe不存在于词向量中
whod不存在于词向量中
smiths不存在于词向量中
itit不存在于词向量中
obrien不存在于词向量中
cravens不存在于词向量中
timei不存在于词向量中
movieit不存在于词向量中
palmas不存在于词向量中
himthe不

redgraves不存在于词向量中
brotherthe不存在于词向量中
bunuels不存在于词向量中
caesars不存在于词向量中
crosbys不存在于词向量中
spocks不存在于词向量中
tierneys不存在于词向量中
chers不存在于词向量中
timeits不存在于词向量中
therere不存在于词向量中
chinas不存在于词向量中
cannavale不存在于词向量中
scarlets不存在于词向量中
starsthe不存在于词向量中
lubitschs不存在于词向量中
pickfords不存在于词向量中
peepers不存在于词向量中
facethe不存在于词向量中
garys不存在于词向量中
allendes不存在于词向量中
frankensteins不存在于词向量中
actorsthe不存在于词向量中
christines不存在于词向量中
timea不存在于词向量中
hima不存在于词向量中
noltes不存在于词向量中
wasis不存在于词向量中
mayors不存在于词向量中
orwells不存在于词向量中
brendans不存在于词向量中
bloss不存在于词向量中
malfatti不存在于词向量中
barrymores不存在于词向量中
sadthe不存在于词向量中
castthe不存在于词向量中
edisons不存在于词向量中
knowi不存在于词向量中
dahls不存在于词向量中
walshs不存在于词向量中
timeif不存在于词向量中
offthe不存在于词向量中
draculas不存在于词向量中
reids不存在于词向量中
pythons不存在于词向量中
tiffanys不存在于词向量中
itfor不存在于词向量中
rafiki不存在于词向量中
labours不存在于词向量中
yaara不存在于词向量中
hamlets不存在于词向量中
chens不存在于词向量中
allits不存在于词向量中
sm不存在于词向量中
seans不存在于词向量中
julians不存在于词向量中
anywayi不存在于词向量中
wasthe不存在于词向量中
itall不存在于词向量中
happenthe不存在于词向量中
throughi不存在于词向量中
fays不存在于词向量中
deaththe不存在于词向量中
2036不存在于词向量中
outthi

antitrust不存在于词向量中
frownland不存在于词向量中
toshi不存在于词向量中
ringside不存在于词向量中
filmwhich不存在于词向量中
youin不存在于词向量中
isits不存在于词向量中
rookies不存在于词向量中
verger不存在于词向量中
gussie不存在于词向量中
slaters不存在于词向量中
aphrodite不存在于词向量中
ha-ha不存在于词向量中
carnality不存在于词向量中
kinnears不存在于词向量中
demmes不存在于词向量中
itthats不存在于词向量中
poor!不存在于词向量中
grandmas不存在于词向量中
sub-zero不存在于词向量中
iswas不存在于词向量中
inand不存在于词向量中
60searly不存在于词向量中
ecclestone不存在于词向量中
fluegel不存在于词向量中
wwes不存在于词向量中
peopleand不存在于词向量中
yearsi不存在于词向量中
losti不存在于词向量中
filmall不存在于词向量中
machi不存在于词向量中
stiflers不存在于词向量中
shiner不存在于词向量中
materialthe不存在于词向量中
thatits不存在于词向量中
backi不存在于词向量中
bromell不存在于词向量中
cest不存在于词向量中
02不存在于词向量中
farnsworths不存在于词向量中
hiltz不存在于词向量中
zapatti不存在于词向量中
toros不存在于词向量中
themall不存在于词向量中
itwhen不存在于词向量中
herthis不存在于词向量中
**possible不存在于词向量中
shemps不存在于词向量中
brideless不存在于词向量中
bestworst不存在于词向量中
5ive不存在于词向量中
chahines不存在于词向量中
anotherthe不存在于词向量中
movieon不存在于词向量中
vampires:不存在于词向量中
filmsits不存在于词向量中
goldsmiths不存在于词向量中
trumans不存在于词向量中
shirleys不存在于词向量中
shit不存在于词向量中
bradys不存在于词向量中
two-parter不存在于词向量中
underst

solino不存在于词向量中
thrush不存在于词向量中
heflins不存在于词向量中
amandas不存在于词向量中
uranus不存在于词向量中
timesand不存在于词向量中
herand不存在于词向量中
centurys不存在于词向量中
boththe不存在于词向量中
kagan不存在于词向量中
personi不存在于词向量中
thefts不存在于词向量中
radiofreccia不存在于词向量中
aboriginals不存在于词向量中
justins不存在于词向量中
upand不存在于词向量中
rainbeaux不存在于词向量中
aragami不存在于词向量中
meh不存在于词向量中
spoonful不存在于词向量中
1s不存在于词向量中
ajas不存在于词向量中
margarete不存在于词向量中
hassie不存在于词向量中
brendon不存在于词向量中
molla不存在于词向量中
klaws不存在于词向量中
townsends不存在于词向量中
lessthe不存在于词向量中
newell不存在于词向量中
saskatchewan不存在于词向量中
haarman不存在于词向量中
cuckold不存在于词向量中
cuarón不存在于词向量中
melchior不存在于词向量中
coixet不存在于词向量中
directorproducer不存在于词向量中
hereand不存在于词向量中
filmhowever不存在于词向量中
valcos不存在于词向量中
schepisis不存在于词向量中
watling不存在于词向量中
dammit不存在于词向量中
genoa不存在于词向量中
hereafter不存在于词向量中
rolethis不存在于词向量中
**spoilers**不存在于词向量中
tingler不存在于词向量中
bannings不存在于词向量中
stirbas不存在于词向量中
neatness不存在于词向量中
asgard不存在于词向量中
wtf!不存在于词向量中
gnatpole不存在于词向量中
craigs不存在于词向量中
lancasters不存在于词向量中
s2t不存在于词向量中
hanlon不存在于词向量中
isand不存在于词向量中
chewie不存在于词向量中
wellyou不存在于词向量中
snore-fest不存在于词向量

In [7]:
print("train data shape: {}".format(data.trainReviews.shape))
print("train label shape: {}".format(data.trainLabels.shape))
print("eval data shape: {}".format(data.evalReviews.shape))

train data shape: (20000, 200)
train label shape: (20000, 1)
eval data shape: (5000, 200)


In [8]:
# 输出batch数据集

def nextBatch(x, y, batchSize):
        """
        生成batch数据集，用生成器的方式输出
        """
    
        perm = np.arange(len(x))
        np.random.shuffle(perm)
        x = x[perm]
        y = y[perm]
        
        numBatches = len(x) // batchSize

        for i in range(numBatches):
            start = i * batchSize
            end = start + batchSize
            batchX = np.array(x[start: end], dtype="int64")
            batchY = np.array(y[start: end], dtype="float32")
            
            yield batchX, batchY

In [2]:
# 构建模型
class TextCNN(object):
    """
    Text CNN 用于文本分类
    """
    def __init__(self, config, wordEmbedding):

        # 定义模型的输入
        self.inputX = tf.placeholder(tf.int32, [None, config.sequenceLength], name="inputX")
        self.inputY = tf.placeholder(tf.float32, [None, 1], name="inputY")
        
        self.dropoutKeepProb = tf.placeholder(tf.float32, name="dropoutKeepProb")
        
        # 定义l2损失
        l2Loss = tf.constant(0.0)
        
        # 词嵌入层
        with tf.name_scope("embedding"):

            # 利用预训练的词向量初始化词嵌入矩阵
            self.W = tf.Variable(tf.cast(wordEmbedding, dtype=tf.float32, name="word2vec") ,name="W")
            # 利用词嵌入矩阵将输入的数据中的词转换成词向量，维度[batch_size, sequence_length, embedding_size]
            self.embeddedWords = tf.nn.embedding_lookup(self.W, self.inputX)
            # 卷积的输入是思维[batch_size, width, height, channel]，因此需要增加维度，用tf.expand_dims来增大维度
            self.embeddedWordsExpanded = tf.expand_dims(self.embeddedWords, -1)

        # 创建卷积和池化层
        pooledOutputs = []
        # 有三种size的filter，3， 4， 5，textCNN是个多通道单层卷积的模型，可以看作三个单层的卷积模型的融合
        for i, filterSize in enumerate(config.model.filterSizes):
            with tf.name_scope("conv-maxpool-%s" % filterSize):
                # 卷积层，卷积核尺寸为filterSize * embeddingSize，卷积核的个数为numFilters
                # 初始化权重矩阵和偏置
                filterShape = [filterSize, config.model.embeddingSize, 1, config.model.numFilters]
                W = tf.Variable(tf.truncated_normal(filterShape, stddev=0.1), name="W")
                b = tf.Variable(tf.constant(0.1, shape=[config.model.numFilters]), name="b")
                conv = tf.nn.conv2d(
                    self.embeddedWordsExpanded,
                    W,
                    strides=[1, 1, 1, 1],
                    padding="VALID",
                    name="conv")
                
                # relu函数的非线性映射
                h = tf.nn.relu(tf.nn.bias_add(conv, b), name="relu")
                
                # 池化层，最大池化，池化是对卷积后的序列取一个最大值
                pooled = tf.nn.max_pool(
                    h,
                    ksize=[1, config.sequenceLength - filterSize + 1, 1, 1],  # ksize shape: [batch, height, width, channels]
                    strides=[1, 1, 1, 1],
                    padding='VALID',
                    name="pool")
                pooledOutputs.append(pooled)  # 将三种size的filter的输出一起加入到列表中

        # 得到CNN网络的输出长度
        numFiltersTotal = config.model.numFilters * len(config.model.filterSizes)
        
        # 池化后的维度不变，按照最后的维度channel来concat
        self.hPool = tf.concat(pooledOutputs, 3)
        
        # 摊平成二维的数据输入到全连接层
        self.hPoolFlat = tf.reshape(self.hPool, [-1, numFiltersTotal])

        # dropout
        with tf.name_scope("dropout"):
            self.hDrop = tf.nn.dropout(self.hPoolFlat, self.dropoutKeepProb)
       
        # 全连接层的输出
        with tf.name_scope("output"):
            outputW = tf.get_variable(
                "outputW",
                shape=[numFiltersTotal, 1],
                initializer=tf.contrib.layers.xavier_initializer())
            outputB= tf.Variable(tf.constant(0.1, shape=[1]), name="outputB")
            l2Loss += tf.nn.l2_loss(outputW)
            l2Loss += tf.nn.l2_loss(outputB)
            self.predictions = tf.nn.xw_plus_b(self.hDrop, outputW, outputB, name="predictions")
            self.binaryPreds = tf.cast(tf.greater_equal(self.predictions, 0.5), tf.float32, name="binaryPreds")
        
        # 计算二元交叉熵损失
        with tf.name_scope("loss"):
            
            losses = tf.nn.sigmoid_cross_entropy_with_logits(logits=self.predictions, labels=self.inputY)
            self.loss = tf.reduce_mean(losses) + config.model.l2RegLambda * l2Loss

In [3]:
# 定义性能指标函数

def mean(item):
    return sum(item) / len(item)


def genMetrics(trueY, predY, binaryPredY):
    """
    生成acc和auc值
    """
    auc = roc_auc_score(trueY, predY)
    accuracy = accuracy_score(trueY, binaryPredY)
    precision = precision_score(trueY, binaryPredY)
    recall = recall_score(trueY, binaryPredY)
    
    return round(accuracy, 4), round(auc, 4), round(precision, 4), round(recall, 4)

In [4]:
# 训练模型

# 生成训练集和验证集
trainReviews = data.trainReviews
trainLabels = data.trainLabels
evalReviews = data.evalReviews
evalLabels = data.evalLabels

wordEmbedding = data.wordEmbedding

# 定义计算图
with tf.Graph().as_default():

    session_conf = tf.ConfigProto(allow_soft_placement=True, log_device_placement=False)
    session_conf.gpu_options.allow_growth=True
    session_conf.gpu_options.per_process_gpu_memory_fraction = 0.9  # 配置gpu占用率  

    sess = tf.Session(config=session_conf)
    
    # 定义会话
    with sess.as_default():
        cnn = TextCNN(config, wordEmbedding)
        
        globalStep = tf.Variable(0, name="globalStep", trainable=False)
        # 定义优化函数，传入学习速率参数
        optimizer = tf.train.AdamOptimizer(config.training.learningRate)
        # 计算梯度,得到梯度和变量
        gradsAndVars = optimizer.compute_gradients(cnn.loss)
        # 将梯度应用到变量下，生成训练器
        trainOp = optimizer.apply_gradients(gradsAndVars, global_step=globalStep)
        
        # 用summary绘制tensorBoard
        gradSummaries = []
        for g, v in gradsAndVars:
            if g is not None:
                tf.summary.histogram("{}/grad/hist".format(v.name), g)
                tf.summary.scalar("{}/grad/sparsity".format(v.name), tf.nn.zero_fraction(g))
        
        outDir = os.path.abspath(os.path.join(os.path.curdir, "summarys"))
        print("Writing to {}\n".format(outDir))
        
        lossSummary = tf.summary.scalar("loss", cnn.loss)
        summaryOp = tf.summary.merge_all()
        
        trainSummaryDir = os.path.join(outDir, "train")
        trainSummaryWriter = tf.summary.FileWriter(trainSummaryDir, sess.graph)
        
        evalSummaryDir = os.path.join(outDir, "eval")
        evalSummaryWriter = tf.summary.FileWriter(evalSummaryDir, sess.graph)
        
        
        # 初始化所有变量
        saver = tf.train.Saver(tf.global_variables(), max_to_keep=5)
        
        # 保存模型的一种方式，保存为pb文件
        builder = tf.saved_model.builder.SavedModelBuilder("../model/textCNN/savedModel")
        sess.run(tf.global_variables_initializer())

        def trainStep(batchX, batchY):
            """
            训练函数
            """   
            feed_dict = {
              cnn.inputX: batchX,
              cnn.inputY: batchY,
              cnn.dropoutKeepProb: config.model.dropoutKeepProb
            }
            _, summary, step, loss, predictions, binaryPreds = sess.run(
                [trainOp, summaryOp, globalStep, cnn.loss, cnn.predictions, cnn.binaryPreds],
                feed_dict)
            timeStr = datetime.datetime.now().isoformat()
            acc, auc, precision, recall = genMetrics(batchY, predictions, binaryPreds)
            print("{}, step: {}, loss: {}, acc: {}, auc: {}, precision: {}, recall: {}".format(timeStr, step, loss, acc, auc, precision, recall))
            trainSummaryWriter.add_summary(summary, step)

        def devStep(batchX, batchY):
            """
            验证函数
            """
            feed_dict = {
              cnn.inputX: batchX,
              cnn.inputY: batchY,
              cnn.dropoutKeepProb: 1.0
            }
            summary, step, loss, predictions, binaryPreds = sess.run(
                [summaryOp, globalStep, cnn.loss, cnn.predictions, cnn.binaryPreds],
                feed_dict)
            
            acc, auc, precision, recall = genMetrics(batchY, predictions, binaryPreds)
            
            evalSummaryWriter.add_summary(summary, step)
            
            return loss, acc, auc, precision, recall
        
        for i in range(config.training.epoches):
            # 训练模型
            print("start training model")
            for batchTrain in nextBatch(trainReviews, trainLabels, config.batchSize):
                trainStep(batchTrain[0], batchTrain[1])

                currentStep = tf.train.global_step(sess, globalStep) 
                if currentStep % config.training.evaluateEvery == 0:
                    print("\nEvaluation:")
                    
                    losses = []
                    accs = []
                    aucs = []
                    precisions = []
                    recalls = []
                    
                    for batchEval in nextBatch(evalReviews, evalLabels, config.batchSize):
                        loss, acc, auc, precision, recall = devStep(batchEval[0], batchEval[1])
                        losses.append(loss)
                        accs.append(acc)
                        aucs.append(auc)
                        precisions.append(precision)
                        recalls.append(recall)
                        
                    time_str = datetime.datetime.now().isoformat()
                    print("{}, step: {}, loss: {}, acc: {}, auc: {}, precision: {}, recall: {}".format(time_str, currentStep, mean(losses), 
                                                                                                       mean(accs), mean(aucs), mean(precisions),
                                                                                                       mean(recalls)))
                    
                if currentStep % config.training.checkpointEvery == 0:
                    # 保存模型的另一种方法，保存checkpoint文件
                    path = saver.save(sess, "../model/textCNN/model/my-model", global_step=currentStep)
                    print("Saved model checkpoint to {}\n".format(path))
                    
        inputs = {"inputX": tf.saved_model.utils.build_tensor_info(cnn.inputX),
                  "keepProb": tf.saved_model.utils.build_tensor_info(cnn.dropoutKeepProb)}

        outputs = {"binaryPreds": tf.saved_model.utils.build_tensor_info(cnn.binaryPreds)}

        prediction_signature = tf.saved_model.signature_def_utils.build_signature_def(inputs=inputs, outputs=outputs,
                                                                                      method_name=tf.saved_model.signature_constants.PREDICT_METHOD_NAME)
        legacy_init_op = tf.group(tf.tables_initializer(), name="legacy_init_op")
        builder.add_meta_graph_and_variables(sess, [tf.saved_model.tag_constants.SERVING],
                                            signature_def_map={"predict": prediction_signature}, legacy_init_op=legacy_init_op)

        builder.save()

NameError: name 'data' is not defined