formath
diff --git a/Diff for: ‎demo/deep_model/freeze_graph.sh
+17-6 b/Diff for: ‎demo/deep_model/freeze_graph.sh
+17-6
diff --git a/Diff for: ‎demo/deep_model/predict.sh
+5-1 b/Diff for: ‎demo/deep_model/predict.sh
+5-1
diff --git a/Diff for: ‎demo/deep_model/train.sh
+13 b/Diff for: ‎demo/deep_model/train.sh
+13
diff --git a/Diff for: ‎demo/deep_model/trans_data_to_tfrecord.sh
+8 b/Diff for: ‎demo/deep_model/trans_data_to_tfrecord.sh
+8
diff --git a/Diff for: ‎demo/simple_model/predict.sh
+1-1 b/Diff for: ‎demo/simple_model/predict.sh
+1-1
diff --git a/Diff for: ‎python/data.py
+58-12 b/Diff for: ‎python/data.py
+58-12
diff --git a/Diff for: ‎python/deep_model.py
+17-9 b/Diff for: ‎python/deep_model.py
+17-9
diff --git a/Diff for: ‎python/dict.py
+13-2 b/Diff for: ‎python/dict.py
+13-2
@@ -1,16 +1,27 @@
 #!/usr/bin/env bash
 
+#  Official. Don't know why not works
 #MODEL_DIR=`pwd`
 #echo $MODEL_DIR
-#TensorFlow_HOME=/Users/liujinpeng02/github/tensorflow
+#TensorFlow_HOME=/Users/formath/github/tensorflow
 #cd ${TensorFlow_HOME}
 #python tensorflow/python/tools/freeze_graph.py \
 #	--input_graph=${MODEL_DIR}/model/graph.pb \
-#    --input_checkpoint=${MODEL_DIR}/model/model.ckeckpoint \
-#    --output_graph=${MODEL_DIR}/model/freeze_graph.pb \
-#    --output_node_names=cross_entropy
+#    --input_checkpoint=${MODEL_DIR}/checkpoint/model.ckeckpoint \
+#    --output_graph=${MODEL_DIR}/model \
+#    --output_node_names='predict/add'
 #cd -
 
+# Official. Don't know why not works
+#python ../../python/freeze.py \
+#    --checkpoint_dir='./checkpoint' \
+#    --graph_pb='./model/predict_graph.pb' \
+#    --output_node_names='predict/add' \
+#    --output_pb='./model/freeze.pb'
+
+# Hack. This works
 python ../../python/freeze_graph.py \
-    --model_dir=./saved_model \
-    --output_node_names=Softmax
+    --checkpoint_dir='./checkpoint' \
+    --graph_pb='./model/predict_graph.pb' \
+    --output_node_names='predict/add' \
+    --output_dir='./model'
@@ -1,3 +1,7 @@
 #!/usr/bin/env bash
 
-# TODO
+../../bin/deep_model.bin \
+	"9,6,116" \
+    "152,179" \
+    "" \
+	"./model/freeze_graph.pb"
@@ -1,9 +1,22 @@
 #!/usr/bin/env bash
 
+# train
+# to save model and checkpoint
 python ../../python/train.py \
     --dict "./data/dict.data" \
     --continuous_fields "" \
     --sparse_fields "9,6,116" \
     --linear_fields "152,179" \
     --train_file "./data/libfm.tfrecord" \
     --valid_file "./data/libfm.tfrecord"
+
+# just save a model same with train
+# except tf.Example input part replaced by placeholder
+# for feed Tensor when prediction
+python ../../python/predict_model.py \
+    --dict "./data/dict.data" \
+    --continuous_fields "" \
+    --sparse_fields "9,6,116" \
+    --linear_fields "152,179" \
+    --train_file "./data/libfm.tfrecord" \
+    --valid_file "./data/libfm.tfrecord"
@@ -8,6 +8,10 @@ python ../../python/dict.py \
 	./data/libfm.data \
 	./data/dict.data
 
+if [[ $? != 0 ]]; then
+	echo "generate dict error" && exit 1
+fi
+
 # transform libfm data into tfrecord
 python ../../python/data.py \
 	./data/dict.data \
@@ -16,3 +20,7 @@ python ../../python/data.py \
 	'152,179' \
 	./data/libfm.data \
 	./data/libfm.tfrecord
+
+if [[ $? != 0 ]]; then
+	echo "generate tfrecord error" && exit 1
+fi
@@ -1,3 +1,3 @@
 #!/usr/bin/env bash
 
-../../bin/simple_model.bin "./saved_model/graph.pb"
+../../bin/simple_model.bin "./model/graph.pb"
@@ -2,7 +2,7 @@
 
 import sys
 import os
-import pickle
+from dict_pb2 import Dict as DictPB
 import tensorflow as tf
 
 class Data:
@@ -11,12 +11,16 @@ def __init__(self, dict_file, continuous_fields, sparse_fields, linear_fields):
         self.ParseFields(continuous_fields, sparse_fields, linear_fields)
 
     # load fieldid and its featureid dict
-    # field : {featureid : sortid, featureid : sortid, 'miss' : sortid, 'num': feature_num}
     def LoadDict(self, dict_file):
-        self.field_feature_dict = pickle.load(open(dict_file, 'rb'))
-        print('load field num: ' + str(len(self.field_feature_dict)))
-        for fieldid in self.field_feature_dict:
-            print('field: ' + str(fieldid) + ' feature num: ' + str(self.field_feature_dict[fieldid]['num']))
+        f = open(dict_file, 'rb')
+        dict = DictPB()
+        dict.ParseFromString(f.read())
+        self.field_feature_dict = dict
+        f.close()
+        print('load field num: ' + str(len(self.field_feature_dict.field2missid)))
+        for fieldid, feanum in self.field_feature_dict.field2feanum.items():
+            print('field: ' + str(fieldid) + ' feature num: ' + str(feanum))
+
 
     def Dict(self):
         assert self.field_feature_dict is not None
@@ -67,10 +71,10 @@ def StringToRecord(self, input_file, output_file):
                 if fieldid in field2feature:
                     for featureid in field2feature[fieldid]:
                         value = field2feature[fieldid][featureid]
-                        feature_id_list.append(self.field_feature_dict[fieldid][featureid])
+                        feature_id_list.append(self.field_feature_dict.featureid2sortid[featureid])
                         feature_val_list.append(value)
                 else:
-                    feature_id_list.append(self.field_dict[fieldid]['miss'])
+                    feature_id_list.append(self.field_feature_dict.field2missid[fieldid])
                     feature_val_list.append(0.0)
                 feature['sparse_id_in_field_'+str(fieldid)] = tf.train.Feature(int64_list=tf.train.Int64List(value=feature_id_list))
                 feature['sparse_val_in_field_'+str(fieldid)] = tf.train.Feature(float_list=tf.train.FloatList(value=feature_val_list))
@@ -80,10 +84,10 @@ def StringToRecord(self, input_file, output_file):
                 if fieldid in field2feature:
                     for featureid in field2feature[fieldid]:
                         value = field2feature[fieldid][featureid]
-                        feature_id_list.append(self.field_feature_dict[fieldid][featureid])
+                        feature_id_list.append(self.field_feature_dict.featureid2sortid[featureid])
                         feature_val_list.append(value)
                 else:
-                    feature_id_list.append(self.field_dict[fieldid]['miss'])
+                    feature_id_list.append(self.field_feature_dict.field2missid[fieldid])
                     feature_val_list.append(0.0)
                 feature['linear_id_in_field_'+str(fieldid)] = tf.train.Feature(int64_list=tf.train.Int64List(value=feature_id_list))
                 feature['linear_val_in_field_'+str(fieldid)] = tf.train.Feature(float_list=tf.train.FloatList(value=feature_val_list))
@@ -101,14 +105,17 @@ def StringToRecord(self, input_file, output_file):
             writer.write(example.SerializeToString())
 
         writer.close()
-        print('Successfully convert {} to {}'.format(input_file, output_file))  
+        print('Successfully convert {} to {}'.format(input_file, output_file))
 
     def Decode(self, filename_queue):
         reader = tf.TFRecordReader()
         _, serialized_example = reader.read(filename_queue)
         return serialized_example
 
     def ReadBatch(self, file_name, max_epoch, batch_size, thread_num, min_after_dequeue):
+        '''
+        Return Tensor and SparseTensor parsed from tfrecord
+        '''
         with tf.name_scope('input'):
             filename_queue = tf.train.string_input_producer(
                 tf.train.match_filenames_once(file_name), num_epochs=max_epoch)
@@ -144,6 +151,45 @@ def ReadBatch(self, file_name, max_epoch, batch_size, thread_num, min_after_dequ
             continuous_val = instance['continuous_val']
             return instance['label'], sparse_id, sparse_val, linear_id, linear_val, continuous_val
 
+    def ReadBatchPlaceholder(self):
+        '''
+        Return placeholder
+        '''
+        with tf.name_scope('input'):
+            sparse_id = []
+            sparse_val = []
+            for fieldid in self.sparse_field:
+                with tf.variable_scope('sparse_'+str(fieldid)):
+                    with tf.variable_scope('index'):
+                        self.sparse_index = tf.placeholder(tf.int64)
+                    with tf.variable_scope('id'):
+                        self.sparse_ids = tf.placeholder(tf.int64)
+                    with tf.variable_scope('value'):
+                        self.sparse_vals = tf.placeholder(tf.float32)
+                    with tf.variable_scope('shape'):
+                        self.sparse_shape = tf.placeholder(tf.int64)
+                    sparse_id.append(tf.SparseTensor(self.sparse_index, self.sparse_ids, self.sparse_shape))
+                    sparse_val.append(tf.SparseTensor(self.sparse_index, self.sparse_vals, self.sparse_shape))
+            linear_id = []
+            linear_val = []
+            for fieldid in self.linear_field:
+                with tf.variable_scope('linear_'+str(fieldid)):
+                    with tf.variable_scope('index'):
+                        self.linear_index = tf.placeholder(tf.int64)
+                    with tf.variable_scope('id'):
+                        self.linear_ids = tf.placeholder(tf.int64)
+                    with tf.variable_scope('value'):
+                        self.linear_vals = tf.placeholder(tf.float32)
+                    with tf.variable_scope('shape'):
+                        self.linear_shape = tf.placeholder(tf.int64)
+                    linear_id.append(tf.SparseTensor(self.linear_index, self.linear_ids, self.linear_shape))
+                    linear_val.append(tf.SparseTensor(self.linear_index, self.linear_vals, self.linear_shape))
+            with tf.variable_scope('label'):
+                self.label = tf.placeholder(tf.float32)
+            with tf.variable_scope('continuous'):
+                self.continuous_val = tf.placeholder(tf.float32)
+            return self.label, sparse_id, sparse_val, linear_id, linear_val, self.continuous_val
+
 if __name__ == '__main__':
     if len(sys.argv) != 7:
         print('''
@@ -157,4 +203,4 @@ def ReadBatch(self, file_name, max_epoch, batch_size, thread_num, min_after_dequ
             ''')
         exit(1)
     data = Data(sys.argv[1], sys.argv[2], sys.argv[3], sys.argv[4])
-    data.StringToRecord(sys.argv[5], sys.argv[6])
+    data.StringToRecord(sys.argv[5], sys.argv[6])
@@ -28,11 +28,11 @@ def __init__(self, embedding_size, field_feature_dict, sparse_field, continuous_
     def concat(self, fields, sparse_id, sparse_val):
         emb = []
         for i, field_id in enumerate(fields):
-            input_size = self.field_feature_dict[field_id]['num'] + 1
-            with tf.variable_scope("emb") as scope:
+            input_size = self.field_feature_dict.field2feanum[field_id] + 1
+            with tf.variable_scope("emb_"+str(field_id)):
                 embedding_variable = tf.Variable(tf.truncated_normal([input_size, self.embedding_size], stddev=0.05), name='emb' + str(field_id))
-            embedding = tf.nn.embedding_lookup_sparse(embedding_variable, sparse_id[i], sparse_val[i], "mod", combiner="sum")
-            emb.append(embedding)
+                embedding = tf.nn.embedding_lookup_sparse(embedding_variable, sparse_id[i], sparse_val[i], "mod", combiner="sum")
+                emb.append(embedding)
             #tf.summary.histogram('emb_' + str(field_id), embedding_variable)
             self.embedding.append(embedding_variable)
 
@@ -56,8 +56,12 @@ def forward(self, sparse_id, sparse_val, linear_id, linear_val, continuous_val):
 
         #hidden layers
         for i, hidden_size in enumerate(self.hidden_layer):
-            dim = net.get_shape().as_list()[1]
-            with tf.variable_scope("hidden") as scope:
+            #dim = net.get_shape().as_list()[1]
+            if i == 0:
+                dim = self.embedding_size * len(self.sparse_field) + len(self.continuous_field)
+            else:
+                dim = self.hidden_layer[i-1]
+            with tf.variable_scope("hidden"):
                 weight = tf.Variable(tf.truncated_normal([dim, hidden_size], stddev=0.05), name='fully_weight_'+str(i))
                 bias = tf.Variable(tf.truncated_normal([hidden_size], stddev=0.05), name='fully_bias_'+str(i))
             self.hiddenW.append(weight)
@@ -71,12 +75,16 @@ def forward(self, sparse_id, sparse_val, linear_id, linear_val, continuous_val):
             linear_embedding = self.concat(self.linear_field, linear_id, linear_val)
             net = tf.concat([net, linear_embedding], 1, name='concat_linear')
 
-        dim = net.get_shape().as_list()[1]
+        #dim = net.get_shape().as_list()[1]
+        dim = self.hidden_layer[-1]
+        if len(self.linear_field) > 0:
+            dim += self.embedding_size * len(self.linear_field)
         print("out layer dim:" + str(dim))
-        with tf.variable_scope("outlayer") as scope:
+        with tf.variable_scope("outlayer"):
             self.weight = tf.Variable(tf.truncated_normal([dim, 1], stddev=0.05), name='weight_out')
             self.bias = tf.Variable(tf.truncated_normal([1], stddev=0.05), name='bias_out')
-        logits = tf.matmul(net, self.weight) + self.bias
+        with tf.variable_scope("predict"):
+            logits = tf.matmul(net, self.weight) + self.bias
 
         # add regularization
         all_parameter = [self.weight, self.bias] + self.hiddenW + self.hiddenB + self.embedding
 
@@ -2,7 +2,7 @@
 
 import sys
 import os
-import pickle
+from dict_pb2 import Dict as DictPB
 
 class Dict:
 	def __init__(self, continuous_fields, sparse_fields, linear_fields):
@@ -49,8 +49,19 @@ def Parse(self, input_file, output_file):
 		for fieldid in field_feature_dict:
 			print('field: ' + str(fieldid) + ' feature num: ' + str(field_feature_dict[fieldid]['num']))
 
+		dict = DictPB()
+		for fieldid, feature2sortid_dict in field_feature_dict.items():
+			for featureid, sortid in feature2sortid_dict.items():
+				if featureid == 'miss':
+					dict.field2missid[fieldid] = sortid
+					continue
+				if featureid == 'num':
+					dict.field2feanum[fieldid] = sortid
+					continue
+				dict.featureid2sortid[featureid] = sortid
 		output = open(output_file, 'wb')
-		pickle.dump(field_feature_dict, output, 2)
+		output.write(dict.SerializeToString())
+		output.close()
 		print('Successfully generate dict from {} to {}'.format(input_file, output_file))
 
 if __name__ == '__main__':
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,3 @@`
`1`	`1`	`#!/usr/bin/env bash`
`2`	`2`
`3`		`-../../bin/simple_model.bin "./saved_model/graph.pb"`
	`3`	`+../../bin/simple_model.bin "./model/graph.pb"`