TDD compatibel with cudnn2.0 and above

wanglimin · Dec 24, 2015 · af0157e · af0157e
1 parent 8ae2c24
commit af0157e
Show file tree

Hide file tree

Showing 61 changed files with 789 additions and 4,793 deletions.
diff --git a/FeatureMapNormalization.m b/FeatureMapNormalization.m
@@ -9,6 +9,7 @@
 cnn_feature1 = bsxfun(@rdivide,cnn_feature1,max(cnn_feature1,[],1)+eps);
 cnn_feature1 = reshape(cnn_feature1,r,c,t,f); 
 cnn_feature1 = permute(cnn_feature1,[1,2,4,3]);
+
 cnn_feature2 = bsxfun(@rdivide,cnn_feature,max(cnn_feature,[],3)+eps);
 
 end
diff --git a/FlowCNNFeature.m b/FlowCNNFeature.m
diff --git a/RGBCNNFeature.m b/RGBCNNFeature.m
diff --git a/SpatialCNNFeature.m b/SpatialCNNFeature.m
@@ -0,0 +1,47 @@
+function [FCNNFeature_c5, FCNNFeature_c4] = SpatialCNNFeature(vid_name, net, NUM_HEIGHT, NUM_WIDTH)
+
+% Input video
+vidObj = VideoReader(vid_name);
+
+duration = vidObj.NumberOfFrame;
+video = zeros(NUM_HEIGHT, NUM_WIDTH, 3, duration,'single');
+for i = 1 : duration
+    tmp = read(vidObj,i);
+    video(:,:,:,i) = imresize(tmp, [NUM_HEIGHT, NUM_WIDTH], 'bilinear');
+end
+
+
+d = load('VGG_mean');
+IMAGE_MEAN = d.image_mean;
+IMAGE_MEAN = imresize(IMAGE_MEAN,[NUM_HEIGHT,NUM_WIDTH]);
+video = video(:,:,[3,2,1],:);
+video = bsxfun(@minus,video,IMAGE_MEAN);
+video = permute(video,[2,1,3,4]);
+
+batch_size = 40;
+num_images = size(video,4);
+num_batches = ceil(num_images/batch_size);
+
+FCNNFeature_c5 = [];
+FCNNFeature_c4 = [];
+
+images = zeros(NUM_WIDTH, NUM_HEIGHT, 3, batch_size, 'single');
+for bb = 1 : num_batches
+    range = 1 + batch_size*(bb-1): min(num_images,batch_size*bb);
+    tmp = video(:,:,:,range);
+    images(:,:,:,1:size(tmp,4)) = tmp;
+
+    net.blobs('data').set_data(images);
+    net.forward_prefilled();
+    feature_c5 = permute(net.blobs('conv5').get_data(),[2,1,3,4]);
+    feature_c4 = permute(net.blobs('conv4').get_data(),[2,1,3,4]);
+
+    if isempty(FCNNFeature_c5)
+        FCNNFeature_c5 = zeros(size(feature_c5,1), size(feature_c5,2), size(feature_c5,3), num_images, 'single');
+        FCNNFeature_c4 = zeros(size(feature_c4,1), size(feature_c4,2), size(feature_c4,3), num_images, 'single');
+    end
+    FCNNFeature_c5(:,:,:,range) = feature_c5(:,:,:,mod(range-1,batch_size)+1);
+    FCNNFeature_c4(:,:,:,range) = feature_c4(:,:,:,mod(range-1,batch_size)+1);
+end
+
+end
diff --git a/TDD.m b/TDD.m
@@ -1,4 +1,15 @@
+
 function [feature] = TDD(inf,tra,cnn_feature,scale_x,scale_y,num_cell)
+% TDD: perform trajectory pooling over convolutional feature maps.
+% Input:
+%       inf: information of trajectories from iDTs (10*N)
+%       traj: extracted trajectories (2L*N)
+%       cnn_feature: cnn feature maps (convlutional layers: W*H*C*L)
+%       scale_x: width ratio
+%       scale_y: height ratio
+%       num_cell: the number of cell in temporal dimension
+% Output:
+%       feature: trajectory pooled descriptors ((C*NUM_CELL) *N)
 
 if ~isempty(inf)
 	ind = inf(7,:)==1;

diff --git a/TemporalCNNFeature.m b/TemporalCNNFeature.m
@@ -1,4 +1,4 @@
-function [FCNNFeature_c5, FCNNFeature_c4, FCNNFeature_c3, FCNNFeature_p2] = TemporalCNNFeature(vid_name, net, NUM_HEIGHT, NUM_WIDTH)
+function [FCNNFeature_c4, FCNNFeature_c3] = TemporalCNNFeature(vid_name, net, NUM_HEIGHT, NUM_WIDTH)
 
 L = 10;
 % Input video
@@ -24,10 +24,8 @@
 num_images = size(video,4);
 num_batches = ceil(num_images/batch_size);
 
-FCNNFeature_c5 = [];
 FCNNFeature_c4 = [];
 FCNNFeature_c3 = [];
-FCNNFeature_p2 = [];
 
 for bb = 1 : num_batches
     range = 1 + batch_size*(bb-1): min(num_images,batch_size*bb);
@@ -41,21 +39,15 @@
 
     net.blobs('data').set_data(images);
     net.forward_prefilled();
-    feature_c5 = permute(net.blobs('conv5').get_data(),[2,1,3,4]);
     feature_c4 = permute(net.blobs('conv4').get_data(),[2,1,3,4]);
     feature_c3 = permute(net.blobs('conv3').get_data(),[2,1,3,4]);
-    feature_p2 = permute(net.blobs('pool2').get_data(),[2,1,3,4]);
 
-    if isempty(FCNNFeature_c5)
-        FCNNFeature_c5 = zeros(size(feature_c5,1), size(feature_c5,2), size(feature_c5,3), num_images, 'single');
+    if isempty(FCNNFeature_c4)
         FCNNFeature_c4 = zeros(size(feature_c4,1), size(feature_c4,2), size(feature_c4,3), num_images, 'single');
         FCNNFeature_c3 = zeros(size(feature_c3,1), size(feature_c3,2), size(feature_c3,3), num_images, 'single');
-        FCNNFeature_p2 = zeros(size(feature_p2,1), size(feature_p2,2), size(feature_p2,3), num_images, 'single');
     end
-    FCNNFeature_c5(:,:,:,range) = feature_c5(:,:,:,mod(range-1,batch_size)+1);
     FCNNFeature_c4(:,:,:,range) = feature_c4(:,:,:,mod(range-1,batch_size)+1);
-    FCNNFeature_c3(:,:,:,range) = feature_c3(:,:,:,mod(range-1,batch_size)+1);
-    FCNNFeature_p2(:,:,:,range) = feature_p2(:,:,:,mod(range-1,batch_size)+1);    
+    FCNNFeature_c3(:,:,:,range) = feature_c3(:,:,:,mod(range-1,batch_size)+1);   
 end
 
 end
diff --git a/extract_tdd.m b/extract_tdd.m
diff --git a/flow_mean.mat b/flow_mean.mat
diff --git a/import_idt.m b/import_idt.m
diff --git a/matcaffe_init.m b/matcaffe_init.m