:crowmageddon: probably broke everything :crowmageddon:

pjreddie · Apr 10, 2017 · 8d9ed0a · 8d9ed0a · sivagnanamn · Jan 16, 2018
1 parent 179ed8e
commit 8d9ed0a
Show file tree

Hide file tree

Showing 66 changed files with 1,077 additions and 1,010 deletions.
diff --git a/cfg/coco.data b/cfg/coco.data
@@ -1,7 +1,7 @@
 classes= 80
 train  = /home/pjreddie/data/coco/trainvalno5k.txt
-valid  = coco_testdev
-#valid = data/coco_val_5k.list
+#valid  = coco_testdev
+valid = data/coco_val_5k.list
 names = data/coco.names
 backup = /home/pjreddie/backup/
 eval=coco

diff --git a/cfg/yolo.cfg b/cfg/yolo.cfg
@@ -5,8 +5,8 @@ subdivisions=1
 # Training
 # batch=64
 # subdivisions=8
-height=416
-width=416
+height=608
+width=608
 channels=3
 momentum=0.9
 decay=0.0005

diff --git a/src/activation_layer.c b/src/activation_layer.c
@@ -35,29 +35,29 @@ layer make_activation_layer(int batch, int inputs, ACTIVATION activation)
     return l;
 }
 
-void forward_activation_layer(layer l, network_state state)
+void forward_activation_layer(layer l, network net)
 {
-    copy_cpu(l.outputs*l.batch, state.input, 1, l.output, 1);
+    copy_cpu(l.outputs*l.batch, net.input, 1, l.output, 1);
     activate_array(l.output, l.outputs*l.batch, l.activation);
 }
 
-void backward_activation_layer(layer l, network_state state)
+void backward_activation_layer(layer l, network net)
 {
     gradient_array(l.output, l.outputs*l.batch, l.activation, l.delta);
-    copy_cpu(l.outputs*l.batch, l.delta, 1, state.delta, 1);
+    copy_cpu(l.outputs*l.batch, l.delta, 1, net.delta, 1);
 }
 
 #ifdef GPU
 
-void forward_activation_layer_gpu(layer l, network_state state)
+void forward_activation_layer_gpu(layer l, network net)
 {
-    copy_ongpu(l.outputs*l.batch, state.input, 1, l.output_gpu, 1);
+    copy_ongpu(l.outputs*l.batch, net.input_gpu, 1, l.output_gpu, 1);
     activate_array_ongpu(l.output_gpu, l.outputs*l.batch, l.activation);
 }
 
-void backward_activation_layer_gpu(layer l, network_state state)
+void backward_activation_layer_gpu(layer l, network net)
 {
     gradient_array_ongpu(l.output_gpu, l.outputs*l.batch, l.activation, l.delta_gpu);
-    copy_ongpu(l.outputs*l.batch, l.delta_gpu, 1, state.delta, 1);
+    copy_ongpu(l.outputs*l.batch, l.delta_gpu, 1, net.delta_gpu, 1);
 }
 #endif
diff --git a/src/activation_layer.h b/src/activation_layer.h
@@ -7,12 +7,12 @@
 
 layer make_activation_layer(int batch, int inputs, ACTIVATION activation);
 
-void forward_activation_layer(layer l, network_state state);
-void backward_activation_layer(layer l, network_state state);
+void forward_activation_layer(layer l, network net);
+void backward_activation_layer(layer l, network net);
 
 #ifdef GPU
-void forward_activation_layer_gpu(layer l, network_state state);
-void backward_activation_layer_gpu(layer l, network_state state);
+void forward_activation_layer_gpu(layer l, network net);
+void backward_activation_layer_gpu(layer l, network net);
 #endif
 
 #endif

diff --git a/src/avgpool_layer.c b/src/avgpool_layer.c
@@ -37,7 +37,7 @@ void resize_avgpool_layer(avgpool_layer *l, int w, int h)
     l->inputs = h*w*l->c;
 }
 
-void forward_avgpool_layer(const avgpool_layer l, network_state state)
+void forward_avgpool_layer(const avgpool_layer l, network net)
 {
     int b,i,k;
 
@@ -47,14 +47,14 @@ void forward_avgpool_layer(const avgpool_layer l, network_state state)
             l.output[out_index] = 0;
             for(i = 0; i < l.h*l.w; ++i){
                 int in_index = i + l.h*l.w*(k + b*l.c);
-                l.output[out_index] += state.input[in_index];
+                l.output[out_index] += net.input[in_index];
             }
             l.output[out_index] /= l.h*l.w;
         }
     }
 }
 
-void backward_avgpool_layer(const avgpool_layer l, network_state state)
+void backward_avgpool_layer(const avgpool_layer l, network net)
 {
     int b,i,k;
 
@@ -63,7 +63,7 @@ void backward_avgpool_layer(const avgpool_layer l, network_state state)
             int out_index = k + b*l.c;
             for(i = 0; i < l.h*l.w; ++i){
                 int in_index = i + l.h*l.w*(k + b*l.c);
-                state.delta[in_index] += l.delta[out_index] / (l.h*l.w);
+                net.delta[in_index] += l.delta[out_index] / (l.h*l.w);
             }
         }
     }

diff --git a/src/avgpool_layer.h b/src/avgpool_layer.h
@@ -11,12 +11,12 @@ typedef layer avgpool_layer;
 image get_avgpool_image(avgpool_layer l);
 avgpool_layer make_avgpool_layer(int batch, int w, int h, int c);
 void resize_avgpool_layer(avgpool_layer *l, int w, int h);
-void forward_avgpool_layer(const avgpool_layer l, network_state state);
-void backward_avgpool_layer(const avgpool_layer l, network_state state);
+void forward_avgpool_layer(const avgpool_layer l, network net);
+void backward_avgpool_layer(const avgpool_layer l, network net);
 
 #ifdef GPU
-void forward_avgpool_layer_gpu(avgpool_layer l, network_state state);
-void backward_avgpool_layer_gpu(avgpool_layer l, network_state state);
+void forward_avgpool_layer_gpu(avgpool_layer l, network net);
+void backward_avgpool_layer_gpu(avgpool_layer l, network net);
 #endif
 
 #endif

diff --git a/src/avgpool_layer_kernels.cu b/src/avgpool_layer_kernels.cu
@@ -43,19 +43,19 @@ __global__ void backward_avgpool_layer_kernel(int n, int w, int h, int c, float
     }
 }
 
-extern "C" void forward_avgpool_layer_gpu(avgpool_layer layer, network_state state)
+extern "C" void forward_avgpool_layer_gpu(avgpool_layer layer, network net)
 {
     size_t n = layer.c*layer.batch;
 
-    forward_avgpool_layer_kernel<<<cuda_gridsize(n), BLOCK>>>(n, layer.w, layer.h, layer.c, state.input, layer.output_gpu);
+    forward_avgpool_layer_kernel<<<cuda_gridsize(n), BLOCK>>>(n, layer.w, layer.h, layer.c, net.input_gpu, layer.output_gpu);
     check_error(cudaPeekAtLastError());
 }
 
-extern "C" void backward_avgpool_layer_gpu(avgpool_layer layer, network_state state)
+extern "C" void backward_avgpool_layer_gpu(avgpool_layer layer, network net)
 {
     size_t n = layer.c*layer.batch;
 
-    backward_avgpool_layer_kernel<<<cuda_gridsize(n), BLOCK>>>(n, layer.w, layer.h, layer.c, state.delta, layer.delta_gpu);
+    backward_avgpool_layer_kernel<<<cuda_gridsize(n), BLOCK>>>(n, layer.w, layer.h, layer.c, net.delta_gpu, layer.delta_gpu);
     check_error(cudaPeekAtLastError());
 }
 
diff --git a/src/batchnorm_layer.c b/src/batchnorm_layer.c
@@ -132,14 +132,15 @@ void resize_batchnorm_layer(layer *layer, int w, int h)
     fprintf(stderr, "Not implemented\n");
 }
 
-void forward_batchnorm_layer(layer l, network_state state)
+void forward_batchnorm_layer(layer l, network net)
 {
-    if(l.type == BATCHNORM) copy_cpu(l.outputs*l.batch, state.input, 1, l.output, 1);
+    if(l.type == BATCHNORM) copy_cpu(l.outputs*l.batch, net.input, 1, l.output, 1);
     if(l.type == CONNECTED){
         l.out_c = l.outputs;
         l.out_h = l.out_w = 1;
     }
-    if(state.train){
+    copy_cpu(l.outputs*l.batch, l.output, 1, l.x, 1);
+    if(net.train){
         mean_cpu(l.output, l.batch, l.out_c, l.out_h*l.out_w, l.mean);
         variance_cpu(l.output, l.mean, l.batch, l.out_c, l.out_h*l.out_w, l.variance);
 
@@ -148,7 +149,6 @@ void forward_batchnorm_layer(layer l, network_state state)
         scal_cpu(l.out_c, .99, l.rolling_variance, 1);
         axpy_cpu(l.out_c, .01, l.variance, 1, l.rolling_variance, 1);
 
-        copy_cpu(l.outputs*l.batch, l.output, 1, l.x, 1);
         normalize_cpu(l.output, l.mean, l.variance, l.batch, l.out_c, l.out_h*l.out_w);   
         copy_cpu(l.outputs*l.batch, l.output, 1, l.x_norm, 1);
     } else {
@@ -158,8 +158,12 @@ void forward_batchnorm_layer(layer l, network_state state)
     add_bias(l.output, l.biases, l.batch, l.out_c, l.out_h*l.out_w);
 }
 
-void backward_batchnorm_layer(const layer l, network_state state)
+void backward_batchnorm_layer(layer l, network net)
 {
+    if(!net.train){
+        l.mean = l.rolling_mean;
+        l.variance = l.rolling_variance;
+    }
     backward_bias(l.bias_updates, l.delta, l.batch, l.out_c, l.out_w*l.out_h);
     backward_scale_cpu(l.x_norm, l.delta, l.batch, l.out_c, l.out_w*l.out_h, l.scale_updates);
 
@@ -168,7 +172,7 @@ void backward_batchnorm_layer(const layer l, network_state state)
     mean_delta_cpu(l.delta, l.variance, l.batch, l.out_c, l.out_w*l.out_h, l.mean_delta);
     variance_delta_cpu(l.x, l.delta, l.mean, l.variance, l.batch, l.out_c, l.out_w*l.out_h, l.variance_delta);
     normalize_delta_cpu(l.x, l.mean, l.variance, l.mean_delta, l.variance_delta, l.batch, l.out_c, l.out_w*l.out_h, l.delta);
-    if(l.type == BATCHNORM) copy_cpu(l.outputs*l.batch, l.delta, 1, state.delta, 1);
+    if(l.type == BATCHNORM) copy_cpu(l.outputs*l.batch, l.delta, 1, net.delta, 1);
 }
 
 #ifdef GPU
@@ -186,35 +190,35 @@ void push_batchnorm_layer(layer l)
     cuda_push_array(l.rolling_variance_gpu, l.rolling_variance, l.c);
 }
 
-void forward_batchnorm_layer_gpu(layer l, network_state state)
+void forward_batchnorm_layer_gpu(layer l, network net)
 {
-    if(l.type == BATCHNORM) copy_ongpu(l.outputs*l.batch, state.input, 1, l.output_gpu, 1);
+    if(l.type == BATCHNORM) copy_ongpu(l.outputs*l.batch, net.input_gpu, 1, l.output_gpu, 1);
     if(l.type == CONNECTED){
         l.out_c = l.outputs;
         l.out_h = l.out_w = 1;
     }
-    if (state.train) {
+    copy_ongpu(l.outputs*l.batch, l.output_gpu, 1, l.x_gpu, 1);
+    if (net.train) {
 #ifdef CUDNN
-        copy_ongpu(l.outputs*l.batch, l.output_gpu, 1, l.x_gpu, 1);
         float one = 1;
         float zero = 0;
         cudnnBatchNormalizationForwardTraining(cudnn_handle(),
-                    CUDNN_BATCHNORM_SPATIAL,
-                    &one,
-                    &zero,
-                    l.dstTensorDesc,
-                    l.x_gpu,
-                    l.dstTensorDesc,
-                    l.output_gpu,
-                    l.normTensorDesc,
-                    l.scales_gpu,
-                    l.biases_gpu,
-                    .01,
-                    l.rolling_mean_gpu,
-                    l.rolling_variance_gpu,
-                    .00001,
-                    l.mean_gpu,
-                    l.variance_gpu);
+                CUDNN_BATCHNORM_SPATIAL,
+                &one,
+                &zero,
+                l.dstTensorDesc,
+                l.x_gpu,
+                l.dstTensorDesc,
+                l.output_gpu,
+                l.normTensorDesc,
+                l.scales_gpu,
+                l.biases_gpu,
+                .01,
+                l.rolling_mean_gpu,
+                l.rolling_variance_gpu,
+                .00001,
+                l.mean_gpu,
+                l.variance_gpu);
 #else
         fast_mean_gpu(l.output_gpu, l.batch, l.out_c, l.out_h*l.out_w, l.mean_gpu);
         fast_variance_gpu(l.output_gpu, l.mean_gpu, l.batch, l.out_c, l.out_h*l.out_w, l.variance_gpu);
@@ -239,8 +243,12 @@ void forward_batchnorm_layer_gpu(layer l, network_state state)
 
 }
 
-void backward_batchnorm_layer_gpu(const layer l, network_state state)
+void backward_batchnorm_layer_gpu(layer l, network net)
 {
+    if(!net.train){
+        l.mean_gpu = l.rolling_mean_gpu;
+        l.variance_gpu = l.rolling_variance_gpu;
+    }
 #ifdef CUDNN
     float one = 1;
     float zero = 0;
@@ -274,6 +282,6 @@ void backward_batchnorm_layer_gpu(const layer l, network_state state)
     fast_variance_delta_gpu(l.x_gpu, l.delta_gpu, l.mean_gpu, l.variance_gpu, l.batch, l.out_c, l.out_w*l.out_h, l.variance_delta_gpu);
     normalize_delta_gpu(l.x_gpu, l.mean_gpu, l.variance_gpu, l.mean_delta_gpu, l.variance_delta_gpu, l.batch, l.out_c, l.out_w*l.out_h, l.delta_gpu);
 #endif
-    if(l.type == BATCHNORM) copy_ongpu(l.outputs*l.batch, l.delta_gpu, 1, state.delta, 1);
+    if(l.type == BATCHNORM) copy_ongpu(l.outputs*l.batch, l.delta_gpu, 1, net.delta_gpu, 1);
 }
 #endif
diff --git a/src/batchnorm_layer.h b/src/batchnorm_layer.h
@@ -6,12 +6,12 @@
 #include "network.h"
 
 layer make_batchnorm_layer(int batch, int w, int h, int c);
-void forward_batchnorm_layer(layer l, network_state state);
-void backward_batchnorm_layer(layer l, network_state state);
+void forward_batchnorm_layer(layer l, network net);
+void backward_batchnorm_layer(layer l, network net);
 
 #ifdef GPU
-void forward_batchnorm_layer_gpu(layer l, network_state state);
-void backward_batchnorm_layer_gpu(layer l, network_state state);
+void forward_batchnorm_layer_gpu(layer l, network net);
+void backward_batchnorm_layer_gpu(layer l, network net);
 void pull_batchnorm_layer(layer l);
 void push_batchnorm_layer(layer l);
 #endif

diff --git a/src/blas_kernels.cu b/src/blas_kernels.cu
@@ -145,7 +145,7 @@ __global__ void adam_kernel(int N, float *x, float *m, float *v, float B1, float
     int index = (blockIdx.x + blockIdx.y*gridDim.x) * blockDim.x + threadIdx.x;
     if (index >= N) return;
 
-    x[index] = x[index] - (rate * sqrt(1.-pow(B2, t)) / (1.-pow(B1, t)) * m[index] / (sqrt(v[index]) + eps));
+    x[index] = x[index] + (rate * sqrt(1.-pow(B2, t)) / (1.-pow(B1, t)) * m[index] / (sqrt(v[index]) + eps));
     //if(index == 0) printf("%f %f %f %f\n", m[index], v[index], (rate * sqrt(1.-pow(B2, t)) / (1.-pow(B1, t)) * m[index] / (sqrt(v[index]) + eps)));
 }
 

diff --git a/src/classifier.c b/src/classifier.c
@@ -123,7 +123,7 @@ void train_classifier(char *datacfg, char *cfgfile, char *weightfile, int *gpus,
             sprintf(buff, "%s/%s_%d.weights",backup_directory,base, epoch);
             save_weights(net, buff);
         }
-        if(get_current_batch(net)%100 == 0){
+        if(get_current_batch(net)%1000 == 0){
             char buff[256];
             sprintf(buff, "%s/%s.backup",backup_directory,base);
             save_weights(net, buff);