# 3. Thực thi forward pass của mạng
## 3.1 Khai báo mạng
Như tôi đã chỉ ra trước đó, chúng tôi sử dụng class `nn.Module` để xây dựng các kiến trúc tùy chỉnh trong PyTorch. Hãy để chúng tôi khai báo một mạng cho chương trình phát hiện đối tượng. Trong tệp `darknet.py`, chúng tôi thêm class sau.

In [None]:
class Darknet(nn.Module):
    def __init__(self, cfgfile):
        super(Darknet, self).__init__()
        self.blocks = parse_cfg(cfgfile)
        self.net_info, self.module_list = create_modules(self.blocks)

Ở đây, chúng ta đã phân lớp con của lớp `nn.Module` và đặt tên cho lớp của chúng ta là `Darknet`. Chúng tôi khởi tạo mạng với các thành viên, `block`, `net_info` và `module_list`.

## 3.2 Thực thi forward pass của mạng
Forward pass của mạng được thực hiện bằng cách ghi đè phương thức `forward` của lớp `nn.Module`.

`forward` phục vụ hai mục đích. Đầu tiên, để tính toán kết quả đầu ra và thứ hai, để biến đổi các bản đồ tính năng phát hiện đầu ra theo cách mà nó có thể được xử lý dễ dàng hơn (chẳng hạn như biến đổi chúng để các bản đồ phát hiện trên nhiều tỷ lệ có thể được nối với nhau, điều này không thể thực hiện được vì chúng có kích thước khác nhau).

In [None]:
def forward(self, x, CUDA):
    modules = self.blocks[1:]
    outputs = {}   #We cache the outputs for the route layer

`forward` nhận ba đối số, `self`, đầu vào `x` và `CUDA`, nếu đúng, sẽ sử dụng GPU để tăng tốc forward pass.

Ở đây, chúng tôi lặp qua `self.blocks [1:]` thay vì `self.blocks` vì phần tử đầu tiên của `self.blocks` là một khối `net` không phải là một phần của forward pass.

Vì các lớp *route* và *shortcut* cần bản đồ đầu ra từ các lớp trước, chúng tôi lưu vào bộ nhớ cache các bản đồ tính năng đầu ra của mọi lớp trong `output` dict. Quan trọng là chỉ số của các lớp và các giá trị là feature maps.

Như trường hợp với hàm `create_modules`, bây giờ chúng ta lặp qua `module_list` chứa các mô-đun của mạng. Điều cần chú ý ở đây là các mô-đun đã được nối theo thứ tự giống như chúng có trong tệp cấu hình. Điều này có nghĩa là, chúng ta có thể chỉ cần chạy đầu vào của mình qua từng mô-đun để có được đầu ra của chúng ta.

In [None]:
write = 0     #This is explained a bit later
for i, module in enumerate(modules):        
    module_type = (module["type"])

### Convolutional và Upsample Layers
Nếu mô-đun là một mô-đun convolution hoặc mô-đun upsample, đây là cách forward sẽ hoạt động.

In [None]:
        if module_type == "convolutional" or module_type == "upsample":
            x = self.module_list[i](x)


### Route Layer / Shortcut Layer
Nếu bạn tìm code cho lớp route, chúng ta phải tính đến hai trường hợp (như được mô tả trong phần 2). Đối với trường hợp chúng ta phải ghép hai bản đồ đối tượng, chúng ta sử dụng hàm `torch.cat` với đối số thứ hai là 1. Điều này là do chúng ta muốn nối các bản đồ đối tượng theo độ sâu. (Trong PyTorch, đầu vào và đầu ra của lớp chập có định dạng `B X C X H X W`. Độ sâu tương ứng với kích thước kênh).

In [None]:
        elif module_type == "route":
            layers = module["layers"]
            layers = [int(a) for a in layers]

            if (layers[0]) > 0:
                layers[0] = layers[0] - i

            if len(layers) == 1:
                x = outputs[i + (layers[0])]

            else:
                if (layers[1]) > 0:
                    layers[1] = layers[1] - i

                map1 = outputs[i + layers[0]]
                map2 = outputs[i + layers[1]]

                x = torch.cat((map1, map2), 1)

        elif  module_type == "shortcut":
            from_ = int(module["from"])
            x = outputs[i-1] + outputs[i+from_]

### YOLO (Detection Layer)
Đầu ra của YOLO là một bản đồ đối tượng tích tụ có chứa các thuộc tính hộp giới hạn dọc theo độ sâu của bản đồ đối tượng. Các hộp giới hạn thuộc tính được dự đoán bởi một ô được xếp chồng lần lượt dọc theo nhau. Vì vậy, nếu bạn phải truy cập giới hạn thứ hai của ô tại (5,6), thì bạn sẽ phải lập chỉ mục nó bằng `map[5,6, (5 + C): 2 * (5 + C)]`. Biểu mẫu này rất bất tiện cho việc xử lý đầu ra chẳng hạn như tạo ngưỡng bởi độ tin cậy của đối tượng, thêm hiệu số lưới vào các trung tâm, áp dụng neo, v.v.

Một vấn đề khác là vì việc phát hiện xảy ra ở ba tỷ lệ, kích thước của bản đồ dự đoán sẽ khác nhau. Mặc dù kích thước của ba bản đồ đối tượng địa lý là khác nhau, các hoạt động xử lý đầu ra được thực hiện trên chúng là tương tự nhau. Sẽ rất tuyệt nếu bạn phải thực hiện các hoạt động này trên một tensor duy nhất, thay vì ba tensor riêng biệt.

Để khắc phục những vấn đề này, chúng tôi giới thiệu hàm `predict_transform`.

## 3.3 Chuyển đổi đầu ra
Hàm `predict_transform` tồn tại trong tệp `util.py` và chúng tôi sẽ nhập hàm khi chúng tôi sử dụng nó trước lớp `Darknet`.

Thêm các mục nhập vào đầu trang `util.py`.

In [None]:
from __future__ import division

import torch 
import torch.nn as nn
import torch.nn.functional as F 
from torch.autograd import Variable
import numpy as np
import cv2 

*predict_transform* nhận 5 tham số; *prediction* (đầu ra của chúng tôi), *inp_dim* (kích thước hình ảnh đầu vào), *anchors*, *num_classes* và cờ *CUDA* tùy chọn

In [None]:
def predict_transform(prediction, inp_dim, anchors, num_classes, CUDA = True):

Hàm predict_transform nhận một bản đồ tính năng phát hiện và biến nó thành một tensor 2-D, trong đó mỗi hàng của tensor tương ứng với các thuộc tính của một hộp giới hạn, theo thứ tự sau.

![](https://blog.paperspace.com/content/images/2018/04/bbox_-2.png)

Đây là code để thực hiện chuyển đổi trên.

In [None]:
    batch_size = prediction.size(0)
    stride =  inp_dim // prediction.size(2)
    grid_size = inp_dim // stride
    bbox_attrs = 5 + num_classes
    num_anchors = len(anchors)
    
    prediction = prediction.view(batch_size, bbox_attrs*num_anchors, grid_size*grid_size)
    prediction = prediction.transpose(1,2).contiguous()
    prediction = prediction.view(batch_size, grid_size*grid_size*num_anchors, bbox_attrs)

Kích thước của neo phù hợp với các thuộc tính `height` và `width` của khối `net`. Các thuộc tính này mô tả kích thước của hình ảnh đầu vào, lớn hơn (theo hệ số bước) so với bản đồ phát hiện. Do đó, chúng ta phải chia các mỏ neo theo bước của bản đồ đối tượng địa lý phát hiện.

In [None]:
    anchors = [(a[0]/stride, a[1]/stride) for a in anchors]

Bây giờ, chúng ta cần biến đổi đầu ra của mình theo các phương trình mà chúng ta đã thảo luận trong Phần 1.

Sigmoid tọa độ x, y và điểm đối tượng.

In [None]:
    #Sigmoid the  centre_X, centre_Y. and object confidencce
    prediction[:,:,0] = torch.sigmoid(prediction[:,:,0])
    prediction[:,:,1] = torch.sigmoid(prediction[:,:,1])
    prediction[:,:,4] = torch.sigmoid(prediction[:,:,4])

Thêm hiệu số lưới vào dự đoán tọa độ trung tâm.

In [None]:
    #Add the center offsets
    grid = np.arange(grid_size)
    a,b = np.meshgrid(grid, grid)

    x_offset = torch.FloatTensor(a).view(-1,1)
    y_offset = torch.FloatTensor(b).view(-1,1)

    if CUDA:
        x_offset = x_offset.cuda()
        y_offset = y_offset.cuda()

    x_y_offset = torch.cat((x_offset, y_offset), 1).repeat(1,num_anchors).view(-1,2).unsqueeze(0)

    prediction[:,:,:2] += x_y_offset

Áp dụng các neo cho các kích thước của hộp giới hạn.

In [None]:
    #log space transform height and the width
    anchors = torch.FloatTensor(anchors)

    if CUDA:
        anchors = anchors.cuda()

    anchors = anchors.repeat(grid_size*grid_size, 1).unsqueeze(0)
    prediction[:,:,2:4] = torch.exp(prediction[:,:,2:4])*anchors

Áp dụng kích hoạt sigmoid cho điểm số của lớp

In [None]:
    prediction[:,:,5: 5 + num_classes] = torch.sigmoid((prediction[:,:, 5 : 5 + num_classes]))

Điều cuối cùng chúng tôi muốn làm ở đây là thay đổi kích thước bản đồ phát hiện thành kích thước của hình ảnh đầu vào. Các thuộc tính hộp giới hạn ở đây có kích thước theo bản đồ đối tượng (giả sử, 13 x 13). Nếu hình ảnh đầu vào là 416 x 416, chúng tôi nhân các thuộc tính với 32 hoặc biến sải chân.

In [None]:
prediction[:,:,:4] *= stride

Điều đó kết thúc phần thân của vòng lặp.

Trả về các dự đoán ở cuối hàm.

In [None]:
    return prediction

## 3.4 Xem lại Detection Layer
Bây giờ chúng ta đã chuyển đổi các tensor đầu ra của mình, chúng ta có thể nối các bản đồ phát hiện ở ba tỷ lệ khác nhau thành một tensor lớn. Lưu ý rằng điều này không thể thực hiện được trước khi chúng tôi chuyển đổi, vì người ta không thể ghép các bản đồ đối tượng địa lý có các kích thước không gian khác nhau. Nhưng kể từ bây giờ, tensor đầu ra của chúng tôi chỉ hoạt động như một bảng với các hộp giới hạn vì nó là các hàng, việc nối là rất khả thi.

Một trở ngại theo cách của chúng ta là chúng ta không thể khởi tạo một tensor rỗng, và sau đó nối một tensor không rỗng (có hình dạng khác) với nó. Vì vậy, chúng tôi trì hoãn việc khởi tạo bộ thu (tensor giữ các phát hiện) cho đến khi chúng tôi nhận được bản đồ phát hiện đầu tiên của mình, sau đó nối với bản đồ với nó khi chúng tôi nhận được các phát hiện tiếp theo.

Lưu ý dòng `write = 0` ngay trước vòng lặp trong hàm forward. Cờ `write` được sử dụng để cho biết liệu chúng ta có gặp phải lần phát hiện đầu tiên hay không. Nếu ghi là 0, có nghĩa là bộ sưu tập chưa được khởi tạo. Nếu nó là 1, điều đó có nghĩa là bộ sưu tập đã được khởi tạo và chúng tôi chỉ có thể nối các bản đồ phát hiện của mình với nó.

Bây giờ, chúng tôi đã trang bị cho mình hàm `predict_transform`, chúng tôi viết mã để xử lý các bản đồ tính năng phát hiện trong hàm `forward`.

Ở đầu tệp `darknet.py` của bạn, hãy thêm nhập sau.

In [None]:
from util import * 

In [None]:
        elif module_type == 'yolo':        

            anchors = self.module_list[i][0].anchors
            #Get the input dimensions
            inp_dim = int (self.net_info["height"])

            #Get the number of classes
            num_classes = int (module["classes"])

            #Transform 
            x = x.data
            x = predict_transform(x, inp_dim, anchors, num_classes, CUDA)
            if not write:              #if no collector has been intialised. 
                detections = x
                write = 1

            else:       
                detections = torch.cat((detections, x), 1)

        outputs[i] = x

Bây giờ, chỉ cần trả lại các phát hiện.

In [None]:
    return detections

## 3.5 Kiểm tra chuyển tiếp

Đây là một hàm tạo đầu vào giả. Chúng tôi sẽ chuyển đầu vào này vào mạng của chúng tôi. Trước khi chúng tôi viết hàm này, hãy lưu [hình ảnh](https://raw.githubusercontent.com/ayooshkathuria/pytorch-yolo-v3/master/dog-cycle-car.png) này vào thư mục làm việc của bạn. Nếu bạn đang sử dụng Linux, sau đó nhập.

In [None]:
wget https://github.com/ayooshkathuria/pytorch-yolo-v3/raw/master/dog-cycle-car.png

Bây giờ, hãy xác định hàm ở đầu tệp `darknet.py` của bạn như sau:

In [None]:
def get_test_input():
    img = cv2.imread("dog-cycle-car.png")
    img = cv2.resize(img, (416,416))          #Resize to the input dimension
    img_ =  img[:,:,::-1].transpose((2,0,1))  # BGR -> RGB | H X W C -> C X H X W 
    img_ = img_[np.newaxis,:,:,:]/255.0       #Add a channel at 0 (for batch) | Normalise
    img_ = torch.from_numpy(img_).float()     #Convert to float
    img_ = Variable(img_)                     # Convert to Variable
    return img_

Sau đó, chúng tôi nhập mã sau:

In [None]:
model = Darknet("cfg/yolov3.cfg")
inp = get_test_input()
pred = model(inp, torch.cuda.is_available())
print (pred)

Bạn sẽ thấy một đầu ra như thế nào.

In [None]:
(  0  ,.,.) = 
   16.0962   17.0541   91.5104  ...     0.4336    0.4692    0.5279
   15.1363   15.2568  166.0840  ...     0.5561    0.5414    0.5318
   14.4763   18.5405  409.4371  ...     0.5908    0.5353    0.4979
               ⋱                ...             
  411.2625  412.0660    9.0127  ...     0.5054    0.4662    0.5043
  412.1762  412.4936   16.0449  ...     0.4815    0.4979    0.4582
  412.1629  411.4338   34.9027  ...     0.4306    0.5462    0.4138
[torch.FloatTensor of size 1x10647x85]

Kích thước của tensor này là `1 x 10647 x 85`. Kích thước đầu tiên là kích thước batch đơn giản là 1 vì chúng tôi đã sử dụng một hình ảnh duy nhất. Đối với mỗi hình ảnh trong một batch, chúng tôi có một bảng 10647 x 85. Hàng của mỗi bảng này đại diện cho một hộp giới hạn. (4 thuộc tính bbox, 1 điểm đối tượng và 80 điểm lớp)

Tại thời điểm này, mạng của chúng ta có trọng số ngẫu nhiên và sẽ không tạo ra kết quả chính xác. Chúng tôi cần tải một tệp weight trong mạng của mình. Chúng tôi sẽ sử dụng tệp weight chính thức cho mục đích này.

## 3.6 Downloading the Pre-trained Weights
Tải xuống tệp weight vào thư mục detector của bạn. Lấy tệp weight [tại đây](https://pjreddie.com/media/files/yolov3.weights). Hoặc nếu bạn đang sử dụng Linux,

In [None]:
wget https://pjreddie.com/media/files/yolov3.weights

## 3.7 Hiểu tệp Weights
Tệp *Weight* chính thức là tệp nhị phân chứa các trọng số được lưu trữ theo kiểu nối tiếp.

Phải hết sức cẩn thận khi đọc *weight*. Các *weight* chỉ được lưu trữ dưới dạng *float*, không có gì để hướng dẫn chúng ta xem chúng thuộc về lớp nào. Nếu bạn làm hỏng, không có gì ngăn cản bạn, chẳng hạn như weightng của lớp *batch norm* vào lớp *convolutional*. Vì bạn đang đọc *float*, không có cách nào để phân biệt weight thuộc về lớp nào. Do đó, chúng ta phải hiểu cách các weight được lưu trữ.

Đầu tiên, các trọng số chỉ thuộc về hai loại lớp, hoặc lớp *batch norm* hoặc *convolutional*.

Weight cho các lớp này được lưu trữ chính xác theo thứ tự như chúng xuất hiện trong tệp cấu hình. Vì vậy, nếu một khối `convolutional` được theo sau bởi một khối `shortcut` và sau đó là khối `shortcut` bởi một khối `convolutional` khác, Bạn sẽ mong đợi tệp chứa các weight của khối `convolutional` trước đó, tiếp theo là các weight của khối `convolutional` sau.

Khi lớp `batch norm` xuất hiện trong một khối `convolutional`, không có sai lệch. Tuy nhiên, khi không có lớp batch norm, "weight" thiên vị phải đọc từ tệp.

Sơ đồ sau đây tổng hợp cách lưu trữ các weight.

![](https://blog.paperspace.com/content/images/2018/04/wts-1.png)

## 3.8 Tải Weights
Hãy để chúng tôi viết một hàm tải weight. Nó sẽ là một chức năng thành viên của lớp `Darknet`. Nó sẽ lấy một đối số khác với `self`, đường dẫn của `weightfile`.

In [None]:
def load_weights(self, weightfile):

160 byte đầu tiên của tệp weights lưu trữ 5 giá trị int32 tạo thành tiêu đề của tệp.

In [None]:
    #Open the weights file
    fp = open(weightfile, "rb")

    #The first 5 values are header information 
    # 1. Major version number
    # 2. Minor Version Number
    # 3. Subversion number 
    # 4,5. Images seen by the network (during training)
    header = np.fromfile(fp, dtype = np.int32, count = 5)
    self.header = torch.from_numpy(header)
    self.seen = self.header[3]


Phần còn lại của các bit bây giờ đại diện cho trọng số, theo thứ tự được mô tả ở trên. Các trọng số được lưu trữ dưới dạng `float32` hoặc float 32-bit. Hãy tải phần còn lại của các trọng số trong một `np.ndarray`.

In [None]:
    ptr = 0
    for i in range(len(self.module_list)):
        module_type = self.blocks[i + 1]["type"]

        #If module_type is convolutional load weights
        #Otherwise ignore

Trong vòng lặp, trước tiên chúng ta kiểm tra xem khối `convolutional` có `batch_normalise` True hay không. Dựa vào đó, chúng tôi tải weight.

In [None]:
        if module_type == "convolutional":
            model = self.module_list[i]
            try:
                batch_normalize = int(self.blocks[i+1]["batch_normalize"])
            except:
                batch_normalize = 0

            conv = model[0]

Chúng tôi giữ một biến có tên `ptr` để theo dõi vị trí của chúng tôi trong mảng trọng số. Bây giờ, nếu `batch_normalize` là True, chúng ta tải trọng số như sau.

In [None]:
       if (batch_normalize):
            bn = model[1]

            #Get the number of weights of Batch Norm Layer
            num_bn_biases = bn.bias.numel()

            #Load the weights
            bn_biases = torch.from_numpy(weights[ptr:ptr + num_bn_biases])
            ptr += num_bn_biases

            bn_weights = torch.from_numpy(weights[ptr: ptr + num_bn_biases])
            ptr  += num_bn_biases

            bn_running_mean = torch.from_numpy(weights[ptr: ptr + num_bn_biases])
            ptr  += num_bn_biases

            bn_running_var = torch.from_numpy(weights[ptr: ptr + num_bn_biases])
            ptr  += num_bn_biases

            #Cast the loaded weights into dims of model weights. 
            bn_biases = bn_biases.view_as(bn.bias.data)
            bn_weights = bn_weights.view_as(bn.weight.data)
            bn_running_mean = bn_running_mean.view_as(bn.running_mean)
            bn_running_var = bn_running_var.view_as(bn.running_var)

            #Copy the data to model
            bn.bias.data.copy_(bn_biases)
            bn.weight.data.copy_(bn_weights)
            bn.running_mean.copy_(bn_running_mean)
            bn.running_var.copy_(bn_running_var)

Nếu batch_norm không đúng, chỉ cần tải các biases của lớp convolution.

In [None]:
       else:
            #Number of biases
            num_biases = conv.bias.numel()

            #Load the weights
            conv_biases = torch.from_numpy(weights[ptr: ptr + num_biases])
            ptr = ptr + num_biases

            #reshape the loaded weights according to the dims of the model weights
            conv_biases = conv_biases.view_as(conv.bias.data)

            #Finally copy the data
            conv.bias.data.copy_(conv_biases)

Cuối cùng, chúng tôi tải trọng số của lớp convolutional cuối cùng.

In [None]:
#Let us load the weights for the Convolutional layers
num_weights = conv.weight.numel()

#Do the same as above for weights
conv_weights = torch.from_numpy(weights[ptr:ptr+num_weights])
ptr = ptr + num_weights

conv_weights = conv_weights.view_as(conv.weight.data)
conv.weight.data.copy_(conv_weights)

Chúng ta đã thực hiện xong hàm này và bây giờ bạn có thể tải trọng số trong đối tượng Darknet của mình bằng cách gọi hàm `load_weights` trên đối tượng `darknet`.

In [None]:
model = Darknet("cfg/yolov3.cfg")
model.load_weights("yolov3.weights")

## 4. Ngưỡng tin cậy và Non-maximum Suppression
Trong các phần trước, chúng ta đã xây dựng một mô hình đưa ra một số phát hiện đối tượng với một hình ảnh đầu vào. Nói một cách chính xác, đầu ra của chúng ta là một tensor của hình dạng B x 10647 x 85. B là số hình ảnh trong một lô, 10647 là số hộp giới hạn được dự đoán trên mỗi hình ảnh và 85 là số thuộc tính hộp giới hạn.