# 目标跟踪
![title](other_data/01.jpg)

# 机器人目标追踪

在这个示例中，我们将展示如何使用机器人进行对象跟踪!我们将使用一个在[COCO 数据集](http://cocodataset.org)上进行预训练的模型来检测90个不同的物体和1个背景类别。
包括：人 (索引 0),杯子 (索引 47)...等

目标检测区别于我们之前对整个图片的图像识别，而且单一的图像识别他的标签只有一个，比如之前学习的“避障”训练，他的标签就只有“有障碍”或者“无障碍”这样一个类别标签，然而目标检测除了类别标签之外，还有每个类别在图片里的位置和大小信息，而且每张图片还可能有多个类别和位置信息。当我们通过摄像头来检测时目标检测可以识别出图片里它所认识的所有物体并且会用一个矩形框把物体框在里面，在接下来的学习中你可以清楚的看到！你可以在[coco_index.txt](./coco_index.txt)文件中查看所有的类别和对应的索引。

## 1.导入我们需要的模块

In [None]:
# from __future__ import division
from nxbot import Robot,event,bgr8_to_jpeg
from modules.models import *
from modules.utils.util import *
from modules.utils.datasets import *
import os
import sys
import argparse
import cv2
from PIL import Image
import torch
from torch.utils.data import DataLoader
from torchvision import datasets
from torch.autograd import Variable
from IPython.display import display
import ipywidgets
import ipywidgets.widgets as widgets
import traitlets
from traitlets.config.configurable import Configurable
from torch2trt import TRTModule
from modules.display_box import label_widget

## 2.参数设置

In [None]:
parser = argparse.ArgumentParser()
parser.add_argument("--model_def", type=str, default="modules/config/yolov3-tiny.cfg", help="yolov3-tiny网络结构配置文件")
parser.add_argument("--Dachbot_model_path", type=str, default="../../models/object_detection_model/yolov3-tiny.weights", help="Dachbot模型文件")
parser.add_argument("--Dbot_model_path", type=str, default="../../models/object_detection_model/yolo_v3_tiny.engine", help="Dbot模型文件")
parser.add_argument("--class_path", type=str, default="modules/data/coco.names", help="检测类别的所有种类")
parser.add_argument("--conf_thres", type=float, default=0.3, help="物体置信度")
parser.add_argument("--nms_thres", type=float, default=0.4, help="非极大抑制阈值")
parser.add_argument("--img_size", type=int, default=416, help="网络接收图片大小")
opt = parser.parse_args(args=[])
print(opt)

## 3.加载模型

In [None]:
# 实例化机器人对象
rbt = Robot()
# 机器人名字
rbt_name = rbt.name

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 如果是dachbot可以使用更准确的模型
if rbt_name=='dachbot':
    model = Darknet(opt.model_def, img_size=opt.img_size, TensorRT=False, Half=True).to(device).half()
    # 权重加载
    model.load_darknet_weights(opt.Dachbot_model_path)
    # Set in evaluation mode 前向推理时候会忽略 BatchNormalization 和 Dropout
    model.eval()
    
# 如果是dbot可以使用速度更快的模型    
elif rbt_name=='dbot':
    model_backbone = Darknet_Backbone(opt.model_def, img_size=opt.img_size).to(device).half()
    model = TRTModule()
    model.load_state_dict(torch.load(opt.Dbot_model_path))
    yolo_head = YOLOHead(config_path=opt.model_def)
    
# 提取可以识别的类别
classes = load_classes(opt.class_path)  # Extracts class labels from file
Tensor = torch.cuda.FloatTensor if torch.cuda.is_available() else torch.FloatTensor

## 4.创建可视化窗口

In [None]:
image_widget = widgets.Image(format='jpeg')
depth_image_widget = widgets.Image(format='jpeg')
speed_widget = widgets.FloatSlider(value=0.0, min=0.0, step=0.01, max=0.5, description='运行速度')
turn_gain_widget = widgets.FloatSlider(value=0.15, min=0.0, step=0.01, max=1.0, description='转向增益')
turn_dgain_widget = widgets.FloatSlider(value=0.03, min=0.0, step=0.01, max=5.0, description='回正微调')
steering_slider = ipywidgets.FloatSlider(min=-1.0, max=1.0, description='方向')
depth_slider = ipywidgets.FloatSlider(min=0.0, max=10000.0, description='深度值')

## 5.定义目标检测
在这里我们将让机器人识别出它所看到的所有物体，并且判断距离图像中心点最近的物体是否与我们设定的目标物体一致（我们默认的是索引1，代表跟踪的目标是人），如果是设定目标，就跟着目标走，并根据物体再图像的位置让机器人判断左转还是右转。

### 5.1.计算识别的物体的中心点坐标相对于图片中心点的距离

In [None]:
def detection_center(detection):
    bbox = detection
    dis_x = 0.5-((bbox[2] - bbox[0])/2+bbox[0])
    dis_y = 0.5-((bbox[3] - bbox[1])/2+bbox[1])
    return (dis_x, dis_y)

### 5.2.计算图片中心点与物体的距离

In [None]:
def norm(vec):
    return np.sqrt(np.float(vec[0])**2 + np.float(vec[1])**2)

### 5.3.在检测到的物体中找出与中心点最近的那一个物体作为目标物体。

In [None]:
def closest_detection(matching_labels):
    closest_det = None
    for det in matching_labels:
        if closest_det is None:
            closest_det = det
        elif norm(detection_center(det)) < norm(detection_center(closest_det)):
            closest_det = det
    return closest_det

## 6.数据预处理

In [None]:
def preprocess(image):
    image = np.array(Image.fromarray(cv2.cvtColor(image,cv2.COLOR_BGR2RGB)))
    imgTensor = transforms.ToTensor()(image)
    imgTensor, _ = pad_to_square(imgTensor, 0)
    imgTensor = resize(imgTensor, 416)
    imgTensor = imgTensor.unsqueeze(0)
    imgTensor = Variable(imgTensor.type(Tensor)).half()
    return imgTensor

## 7.检测模型是否能正常运行

我们通过numpy创建与我们将要预测的图片格式一致的形状为（416，416，3）的数组，这里我们创建的全为1的数组将这个数组经过预处理再将数据放入模型中，如果能运行通过说明模型可以正常使用了。

In [None]:
try:
    img_data = np.ones([416, 416, 3],np.uint8)
    if rbt_name=='dachbot':
        model(preprocess(img_data)).detach().half().cpu().numpy().flatten()
    elif rbt_name=='dbot':
        model(preprocess(img_data))
except:
    print('请检查模型是否正确')

## 8.打开摄像头深度信息

In [None]:
global depth
depth = 0
def on_new_depth(evt):
    depth_frame = np.asanyarray(evt.dict['data'].get_data())
    depth_colormap = cv2.applyColorMap(cv2.convertScaleAbs(depth_frame, alpha=0.03), cv2.COLORMAP_JET)
    depth_colormap = cv2.resize(depth_colormap, (320,240))
    depth_image_widget.value = bgr8_to_jpeg(depth_colormap)
    
    global depth
    depth = evt.dict['data'].get_distance(310, 220)
    if depth ==0:
        depth = evt.dict['data'].get_distance(330, 225)
    depth_slider.value = depth
    

## 9.定义图像检测
在这里我们将通过目标检测模型进行检测，检测出图像中的所有物体，并将所有物体用矩形框将物体框出来，然后在所有物体中找出距离图像中心点最近的物体作为目标物体，如果没有找到目标就停止，如果找到目标机器人就像目标移动，然后根据目标与图像中心点的距离计算出机器人旋转的相对角度，让机器人跟着你走。

In [None]:
# 初始化列表，用于存放识别结果
all_pred=[]
# 随机选择颜色
colors = np.random.randint(0, 255, size=(len(classes), 3), dtype="uint8")

last_steering = 0

def on_new_image(evt):
    
    global last_steering
    origin_img = evt.dict['data']
    # 对图像数据进行预处理
    imgTensor = preprocess(origin_img)
    
    with torch.no_grad():
        # 将图像数据放入模型进行预测
        detections = model(imgTensor)
        # 如果是dbot采用另外一种方法
        if rbt_name=='dbot':
            detections = yolo_head(detections)
        # 非极大抑制筛选更加合适的候选框
        detections = non_max_suppression(detections, opt.conf_thres, opt.nms_thres)

    all_pred.clear()
    # 如果检测到类别就将结果放在all_pred列表中
    if detections is not None: 
        all_pred.extend(detections)

    b=len(all_pred)
    if len(all_pred):
        # 将所有识别结果在图像中标注出来
        for detections in all_pred:
            if detections is not None:
                # 对预测类别框进行缩放
                detections = rescale_boxes(detections, opt.img_size, origin_img.shape[:2])
                # 在图像上框出对应类别
                for x1, y1, x2, y2, conf, cls_conf, cls_pred in detections:
                    box_w = x2 - x1
                    box_h = y2 - y1
                    color = [int(c) for c in colors[int(cls_pred)]]
                    img = cv2.rectangle(origin_img, (x1, y1 + box_h), (x2, y1), color, 2)
                    cv2.putText(origin_img, classes[int(cls_pred)], (x1, y1), cv2.FONT_HERSHEY_SIMPLEX, 0.5, color, 2)
                    cv2.putText(origin_img, str("%.2f" % float(conf)), (x2, y2 - box_h), cv2.FONT_HERSHEY_SIMPLEX, 0.5,
                                color, 2)
                
                # 目标跟踪类别名称
                choose_label = label_widget.children[0].children[1].value.strip()
                # 如果图中有与我们选择的类别一致，就将所有该类别信息放入列表matching_labels中
                matching_labels = [d for d in detections if classes[int(d[6])] == choose_label]
                
                # 如果没有找到想要跟踪的类别就停下来
                if matching_labels == []:
                    rbt.base.move(0, 0, 0)
                    
                # 如果有就计算类别与图像中心点的距离再根据距离自动进行回正
                else:
                    # 距离图片中心最近的跟踪类别
                    matching_label = closest_detection(matching_labels)/origin_img.shape[1]
                    # 计算该类别到图中心的距离
                    distance_x = detection_center(matching_label)[0]
                   
                    # 根据距离计算转向值
                    steering = distance_x*turn_gain_widget.value
                    steering = steering - (steering + last_steering)*turn_dgain_widget.value
                    speed = speed_widget.value
                    steering_slider.value = steering
                    
                     # 如果是dachbot就使用深度摄像头的深度信息
                    if rbt_name=='dachbot':
                        global depth
                        distance_z = depth
                        # 根据距离判断机器人前进还是后退还是停下来
                        if distance_z > 0.5 and distance_z!=0:
                            rbt.base.move(speed, 0, steering)

                        elif distance_z < 0.4 and distance_z!=0:
                            rbt.base.move(-speed, 0, steering)
                        else:
                            rbt.base.move(0,0,0)
                            
                    # 如果是dbot就根据类别框的大小计算判断机器人与物体距离的远近
                    elif rbt_name=='dbot':
                        box_size = (matching_label[2]-matching_label[0])*(matching_label[3]-matching_label[1])
                        # 根据距离判断机器人前进还是后退还是停下来
                        if box_size > 0.5:
                            rbt.base.move(-speed, 0, steering)
                        elif box_size < 0.4:
                            rbt.base.move(speed, 0, steering)
                        else:
                            rbt.base.move(0,0,0)
                    last_steering = steering
            else:
                rbt.base.move(0,0,0)
    else:
        rbt.base.move(0,0,0)
        
    origin_img = cv2.resize(origin_img, (320, 240), interpolation=cv2.INTER_CUBIC)
    image_widget.value=bgr8_to_jpeg(origin_img)

## 10.连接机器人进行实时检测

In [None]:
rbt.connect()

if rbt_name=='dachbot':
    rbt.camera.start(enable_depth_stream=True)
    rbt.event_manager.add_event_listener(event.EventTypes.NEW_CAMERA_IMAGE,on_new_image)
    rbt.event_manager.add_event_listener(event.EventTypes.NEW_CAMERA_DEPTH,on_new_depth)
    rbt.base.set_ptz(20)
    display(widgets.HBox([image_widget, depth_image_widget]))
    display(widgets.VBox([speed_widget,turn_gain_widget, label_widget]))
    display(steering_slider, depth_slider)
elif rbt_name=='dbot':
    rbt.camera.start()
    rbt.event_manager.add_event_listener(event.EventTypes.NEW_CAMERA_IMAGE,on_new_image)
    rbt.base.set_ptz(20)
    display(image_widget)
    display(widgets.VBox([speed_widget,turn_gain_widget, turn_dgain_widget, steering_slider]))
    display(label_widget)

## 11.断开与机器人的连接

In [None]:
# rbt.disconnect()