# Chương 08. Object Tracking

- Trong chương này, chúng ta sẽ tìm hiểu về việc theo dõi một đối tượng trong một video trực tiếp (tracking object in livestream video). 
- Chúng ta sẽ thảo luận về các đặc điểm khác nhau có thể được sử dụng để theo dõi một đối tượng. Chúng ta cũng sẽ tìm hiểu về các phương pháp và kỹ thuật khác nhau để theo dõi đối tượng.

## Đến cuối chương này, bạn sẽ biết:
- Cách sử dụng các frame khác nhau
- Cách sử dụng không gian màu để theo dõi các đối tượng màu
- Cách xây dựng hệ thống theo dõi đối tượng tương tác
- Cách xây dựng hệ thống theo dõi đặc trưng
- Cách xây dựng hệ thống giám sát video

## Nội dung:
1. **Frame differencing**
2. **Colorspace based tracking**
3. **Building an interactive object tracker**
4. **Feature-based tracking**
5. **Background subtraction**

## 1. Frame differencing

- Đây có thể là kỹ thuật đơn giản nhất mà chúng ta có thể sử dụng để xem phần nào của video đang di chuyển. 
- Khi chúng ta xem xét một luồng video trực tiếp, sự khác biệt giữa các frame liên tiếp cung cấp cho chúng ta rất nhiều thông tin. 
- Khái niệm này khá đơn giản! Chúng ta chỉ lấy sự khác biệt giữa các khung liên tiếp và hiển thị sự khác biệt.

- Nếu chúng ta di chuyển nhanh từ trái sang phải, chúng ta sẽ thấy một cái gì đó như thế này:

![image.png](attachment:image.png)

- Như bạn có thể thấy từ hình ảnh trước đó, chỉ những phần chuyển động trong video được tô sáng. Điều này cho chúng ta một điểm khởi đầu tốt để xem những khu vực nào đang di chuyển trong video. Đây là đoạn code để làm điều này:

In [1]:
import cv2

# Compute the frame difference
def frame_diff(prev_frame, cur_frame, next_frame):
    # Absolute difference between current frame and next frame
    diff_frames1 = cv2.absdiff(next_frame, cur_frame)
    
    # Absolute difference between current frame and
    # previous frame
    diff_frames2 = cv2.absdiff(cur_frame, prev_frame)
    
    # Return the result of bitwise 'AND' between the
    # above two resultant images to obtain a mask where
    # only the areas with white pixels are shown
    return cv2.bitwise_and(diff_frames1, diff_frames2)

# Capture the frame from webcam
def get_frame(cap, scaling_factor):
    # Capture the frame
    ret, frame = cap.read()
    # Resize the image
    frame = cv2.resize(frame, None, fx=scaling_factor, fy=scaling_factor, interpolation=cv2.INTER_AREA)
    return frame

if __name__=='__main__':
    cap = cv2.VideoCapture(0)
    scaling_factor = 0.8
    cur_frame, prev_frame, next_frame = None, None, None
    while True:
        frame = get_frame(cap, scaling_factor)
        prev_frame = cur_frame
        cur_frame = next_frame
        # Convert frame to grayscale image
        next_frame = cv2.cvtColor(frame, cv2.COLOR_RGB2GRAY)
        if prev_frame is not None:
            cv2.imshow("Object Movement", frame_diff(prev_frame, cur_frame, next_frame))
        
        key = cv2.waitKey(delay=10)
        if key == 27:
            break
            
cap.release()
cv2.destroyAllWindows()

- Độ trễ $10$ mili giây đã được sử dụng để có đủ thời gian giữa các khung để tạo ra sự khác biệt thực sự đáng kể.

## 2. Colorspace based tracking

- Frame differencing cung cấp cho chúng ta một số thông tin hữu ích, nhưng chúng ta không thể sử dụng nó để xây dựng cái gì đó có ý nghĩa.
- Để xây dựng một **good object tracker** , chúng ta cần hiểu **những đặc trưng** nào có thể được sử dụng để làm cho việc **theo dõi** của chúng ta **nhanh và chính xác**.
- Vì vậy, hãy thực hiện một bước theo hướng đó và xem làm thế nào chúng ta có thể sử dụng **không gian màu(color space)** để tạo ra một **good tracker**. 
- Như chúng ta đã thảo luận trong các chương trước, không gian màu **HSV** chứa rất nhiều thông tin khi nói đến nhận thức của con người. Chúng ta có thể chuyển đổi một hình ảnh sang không gian HSV, và sau đó sử dụng *ngưỡng không gian màu (color space threshold)* để theo dõi một đối tượng.

- Hãy xem xét frame sau:

- Nếu bạn chạy nó qua bộ lọc không gian màu (color space filter) và theo dõi đối tượng (track object) , bạn sẽ thấy một cái gì đó như thế này:

- Như chúng ta có thể thấy ở đây, tracker của chúng ta nhận ra một đối tượng cụ thể trong video, dựa trên các đặc điểm màu sắc. Để sử dụng trình theo dõi này, chúng ta cần biết phân phối màu của đối tượng mục tiêu. Sau đây là code:

In [2]:
import cv2
import numpy as np

# Capture the frame from webcam
def get_frame(cap, scaling_factor):
    # Capture the frame
    ret, frame = cap.read()
    # Resize the image
    frame = cv2.resize(frame, None, fx=scaling_factor, fy=scaling_factor, interpolation=cv2.INTER_AREA)
    return frame

if __name__=='__main__':
    cap = cv2.VideoCapture(0)
    scaling_factor = 1
    
    # Define 'blue' range in HSV color space
    lower = np.array([60,100,100])
    upper = np.array([180,255,255])
    
    while True:
        frame = get_frame(cap, scaling_factor)
        
        # Convert the HSV color space
        hsv_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2HSV)
        
        # Threshold the HSV image to get only blue color
        mask = cv2.inRange(hsv_frame, lower, upper)
        
        # Bitwise-AND mask and original image
        res = cv2.bitwise_and(frame, frame, mask=mask)
        res = cv2.medianBlur(res, ksize=5)
        cv2.imshow('Original image', frame)
        cv2.imshow('Color Detector', res)
        
        # Check if the user pressed ESC key
        c = cv2.waitKey(delay=10)
        if c == 27:
            break
            
    cap.release()
    cv2.destroyAllWindows()

## 3. Building an interactive object tracker

- Tracker dựa trên không gian màu cho phép chúng ta tự do theo dõi một đối tượng màu, nhưng chúng ta cũng vậy bị ràng buộc với một màu được xác định trước. 
- Nếu chúng ta chỉ muốn chọn một đối tượng một cách ngẫu nhiên thì sao? Làm thế nào để chúng ta xây dựng một trình theo dõi đối tượng có thể tìm hiểu các đặc điểm của đối tượng được chọn và chỉ cần theo dõi nó tự động ?
- Bài toán này được giải quyết bởi **thuật toán CAMShift**, viết tắt của cụm từ có nghĩa là **Continuously Adaptive Meanshift** đi vào hình ảnh. Về cơ bản, đây là phiên bản cải tiến của thuật toán **Meanshift.**

- Khái niệm về Meanshift thực sự đơn giản và dễ hiểu. Giả sử chúng ta chọn một vùng quan tâm và chúng ta muốn object tracker theo dõi đối tượng đó. Trong vùng đó đó, chúng ta chọn một loạt các điểm dựa trên biểu đồ màu và tính toán trọng tâm.
- Nếu trọng tâm nằm ở trung tâm của khu vực này, chúng ta biết rằng đối tượng không hề di chuyển. Nhưng nếu trọng tâm không nằm ở trung tâm của khu vực này, thì chúng ta biết rằng vật thể đang di chuyển theo một hướng nào đó.
- Chuyển động của trọng tâm điều khiển thể hiện mà đối tượng đang di chuyển. Vì vậy, chúng ta di chuyển bouding box của chúng ta đến một vị trí mới để trọng tâm của vị mới trở thành trung tâm của bouding box này. Do đó, **thuật toán này được gọi là Meanshift vì giá trị trung bình (trọng tâm) được thay đổi liên tục**. Bằng cách này, chúng tôi giữ cho mình cập nhật với vị trí hiện tại của đối tượng.

- Nhưng vấn đề nảy sinh đối với thuật toán Meanshift là kích thước của bouding box không được phép thay đổi. Khi bạn di chuyển đối tượng ra khỏi máy ảnh, đối tượng sẽ xuất hiện nhỏ hơn mắt người, nhưng Meanshift sẽ không tính đến điều này.
- Kích thước bouding box sẽ giữ nguyên trong suốt quá trình (từ lúc bắt đầu chương trình đến lúc kết thúc) theo dõi. Do đó, chúng ta cần sử dụng CAMShift. Ưu điểm của CAMShift là nó có thể điều chỉnh kích thước của bouding box với kích thước của đối tượng. Cùng với đó, nó cũng có thể theo dõi hướng của đối tượng.

- Hãy xem xét frame sau, trong đó đối tượng được tô sáng màu cam (máy tínhh trong tay tôi):

- Bây giờ chúng ta đã chọn đối tượng, thuật toán sẽ tính toán lại *histogram backprojection* và trích xuất tất cả thông tin. Hãy di chuyển đối tượng và xem cách nó được theo dõi:

- Có vẻ như đối tượng đang được theo dõi khá tốt. Hãy thay đổi hướng và xem nếu theo dõi được duy trì:

- Như chúng ta có thể thấy, hình elip giới hạn đã thay đổi vị trí, cũng như hướng của nó. Chúng ta hãy thay đổi góc nhìn của đối tượng và xem liệu nó vẫn có thể theo dõi nó hay không:

- Chúng tôi vẫn tốt! Hình elip giới hạn đã thay đổi tỷ lệ khung hình để phản ánh thực tế là đối tượng hiện đang bị lệch (vì chuyển đổi phối cảnh).

- Code thực hiện:

In [None]:
import sys
import cv2
import numpy as np

class ObjectTracker():
    def __init__(self):
        # Initialize the video capture object
        # 0 -> indicates that frame should be captured
        # from webcam
        self.cap = cv2.VideoCapture(0)

        # Capture the frame from the webcam
        ret, self.frame = self.cap.read()

        # Downsampling factor for the input frame
        self.scaling_factor = 0.8
        self.frame = cv2.resize(self.frame, None, fx=self.scaling_factor, fy=self.scaling_factor, interpolation=cv2.INTER_AREA)

        cv2.namedWindow('Object Tracker')
        cv2.setMouseCallback('Object Tracker', self.mouse_event)

        self.selection = None
        self.drag_start = None
        self.tracking_state = 0

    # Method to track mouse events
    def mouse_event(self, event, x, y, flags, param):
        x, y = np.int16([x, y])
        # Detecting the mouse button down event
        if event == cv2.EVENT_LBUTTONDOWN:
            self.drag_start = (x, y)
            self.tracking_state = 0
        if self.drag_start:
            if event == cv2.EVENT_MOUSEMOVE:
                h, w = self.frame.shape[:2]
                xo, yo = self.drag_start
                x0, y0 = np.maximum(0, np.minimum([xo, yo], [x, y]))
                x1, y1 = np.minimum([w, h], np.maximum([xo, yo], [x, y]))
                self.selection = None

                if x1-x0 > 0 and y1-y0 > 0:
                    self.selection = (x0, y0, x1, y1)

            elif event == cv2.EVENT_LBUTTONUP:
                self.drag_start = None
                if self.selection is not None:
                    self.tracking_state = 1

    # Method to start tracking the object
    def start_tracking(self):
        # Iterate until the user presses the Esc key
        while True:
            # Capture the frame from webcam
            ret, self.frame = self.cap.read()
            # Resize the input frame
            self.frame = cv2.resize(self.frame, None, fx=self.scaling_factor, fy=self.scaling_factor, interpolation=cv2.INTER_AREA)

            vis = self.frame.copy()

            # Convert to HSV color space
            hsv = cv2.cvtColor(self.frame, cv2.COLOR_BGR2HSV)

            # Create the mask based on predefined thresholds.
            mask = cv2.inRange(hsv, np.array((0., 60., 32.)), np.array((180., 255., 255.)))

            if self.selection:
                x0, y0, x1, y1 = self.selection
                self.track_window = (x0, y0, x1-x0, y1-y0)
                hsv_roi = hsv[y0:y1, x0:x1]
                mask_roi = mask[y0:y1, x0:x1]

                # Compute the histogram
                hist = cv2.calcHist( [hsv_roi], [0], mask_roi, [16], [0,180] )

                # Normalize and reshape the histogram
                cv2.normalize(hist, hist, 0, 255, cv2.NORM_MINMAX);
                self.hist = hist.reshape(-1)

                vis_roi = vis[y0:y1, x0:x1]
                cv2.bitwise_not(vis_roi, vis_roi)
                vis[mask == 0] = 0

            if self.tracking_state == 1:
                self.selection = None
                # Compute the histogram back projection
                prob = cv2.calcBackProject([hsv], [0], self.hist, [0, 180], 1)
                prob &= mask
                term_crit = ( cv2.TERM_CRITERIA_EPS | cv2.TERM_CRITERIA_COUNT, 10, 1 )

                # Apply CAMShift on 'prob'
                track_box, self.track_window = cv2.CamShift(prob, self.track_window, term_crit)

                # Draw an ellipse around the object
                cv2.ellipse(vis, track_box, (0, 255, 0), 2)

            cv2.imshow('Object Tracker', vis)
            c = cv2.waitKey(delay=5)
            if c == 27:
                break
                
        self.cap.release()
        cv2.destroyAllWindows()

if __name__ == '__main__':
    ObjectTracker().start_tracking()

## 4. Feature-based tracking

- Theo dõi dựa trên đặc trưng đề cập đến việc theo dõi các điểm đặc trưng riêng lẻ trên các frame liên tiếp trong video. Chúng ta sử dụng một kỹ thuật gọi là **optical flow** để theo dõi các đặc trưng này.
- Optical flow là một trong những kỹ thuật phổ biến nhất trong thị giác máy tính. Chúng ta chọn một loạt các điểm đặc trưng và theo dõi chúng thông qua luồng video.

- Khi chúng ta phát hiện các điểm đặc trưng, chúng ta tính toán các vectơ dịch chuyển (displacement vector) và hiển thị chuyển động của các điểm chính đó giữa các frame liên tiếp. Các vectơ này được gọi là (consecutive vector)vectơ chuyển động.
- Có nhiều cách để làm điều này, nhưng phương pháp **Lucas-Kanade** có lẽ là phổ biến nhất trong tất cả các kỹ thuật này. Bạn có thể tìm hiểu thêm trong tài liệu OpenCV: https://docs.opencv.org/3.2.0/d7/d8b/tutorial_py_lucas_kanade.html

- Chúng tôi bắt đầu quá trình bằng cách trích xuất các điểm đặc trưng. Đối với mỗi điểm đặc trưng, chúng ta tạo các patch 3x3 với điểm đặc trưng ở trung tâm. Giả định ở đây là tất cả các điểm trong mỗi patch sẽ có chuyển động tương tự nhau. Chúng tôi có thể điều chỉnh kích thước của cửa sổ này tùy thuộc vào vấn đề ta gặp phải.

- Đối với mỗi điểm đặc trưng trong frame hiện tại, chúng ta lấy patch 3x3 xung quanh làm điểm tham chiếu. Đối với bản vá này, chúng ta tìm trong vùng lân cận của nó trong khung trước để có kết quả phù hợp nhất.
- Vùng lân cận này thường lớn hơn 3x3, vì chúng ta muốn có được patch gần nhất với bản vá đang được xem xét. Bây giờ, đường dẫn từ pixel trung tâm của patch phù hợp trong frame trước đến pixel chính giữa giữa của patch đang được xem xét trong frame hiện tại sẽ trở thành vector chuyển động. Chúng ta làm điều đó cho tất cả các điểm đặc trưng và trích xuất tất cả các vectơ chuyển động.

- Hãy xem xét frame sau:

- Nếu tôi di chuyển theo hướng ngang, bạn sẽ thấy các vectơ chuyển động theo hướng ngang:

- Nếu tôi rời khỏi webcam, bạn sẽ thấy một cái gì đó như thế này:

- Đầu tiên, chúng ta sẽ cài một hàm để trích xuất các điểm đặc trưng từ một hình ảnh nhất định để thu được vector di chuyển bằng khung trước đó:

In [4]:
def compute_feature_points(tracking_paths, prev_img, current_img):
    feature_points = [tp[-1] for tp in tracking_paths]
    
    # Vector of 2D points for which the flow needs to be found
    feature_points_0 = np.float32(feature_points).reshape(-1, 1, 2)
    feature_points_1, status_1, err_1 = cv2.calcOpticalFlowPyrLK(prev_img, current_img, feature_points_0, None, **tracking_params)
    feature_points_0_rev, status_2, err_2 = cv2.calcOpticalFlowPyrLK(current_img, prev_img, feature_points_1, None, **tracking_params)
    
    # Compute the difference of the feature points
    diff_feature_points = abs(feature_points_0-feature_points_0_rev).reshape(-1, 2).max(-1)
    
    # threshold and keep only the good points
    good_points = diff_feature_points < 1
    
    return feature_points_1.reshape(-1, 2), good_points

- Bây giờ chúng ta có thể thực hiện một phương pháp theo dõi trong đó, với một vùng quan tâm thu được và dựa trên các điểm đặc trưng thu được từ phương pháp trên, chúng ta có thể hiển thị các vectơ chuyển động (tracking paths):

In [5]:
import cv2

# Extract area of interest based on the tracking_paths
# In case there is none, entire frame is used
def calculate_region_of_interest(frame, tracking_paths):
    mask = np.zeros_like(frame)
    mask[:] = 255
    for x, y in [np.int32(tp[-1]) for tp in tracking_paths]:
        cv2.circle(mask, (x, y), 6, 0, -1)
    return mask

def add_tracking_paths(frame, tracking_paths):
    mask = calculate_region_of_interest(frame, tracking_paths)
    # Extract good features to track. You can learn more
    # about the parameters here: http://goo.gl/BI2Kml
    feature_points = cv2.goodFeaturesToTrack(frame, mask = mask, maxCorners= 500, qualityLevel = 0.3, minDistance = 7, blockSize = 7)
    if feature_points is not None:
        for x, y in np.float32(feature_points).reshape(-1, 2):
            tracking_paths.append([(x, y)])
            
def start_tracking(cap, scaling_factor, num_frames_to_track, num_frames_jump, tracking_params):
    tracking_paths = []
    frame_index = 0
    
    # Iterate until the user presses the ESC key
    while True:
        # read the input frame
        ret, frame = cap.read()
        
        # downsample the input frame
        frame = cv2.resize(frame, None, fx=2, fy=2, interpolation=cv2.INTER_AREA)
        
        frame_gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
        output_img = frame.copy()
        
        if len(tracking_paths) > 0:
            prev_img, current_img = prev_gray, frame_gray
            # Compute feature points using optical flow. You canrefer to the documentation to learn more about the parameters here: http://goo.gl/t6P4SE
            feature_points, good_points = compute_feature_points(tracking_paths, prev_img, current_img)

            new_tracking_paths = []
            for tp, (x, y), good_points_flag in zip(tracking_paths, feature_points, good_points):
                if not good_points_flag: continue

                tp.append((x, y))

                # Using the queue structure i.e. first in, first out
                if len(tp) > num_frames_to_track: del tp[0]
                    
                new_tracking_paths.append(tp)

                # draw green circles on top of the output image
                cv2.circle(output_img, (x, y), 3, (0, 255, 0), -1)
            tracking_paths = new_tracking_paths

            # draw green lines on top of the output image
            point_paths = [np.int32(tp) for tp in tracking_paths]
            cv2.polylines(output_img, point_paths, False, (0, 150, 0))
        
        # 'if' condition to skip every 'n'th frame
        if not frame_index % num_frames_jump:
            add_tracking_paths(frame_gray, tracking_paths)

        frame_index += 1
        prev_gray = frame_gray

        cv2.imshow('Optical Flow', output_img)

        # Check if the user pressed the ESC key
        c = cv2.waitKey(1)
        if c == 27:
            break

- Dưới đây là việc sử dụng code ở trên để thực hiện optical tracking:

In [6]:
import cv2
import numpy as np

if __name__ == '__main__':
    # Capture the input frame
    cap = cv2.VideoCapture(1)
    
    # Downsampling factor for the image
    scaling_factor = 0.5
    
    # Number of frames to keep in the buffer when you
    # are tracking. If you increase this number,
    # feature points will have more "inertia"
    num_frames_to_track = 5
    
    # Skip every 'n' frames. This is just to increase the speed.
    num_frames_jump = 2
    # 'winSize' refers to the size of each patch. These patches
    # are the smallest blocks on which we operate and track
    # the feature points. You can read more about the parameters
    # here: http://goo.gl/ulwqLk
    
    tracking_params = dict(winSize = (11, 11), maxLevel = 2, criteria = (cv2.TERM_CRITERIA_EPS | cv2.TERM_CRITERIA_COUNT, 10, 0.03))
    start_tracking(cap, scaling_factor, num_frames_to_track, num_frames_jump, tracking_params)
    
    cap.release()
    cv2.destroyAllWindows()

error: OpenCV(4.1.1) /io/opencv/modules/imgproc/src/resize.cpp:3720: error: (-215:Assertion failed) !ssize.empty() in function 'resize'


- Vì vậy, nếu bạn muốn thử, bạn có thể cho phép người dùng chọn một khu vực quan tâm trong video đầu vào (như chúng tôi đã làm trước đó). Sau đó, bạn có thể trích xuất các điểm đặc trưng từ vùng quan tâm này và theo dõi đối tượng bằng cách vẽ hộp giới hạn. Nó sẽ là một bài tập thú vị!

## 6. Background subtraction

- Background subtraction rất hữu ích trong giám sát video. Về cơ bản, kỹ thuật background subtractiion thực hiện rất tốt trong trường hợp chúng ta phải phát hiện các vật thể chuyển động trong một cảnh tĩnh.
- Đọc cái tên biết, thuật toán này hoạt động bằng cách phát hiện background và loại bỏ nó khỏi frame hiện tại để thu được tiền cảnh, nghĩa là các đối tượng chuyển động.

- Để phát hiện các đối tượng chuyển động, trước tiên chúng ta cần xây dựng mô hình nền. Điều này không giống với frame differencing vì chúng ta thực sự đang mô hình hóa background và sử dụng mô hình này để phát hiện các đối tượng chuyển động.
- Vì vậy, điều này thực hiện tốt hơn nhiều so với kỹ thuật frame differencing đơn giản.
- Kỹ thuật này "cố gắng" phát hiện các phần tĩnh trong cảnh và sau đó đưa chúng vào mô hình nền. Vì vậy, đó là một kỹ thuật thích ứng có thể điều chỉnh theo cảnh.

- Hãy xem xét hình ảnh sau đây:

- Bây giờ, khi chúng ta thu thập nhiều khung hình hơn trong cảnh này, mọi phần của hình ảnh sẽ dần trở thành một phần của mô hình nền.
- Đây là những gì chúng ta đã thảo luận trước đó. Nếu một cảnh tĩnh, mô hình sẽ tự điều chỉnh để đảm bảo mô hình nền được cập nhật. Đây là vẻ ngoài của nó lúc ban đầu.

- Lưu ý rằng: một phần khuôn mặt của tôi đã trở thành một phần của mô hình nền (vùng bị bôi đen). Ảnh chụp màn hình sau đây cho thấy những gì chúng ta sẽ thấy sau vài giây. Nếu chúng ta tiếp tục, mọi thứ cuối cùng sẽ trở thành một phần của mô hình nền:

- Bây giờ, nếu chúng ta thử đưa vào máy ảnh một đối tượng chuyển động mới, nó sẽ được phát hiện ngay, như hiển thị tiếp theo:

- Đoạn code thực hiện mọi thứ bên trên:

In [None]:
import cv2
import numpy as np

# Capture the input frame
def get_frame(cap, scaling_factor=0.5):
    ret, frame = cap.read()
    # Resize the frame
    frame = cv2.resize(frame, None, fx=scaling_factor, fy=scaling_factor, interpolation=cv2.INTER_AREA)
    return frame

if __name__=='__main__':
    # Initialize the video capture object
    cap = cv2.VideoCapture(1)
    
    # Create the background subtractor object
    bgSubtractor = cv2.createBackgroundSubtractorMOG2()
    
    # This factor controls the learning rate of the algorithm.
    # The learning rate refers to the rate at which your model
    # will learn about the background. Higher value for
    # 'history' indicates a slower learning rate. You
    # can play with this parameter to see how it affects
    # the output.
    history = 100
    
    # Iterate until the user presses the ESC key
    while True:
        frame = get_frame(cap, 0.5)
    
        # Apply the background subtraction model to the input frame
        mask = bgSubtractor.apply(frame, learningRate=1.0/history)

        # Convert from grayscale to 3-channel RGB
        mask = cv2.cvtColor(mask, cv2.COLOR_GRAY2BGR)
        cv2.imshow('Input frame', frame)
        cv2.imshow('Moving Objects MOG', mask & frame)
        # Check if the user pressed the ESC key
        c = cv2.waitKey(delay=30)
        if c == 27:
            break

    cap.release()
    cv2.destroyAllWindows()

- Trong ví dụ trên, chúng ta đã sử dụng phương pháp bacground subtract được gọi là **BackgroundSubtractorMOG**, đó là Thuật toán phân đoạn **Gaussian Mixture-based Background/Foreground**. Trong thuật toán này, mỗi pixel nền được đặt vào một ma trận và mixed bằng cách áp dụng phân phối Gaussian. Mỗi màu sẽ nhận được một trọng số để thể hiện thời gian chúng ở trong cảnh; theo cách đó, các màu nào vẫn tĩnh được sử dụng để xác định nền:

In [None]:
if __name__=='__main__':
    # Initialize the video capture object
    cap = cv2.VideoCapture(1)
    
    # Create the background subtractor object
    bgSubtractor= cv2.bgsegm.createBackgroundSubtractorGMG()
    kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, ksize=(3,3))
    
    # Iterate until the user presses the ESC key
    while True:
        frame = get_frame(cap, 0.5)
        # Apply the background subtraction model to the input frame
        mask = bgSubtractor.apply(frame)
        
        # Removing noise from background
        mask = cv2.morphologyEx(mask, cv2.MORPH_OPEN, kernel)
        cv2.imshow('Input frame', frame)
        cv2.imshow('Moving Objects', mask)
        
        # Check if the user pressed the ESC key
        c = cv2.waitKey(delay=30)
        if c == 27:
            break
    cap.release()
    cv2.destroyAllWindows()

- Có những lựa chọn thay thế khác có thể hoạt động tốt hơn; ví dụ, loại bỏ nhiễu hình ảnh, đó là trường hợp của **BackgroundSubtractorGMG**. Nếu bạn muốn biết thêm về họ, hãy đến: https://docs.opencv.org/3.0-beta/doc/py_tutorials/py_video/py_bg_subtraction/py_bg_subtraction.html

## Kết luận:

- Trong chương này, chúng ta đã học về theo dõi đối tượng (object tracking). Chúng ta đã học cách để có được thông tin chuyển động sử dụng frame differencing và cách giới hạn lại khi chúng ta muốn theo dõi các loại đối tượng khác nhau.
- Chúng ta đã tìm hiểu về ngưỡng không gian màu (colorspace threshold) và cách nó có thể được sử dụng để theo dõi các vật thể màu. 
- Chúng ta đã thảo luận về các kỹ thuật phân cụm (clustering) để theo dõi đối tượng và cách chúng ta có thể xây dựng tracker **theo dõi đối tượng tương tác** bằng **thuật toán CAMShift**. 
- Chúng ta đã thảo luận cách theo dõi các đặc trưng trong video và cách chúng ta có thể sử dụng **optical flow** để đạt được điều tương tự.
- Chúng ta đã tìm hiểu về background subtraction và cách nó có thể được sử dụng để giám sát video.
- **Trong chương tiếp theo, chúng ta sẽ thảo luận về nhận dạng đối tượng và cách chúng ta có thể xây dựng một công cụ tìm kiếm trực quan**.