Подключим традиционные библиотеки tensorflow, numpy. Далее мы будем использовать готовые сети из библиотеки tensornets и будем визуализировать их с помощью opencv (cv2). OpenCV обязателен для работы tensornets, так как через него оно как минимум делает преобразование изображений.

In [None]:
import tensorflow as tf
import tensornets as nets
import cv2
import numpy as np
import time

Мы подключили библиотеку tensornets, где есть основные архитектуры сетей и наборы обыченных коэффициентов. Поэтому двумя строчками мы можем загрузить готовую модель YOLOv3.

In [None]:
inputs = tf.placeholder(tf.float32, [None, 416, 416, 3]) 
model = nets.YOLOv3COCO(inputs, nets.Darknet19)

YOLO будет выдавать нам индекс класса, а не имя класса объекта, который она обнаружила. Поэтому нам надо найти таблицу соответствия индекса и класса, чтобы понимать что за объект сеть обнаружила. Это не так просто и хоть в интернете такие таблицы есть, но они разные, так как база COCO развивалась и выходили новые версии. Какую из них использовать?
Оказывается, что если порыться в пакете tensornets, то в dataset папке есть перечень классов COCO. Нехитрым дедуктивным методом через dir() и посмотрев код пакета, можно загрузить перечень классов. В описании tensornets я этой информации не нашёл.

In [None]:
import tensornets.datasets.coco as coco
print("There are {} classes in coco.classnames.".format(len(coco.classnames)))

Теперь научимся загружать картинки. Есть много способов, но нам нужна совместимость по типам с tensornets и чтобы не тратить много времени на согласование этих типов возьмём из примеров проекта tensornets на гитхабе их способ загрузки картинки. Проверим, что получилось нужное разрешение, которое должно быть 416х416х3, так как такие у нас входы сети выше.

In [None]:
imge = np.array(nets.utils.load_img('YOLO_test.jpg', target_size=416, crop_size=416))
print(imge.shape)

Нарисуем картинку с помощью opencv. Надо будет нажать любую клавишу, чтобы программа продолжилась. Это связано с особенностями opencv, когда картинка не отрисовывается, пока мы не ставим остановку средствами opencv. Для остановки выбрано ожидание нажатия клавиши. Также из формата дробных чисел нам нужно перейти в низкоуровневый формат восьмибитного представления цвета, да еще и поменять местами красный и синий каналы, так как opencv в отличие от остальных использует BGR формат.

In [None]:
img_to_show = cv2.cvtColor(np.uint8(imge[0]), cv2.COLOR_RGB2BGR)
cv2.imshow("image", img_to_show)
cv2.waitKey(0)
cv2.destroyAllWindows()

Итак, мы видим что собрались распознавать. У нас есть картинка для визуализации, а также картинка для передачи на поиск объектов. Сделаем его, как это сделано в примере в readme.md в репозитории tensornets. В итоге мы получим рамки вокруг объектов в виде массива. Номер массива соответствует классу.

In [None]:
with tf.Session() as sess:
    sess.run(model.pretrained())
    imge = model.preprocess(imge)  # equivalent to img = nets.preprocess(model, img)
    preds = sess.run(model.preds, {inputs: imge})
    boxes = np.array(model.get_boxes(preds, imge.shape[1:3]))
    print(boxes)

Мы видим структуру полей в рамках - это массив классов, где класс это массив экземпляров, где экземпляр это 4 координаты рамки и степень уверенности. Уберем лишнее и дадим имена этим классам. Перебираем их в цикле. Сделаем это по питоновски, через enumerate.

In [None]:
for index, cls in enumerate(coco.classnames):
    if len(boxes[index]) == 0:
        continue
    for obj_box in boxes[index]:
        print("Found class {} in region {} with certainty {:.2f}.".format(cls, obj_box[0:4], obj_box[4]))

Найдено 6 человек и одна собака. Многовато людей. Теперь бы увидеть где эти люди. Для этого проще всего эти рамки нарисовать на кадре и вывести его на экран. Рисовать можно средствами opencv. Сделаем снова перебор классов, как раньше, но с рисованием рамок и имени класса.

In [None]:
for index, cls in enumerate(coco.classnames):
    if len(boxes[index]) == 0:
        continue
    for obj_box in boxes[index]:
        cv2.rectangle(img_to_show,(obj_box[0],obj_box[1]),(obj_box[2],obj_box[3]),(0,255,0),1)
        cv2.putText(img_to_show, "{} {:.2f}".format(cls, obj_box[4]), (obj_box[0],obj_box[1]), cv2.FONT_HERSHEY_SIMPLEX, .5, (0, 0, 255), lineType=cv2.LINE_AA)
        print("Found class {} in region {} with certainty {:.2f}.".format(cls, obj_box[0:4], obj_box[4]))
cv2.imshow("image", img_to_show)
cv2.waitKey(0)
cv2.destroyAllWindows()

В углу картинки найдено 3 человека, которых нет. Давайте объединим всё сделанное в функцию от картинки до рисования рамок. Это предлагается сделать самостоятельно. Она будет получать сессию tensorflow, считанную картинку, порог уверенности в найденном объекте, перечень классов, а выдавать картинку, где эти объекты обведены рамкой, подписан класс и указана степень уверенности.

In [None]:
def yolo(sess, image, threshold, classnames):
    # Write your code here
    return img_to_show

Для вызова этой функции заново считаем изображение (на всякий случай, ведь мы эту переменную уже переприсваивали), создадим сессию, запустим в ней модель и вызовем нашу функцию. Результат нарисуем. Такая схема вызова позволит обрабатывать несколько кадров, не прерывая сессии.

In [None]:
imge = np.array(nets.utils.load_img('YOLO_test.jpg', target_size=416, crop_size=416))
with tf.Session() as sess:
    sess.run(model.pretrained())
    result = yolo(sess, imge, 0.5, coco.classnames)

cv2.imshow("image", result)
cv2.waitKey(0)
cv2.destroyAllWindows()

Мы умеем распознавать отдельные кадры, подписывать на них нужные данные, ну а теперь распознаем видео! Кадры видео мы будем получать с помощью opencv в виду трёхмерных массивов, так что их надо будет преобразовать к четырёхмерным типа numpy. Также теперь они считываются средствами opencv, так что они сразу в BGR формате и надо его привести к обычному RGB для распознавания.

In [None]:
with tf.Session() as sess:
    sess.run(model.pretrained())    
    cap = cv2.VideoCapture("yolo_video.webm")
    while(cap.isOpened()): #change the path to your directory or to '0' for webcam
        ret, frame = cap.read()
        if(not ret):
            break
        frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
        frame = crop_square(frame)
        image_to_show = cv2.resize(frame,(416,416))
        imge = np.array(image_to_show).reshape(-1,416,416,3)
        img = yolo(sess, imge, 0.5, coco.classnames)  
        cv2.imshow("image",img)  
        if cv2.waitKey(1) & 0xFF == ord('q'):
            break          

cap.release()
cv2.destroyAllWindows() 

Все кадры распознаются и дополняются данными распознавания. Однако видно, что непрямоугольное изначальное видео сжимается и нарушаются пропорции. Сделай (найди в интернете) функцию откидывания боковых сторон прямоугольника изображения, чтобы оставалась квадратная область. Перезапусти распознавание видео и посмотри стали ли выше вероятности распознавания.

In [None]:
def crop_square(image):
    # Write your code here