# Импорт библиотек

In [1]:
import cv2
import numpy as np
import os
from matplotlib import pyplot as plt
import time
import mediapipe as mp

# Создание Keypoints с помощью MediaPipe Holistic

In [2]:
mp_holistic = mp.solutions.holistic # Создает модель для инициализирования keypoints (ключевые точки)
mp_drawing = mp.solutions.drawing_utils # Утилиты для того, чтобы модель могла рисовать точки

In [3]:
#модель на вход получает BGR изображение, но чтобы установить точки нужна конвертация в RGB
def mediapipe_detection(image, model): 
    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) # COLOR CONVERSION BGR 2 RGB, чтобы мы могли установить точки
    #cvtColor - позволяет конвертировать изображение из одного цветого измерения в другое  
    image.flags.writeable = False                  # Image is no longer writeable, чтобы сохранить память
    results = model.process(image)                 # Make prediction
    image.flags.writeable = True                   # Image is now writeable 
    image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR) # COLOR COVERSION RGB 2 BGR
    return image, results

In [4]:
# #напишем функцию, которая позволит увидеть landmarks
#Данная функция являеется упрощенной, ниже мы напишем фукнцию, которая лучше подходить под индивидуальные части тела
# def draw_landmarks(image, results):
#     #results.BODY_PART_landmarks - Точки, которые есть на части тела
#     #mp_holistic.BODY_PART_CONNECTIONS - указывает к какой части тела привязаны данные точки (Пр. внутренности правого глаза
#     #привязаны к правому глазу) 
#     mp_drawing.draw_landmarks(image, results.face_landmarks, mp_holistic.FACEMESH_TESSELATION) # Рисует соединения в лице
#     mp_drawing.draw_landmarks(image, results.pose_landmarks, mp_holistic.POSE_CONNECTIONS) # Рисует соединения в позе
#     mp_drawing.draw_landmarks(image, results.left_hand_landmarks, mp_holistic.HAND_CONNECTIONS) # Рисует соединения в левой руке
#     mp_drawing.draw_landmarks(image, results.right_hand_landmarks, mp_holistic.HAND_CONNECTIONS) # Рисует соединения в правой руке

In [5]:
#улучшнная фукнция для рисования точек 
#Происхоидт все тоже самое, что и в упрощенной функции, однако добавляются два дополнтильеных параметра
#mp_drawing.DrawingSpec
def draw_styled_landmarks(image, results):
    # Draw face connections
    mp_drawing.draw_landmarks(image, results.face_landmarks, mp_holistic.FACEMESH_TESSELATION, 
                             mp_drawing.DrawingSpec(color=(80,110,10), thickness=1, circle_radius=1), #изменяет landmarks
                             mp_drawing.DrawingSpec(color=(80,256,121), thickness=1, circle_radius=1) #изменят соединения
                             ) 
    # Draw pose connections
    mp_drawing.draw_landmarks(image, results.pose_landmarks, mp_holistic.POSE_CONNECTIONS,
                             mp_drawing.DrawingSpec(color=(80,22,10), thickness=2, circle_radius=4), 
                             mp_drawing.DrawingSpec(color=(80,44,121), thickness=2, circle_radius=2)
                             ) 
    # Draw left hand connections
    mp_drawing.draw_landmarks(image, results.left_hand_landmarks, mp_holistic.HAND_CONNECTIONS, 
                             mp_drawing.DrawingSpec(color=(121,22,76), thickness=2, circle_radius=4), 
                             mp_drawing.DrawingSpec(color=(121,44,250), thickness=2, circle_radius=2)
                             ) 
    # Draw right hand connections  
    mp_drawing.draw_landmarks(image, results.right_hand_landmarks, mp_holistic.HAND_CONNECTIONS, 
                             mp_drawing.DrawingSpec(color=(245,117,66), thickness=2, circle_radius=4), 
                             mp_drawing.DrawingSpec(color=(245,66,230), thickness=2, circle_radius=2)
                             ) 

In [6]:
# cap = cv2.VideoCapture(0) #захват видеокамеры с индексом 0

# #Получение доступа к mediapipe модели. Таким образом мы можем использовать функции данного класса в цикле.
# #Mediapipe работает таким образом, что сначала происхоит базовая детекция, а потом ищутся ключевые точки
# #min_detection_confidence - первоначальная детекция
# #min_tracking_confidence - второстепенный поиск ключевых точек
# with mp_holistic.Holistic(min_detection_confidence=0.5, min_tracking_confidence=0.5) as holistic:
#     while cap.isOpened(): #пока видеокамера работает

#         ret, frame = cap.read() #возвращает два аргумента. Первый говорит о том, успешно ли удалось подключаться к камере
#         #второй аргумнет возвращает изображение

#         #Создает детекцию точек
#         image, results = mediapipe_detection(frame, holistic)
#         #results хранит в себе данные о landmarks (положении точек, которые нашла модель)
#         #на положение точек можно посмотреть с помощью results. и дальше будет список 
        
#         #Рисуем соединения между точками
#         draw_styled_landmarks(image, results)

#         cv2.imshow('OpenCV Feed', image) #позволяет увидеть изображение в окне, которое появляется на экране

#         #Если на протяжении 10 миллсек была нажата клавиша 'q'
#         #то луп обрывается
#         if cv2.waitKey(10) & 0xFF == ord('q'): 
#             break

#     cap.release() #отпускает ресурсы видеокамеры
#     cv2.destroyAllWindows() #убираем окна  изображением 

# Выгрузка значенй Keypoints

Напишем функцию, которая возвращает значения считанных координат с каждой части тела

In [7]:
def extract_keypoints(results):
    #If условие нам нужно в том случае, если жест не будет включать какую-либо часть тела. В таком случае камера не зафиксирует
    #данную часть тела, по скольку мы её на покажем. Если мы попытаемся взять значения для этой части тела, то получим ошибку 
    #В данном случае нам нужно будет заполнить array для данной части тела нулями в форме N (количество точек для) части
    #тела * N координат.
    #К примеру Всего в туловище у нас имеются 33 точки, которые содержат по 4 координаты (x, y, z, visibility).
    #Таким образом, если мы не покажем
    #камере туловище, то мы заполним array для данной части тела нулевым array в форме 33 * 4. Почему не просто 33 строки по
    #3 колонки? Потому что мы будем давать нейросети на вход flatten данные.
    #Flaten означает, что array переходит в 1-мерное измерение. 

    pose = np.array([[res.x, res.y, res.z, res.visibility] for res in results.pose_landmarks.landmark]).flatten() if results.pose_landmarks else np.zeros(33*4)
    face = np.array([[res.x, res.y, res.z] for res in results.face_landmarks.landmark]).flatten() if results.face_landmarks else np.zeros(468*3)
    lh = np.array([[res.x, res.y, res.z] for res in results.left_hand_landmarks.landmark]).flatten() if results.left_hand_landmarks else np.zeros(21*3)
    rh = np.array([[res.x, res.y, res.z] for res in results.right_hand_landmarks.landmark]).flatten() if results.right_hand_landmarks else np.zeros(21*3)
    
    #После этого возвращаем объединенный array, который содержит точки всех частей тела.
    return np.concatenate([pose, face, lh, rh])

# Назначаем пути для обучающих данных

In [8]:
# Пути для экспортирования данных extract_keypoints()
DATA_PATH = os.path.join('MP_Data') 

# Действия которые мы хотим распознать
actions = np.array(['hello', 'thanks', 'iloveyou'])

# Количество видео для каждого действия, которые надо заснять
no_sequences = 30

# Каждое видео будет 30 кадров в длину 
sequence_length = 30

Напишем цикл, который создает папку для каждого действия

In [9]:
# hello - папка с действием
## 0 - видео №
### 0 - Кадр №
### 1 - Кадр №
### 2 - Кадр №
### ... - Кадр №
### 29 - Кадр №
## 1 - видео №
## 2 - видео №
## ... - - видео №
## 29 - видео №
# thanks - папка с действие 
#... - видео №
# I love you - папка с действие 

#Прим. Каждый кадр содержит 468*3+33*4+21*3+21*3 = 1662 landmarks 

In [10]:
for action in actions: 
    for sequence in range(no_sequences):
        # try except блок нужен т.к. если у нас уже есть папки с действиями, то вылетет ошибка.
        #Поэтому если эти папки уже созданы, то мы просто скипнем действие цикла
        #Прим. Папки создаются в папке, где хранится jupiter тетрадка
        try: 
            os.makedirs # создает папку
            os.path.join # создает папку DATA_PATH с подпапкой action с подпапкой str(sequence)
            os.makedirs(os.path.join(DATA_PATH, action, str(sequence)))
        except:
            pass

# Сбор данных для обучения и теста

Для этого переработаем уже написанный цикл

In [11]:
cap = cv2.VideoCapture(0)
# Инициализируем mediapipe модель
with mp_holistic.Holistic(min_detection_confidence=0.5, min_tracking_confidence=0.5) as holistic:
    
    # Новый цикл
    #Вместо того, чтобы просто снимать видео с камеры мы создадим цикл, который проходится по каждом кадру в действии
    # Для каждого действия...
    #Важно: в процессе записи нужно перепробовать различные углы. А также, если жест включает одну руку, то снять половину кадров
    #с другой рукой тоже. Также важно держать все участвующие в жесте части тела внутри кадра
    #Однако если работаешь с вебкой, то так сильно лучше не эксперементировать. 
    for action in actions:
        # Для каждого видео...
        for sequence in range(no_sequences):
            # Для каждого кадра в видео...
            for frame_num in range(sequence_length):

                # Считываем изображение
                ret, frame = cap.read()

                # Создает детекцию точек
                image, results = mediapipe_detection(frame, holistic)
                #print(results)

                # Рисует landmarks
                draw_styled_landmarks(image, results)
                
                # Добавим немного логики в цикл, чтобы цикл немного ждал перед тем как делать кадры для нового видео 
                if frame_num == 0: #Если кадр является самым первым, то (мы берем перерыв)
                    
                    #Далее строчки, которые выводят текст с информацией для нас 
                    #Первый аргумнет - куда будет поступать текст 
                    #Второй аргумент - текст 
                    #Третий аргумнет - позиция (x, y)
                    #Четверый арг - шрифт
                    #Пятый арг - размер шрифта
                    #Шестой арг - цвет текст (B, G, R)
                    #Седьмой арг - ширина линии в буквах
                    #Восьмой арг - Тип линии
                    cv2.putText(image, 'STARTING COLLECTION', (120,200), 
                               cv2.FONT_HERSHEY_SIMPLEX, 1, (0,255, 0), 4, cv2.LINE_AA)
                    cv2.putText(image, 'Collecting frames for {} Video Number {}'.format(action, sequence), (15,12), 
                               cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 255), 1, cv2.LINE_AA)
                    # Show to screen
                    cv2.imshow('OpenCV Feed', image)
                    cv2.waitKey(2000) #Длина перерыва, который берем, когда у нас 0-ой кадр
                    #Пока на экране STARTING COLLECTION видео не записывается и ты можешь подготовиться к тому, чтобы начать
                    #действие. Как только надпись уйдет, то начнется запись для сохранения данных
                    
                else: #Если кадр не самый первый, то во время видео будет текст, который сообщает о том, для чего 
                    #собираем данные
                    cv2.putText(image, 'Collecting frames for {} Video Number {}'.format(action, sequence), (15,12), 
                               cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 255), 1, cv2.LINE_AA)
                    
                    # Показывает изображение
                    cv2.imshow('OpenCV Feed', image)
                
                # Экспортируем найденные точки в папки
                keypoints = extract_keypoints(results) #выгружает точки с кадра в array
                npy_path = os.path.join(DATA_PATH, action, str(sequence), str(frame_num)) #указывает путь куда экспортировать
                np.save(npy_path, keypoints) #сохраняет np.array 1 - куда, 2 - что

                # Прекращаем съемку
                if cv2.waitKey(10) & 0xFF == ord('q'):
                    break
                    
    cap.release()
    cv2.destroyAllWindows()

# Предподготовка данных, создание лейблов и признаков

In [12]:
#Импортируем нужные библиотеки
from sklearn.model_selection import train_test_split #разделение на обучающую и тестовую выборки
from tensorflow.keras.utils import to_categorical #конвертирование one-hot-encoded data

In [13]:
#Создадим словарь с лейблами для каждого отдельного действия
label_map = {label:num for num, label in enumerate(actions)}

In [14]:
label_map

{'hello': 0, 'thanks': 1, 'iloveyou': 2}

Теперь перейдем к объединению и структуризации данных:

In [15]:
#Мы хотим создать словарь, где для каждого класса есть array 30 видео, который содержит 30 кадров, где в каждом кадре 
#1662 значения (Landmarks частей тела * len(количество измерений))

In [16]:
sequences, labels = [], [] #два пустых array, который заполним значениями. sequences - признаки(X), labels - таргеты(y)
for action in actions: #Для каждого действия в действиях 
    for sequence in range(no_sequences): #Для каждого видео 
        window = [] #Для каждого видео здесь будут кадры
        for frame_num in range(sequence_length): #Для каждого кадра в видео
            res = np.load(os.path.join(DATA_PATH, action, str(sequence), "{}.npy".format(frame_num))) #загружаем кадр
            window.append(res) #добавляем кадр в window
        sequences.append(window) #Для каждого действия добавятся видео с кадрами
        labels.append(label_map[action]) #таргеты

In [17]:
#получили array в котором 90 видео, в котром 30 кадров и в каждом кадре 1662 значения
np.array(sequences).shape 

(90, 30, 1662)

In [18]:
np.array(labels).shape 

(90,)

In [19]:
X = np.array(sequences)

In [20]:
y = to_categorical(labels).astype(int) #переводим таргеты в one-hot-encoded

In [21]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.05)

# Создание и обучение LSTM Нейронной сети

In [22]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense
from tensorflow.keras.callbacks import TensorBoard

In [23]:
log_dir = os.path.join('Logs')
tb_callback = TensorBoard(log_dir=log_dir)

In [24]:
model = Sequential()
model.add(LSTM(64, return_sequences=True, activation='tanh', input_shape=(30,1662))) #input = 30 кадров по 1662 точки
model.add(LSTM(128, return_sequences=True, activation='tanh'))
model.add(LSTM(64, return_sequences=False, activation='tanh'))
model.add(Dense(64, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(actions.shape[0], activation='softmax'))

In [25]:
model.compile(optimizer='Adam', loss='categorical_crossentropy', metrics=['categorical_accuracy'])

In [26]:
model.fit(X_train, y_train, epochs=300, callbacks=[tb_callback])

Epoch 1/300
Epoch 2/300
Epoch 3/300
Epoch 4/300
Epoch 5/300
Epoch 6/300
Epoch 7/300
Epoch 8/300
Epoch 9/300
Epoch 10/300
Epoch 11/300
Epoch 12/300
Epoch 13/300
Epoch 14/300
Epoch 15/300
Epoch 16/300
Epoch 17/300
Epoch 18/300
Epoch 19/300
Epoch 20/300
Epoch 21/300
Epoch 22/300
Epoch 23/300
Epoch 24/300
Epoch 25/300
Epoch 26/300
Epoch 27/300
Epoch 28/300
Epoch 29/300
Epoch 30/300
Epoch 31/300
Epoch 32/300
Epoch 33/300
Epoch 34/300
Epoch 35/300
Epoch 36/300
Epoch 37/300
Epoch 38/300
Epoch 39/300
Epoch 40/300
Epoch 41/300
Epoch 42/300
Epoch 43/300
Epoch 44/300
Epoch 45/300
Epoch 46/300
Epoch 47/300
Epoch 48/300
Epoch 49/300
Epoch 50/300
Epoch 51/300
Epoch 52/300
Epoch 53/300
Epoch 54/300
Epoch 55/300
Epoch 56/300
Epoch 57/300
Epoch 58/300
Epoch 59/300
Epoch 60/300
Epoch 61/300
Epoch 62/300
Epoch 63/300
Epoch 64/300
Epoch 65/300
Epoch 66/300
Epoch 67/300
Epoch 68/300
Epoch 69/300
Epoch 70/300
Epoch 71/300
Epoch 72/300
Epoch 73/300
Epoch 74/300


Epoch 75/300
Epoch 76/300
Epoch 77/300
Epoch 78/300
Epoch 79/300
Epoch 80/300
Epoch 81/300
Epoch 82/300
Epoch 83/300
Epoch 84/300
Epoch 85/300
Epoch 86/300
Epoch 87/300
Epoch 88/300
Epoch 89/300
Epoch 90/300
Epoch 91/300
Epoch 92/300
Epoch 93/300
Epoch 94/300
Epoch 95/300
Epoch 96/300
Epoch 97/300
Epoch 98/300
Epoch 99/300
Epoch 100/300
Epoch 101/300
Epoch 102/300
Epoch 103/300
Epoch 104/300
Epoch 105/300
Epoch 106/300
Epoch 107/300
Epoch 108/300
Epoch 109/300
Epoch 110/300
Epoch 111/300
Epoch 112/300
Epoch 113/300
Epoch 114/300
Epoch 115/300
Epoch 116/300
Epoch 117/300
Epoch 118/300
Epoch 119/300
Epoch 120/300
Epoch 121/300
Epoch 122/300
Epoch 123/300
Epoch 124/300
Epoch 125/300
Epoch 126/300
Epoch 127/300
Epoch 128/300
Epoch 129/300
Epoch 130/300
Epoch 131/300
Epoch 132/300
Epoch 133/300
Epoch 134/300
Epoch 135/300
Epoch 136/300
Epoch 137/300
Epoch 138/300
Epoch 139/300
Epoch 140/300
Epoch 141/300
Epoch 142/300
Epoch 143/300
Epoch 144/300
Epoch 145/300
Epoch 146/300
Epoch 147/300


Epoch 148/300
Epoch 149/300
Epoch 150/300
Epoch 151/300
Epoch 152/300
Epoch 153/300
Epoch 154/300
Epoch 155/300
Epoch 156/300
Epoch 157/300
Epoch 158/300
Epoch 159/300
Epoch 160/300
Epoch 161/300
Epoch 162/300
Epoch 163/300
Epoch 164/300
Epoch 165/300
Epoch 166/300
Epoch 167/300
Epoch 168/300
Epoch 169/300
Epoch 170/300
Epoch 171/300
Epoch 172/300
Epoch 173/300
Epoch 174/300
Epoch 175/300
Epoch 176/300
Epoch 177/300
Epoch 178/300
Epoch 179/300
Epoch 180/300
Epoch 181/300
Epoch 182/300
Epoch 183/300
Epoch 184/300
Epoch 185/300
Epoch 186/300
Epoch 187/300
Epoch 188/300
Epoch 189/300
Epoch 190/300
Epoch 191/300
Epoch 192/300
Epoch 193/300
Epoch 194/300
Epoch 195/300
Epoch 196/300
Epoch 197/300
Epoch 198/300
Epoch 199/300
Epoch 200/300
Epoch 201/300
Epoch 202/300
Epoch 203/300
Epoch 204/300
Epoch 205/300
Epoch 206/300
Epoch 207/300
Epoch 208/300
Epoch 209/300
Epoch 210/300
Epoch 211/300
Epoch 212/300
Epoch 213/300
Epoch 214/300
Epoch 215/300
Epoch 216/300
Epoch 217/300


Epoch 218/300
Epoch 219/300
Epoch 220/300
Epoch 221/300
Epoch 222/300
Epoch 223/300
Epoch 224/300
Epoch 225/300
Epoch 226/300
Epoch 227/300
Epoch 228/300
Epoch 229/300
Epoch 230/300
Epoch 231/300
Epoch 232/300
Epoch 233/300
Epoch 234/300
Epoch 235/300
Epoch 236/300
Epoch 237/300
Epoch 238/300
Epoch 239/300
Epoch 240/300
Epoch 241/300
Epoch 242/300
Epoch 243/300
Epoch 244/300
Epoch 245/300
Epoch 246/300
Epoch 247/300
Epoch 248/300
Epoch 249/300
Epoch 250/300
Epoch 251/300
Epoch 252/300
Epoch 253/300
Epoch 254/300
Epoch 255/300
Epoch 256/300
Epoch 257/300
Epoch 258/300
Epoch 259/300
Epoch 260/300
Epoch 261/300
Epoch 262/300
Epoch 263/300
Epoch 264/300
Epoch 265/300
Epoch 266/300
Epoch 267/300
Epoch 268/300
Epoch 269/300
Epoch 270/300
Epoch 271/300
Epoch 272/300
Epoch 273/300
Epoch 274/300
Epoch 275/300
Epoch 276/300
Epoch 277/300
Epoch 278/300
Epoch 279/300
Epoch 280/300
Epoch 281/300
Epoch 282/300
Epoch 283/300
Epoch 284/300
Epoch 285/300
Epoch 286/300
Epoch 287/300


Epoch 288/300
Epoch 289/300
Epoch 290/300
Epoch 291/300
Epoch 292/300
Epoch 293/300
Epoch 294/300
Epoch 295/300
Epoch 296/300
Epoch 297/300
Epoch 298/300
Epoch 299/300
Epoch 300/300


<keras.callbacks.History at 0x16d4b932e80>

In [27]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 lstm (LSTM)                 (None, 30, 64)            442112    
                                                                 
 lstm_1 (LSTM)               (None, 30, 128)           98816     
                                                                 
 lstm_2 (LSTM)               (None, 64)                49408     
                                                                 
 dense (Dense)               (None, 64)                4160      
                                                                 
 dense_1 (Dense)             (None, 32)                2080      
                                                                 
 dense_2 (Dense)             (None, 3)                 99        
                                                                 
Total params: 596,675
Trainable params: 596,675
Non-trai

# Предсказание

In [28]:
actions[np.argmax(model.predict(X_test)[0])]



'iloveyou'

In [29]:
actions[np.argmax(y_test[0])]

'iloveyou'

# Сохранение модели 

In [30]:
model.save('action.h5')

In [31]:
model.load_weights('action.h5') #Таким образом можно загрузить веса, которые выработала модель

# Оценка модели с помощью Confusion Matrix (Матрица ошибок) и Accuracy

In [32]:
from sklearn.metrics import multilabel_confusion_matrix, accuracy_score

Confusion Matrix выдает для каждого таргета значения, которые оказались TP, TN, FP, FN.

In [33]:
yhat = model.predict(X_test)



In [34]:
ytrue = np.argmax(y_test, axis=1).tolist() #настоящие таргеты 
yhat = np.argmax(yhat, axis=1).tolist() #предсказанные таргеты

In [35]:
multilabel_confusion_matrix(ytrue, yhat)
#Если нужно больше узнать об conf_matrxi, то можно вбить ячейке multilabel_confusion_matrix??

array([[[4, 0],
        [0, 1]],

       [[1, 0],
        [0, 4]]], dtype=int64)

In [36]:
accuracy_score(ytrue, yhat)

1.0

In [37]:
multilabel_confusion_matrix??

# Предсказание в реальном времени

In [38]:
#Создадим функцию для дополнительной визуализации

colors = [(245,117,16), (117,245,16), (16,117,245)] #цвета для каждого действия 
def prob_viz(res, actions, input_frame, colors): #знакомые аргументы на входе
    #input_frame - получает изображение
    output_frame = input_frame.copy() #чтобы не менять исходник берем его копию
    for num, prob in enumerate(res): #для каждого действия подсвечивается вероятность того, что было показано именно оно
        #Первый арг - изображение на вход, куда помещается rectangle
        #Второй арг - позиция прямоугольника меняется от дейстия
        #Третий арг - меняет длину подсветки в слово в зависимости от уверенности модели в данном слове
        #Четверый арг - 
        #Пятый арг - Цвет
        #Шестой арг - Помещает это в "коробку"
        cv2.rectangle(output_frame, (0,60+num*40), (int(prob*100), 90+num*40), colors[num], -1)
        cv2.putText(output_frame, actions[num], (0, 85+num*40), cv2.FONT_HERSHEY_SIMPLEX, 1, (255,255,255), 2, cv2.LINE_AA)
        
    return output_frame

In [39]:
# Новые данные для детекции
#Чтобы понять логику sentece нужно уточнить, что мы занимаемся расшифровкой не для отдельных значений, а для языка жестов.
#мы хотим чтобы модель считывала наши жесты, показывала какой это жест, мы его конвертируем в слово, а из слов состовляем
#предложение.
sequence = [] #собирает 30 кадров. Пока открыта Open CV, сюда мы будем собирать 30 кадров, которые пойдут на предсказание 
sentence = [] #Разберем далее (Пер. с англ "предложение")
predictions = [] #сюда добавляем предсказания 
threshold = 0.9 # Метрика уверенности. Мы будем рендерить результаты только, если модель уверена в своем решении более, чем
#на threshold 

cap = cv2.VideoCapture(0)
with mp_holistic.Holistic(min_detection_confidence=0.5, min_tracking_confidence=0.5) as holistic:
    while cap.isOpened():

        ret, frame = cap.read()

        image, results = mediapipe_detection(frame, holistic)
        print(results)
        
        draw_styled_landmarks(image, results)
        
        # Логика для предсказания
        #Важно помнить, что предсказание делается на основе 30 кадров. Сначала мы объединяем кадры в листе sequence.
        #Как только у нас будет 30 кадров, то мы сможем сделать предсказание 
        keypoints = extract_keypoints(results) #считывает координаты точек
        
        #то же самое, что и снизу, но "другими словами"
        #sequence.insert(0,keypoints)
        #sequence = sequence[:30]
        
        #это используем
        sequence.append(keypoints) #добавляем координаты точек в sequence
        sequence = sequence[-30:] #Теперь берем только последние 30 кадров. На основе последних 30 кадров модель будет делать
        #предсказание, т.к. в начальных кадрах мы можем делать другие вещи.
        
        if len(sequence) == 30: #если кадров == 30
            res = model.predict(np.expand_dims(sequence, axis=0))[0] #делаем предсказание
            #используем np.expand_dims, т.к. у X_train форам (30, 1662), а модель ожидает на вход (1, 30, 1662). Таким образом
            #мы подгоняем array под нужную форму 
            print(actions[np.argmax(res)]) #показывает что это было за значение
            predictions.append(np.argmax(res))
            
            
        #3. Логика для визуализации
        #предсказания появляются мгновенно и иногда, когда мы начинаем показывать hello, то сначала предсказывается iloveyou
        #поэтому мы берем только последние 10 предсказаний, берем уникальное значение из них, которое равно
        #будет одному предсказанию (если не будет равно одному предсказанию, то тогда не сработает визуализация) и сравниваем
        #с предсказанием.
        #Получается, что мы чекаем, что последние 10 кадров дают тоже самое предсказание, что и последнее предсказание.
        #Мы вязли последние 10 кадров, т.к. в последние 10 кадров жест останавливает движение и приобретает свою законченную
        #форму. 
            if np.unique(predictions[-10:])[0]==np.argmax(res):
                if res[np.argmax(res)] > threshold: #Если уверенность модель в предсказании больше threshold
                    #Наши предсказания в конечном итоге преобретают форму слов (пр. Hello)
                    #В sentence мы добавляем предсказания в форме слов
                    if len(sentence) > 0: #Если в предсказаниях уже что-то есть, то...
                        if actions[np.argmax(res)] != sentence[-1]: #Если новое предсказание не равно старому (последнему) предсказанию
                            #Мы делаем это для того, чтобы модель постоянно не показывала нам предсказание, когда мы используем 
                            #один и тот же жест
                            sentence.append(actions[np.argmax(res)]) #добавляем предсказание в лист

                    #если в предсказаниях ничего нет, то добавляем любое первое первое предсказание каким бы оно ни было
                    #(речь не про уверенность)
                    else:
                        sentence.append(actions[np.argmax(res)]) 
                    
            #Модель постоянно предсказывает наши жесты. Чтобы не выгружать огромный array, то мы возьмем только последние
            #5 предсказаний
            if len(sentence) > 5: 
                sentence = sentence[-5:]
 
            image = prob_viz(res, actions, image, colors)
        
        #перейдем к рендеру. Мы будем визуализировать слова, которые мы показали жестами
        #формируем место для текста
        cv2.rectangle(image, (0,0), (640, 40), (245, 117, 16), -1)  
        #вставляем текст
        cv2.putText(image, ' '.join(sentence), (3,30), 
                       cv2.FONT_HERSHEY_SIMPLEX, 1, (255, 255, 255), 2, cv2.LINE_AA)
        
        cv2.imshow('OpenCV Feed', image)

        if cv2.waitKey(10) & 0xFF == ord('q'):
            break
    cap.release()
    cv2.destroyAllWindows()

<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.solution_base.SolutionOutputs'>
<class 'mediapipe.python.soluti

hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOutputs'>
hello
<class 'mediapipe.python.solution_base.SolutionOu