In [None]:
#Para versão recente do python
!pip install tensorflow==2.8.0 tensorflow-gpu==2.8.0 opencv-python mediapipe sklearn matplotlib

In [None]:
!pip uninstall protobuf

In [None]:
# Para versões antigas - https://www.python.org/ftp/python/3.7.4/
!pip install tensorflow==2.4.1 tensorflow-gpu==2.4.1 opencv-python==4.5.2.54 mediapipe==0.8.5 sklearn matplotlib

In [2]:
import cv2
import numpy as np
import os
from matplotlib import pyplot as plt
import time
import mediapipe as mp

In [3]:
#MediaPipe solutions - reconhecimento e desenho dos pontos na mão
mp_holistic = mp.solutions.holistic
mp_drawing = mp.solutions.drawing_utils

In [4]:
def mediapipe_detection(image, model):
    """ 
    Funcao com objetivo de aplicar a previsao de reconhecimento na imagem desejada 
    Recebe imagem (frame da webcam) e um modelo que sera responsavel pela previsão
    Retorna o frame utilizado e a previsao feita pelo modelo
    A conversao da imagem se faz necessaria para ser tratada pelo modelo (BGR -> RGB)
    A mudanca na propriedade de leitura tem como objetivo salvar memoria
    """
    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
    image.flags.writeable = False
    results = model.process(image)
    image.flags.writeable = True
    image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)
    return image, results

In [5]:
def draw_landmarks(image, results):
    """
    Funcao que recebe uma imagem (frame) junto com as previsoes feitas pelo modelo e aplica
    sob a imagem o desenho dos pontos necessarios (nao ha motivo para devolver a imagem pois ela
    ja e alterada diretamente).
    """
    mp_drawing.draw_landmarks(image, results.face_landmarks, mp_holistic.FACE_CONNECTIONS,
                             mp_drawing.DrawingSpec(color=(80,110,10), thickness=1, circle_radius=1), 
                             mp_drawing.DrawingSpec(color=(80,256,121), thickness=1, circle_radius=1)
                             )
    mp_drawing.draw_landmarks(image, results.pose_landmarks, mp_holistic.POSE_CONNECTIONS,
                             mp_drawing.DrawingSpec(color=(80,22,10), thickness=2, circle_radius=4), 
                             mp_drawing.DrawingSpec(color=(80,44,121), thickness=2, circle_radius=2)
                             )
    mp_drawing.draw_landmarks(image, results.left_hand_landmarks, mp_holistic.HAND_CONNECTIONS,
                             mp_drawing.DrawingSpec(color=(121,22,76), thickness=2, circle_radius=4), 
                             mp_drawing.DrawingSpec(color=(121,44,250), thickness=2, circle_radius=2)
                             )
    mp_drawing.draw_landmarks(image, results.right_hand_landmarks, mp_holistic.HAND_CONNECTIONS,
                             mp_drawing.DrawingSpec(color=(245,117,66), thickness=2, circle_radius=4), 
                             mp_drawing.DrawingSpec(color=(245,66,230), thickness=2, circle_radius=2)
                             )

In [7]:
def extract_keypoints(results, auto=False, axis=None, value=None):
    if auto:
        if axis == 'x':
            pose = np.array([[res.x+value, res.y, res.z, res.visibility] for res in results.pose_landmarks.landmark]).flatten() if results.pose_landmarks else np.zeros(33*4)
            face = np.array([[res.x+value, res.y, res.z] for res in results.face_landmarks.landmark]).flatten() if results.face_landmarks else np.zeros(468*3)
            lh = np.array([[res.x+value, res.y, res.z] for res in results.left_hand_landmarks.landmark]).flatten() if results.left_hand_landmarks else np.zeros(21*3)
            rh = np.array([[res.x+value, res.y, res.z] for res in results.right_hand_landmarks.landmark]).flatten() if results.right_hand_landmarks else np.zeros(21*3)
        elif axis == 'y':
            pose = np.array([[res.x, res.y+value, res.z, res.visibility] for res in results.pose_landmarks.landmark]).flatten() if results.pose_landmarks else np.zeros(33*4)
            face = np.array([[res.x, res.y+value, res.z] for res in results.face_landmarks.landmark]).flatten() if results.face_landmarks else np.zeros(468*3)
            lh = np.array([[res.x, res.y+value, res.z] for res in results.left_hand_landmarks.landmark]).flatten() if results.left_hand_landmarks else np.zeros(21*3)
            rh = np.array([[res.x, res.y+value, res.z] for res in results.right_hand_landmarks.landmark]).flatten() if results.right_hand_landmarks else np.zeros(21*3)
        #elif axis == 'z':
        #    pose = np.array([[res.x, res.y, res.z+value, res.visibility] for res in results.pose_landmarks.landmark]).flatten() if results.pose_landmarks else np.zeros(33*4)
        #    face = np.array([[res.x, res.y, res.z+value] for res in results.face_landmarks.landmark]).flatten() if results.face_landmarks else np.zeros(468*3)
        #    lh = np.array([[res.x, res.y, res.z+value] for res in results.left_hand_landmarks.landmark]).flatten() if results.left_hand_landmarks else np.zeros(21*3)
        #    rh = np.array([[res.x, res.y, res.z+value] for res in results.right_hand_landmarks.landmark]).flatten() if results.right_hand_landmarks else np.zeros(21*3)
        else:
            auto = False
    else:
        pose = np.array([[res.x, res.y, res.z, res.visibility] for res in results.pose_landmarks.landmark]).flatten() if results.pose_landmarks else np.zeros(33*4)
        face = np.array([[res.x, res.y, res.z] for res in results.face_landmarks.landmark]).flatten() if results.face_landmarks else np.zeros(468*3)
        lh = np.array([[res.x, res.y, res.z] for res in results.left_hand_landmarks.landmark]).flatten() if results.left_hand_landmarks else np.zeros(21*3)
        rh = np.array([[res.x, res.y, res.z] for res in results.right_hand_landmarks.landmark]).flatten() if results.right_hand_landmarks else np.zeros(21*3)
    return np.concatenate([pose, face, lh, rh])

In [8]:
# Caminho que guarda o numpy array com os pontos extraidos
DATA_PATH = os.path.join('MP_Data')

# Sinais que serão detectados
actions = np.array(['ola', 'obrigado', 'teamo'])

# Representa a quantidade de sequências de frames que tem os dados
no_sequences = 30

# Representa a quantidade de frames que cada sequência possui
sequence_lenght = 30

In [9]:
# Cria pastas para cada sinal definido
# Cada pasta tem 30 pastas representando os videos modelo do sinal
# Cada vídeo contém 30 frames e cada frame 1662 pontos extraidos
for action in actions:
    for sequence in range(no_sequences):
        try: # Cria pastas e subpastas
            os.makedirs(os.path.join(DATA_PATH, action, str(sequence)))
        except: # Caso já exista passa para próxima pasta
            pass

In [None]:
# TENTATIVA DE FAZER O PROGRAMA SIMULAR ENTRADAS    

#Acessa a webcam - valor (0) representa o hardware
cap = cv2.VideoCapture(0)

#Define o modelo utilizado
with mp_holistic.Holistic(min_detection_confidence=0.5, min_tracking_confidence=0.5) as holistic:
    
    # Extrai os frames de cada video para cada ação
    for action in actions:
        for frame_num in range(sequence_lenght):
            #Seleciona o frame atual da webcam
            ret, frame = cap.read()
            
            #Processa previsoes
            image, results = mediapipe_detection(frame, holistic)
            #print(results)
            #Desenha os pontos
            draw_landmarks(image, results)
                
            if frame_num == 0:    
                #Textos para indicar inicio de gravação
                cv2.putText(image, "INICIANDO GRAVAÇÃO DE SINAL", 
                (120, 200), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 4, cv2.LINE_AA)
                
                cv2.putText(image, "Gravando para {} Frame: {}".format(action, frame_num), 
                (15, 12), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 255), 1, cv2.LINE_AA)
                
                # Tempo de espera entre um vídeo e outro
                cv2.waitKey(2000)
            else:
                cv2.putText(image, "Gravando para {} Frame: {}".format(action, frame_num), 
                (15, 12), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 255), 1, cv2.LINE_AA)
                
            # Extrai os pontos de um frame e salva como um arquivo .npy (numpy array)
            for sequence in range(no_sequences):
                npy_path = os.path.join(DATA_PATH, action, str(sequence), str(frame_num))
                if sequence < (no_sequences/2):
                    value_n = sequence*0.01
                    keypoints = extract_keypoints(results, auto=True, axis='x', value=value_n)
                elif sequence < (no_sequences):
                    value_n = (sequence-(no_sequences/2))*0.01
                    keypoints = extract_keypoints(results, auto=True, axis='y', value=value_n)
                np.save(npy_path, keypoints)
                    
                
            #Faz o display do frame
            if ret == True: 
                cv2.imshow('Webcam', image)
                #Encerra a webcam 
                if cv2.waitKey(10) & 0xFF == ord('q'):
                    break
            else:
                break
    cap.release()
    cv2.destroyAllWindows()

In [9]:
# Imports que serão importante para treinar o modelo e nomear os dados
from sklearn.model_selection import train_test_split
from tensorflow.keras.utils import to_categorical

In [10]:
label_map = {label:num for num, label in enumerate(actions)}
sequences, labels = [], []

# Carrega e adiciona todos os pontos de uma sequência no array sequences
# Enquanto o array labels coloca em ordem o valor de determinada ação com certa sequencia
for action in actions:
    for sequence in range(no_sequences):
        window = []
        for frame_num in range(sequence_lenght):
            res = np.load(os.path.join(DATA_PATH, action, str(sequence),'{}.npy'.format(frame_num)))
            window.append(res)
        sequences.append(window)
        labels.append(label_map[action])
    
    matrix_labels = to_categorical(labels).astype(int)
    X = np.array(sequences)
    
    # Com os dados já definidos é possível separar uma quantidade para teste e treinamento do modelo
    x_train, x_test, y_train, y_test = train_test_split(X, matrix_labels, test_size=0.05)

In [9]:
# Imports para construção da rede neural
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense
from tensorflow.keras.callbacks import TensorBoard

In [10]:
# Definição do caminho para registro de logs da rede
log_dir = os.path.join('Logs')
tb_callback = TensorBoard(log_dir=log_dir)

In [11]:
# Setup da rede neural
model = Sequential()

# Cada função add adiciona uma layer para a rede
# O parâmetro return_sequences é importante para passar para próxima layer de forma ordenada
# O parâmetro activation define a função que será utilizada para ativar os neurônios
#  O parâmetro input_shape = 30 frames cada um com 1662 pontos reconhecidos
model.add(LSTM(64, return_sequences=True, activation='relu', input_shape=(30,1662))) 
model.add(LSTM(128, return_sequences=True, activation='relu'))
model.add(LSTM(64, return_sequences=False, activation='relu'))
model.add(Dense(64, activation='relu'))
model.add(Dense(32, activation='relu'))

# Última camada possui a quantidades de pontos definido pela quantidade de ações
# A função softmax entrega um resultado com a probabilidade de cada ação (será selecionado a com maior probabilidade)
model.add(Dense(actions.shape[0], activation='softmax'))

In [12]:
model.compile(optimizer='Adam', loss='categorical_crossentropy', metrics=['categorical_accuracy'])

In [27]:
model.fit(x_train, y_train, epochs=2000, callbacks=[tb_callback])

Epoch 1/2000
Epoch 2/2000
Epoch 3/2000
Epoch 4/2000
Epoch 5/2000
Epoch 6/2000
Epoch 7/2000
Epoch 8/2000
Epoch 9/2000
Epoch 10/2000
Epoch 11/2000
Epoch 12/2000
Epoch 13/2000
Epoch 14/2000
Epoch 15/2000
Epoch 16/2000
Epoch 17/2000
Epoch 18/2000
Epoch 19/2000
Epoch 20/2000
Epoch 21/2000
Epoch 22/2000
Epoch 23/2000
Epoch 24/2000
Epoch 25/2000
Epoch 26/2000
Epoch 27/2000
Epoch 28/2000
Epoch 29/2000
Epoch 30/2000
Epoch 31/2000
Epoch 32/2000
Epoch 33/2000
Epoch 34/2000
Epoch 35/2000
Epoch 36/2000
Epoch 37/2000
Epoch 38/2000
Epoch 39/2000
Epoch 40/2000
Epoch 41/2000
Epoch 42/2000
Epoch 43/2000
Epoch 44/2000
Epoch 45/2000
Epoch 46/2000
Epoch 47/2000
Epoch 48/2000
Epoch 49/2000
Epoch 50/2000
Epoch 51/2000
Epoch 52/2000
Epoch 53/2000
Epoch 54/2000
Epoch 55/2000
Epoch 56/2000
Epoch 57/2000
Epoch 58/2000
Epoch 59/2000
Epoch 60/2000
Epoch 61/2000
Epoch 62/2000
Epoch 63/2000
Epoch 64/2000
Epoch 65/2000
Epoch 66/2000
Epoch 67/2000
Epoch 68/2000
Epoch 69/2000
Epoch 70/2000
Epoch 71/2000
Epoch 72/2000
E

Epoch 75/2000
Epoch 76/2000
Epoch 77/2000
Epoch 78/2000
Epoch 79/2000
Epoch 80/2000
Epoch 81/2000
Epoch 82/2000
Epoch 83/2000
Epoch 84/2000
Epoch 85/2000
Epoch 86/2000
Epoch 87/2000
Epoch 88/2000
Epoch 89/2000
Epoch 90/2000
Epoch 91/2000
Epoch 92/2000
Epoch 93/2000
Epoch 94/2000
Epoch 95/2000
Epoch 96/2000
Epoch 97/2000
Epoch 98/2000
Epoch 99/2000
Epoch 100/2000
Epoch 101/2000
Epoch 102/2000
Epoch 103/2000
Epoch 104/2000
Epoch 105/2000
Epoch 106/2000
Epoch 107/2000
Epoch 108/2000
Epoch 109/2000
Epoch 110/2000
Epoch 111/2000
Epoch 112/2000
Epoch 113/2000
Epoch 114/2000
Epoch 115/2000
Epoch 116/2000
Epoch 117/2000
Epoch 118/2000
Epoch 119/2000
Epoch 120/2000
Epoch 121/2000
Epoch 122/2000
Epoch 123/2000
Epoch 124/2000
Epoch 125/2000
Epoch 126/2000
Epoch 127/2000
Epoch 128/2000
Epoch 129/2000
Epoch 130/2000
Epoch 131/2000
Epoch 132/2000
Epoch 133/2000
Epoch 134/2000
Epoch 135/2000
Epoch 136/2000
Epoch 137/2000
Epoch 138/2000
Epoch 139/2000
Epoch 140/2000
Epoch 141/2000
Epoch 142/2000
Epoch

Epoch 219/2000
Epoch 220/2000
Epoch 221/2000
Epoch 222/2000
Epoch 223/2000
Epoch 224/2000
Epoch 225/2000
Epoch 226/2000
Epoch 227/2000
Epoch 228/2000
Epoch 229/2000
Epoch 230/2000
Epoch 231/2000
Epoch 232/2000
Epoch 233/2000
Epoch 234/2000
Epoch 235/2000
Epoch 236/2000
Epoch 237/2000
Epoch 238/2000
Epoch 239/2000
Epoch 240/2000
Epoch 241/2000
Epoch 242/2000
Epoch 243/2000
Epoch 244/2000
Epoch 245/2000
Epoch 246/2000
Epoch 247/2000
Epoch 248/2000
Epoch 249/2000
Epoch 250/2000
Epoch 251/2000
Epoch 252/2000
Epoch 253/2000
Epoch 254/2000
Epoch 255/2000
Epoch 256/2000
Epoch 257/2000
Epoch 258/2000
Epoch 259/2000
Epoch 260/2000
Epoch 261/2000
Epoch 262/2000
Epoch 263/2000
Epoch 264/2000
Epoch 265/2000
Epoch 266/2000
Epoch 267/2000
Epoch 268/2000
Epoch 269/2000
Epoch 270/2000
Epoch 271/2000
Epoch 272/2000
Epoch 273/2000
Epoch 274/2000


KeyboardInterrupt: 

In [28]:
# Mostra a performance do modelo
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
lstm_3 (LSTM)                (None, 30, 64)            442112    
_________________________________________________________________
lstm_4 (LSTM)                (None, 30, 128)           98816     
_________________________________________________________________
lstm_5 (LSTM)                (None, 64)                49408     
_________________________________________________________________
dense_3 (Dense)              (None, 64)                4160      
_________________________________________________________________
dense_4 (Dense)              (None, 32)                2080      
_________________________________________________________________
dense_5 (Dense)              (None, 3)                 99        
Total params: 596,675
Trainable params: 596,675
Non-trainable params: 0
________________________________________________

In [18]:
# Retorna uma lista com valores de probabilidade de cada ação como definidos no modelo
res = model.predict(x_test)

In [30]:
# Salva os weights usados pelo modelo
model.save('action.h5')
#model.load_weights(action.h5)
#del model

In [13]:
model.load_weights('actionAC1.h5')

In [16]:
# Teste de métricas para aprovação do modelo
from sklearn.metrics import multilabel_confusion_matrix, accuracy_score

In [18]:
yhat = model.predict(x_test)
#yhat = model.predict(x_train)
ytrue = np.argmax(y_test, axis=1).tolist()
yhat = np.argmax(yhat, axis=1).tolist()

# Retorna uma matriz bidimensional que representa se houve falsos positivos ou negativos
# Quanto maior a quantidade do valor de um lado da matriz melhor o modelo
multilabel_confusion_matrix(ytrue, yhat)

array([[[4, 0],
        [0, 1]],

       [[1, 0],
        [0, 4]]], dtype=int64)

In [19]:
# Retorna a precisão do modelo
accuracy_score(ytrue, yhat)

1.0

In [14]:
colors = [(245,117,16), (117,245,16), (16,117,245)]  #Array que guarda cores
def prob_viz(res, actions, input_frame, colors):
    """ Função que mostra na tela a probabilidade de cada um dos sinais, em tempo real.
    Recebe os resultados com as probabilidades, os sinais, um frame e as cores a serem utilizadas.
    Retorna o mesmo frame com as palavras e suas respectivas probabilidades.
    """
    output_frame = input_frame.copy()
    for num, prob in enumerate(res):   #Para cada sinal cria os textos e probabilidades
        cv2.rectangle(output_frame, (0,60+num*40), (int(prob*100), 90+num*40), colors[num], -1)
        cv2.putText(output_frame, actions[num] + str(round(res[num],2)), (0, 85+num*40), cv2.FONT_HERSHEY_SIMPLEX, 1, (255,255,255), 2, cv2.LINE_AA)
        
    return output_frame

In [60]:
sequence = []      # Guarda os frames
sentence = []      # Guarda quais foram as previsões feitas pelo modelo para formar frases 
predictions = []   # Guarda as prediçoes feita para evitar problemas na transição de sinais
threshold = 0.6    # Mínimo para renderizar os resultados, evitando resultados de baixa confiança

#Acessa a webcam - valor (0) representa o hardware
cap = cv2.VideoCapture(0)

#Define o modelo utilizado
with mp_holistic.Holistic(min_detection_confidence=0.5, min_tracking_confidence=0.5) as holistic:
    while cap.isOpened():

        #Seleciona o frame atual da webcam
        ret, frame = cap.read()

        #Processa previsoes
        image, results = mediapipe_detection(frame, holistic)
        
        #Desenha os pontos
        #draw_landmarks(image, results)
        
        #Previsoes
        #Pega os pontos que estao aparecendo na camera e inserem em um array
        #Cada sequencia é feita com os 30 ultimos frames que depois será passada para o modelo
        keypoints = extract_keypoints(results)
        sequence.append(keypoints)
        sequence = sequence[-30:]
        
        #Verifica se há alguma mão no frame, para só então começar a previsão
        rh_onscreen = (sequence[-1][-63:]!=np.zeros(63)).all()
        lh_onscreen = (sequence[-1][-126:-63]!=np.zeros(63)).all()
        
        #if len(sequences)==30:
        if len(sequence) == 30 and (rh_onscreen or lh_onscreen):
            #expand_dims permite passar uma sequencia por vez
            res = model.predict(np.expand_dims(sequence, axis=0))[0]
            #print(actions[np.argmax(res)])
            predictions.append(np.argmax(res))
            
            #Visualização
            #Checa se os ultimos 10 frames são do mesmo sinal, para evitar problemas na transição de sinais
            if np.unique(predictions[-5:])[0]==np.argmax(res): 
                predictions = []
                #Compara se a probabilidade de certo sinal é maior que o minimo para mostrar
                if res[np.argmax(res)] > threshold: #seria possivel fazer a media?
                    #tentativa de zerar a sequencia apos previsão correta - ajuda?
                    if len(sentence) > 0:
                        # Verifica se o sinal já não está incluido na frase
                        if actions[np.argmax(res)] != sentence[-1]:
                            sentence.append(actions[np.argmax(res)])
                    else:
                        sentence.append(actions[np.argmax(res)])

            #Caso a frase fique muito grande, guarda apenas os ultimos valores
            if len(sentence) > 5:
                sentence = sentence[-5:]
        
            #Renderiza as probabilidades
            image = prob_viz(res, actions, image, colors)
        
        #Renderiza predições e a frase
        cv2.rectangle(image, (0,0), (640,40), (245,117,16), -1)
        cv2.putText(image, ' '.join(sentence), (3,30), cv2.FONT_HERSHEY_SIMPLEX, 1, (255,255,255), 2, cv2.LINE_AA)
        
        #Faz o display do frame
        if ret == True: 
            cv2.imshow('Webcam', image)

            #Encerra a webcam 
            if cv2.waitKey(10) & 0xFF == ord('q'):
                break
        else:
            break
    cap.release()
    cv2.destroyAllWindows()

In [53]:
cap.release()
cv2.destroyAllWindows()

In [32]:
sequence[-1][-126:-63].shape

(63,)

In [28]:
testearray = np.zeros(1662)

In [47]:
sequence2 = []
for seq in sequence:
    sequence2.append(np.zeros(1662))

In [51]:
np.array(sequence2).shape

(30, 1662)

In [50]:
np.array(sequence).shape

(30, 1662)

In [57]:
res = model.predict(np.expand_dims(sequence, axis=0))[0]

array([1.8321335e-01, 1.5490651e-04, 8.1663173e-01], dtype=float32)