In [None]:
%config Completer.use_jedi = False

## Detecção de objetos

Há um grande interesse de utilizar técnicas de machine learning para detecção de objetos. Rastreamento de objetos em tempo real (real-time object tracking).

Há diversas aplicações como:
- Realidade aumentada
    - https://www.youtube.com/watch?v=tJbtp1Cv1gY
    - https://www.youtube.com/watch?v=aWI39cCNo7I
    
- Criação de filtros (estilo snapchat e TikTok)
- Detecção de poses:
    - [Conseguimos controlar um avatar de acordo com os nosso movimentos] (https://www.youtube.com/watch?v=8Va3_jwYOJU)
    - [Melhorar a performance de atletas] (https://www.youtube.com/watch?v=-LkMOGvbn_c)

## MediaPipe

Modulo desenvolvido pela Google. Consiste em um módulo de detecção.  
Facilidade de implementar soluções sofisticadas de forma simples e ágil.  
[Diversas soluções](https://google.github.io/mediapipe/)
- Detecção de faces
- Poses
- Detecção de mãos
- E muito mais

[Projeto Github](https://github.com/google/mediapipe)

## Detecção de mãos

Hoje iremos explorar utilizar o MediaPipe para criar o nosso próprio módulo de detecção de mãos.  
Posteriormente iremos utilizar esse módulo para controlar o volume do computador.  

**Instalando o OpenCV e o MediaPipe**  
O openCV é um projeto open source focado em visão computacional em tempo real

In [None]:
!pip install opencv-python
!pip install mediapipe

**Primeiro passo**  
Importando os módulos e mostrando a imagem na tela!

In [None]:
%config Completer.use_jedi = False


In [None]:
import cv2
import mediapipe as mp
import time



In [None]:
cap = cv2.VideoCapture(1) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)

while True:
    sucesso, img = cap.read()
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)

In [None]:
cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)

while True:
    sucesso, img = cap.read()
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)
    

**Segundo passo**  
Carregando o modulo mediapipe e inicializando a captura das mãos

In [None]:
%config Completer.use_jedi = False

In [None]:
import cv2
import mediapipe as mp
import time

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)

mp_hands = mp.solutions.hands

# instanciando a classe
hands = mp_hands.Hands() # equivalente a mp.solutions.hands.Hands()

while True:
    sucesso, img = cap.read()
    
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    results = hands.process(img_rgb)
    print(results)
    
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)
    

**Terceiro passo**  
Imprimindo os resultados (propriedade, multi_hand_landmark).  
Note que o resultado é uma lista de landmark.  
Essa lista contêm 21 valores. Esses valores estão na mesma ordem que aparecem na documentação!!
https://google.github.io/mediapipe/solutions/hands.html#hand-landmark-model

In [1]:
import cv2
import mediapipe as mp
import time

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)

mp_hands = mp.solutions.hands

# instanciando a classe
hands = mp_hands.Hands() # equivalente a mp.solutions.hands.Hands()

while True:
    sucesso, img = cap.read()
    
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    results = hands.process(img_rgb)
    print('-'*32)
    print(results.multi_hand_landmarks)
    
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)
    

--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
--------------------------------
None
------------

KeyboardInterrupt: 

**Quarto passo**  
Desenhando as mãos.  
Carregamentos o drawing_utils do media pipe(ele é capaz de receber um landmark) e desenhar! Simples e fácil!

In [1]:
import cv2
import mediapipe as mp
import time

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)

mp_hands = mp.solutions.hands

# instanciando a classe
hands = mp_hands.Hands() # equivalente a mp.solutions.hands.Hands()

# Utilizando o drawing_utils para desenhar as mãos
mp_draw = mp.solutions.drawing_utils
while True:
    sucesso, img = cap.read()
    
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    results = hands.process(img_rgb)
    
    if (results.multi_hand_landmarks):
        for hand_landmark in results.multi_hand_landmarks:
            mp_draw.draw_landmarks(img, hand_landmark)
    
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)
    

KeyboardInterrupt: 

**Quinto passo**  
Desenhando as conecções das mãos.  
Além das bolinhas que indicam cada landmark. As vezes queremos desenhar as conecções entre cada landmark.  
Para tal utilizamos a variável mp_hands.HAND_CONNECTIONS.  
Essa variável armazena quais as coneccções existentes entre cada landmark

In [3]:
import mediapipe as mp
mp_hands = mp.solutions.hands
mp_hands.HAND_CONNECTIONS

frozenset({(<HandLandmark.WRIST: 0>, <HandLandmark.THUMB_CMC: 1>),
           (<HandLandmark.WRIST: 0>, <HandLandmark.INDEX_FINGER_MCP: 5>),
           (<HandLandmark.WRIST: 0>, <HandLandmark.PINKY_MCP: 17>),
           (<HandLandmark.THUMB_CMC: 1>, <HandLandmark.THUMB_MCP: 2>),
           (<HandLandmark.THUMB_MCP: 2>, <HandLandmark.THUMB_IP: 3>),
           (<HandLandmark.THUMB_IP: 3>, <HandLandmark.THUMB_TIP: 4>),
           (<HandLandmark.INDEX_FINGER_MCP: 5>,
            <HandLandmark.INDEX_FINGER_PIP: 6>),
           (<HandLandmark.INDEX_FINGER_MCP: 5>,
            <HandLandmark.MIDDLE_FINGER_MCP: 9>),
           (<HandLandmark.INDEX_FINGER_PIP: 6>,
            <HandLandmark.INDEX_FINGER_DIP: 7>),
           (<HandLandmark.INDEX_FINGER_DIP: 7>,
            <HandLandmark.INDEX_FINGER_TIP: 8>),
           (<HandLandmark.MIDDLE_FINGER_MCP: 9>,
            <HandLandmark.MIDDLE_FINGER_PIP: 10>),
           (<HandLandmark.MIDDLE_FINGER_MCP: 9>,
            <HandLandmark.RING_FINGER_MCP:

In [4]:
import cv2
import mediapipe as mp
import time

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)

mp_hands = mp.solutions.hands

# instanciando a classe
hands = mp_hands.Hands() # equivalente a mp.solutions.hands.Hands()

# Utilizando o drawing_utils para desenhar as mãos
mp_draw = mp.solutions.drawing_utils
while True:
    sucesso, img = cap.read()
    
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    results = hands.process(img_rgb)
    
    if (results.multi_hand_landmarks):
        for hand_landmark in results.multi_hand_landmarks:
            mp_draw.draw_landmarks(img, hand_landmark, mp_hands.HAND_CONNECTIONS)
    
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)
    

KeyboardInterrupt: 

Alterando a cor das bolinhas utilizando o DrawingSpec

In [1]:
import mediapipe as mp

In [2]:
DrawingSpec = mp.solutions.drawing_utils.DrawingSpec

In [3]:
DrawingSpec()

mediapipe.python.solutions.drawing_utils.DrawingSpec

In [1]:
import cv2
import mediapipe as mp
import time

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)

mp_hands = mp.solutions.hands

# instanciando a classe
hands = mp_hands.Hands() # equivalente a mp.solutions.hands.Hands()

# Utilizando o drawing_utils para desenhar as mãos
mp_draw = mp.solutions.drawing_utils
DrawingSpec = mp.solutions.drawing_utils.DrawingSpec

while True:
    sucesso, img = cap.read()
    
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    results = hands.process(img_rgb)
    
    if (results.multi_hand_landmarks):
        for hand_landmark in results.multi_hand_landmarks:
            mp_draw.draw_landmarks(
                img,
                hand_landmark,
                mp_hands.HAND_CONNECTIONS,
                # Modificando cor e raio da marcação
                landmark_drawing_spec = DrawingSpec(color=(255,0,255), circle_radius=raio))
    
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)
    

KeyboardInterrupt: 

**Sexto passo**  
Adicionando o FPS (frames per second)

In [1]:
import time

In [1]:
import cv2
import mediapipe as mp
import time

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)

mp_hands = mp.solutions.hands

# instanciando a classe
hands = mp_hands.Hands() # equivalente a mp.solutions.hands.Hands()

# Utilizando o drawing_utils para desenhar as mãos
mp_draw = mp.solutions.drawing_utils
DrawingSpec = mp.solutions.drawing_utils.DrawingSpec

tempo_anterior = 0
tempo_corrente = 0

while True:
    sucesso, img = cap.read()
    
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    results = hands.process(img_rgb)
    
    tempo_corrente = time.time()
    fps = 1 / (tempo_corrente - tempo_anterior)
    
    tempo_anterior = tempo_corrente
    
    if (results.multi_hand_landmarks):
        for hand_landmark in results.multi_hand_landmarks:
            mp_draw.draw_landmarks(
                img,
                hand_landmark,
                mp_hands.HAND_CONNECTIONS)
    
    cv2.putText(img, # Onde colocar
               str(int(fps)), # convertendo pra string o fps
                (10, 70), # posição na imagem
                cv2.FONT_HERSHEY_PLAIN, # a fonte
                3, # tamanho
                (255, 0, 255), # cor
                5 # grossura
               )
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)
    

KeyboardInterrupt: 

**Setimo passo**  
Ok! Conseguimos detectar as mãos e sabemos colocar as conecções entre os landmarks.  
Porém para conseguir desenvolver soluções mais complexas, precisamos descobrir qual a posição de cada landmark.
Sabemos que o `results.multi_hand_landmarks)` retorna uma lista!  
Cada elemento da lista é uma mão! E cada posição da lista refere-se ao landmark.  
Então será podemos criar um for loop para tanto desenhar a mão, como extrair os resultados?  

In [1]:
import cv2
import mediapipe as mp
import time

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)

mp_hands = mp.solutions.hands

# instanciando a classe
hands = mp_hands.Hands() # equivalente a mp.solutions.hands.Hands()

# Utilizando o drawing_utils para desenhar as mãos
mp_draw = mp.solutions.drawing_utils
DrawingSpec = mp.solutions.drawing_utils.DrawingSpec

tempo_anterior = 0
tempo_corrente = 0

while True:
    sucesso, img = cap.read()
    
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    results = hands.process(img_rgb)
    
    tempo_corrente = time.time()
    fps = 1 / (tempo_corrente - tempo_anterior)
    
    tempo_anterior = tempo_corrente
    
    if (results.multi_hand_landmarks):
        for hand_number, hand_landmark in enumerate(results.multi_hand_landmarks):
            for _id, landmark in enumerate(hand_landmark.landmark):
                print(hand_number, _id, landmark)
            
            
            
            mp_draw.draw_landmarks(
                img,
                hand_landmark,
                mp_hands.HAND_CONNECTIONS)
    
    cv2.putText(img, # Onde colocar
               str(int(fps)), # convertendo pra string o fps
                (10, 70), # posição na imagem
                cv2.FONT_HERSHEY_PLAIN, # a fonte
                3, # tamanho
                (255, 0, 255), # cor
                5 # grossura
               )
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)
    

0 0 x: 0.5924886465072632
y: 0.8053889274597168
z: -2.7927346309297718e-05

0 1 x: 0.5409587025642395
y: 0.7755417227745056
z: -0.044597938656806946

0 2 x: 0.5026214122772217
y: 0.733956515789032
z: -0.0786043182015419

0 3 x: 0.47550907731056213
y: 0.7126985788345337
z: -0.10175030678510666

0 4 x: 0.4680386781692505
y: 0.7053104043006897
z: -0.1266142576932907

0 5 x: 0.5227773189544678
y: 0.6576755046844482
z: -0.08698442578315735

0 6 x: 0.48943090438842773
y: 0.5938347578048706
z: -0.11536126583814621

0 7 x: 0.4822274446487427
y: 0.6179215908050537
z: -0.13351352512836456

0 8 x: 0.48751556873321533
y: 0.6480154395103455
z: -0.1480012685060501

0 9 x: 0.5455980896949768
y: 0.6605232357978821
z: -0.08000026643276215

0 10 x: 0.5178399085998535
y: 0.5972362160682678
z: -0.11889694631099701

0 11 x: 0.5140484571456909
y: 0.6244686245918274
z: -0.1406562775373459

0 12 x: 0.5232240557670593
y: 0.6524883508682251
z: -0.1523800790309906

0 13 x: 0.5705019235610962
y: 0.68088698387146


KeyboardInterrupt: 

Aparentemente esse for loop funciona! Conseguimos imprimir tanto qual mão (0 ou 1) foi detectada e imprimir tanto a posição do landmark (0-20) como os valores de posição (x, y e z).  

Como conseguimos a posição e o id do landmark, conseguimos começar a customizar as nossas aplicações.  
Por exemplo destacando um landmark especifico  

**Note que a posição x, y e z retornaram um float (variando de 0 a 1)**  
Como precisamos da posição em pixel, precisamos normalizar esse valor!  
Conseguimos acessar o tamanho da imagem utilizando o img.shape. Em que retorna um vetor com três dimensões, sendo a primeira a altura, o segundo a largura e o terceiro os canais.  
Para transformar o valor de x de porcentagem para uma posição basta multiplicar a largura pelo valor de x! O mesmo para y, basta multiplicar pela altura da imagem!  

In [1]:
import cv2
import mediapipe as mp
import time

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)

mp_hands = mp.solutions.hands

# instanciando a classe
hands = mp_hands.Hands() # equivalente a mp.solutions.hands.Hands()

# Utilizando o drawing_utils para desenhar as mãos
mp_draw = mp.solutions.drawing_utils
DrawingSpec = mp.solutions.drawing_utils.DrawingSpec

tempo_anterior = 0
tempo_corrente = 0

while True:
    sucesso, img = cap.read()
    
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    results = hands.process(img_rgb)
    
    tempo_corrente = time.time()
    fps = 1 / (tempo_corrente - tempo_anterior)
    
    tempo_anterior = tempo_corrente
    
    h, w, c = img.shape # h: altura, w: largura, c: canais de cor
    
    if (results.multi_hand_landmarks):
        for hand_number, hand_landmark in enumerate(results.multi_hand_landmarks):
            for _id, landmark in enumerate(hand_landmark.landmark):
                cx, cy = int(landmark.x * w), int(landmark.y * h)
                print(hand_number, _id, cx, cy)
            
            mp_draw.draw_landmarks(
                img,
                hand_landmark,
                mp_hands.HAND_CONNECTIONS)
    
    cv2.putText(img, # Onde colocar
               str(int(fps)), # convertendo pra string o fps
                (10, 70), # posição na imagem
                cv2.FONT_HERSHEY_PLAIN, # a fonte
                3, # tamanho
                (255, 0, 255), # cor
                5 # grossura
               )
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)
    

0 0 334 345
0 1 321 349
0 2 308 345
0 3 296 339
0 4 286 334
0 5 301 312
0 6 282 304
0 7 276 309
0 8 276 312
0 9 298 307
0 10 276 304
0 11 276 317
0 12 281 323
0 13 296 308
0 14 275 307
0 15 277 319
0 16 284 325
0 17 296 312
0 18 282 310
0 19 282 318
0 20 287 322
0 0 380 358
0 1 350 351
0 2 325 326
0 3 311 303
0 4 299 282
0 5 343 287
0 6 334 256
0 7 326 241
0 8 317 229
0 9 363 283
0 10 359 249
0 11 350 231
0 12 342 217
0 13 381 286
0 14 381 257
0 15 371 240
0 16 361 227
0 17 398 297
0 18 400 277
0 19 396 264
0 20 390 253
0 0 386 359
0 1 356 352
0 2 333 327
0 3 321 305
0 4 307 286
0 5 357 286
0 6 348 257
0 7 339 240
0 8 329 225
0 9 374 282
0 10 370 248
0 11 363 227
0 12 354 209
0 13 391 284
0 14 390 251
0 15 383 231
0 16 373 214
0 17 407 293
0 18 409 266
0 19 405 247
0 20 398 231
0 0 391 362
0 1 359 353
0 2 337 326
0 3 325 302
0 4 311 283
0 5 364 287
0 6 356 257
0 7 349 239
0 8 342 224
0 9 383 283
0 10 380 247
0 11 375 225
0 12 369 206
0 13 400 286
0 14 399 251
0 15 394 230
0 16 387 212


KeyboardInterrupt: 

In [1]:
import cv2
import mediapipe as mp
import time

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)

mp_hands = mp.solutions.hands

# instanciando a classe
hands = mp_hands.Hands() # equivalente a mp.solutions.hands.Hands()

# Utilizando o drawing_utils para desenhar as mãos
mp_draw = mp.solutions.drawing_utils
DrawingSpec = mp.solutions.drawing_utils.DrawingSpec

tempo_anterior = 0
tempo_corrente = 0

while True:
    sucesso, img = cap.read()
    
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    results = hands.process(img_rgb)
    
    tempo_corrente = time.time()
    fps = 1 / (tempo_corrente - tempo_anterior)
    
    tempo_anterior = tempo_corrente
    
    h, w, c = img.shape # h: altura, w: largura, c: canais de cor
    
    if (results.multi_hand_landmarks):
        for hand_number, hand_landmark in enumerate(results.multi_hand_landmarks):
            for _id, landmark in enumerate(hand_landmark.landmark):
                cx, cy = int(landmark.x * w), int(landmark.y * h)
                print(hand_number, _id, cx, cy)
                if _id == 7:
                    cv2.circle(
                        img,
                        (cx, cy),
                        20, # tamanho
                        (255, 32, 78), # cor
                        cv2.FILLED # preenchido ou não
                    )
            
            mp_draw.draw_landmarks(
                img,
                hand_landmark,
                mp_hands.HAND_CONNECTIONS)
    
    cv2.putText(img, # Onde colocar
               str(int(fps)), # convertendo pra string o fps
                (10, 70), # posição na imagem
                cv2.FONT_HERSHEY_PLAIN, # a fonte
                3, # tamanho
                (255, 0, 255), # cor
                5 # grossura
               )
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)
    

0 0 345 461
0 1 310 456
0 2 280 440
0 3 260 424
0 4 250 406
0 5 298 399
0 6 294 368
0 7 289 360
0 8 286 363
0 9 318 395
0 10 317 361
0 11 314 353
0 12 312 351
0 13 339 399
0 14 337 368
0 15 334 370
0 16 332 377
0 17 358 407
0 18 361 381
0 19 360 375
0 20 358 375
0 0 360 457
0 1 319 446
0 2 292 419
0 3 276 397
0 4 263 373
0 5 316 389
0 6 307 357
0 7 300 332
0 8 294 310
0 9 335 392
0 10 331 356
0 11 328 332
0 12 326 311
0 13 355 402
0 14 354 371
0 15 351 348
0 16 350 329
0 17 371 418
0 18 373 399
0 19 374 382
0 20 373 366
0 0 366 413
0 1 329 403
0 2 306 375
0 3 294 350
0 4 284 328
0 5 330 333
0 6 325 292
0 7 316 284
0 8 312 293
0 9 355 331
0 10 356 285
0 11 351 273
0 12 349 278
0 13 378 337
0 14 380 291
0 15 377 278
0 16 377 278
0 17 397 348
0 18 400 311
0 19 395 298
0 20 390 297
1 0 370 448
1 1 324 425
1 2 301 393
1 3 289 368
1 4 279 343
1 5 331 368
1 6 332 338
1 7 333 313
1 8 333 291
1 9 348 372
1 10 351 340
1 11 351 314
1 12 352 291
1 13 364 381
1 14 369 352
1 15 368 328
1 16 368 308


KeyboardInterrupt: 

In [6]:
# Importar os módulos
import cv2
import mediapipe as mp
import time

class HandDetector:
    def __init__(
        self,
        mode: bool = False,
        max_num_hands: int = 2,
        min_detection_confidence: float = 0.5,
        min_tracking_confidence: float = 0.5):
        self.mode = mode
        self.max_num_hands = max_num_hands
        self.min_detection_confidence = min_detection_confidence
        self.min_tracking_confidence = min_tracking_confidence

        self.mp_hands = mp.solutions.hands
        self.hands = self.mp_hands.Hands(
            static_image_mode=self.mode,
            max_num_hands=self.max_num_hands,
            min_detection_confidence=self.min_detection_confidence,
            min_tracking_confidence=self.min_tracking_confidence
        )
        self.mp_draw = mp.solutions.drawing_utils

    def find_hands(self, img, draw_hand=True):
        img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
        self.results = self.hands.process(img_rgb)
        h, w, c = img.shape # h: altura, w: largura, c: canais de cor
        if (self.results.multi_hand_landmarks):
            for hand_number, hand_landmark in enumerate(self.results.multi_hand_landmarks):
                if draw_hand:
                    self.mp_draw.draw_landmarks(
                        img,
                        hand_landmark,
                        self.mp_hands.HAND_CONNECTIONS)

        return img

    def find_position(self, img, hand_number=0):
        h, w, c = img.shape # h: altura, w: largura, c: canais de cor

        resultado_landmark = []
        try:
            if (self.results.multi_hand_landmarks):
                chosen_hand = self.results.multi_hand_landmarks[hand_number]
                for _id, landmark in enumerate(chosen_hand.landmark):
                    cx, cy = int(landmark.x * w), int(landmark.y * h)
                    resultado_landmark.append([_id, cx, cy])
            return resultado_landmark
        except:
            return []


In [7]:
import cv2
import mediapipe as mp
import time

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)
tempo_anterior = 0
tempo_corrente = 0

while True:
    sucesso, img = cap.read()
    detector = HandDetector()
    img = detector.find_hands(img)
    mao0 = detector.find_position(img, 0)
    mao1 = detector.find_position(img, 1)
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)
    
    

mao0
[]
--------------------------------
mao1
[]
--------------------------------
mao0
[]
--------------------------------
mao1
[]
--------------------------------
mao0
[]
--------------------------------
mao1
[]
--------------------------------
mao0
[]
--------------------------------
mao1
[]
--------------------------------
mao0
[]
--------------------------------
mao1
[]
--------------------------------
mao0
[[0, 272, 397], [1, 285, 383], [2, 288, 366], [3, 282, 352], [4, 276, 343], [5, 293, 345], [6, 274, 326], [7, 264, 329], [8, 261, 336], [9, 285, 342], [10, 256, 332], [11, 248, 343], [12, 248, 353], [13, 273, 344], [14, 245, 339], [15, 238, 353], [16, 239, 365], [17, 259, 349], [18, 237, 347], [19, 230, 359], [20, 231, 370]]
--------------------------------
mao1
[]
--------------------------------
mao0
[[0, 269, 401], [1, 285, 383], [2, 287, 364], [3, 279, 349], [4, 271, 341], [5, 290, 343], [6, 274, 320], [7, 266, 319], [8, 263, 325], [9, 280, 341], [10, 251, 334], [11, 246, 34

KeyboardInterrupt: 

**Criando o nosso modulo**   
No nosso modulo, iremos criar uma classe.  
Essa classe deve ser capaz de detectar as mãos. Desenhar tanto os landmarks como as conecções (caso o usuario deseje).  
E seja capaz de retornar as posições de cada landmark. Esse passo é muito importante, pois permite manipular os resultados, como veremos daqui a pouco.

**Verificando se conseguimos utilizar o modulo**

In [None]:
import cv2
import mediapipe as mp
import time
from maos.handtracking import HandDetector

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)
tempo_anterior = 0
tempo_corrente = 0

while True:
    sucesso, img = cap.read()
    detector = HandDetector()
    img = detector.find_hands(img)
    mao0 = detector.find_position(img, 0)
    mao1 = detector.find_position(img, 1)
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)


**Muito bom nosso modulo funciona!**  

## Quanto dedos tenho levantado?

In [1]:
# 13

import cv2
import mediapipe as mp
import time
from maos.handtracking import HandDetector

largura_cam, altura_cam = (640, 480)

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)
cap.set(3, largura_cam)
cap.set(4, altura_cam)

tempo_anterior = 0
tempo_corrente = 0

while True:
    sucesso, img = cap.read()
    detector = HandDetector()
    img = detector.find_hands(img)
    marcacoes_list = detector.find_position(img, 0)
    if len(marcacoes_list) > 0:
        print(marcacoes_list)
    
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)


KeyboardInterrupt: 

In [1]:
import cv2
import mediapipe as mp
import time
from maos.handtracking import HandDetector

largura_cam, altura_cam = (640, 480)

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)
cap.set(3, largura_cam)
cap.set(4, altura_cam)

tempo_anterior = 0
tempo_corrente = 0

while True:
    sucesso, img = cap.read()
    detector = HandDetector()
    img = detector.find_hands(img)
    marcacoes_list = detector.find_position(img, 0)
    if len(marcacoes_list) > 0:
        print(marcacoes_list[4], marcacoes_list[8])
    
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)


[4, 223, 335] [8, 275, 258]
[4, 245, 315] [8, 289, 240]
[4, 258, 303] [8, 305, 228]
[4, 274, 292] [8, 316, 214]
[4, 278, 286] [8, 322, 207]
[4, 280, 284] [8, 325, 204]
[4, 281, 285] [8, 325, 206]
[4, 277, 288] [8, 323, 205]
[4, 274, 293] [8, 320, 207]
[4, 276, 293] [8, 319, 207]
[4, 275, 289] [8, 320, 209]
[4, 273, 295] [8, 318, 206]
[4, 273, 292] [8, 319, 209]
[4, 274, 293] [8, 318, 209]
[4, 271, 296] [8, 314, 212]
[4, 270, 298] [8, 314, 213]
[4, 268, 301] [8, 314, 215]
[4, 267, 307] [8, 313, 222]
[4, 257, 354] [8, 269, 293]


KeyboardInterrupt: 

In [1]:
import cv2
import mediapipe as mp
import time
from maos.handtracking import HandDetector

largura_cam, altura_cam = (640, 480)

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)
cap.set(3, largura_cam)
cap.set(4, altura_cam)

tempo_anterior = 0
tempo_corrente = 0

while True:
    sucesso, img = cap.read()
    detector = HandDetector()
    img = detector.find_hands(img)
    marcacoes_list = detector.find_position(img, 0)
    if len(marcacoes_list) > 0:
        _, x1, y1 = marcacoes_list[4]
        _, x2, y2 = marcacoes_list[8]
        print((x1, x2), (y1, y2))
    
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)


(180, 217) (297, 206)
(185, 220) (294, 197)
(192, 227) (285, 192)
(198, 233) (284, 195)
(201, 239) (287, 195)
(204, 243) (290, 199)
(206, 250) (286, 200)
(206, 250) (297, 208)
(205, 249) (298, 210)
(203, 247) (302, 214)
(201, 248) (303, 214)
(202, 249) (303, 214)
(203, 249) (307, 217)
(203, 249) (305, 218)
(204, 253) (303, 217)
(205, 252) (304, 217)
(205, 256) (306, 218)
(207, 256) (306, 218)
(207, 258) (309, 219)
(204, 259) (311, 223)
(200, 255) (314, 230)


KeyboardInterrupt: 

Nossas regras!  
1: se o index 8 (ponta do indicador) posição y for maior que o meio do indicador (posição 6) posição y ==> dedo levantado  

In [1]:
import cv2
import mediapipe as mp
import time
from maos.handtracking import HandDetector

largura_cam, altura_cam = (640, 480)

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)
cap.set(3, largura_cam)
cap.set(4, altura_cam)

tempo_anterior = 0
tempo_corrente = 0

while True:
    sucesso, img = cap.read()
    detector = HandDetector()
    img = detector.find_hands(img)
    marcacoes_list = detector.find_position(img, 0)
    if len(marcacoes_list) > 0:
        _, x1, y1 = marcacoes_list[8]
        _, x2, y2 = marcacoes_list[6]
#         y2 > y1 => medo está levantado
        if y1 < y2:
            print('dedo levantado')
        
    
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)


dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado
dedo levantado


KeyboardInterrupt: 

Podemos escrever diversos if's para cada dedo.  
Mas vamos utilizar a lógica nesse caso!  
https://google.github.io/mediapipe/solutions/hands.html#hand-landmark-model  
Olhando a documentação, percebemos que os indices:
- ponta do dedão: 4
- ponta do indicador: 8
- ponta dedo do meio: 12
- ponta do anelar: 16
- ponta do dedinho: 20

Podemos verificar então se a ponta do indicador é maior que o meio do dedo! (que é sempre o indice -2)!!!

In [1]:
import cv2
import mediapipe as mp
import time
from maos.handtracking import HandDetector

largura_cam, altura_cam = (640, 480)

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)
cap.set(3, largura_cam)
cap.set(4, altura_cam)

tempo_anterior = 0
tempo_corrente = 0

lista_dedos = [4, 8, 12, 16, 20]

while True:
    sucesso, img = cap.read()
    detector = HandDetector()
    img = detector.find_hands(img)
    marcacoes_list = detector.find_position(img, 0)
    total_dedos_levantados = 0
    if len(marcacoes_list) > 0:
        for id_dedo in lista_dedos:
            y_ponta_dedo = marcacoes_list[id_dedo][2]
            y_meio_dedo = marcacoes_list[id_dedo - 2][2]
            
            if y_ponta_dedo < y_meio_dedo:
                total_dedos_levantados += 1
            else:
                pass
    print(total_dedos_levantados)
        
    
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)


1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1


KeyboardInterrupt: 

**Um bug! A ponta do dedão sempre está contando, mesmo quando fechamos a mão!**  
Isso ocorre porque a ponta nunca está abaixo do ponto médio.


In [1]:
import cv2
import mediapipe as mp
import time
from maos.handtracking import HandDetector

largura_cam, altura_cam = (640, 480)

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)
cap.set(3, largura_cam)
cap.set(4, altura_cam)

tempo_anterior = 0
tempo_corrente = 0

lista_dedos = [4, 8, 12, 16, 20]

while True:
    sucesso, img = cap.read()
    detector = HandDetector()
    img = detector.find_hands(img)
    marcacoes_list = detector.find_position(img, 0)
    total_dedos_levantados = 0
    if len(marcacoes_list) > 0:
        for id_dedo in lista_dedos:
            if id_dedo == 4:  # Condição pro dedão! Comparamos a posição x da ponta do dedo (id:4) contra o x do meio do dedo (id:3)
                x_ponta_dedo = marcacoes_list[id_dedo][1]
                x_meio_dedo = marcacoes_list[id_dedo - 1][1]
                
                if x_ponta_dedo < x_meio_dedo:
                    total_dedos_levantados +=1
            else:
                y_ponta_dedo = marcacoes_list[id_dedo][2]
                y_meio_dedo = marcacoes_list[id_dedo - 2][2]

                if y_ponta_dedo < y_meio_dedo:
                    total_dedos_levantados += 1
    
    cv2.imshow("Imagem", img)
    cv2.waitKey(500)


0
0
0
0
0
0
0
0
3
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0


KeyboardInterrupt: 

**Adicionando a contagem**

In [None]:
import cv2
import mediapipe as mp
import time
from maos.handtracking import HandDetector

largura_cam, altura_cam = (640, 480)

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)
cap.set(3, largura_cam)
cap.set(4, altura_cam)

tempo_anterior = 0
tempo_corrente = 0

lista_dedos = [4, 8, 12, 16, 20]

while True:
    sucesso, img = cap.read()
    detector = HandDetector()
    img = detector.find_hands(img)
    marcacoes_list = detector.find_position(img, 0)
    total_dedos_levantados = 0
    if len(marcacoes_list) > 0:
        for id_dedo in lista_dedos:
            if id_dedo == 4:  # Condição pro dedão! Comparamos a posição x da ponta do dedo (id:4) contra o x do meio do dedo (id:3)
                x_ponta_dedo = marcacoes_list[id_dedo][1]
                x_meio_dedo = marcacoes_list[id_dedo - 1][1]
                
                if x_ponta_dedo < x_meio_dedo:
                    total_dedos_levantados +=1
            else:
                y_ponta_dedo = marcacoes_list[id_dedo][2]
                y_meio_dedo = marcacoes_list[id_dedo - 2][2]

                if y_ponta_dedo < y_meio_dedo:
                    total_dedos_levantados += 1
    
    cv2.imshow("Imagem", img)
    cv2.waitKey(500)


**Adicionando o número total na tela**

In [1]:
import cv2

In [2]:
!pip install opencv-python
!pip install mediapipe

Collecting opencv-python
[?25l  Downloading https://files.pythonhosted.org/packages/30/81/0baa771f44a0898ea9eaa7437f76d429608aee591d080cc521760b704bad/opencv_python-4.5.5.64-cp36-abi3-macosx_10_15_x86_64.whl (46.3MB)
[K     |████████████████████████████████| 46.3MB 13.6MB/s eta 0:00:01
Installing collected packages: opencv-python
Successfully installed opencv-python-4.5.5.64
You should consider upgrading via the 'pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [1]:
import cv2
import mediapipe as mp

class HandDetector:
    def __init__(
        self,
        mode: bool = False,
        max_num_hands: int = 2,
        min_detection_confidence: float = 0.5,
        min_tracking_confidence: float = 0.5):
        self.mode = mode
        self.max_num_hands = max_num_hands
        self.min_detection_confidence = min_detection_confidence
        self.min_tracking_confidence = min_tracking_confidence

        self.mp_hands = mp.solutions.hands
        self.hands = self.mp_hands.Hands(
            static_image_mode=self.mode,
            max_num_hands=self.max_num_hands,
            min_detection_confidence=self.min_detection_confidence,
            min_tracking_confidence=self.min_tracking_confidence
        )
        self.mp_draw = mp.solutions.drawing_utils

    def find_hands(self, img, draw_hand=True):
        img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
        self.results = self.hands.process(img_rgb)
        h, w, c = img.shape # h: altura, w: largura, c: canais de cor
        if (self.results.multi_hand_landmarks):
            for hand_number, hand_landmark in enumerate(self.results.multi_hand_landmarks):
                if draw_hand:
                    self.mp_draw.draw_landmarks(
                        img,
                        hand_landmark,
                        self.mp_hands.HAND_CONNECTIONS)

        return img

    def find_position(self, img, hand_number=0):
        h, w, c = img.shape # h: altura, w: largura, c: canais de cor

        resultado_landmark = []
        try:
            if (self.results.multi_hand_landmarks):
                chosen_hand = self.results.multi_hand_landmarks[hand_number]
                for _id, landmark in enumerate(chosen_hand.landmark):
                    cx, cy = int(landmark.x * w), int(landmark.y * h)
                    resultado_landmark.append([_id, cx, cy])
            return resultado_landmark
        except:
            return []



In [2]:
import cv2
import mediapipe as mp
import time

largura_cam, altura_cam = (640, 480)

cap = cv2.VideoCapture(0) # Mudar o número para corresponder a camera (em geral é 0 ou 1, mas pode ser outro inteiro)
cap.set(3, largura_cam)
cap.set(4, altura_cam)

tempo_anterior = 0
tempo_corrente = 0

lista_dedos = [4, 8, 12, 16, 20]

while True:
    sucesso, img = cap.read()
    detector = HandDetector()
    img = detector.find_hands(img)
    marcacoes_list = detector.find_position(img, 0)
    total_dedos_levantados = 0
    if len(marcacoes_list) > 0:
        for id_dedo in lista_dedos:
            if id_dedo == 4:  # Condição pro dedão! Comparamos a posição x da ponta do dedo (id:4) contra o x do meio do dedo (id:3)
                x_ponta_dedo = marcacoes_list[id_dedo][1]
                x_meio_dedo = marcacoes_list[id_dedo - 1][1]
                
                if x_ponta_dedo < x_meio_dedo:
                    total_dedos_levantados +=1
            else:
                y_ponta_dedo = marcacoes_list[id_dedo][2]
                y_meio_dedo = marcacoes_list[id_dedo - 2][2]

                if y_ponta_dedo < y_meio_dedo:
                    total_dedos_levantados += 1
                    
    cv2.rectangle(img,
                 (20, 70), # inicio do retangulo
                 (170, 250), # fim
                  (255, 255, 255), # cor
                  cv2.FILLED
                 )
    cv2.putText(img,
               str(total_dedos_levantados),
                (43, 210),
                cv2.FONT_HERSHEY_PLAIN,
                10,
                (255, 0, 0),
                5
               )
    
    cv2.imshow("Imagem", img)
    cv2.waitKey(1)


KeyboardInterrupt: 