# TP2 - Introdução à Computação Visual
### Aluno: Evandro Lucas Figueiredo Teixeira

In [1]:
import random
import math
import sys
import math
import numpy as np
import cv2
import pygame
from pygame.locals import *
from OpenGL.GL import *
from OpenGL.GLU import *
from camera import Camera # Biblioteca auxiliar para configurar o lookAt
from coord import Coord # Biblioteca auxiliar para compactar a representação de coordenadas
from objloader import * # Biblioteca auxiliar para carregar um objeto mtl em opengl

pygame 2.0.1 (SDL 2.0.14, Python 3.8.3)
Hello from the pygame community. https://www.pygame.org/contribute.html


ModuleNotFoundError: No module named 'camera'

## Instruções de execução

É importante notar que este documento tem a finalidade acadêmica de demonstração dos métodos relevantes para a renderização da frame de vídeo, detecção dos alvos, aplicação das transformações do Pikachu. Duas bibliotecas feitas por mim, `camera.py` e `coord.py`, são importadas neste documento, pois são métodos relativos à abstração de coordenadas e posicionamento da câmera, o que não é o foco deste TP. O código fonte destes dois métodos poderia ser copiado e colado aqui, mas são muitas linhas, o que comprometeria a estética do documento. 

Além dos dois arquivos, inclusos no envio, é necessário que tanto o arquivo `alvo.jpg` quanto os arquivos contidos em `pikach_obj.zip` estejam presentes e descompactados no mesmo diretório deste ipynb. Além disso, o comando `jupyter notebook` ou `jupyter lab` deve ser executado neste diretório, caso contrário o ambiente não irá reconhecer os três arquivos importados (`camera.py`,`coord.py` e `objloader.py`). 

## Buscando pelo alvo na imagem

Abaixo, a classe `TargetSearcher` é responsável por realizar a busca do alvo na imagem. 
O processo de busca do alvo acontece em etapas: 
- Tanto o alvo como a imagem são convertidos em imagens binárias, isso é, onde os pixels são absolutamente pretos ou absolutamente brancos. Podemos fazer isso pois temos certeza de que o alvo que buscamos será preservado na imagem, pois ele é preto e branco. Isso também nos ajuda a ganhar desempenho. 
- À partir da imagem binária, procuramos por contornos. Isso é feito através dos métodos `cv2.Canny()` e `cv2.findContours()`. 
- Cada contorno será análisado. Se o contorno for um quadrilátero, realizaremos a transformação perspectiva sobre a imagem contida no quadrilátero de forma que ela seja transformada em um quadrado. Contornos que possuírem pontos próximos aos de contornos já classificados como alvos serão descartados, evitando duplicatas.
- Este quadrado é então redimensionado e comparado ao alvo (que também é quadrado e binário). A similaridade é calculada através do método `cv2.matchTemplate()`. Caso o quadrilátero esteja em uma posição próxima à de outro quadrilátero encontrado em uma frame anterior, o threshhold da similaridade é reduzido. 
- Note que o quadrilátero será comparado em todas as suas 4 possíveis orientações, sendo a de maior similaridade a orientação selecionada. 
- Por fim, são retornados tuplas contendo os contornos e suas correspondentes orientações.

Note que temos uma classe ao invés de um método. Fazemos isso para economizar recursos, persistindo na classe dados que não devem ser re-calculados, como o alvo (e suas transformações) e os últimos 100 pontos encontrados (para descontar no threshold).


In [None]:
class TargetSearcher:
    
    def __init__(self, target_filename):
        
        self.target_already_adjusted = False
        self.target_filename = target_filename
        self.saved_warps = 0

    def setup_target(self,img_width,img_height):

        max_dim = max(img_width,img_height)

        # Target image dimensions
        self.target_size = round((max_dim / 6)/10)*5
        
        # Parsing target image : loading, resizing it and converting it to binary/black and white
        self.target = cv2.imread(self.target_filename)
        self.target = cv2.cvtColor(self.target, cv2.COLOR_BGR2GRAY)
        self.target = cv2.resize(self.target, (self.target_size, self.target_size), interpolation = cv2.INTER_AREA)
        _, self.target = cv2.threshold(self.target, 128, 255, cv2.THRESH_BINARY)

        self.last_points=[]
        self.target_already_adjusted = True

    def quads_are_similar(self,quad1,quad2,threshold):
            for c1 in quad1: # mc is a coordinate
                for c2 in quad2: # cn is also a coordinate
                    if (abs(c2[0] - c1[0]) < threshold) or (abs(c2[1] - c1[1]) < threshold):
                        return True
    
    def search(self, frame):

        ori = [[0,1,2,3],[3,0,1,2],[2,3,0,1],[1,2,3,0]]

        # Parsing frame : Converting to black and white so we can detect the edges faster
        img = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
        _, img = cv2.threshold(img, 128, 255, cv2.THRESH_BINARY)

        if not self.target_already_adjusted:
            self.setup_target(img.shape[:2][1],img.shape[:2][0])

        # Getting the edged version of the frame after applying the Canny algorithm 
        edged = cv2.Canny(img, 100, 200)
        # Getting the countours. Each countor is a list of touples defining the boundary points.
        countours, _ = cv2.findContours(edged, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)

        matches = []
        for c in countours:
            # Finding the aproximated shape of this countour
            # We'll use a constant value for epsilon since it is to costly to run
            approx = cv2.approxPolyDP(c, 15, True)
            # If the lenght of the aproximated shape is 4, it means that we' may have found a quadrilateral, 
            # Which is ideal for the situation
            
            if len(approx) == 4:
                approx = approx[0:4]
                target_vertices = np.array([[0, 0], [0, self.target_size], [self.target_size, self.target_size], [self.target_size, 0]], dtype="float32")

                # Transforming the shape in a list of corner coordinates, since it is a quadrilateral
                corners = np.around(np.array(approx.reshape(4,2), dtype="float32"),1)

                # Discarding duplicates
                found_similar_coord = False
                for m in matches: # m[0] is a list of of corner coordinates
                    if self.quads_are_similar(corners,m[0],5):
                        found_similar_coord = True
                        break
                if found_similar_coord:
                    continue
                
                # For each possible rotation we'll see if it matches, so : 
                # Initializing auxiliar variables
                found_rot = False
                best_ori = None
                best_avg = None
                best_corners = None
                last_best_simm = 0
                for i in range(4):
                    # We get the perspectiveTranformation matrix, with: 
                    #   corners being the "source" points. 
                    #   target_vertices being the mapping of the corners to the new image
                    # After warping it, everything inside the image wil be "stretched" to fit 
                    # into the box defined by target_vertices
                    # It may as well rotate it, depending on the order of those vertices
                    tvo = target_vertices.copy()
                    matrix = cv2.getPerspectiveTransform(corners, tvo[ori[i]])
                    warped = cv2.warpPerspective(img, matrix, (self.target_size, self.target_size))
                    # With this, we already have an image that we can compare to our target
                    # We'll make it binary (black and white, not grayscale) : 
                    _, bw_img = cv2.threshold(warped, 128, 255, cv2.THRESH_BINARY)
                    # Now we compare it to the rotated target
                    simm = round(float(cv2.matchTemplate(bw_img,self.target,cv2.TM_CCOEFF_NORMED)[0][0]),4)

                    threshhold = 0.6
                    # We them will favor more those target who were found in a 
                    # similar position to previous targets
                    col_sum = np.sum(corners, axis=0)
                    avg = np.array([col_sum[0]/4,col_sum[1]/4])
                    tolerance = 0
                    if simm < threshhold and tolerance > 0:
                        for lp in self.last_points:
                            dist = abs(np.linalg.norm(avg-lp))
                            if dist < 10: 
                                tolerance = threshhold/1.9
                                break
    
                    if (simm >= (threshhold - tolerance)):
                        if simm > last_best_simm:
                            best_corners = corners
                            best_ori = ori[i].copy()
                            best_avg = avg
                            found_rot = True
                            last_best_simm = simm

                if found_rot:
                    matches.append((best_corners, list(best_ori)))
                    if len(self.last_points) > 100 :
                        self.last_points.pop(-1)
                    self.last_points.insert(random.randint(0,len(self.last_points)),best_avg)
        
        # If no target match was found, we decrease one point from the memory
        # We do this to avoid persisting old positions and alowing a threshold discount for non-target objects 
        if len(matches) == 0 :
            if len(self.last_points) > 0 :
                self.last_points.pop(-1)

        return matches

Abaixo extraímos a matriz de rotação/translação correspondente ao alvo encontrado na imagem, que se encontra como um quadrilátero. O OpenCV já nos fornece todos os métodos que precisamos para gerar a matriz, o importante é repassarmos ao método os parâmetros intrínsecos da image, como a matrix da câmera e os coeficientes de distorção. Também utilizamos o vetor de orientação para rotacionar o modelo a ser transformado. 

In [None]:
def get_matrix(rect, index, camera_matrix, camera_dist):
    # We'll change the index since the frame is rotate in 90 degrees
    corners = np.array(rect, dtype="float32")
    orientation = np.array([[-1, -1, 1], [ 1, -1, 1], [ 1,  1, 1], [-1,  1, 1]], dtype="float32")[index]
    _, rotation_vector, transf_vector = cv2.solvePnP(orientation, corners, camera_matrix, camera_dist)
    # Convertendo o vetor de rotação em uma matriz
    rotation_matrix, _ = cv2.Rodrigues(rotation_vector)
    final_mat = np.array([
        [ rotation_matrix[0][0],  rotation_matrix[0][1],  rotation_matrix[0][2],  transf_vector[0]], 
        [-rotation_matrix[1][0], -rotation_matrix[1][1], -rotation_matrix[1][2], -transf_vector[1]], 
        [-rotation_matrix[2][0], -rotation_matrix[2][1], -rotation_matrix[2][2], -transf_vector[2]],  
        [                   0.0,                    0.0,                    0.0,               1.0]]
    )
    return np.transpose(final_mat)

Exibir o vídeo em openGL é bem simples. Uma vez extraída a imagem (frame) do vídeo, aplicaremos esta imagem a um retângulo de mesma dimensão como uma textura. 

In [None]:
def draw_rect_with_tex(texture, scale = 1):
    texture_string = pygame.image.tostring(texture, "RGBA", 1)
    glEnable(GL_TEXTURE_2D)
    glBindTexture(GL_TEXTURE_2D, glGenTextures(1))
    glTexImage2D(GL_TEXTURE_2D, 0, GL_RGB, texture.get_width(), texture.get_height(), 0, GL_RGBA, GL_UNSIGNED_BYTE, texture_string)
    glTexParameterf(GL_TEXTURE_2D, GL_TEXTURE_WRAP_S    , GL_REPEAT)
    glTexParameterf(GL_TEXTURE_2D, GL_TEXTURE_WRAP_T    , GL_REPEAT)
    glTexParameterf(GL_TEXTURE_2D, GL_TEXTURE_MAG_FILTER, GL_NEAREST)
    glTexParameterf(GL_TEXTURE_2D, GL_TEXTURE_MIN_FILTER, GL_NEAREST)
    glBegin(GL_QUADS)
    glTexCoord2f(0.0, 0.0); glVertex3f( 0, 0, 0)
    glTexCoord2f(1.0, 0.0); glVertex3f( texture.get_width()*scale, 0, 0)
    glTexCoord2f(1.0, 1.0); glVertex3f( texture.get_width()*scale, texture.get_height()*scale, 0)
    glTexCoord2f(0.0, 1.0); glVertex3f( 0, texture.get_height()*scale, 0)
    glEnd()
    glDisable(GL_TEXTURE_2D)

Por motivos de desenvolvimento, optei por trabalhar com coordenadas reduzidas no opengl. O método abaixo converte um par de coordenadas do vídeo (pixels) em posições no plano de exibição das frames. 

In [None]:
def world_to_video_coord(coord, width, height,scale = 1):
    x = coord.x * scale
    y = ((coord.y * (-1)) + height) * scale
    z = coord.z
    return Coord(x,y,z)

Abaixo, temos a exibição do pikachu e do cubo. Ambos os métodos utilizam uma matriz de transformação `m`, responsável por transladar e transformar o objeto a ser desenhado. O método que exibe o pikachu recebe um parâmetro `obj`, que corresponde ao modelo do pikachu já carregado na memória. Fazemos isso para evitar de carregar o mesmo exato modelo em cada frame, o que é importantíssimo para se ter um desempenho decente. 
Também é importante notar que o DEPTH_TEST é manipulado durante a gerações destes objetos, de forma que: 
- O objeto sempre se mantenha na frente do frame do vídeo
- Os polígonos do objeto não sejam exibidos com a profundidade invertida

In [None]:
def show_pikachu(obj,m):
    glDepthMask(GL_TRUE)
    glEnable(GL_DEPTH_TEST)
    glLoadMatrixd(m)
    glScalef(0.7,0.7,0.7)
    glCallList(obj.gl_list)
    glDisable(GL_DEPTH_TEST)
    
def show_cube(m):
    glDepthMask(GL_TRUE)
    glEnable(GL_DEPTH_TEST)
    glLoadMatrixd(m)
    vertices = [(1, -1, 0),(1, 1, 0),(-1, 1, 0),(-1, -1, 0),(1, -1, 2),(1, 1, 2),(-1, -1, 2),(-1, 1, 2)]
    edges = [(0,1),(0,3),(0,4),(2,1),(2,3),(2,7),(6,3),(6,4),(6,7),(5,1),(5,4),(5,7)]
    glBegin(GL_LINES)
    glColor3f(1, 0, 0)
    for vs in edges:
        for v in vs:
            glVertex3fv(vertices[v])
    glColor3f(1, 1, 1)
    glEnd()
    glDisable(GL_DEPTH_TEST)

O método principal consiste em vários estágios: 
- Configuramos dados relativos à janela de exibição do PyGame/OpenGL, como escala e dimensões
- Configuramos a projeção e o FOV
- Salvamos os parâmetros intrínsecos da câmera, extraídos através do calib_gui, via Matlab. 
- Posicionamos a câmera do OpenGL logo acima do ponto médio da frame, ajustado para a janela de exibição
- Inicializamos o vídeo, o objeto do Pikachu, e o buscador do alvo.
- No loop principal: 
    - Reposicionamos a câmera para observar o cenário logo acima do vídeo
    - Reproduzimos uma frame do vídeo
    - Extraímos os alvos encontrados utilizando o método `search` visto acima
    - Se não encontrarmos alvo algum, repetimos o último alvo encontrado por até 5 frames (reduz o efeito do modelo "piscando")
    - Exibimos os modelos (cubo ou pikachu) de acordo com as coordenadas do alvo e com os parâmetros intrínsecos da câmera
    

In [None]:
def main(obj_name):

    video_path = "entrada.mp4"
    # Setting up the window dimensions according to video
    video = cv2.VideoCapture(video_path)
    hasFrame, frame = video.read()
    video_h,video_w = frame.shape[:2]
    video_scale_in_world =  0.01

    screen_scale = 1.3
    display = (math.ceil(video_w*screen_scale),math.ceil(video_h*screen_scale))
    
    print ("Display: " + str(display))

    pygame.init()
    pygame.display.set_mode(display,DOUBLEBUF|OPENGL)
    pygame.mouse.set_visible(True)
    glEnable(GL_DEPTH_TEST)
    glMatrixMode(GL_PROJECTION)
    gluPerspective(47, display[0]/display[1], 0.1, 100)
    glMatrixMode(GL_MODELVIEW)

    # Camera intrinsic parameters
    fx, fy = 509.40514, 510.89524
    cx, cy = 320.04523, 250.21829
    camera_matrix = np.array([
        [fx, 0, cx], 
        [0, fy, cy], 
        [0,  0,  1]
    ])
    camera_dist = np.array([0.01027, 0.31924, -0.00040, 0.00033, 0.00000 ])


    cam_x = (video_w/2)*video_scale_in_world
    cam_y = (video_h/2)*video_scale_in_world
    camera = Camera( (cam_x,cam_y,(5.5/640)*max(video_h,video_w)) , (cam_x,cam_y+0.001,0) , (0,0,1))
    camera.lock()
    
    if obj_name == "pikachu":
        pikachu_obj = OBJ("Pikachu.obj", swapyz=True)
    video = cv2.VideoCapture(video_path)
    target_searcher = TargetSearcher("alvo.jpg")

    last_matches = []
    last_matches_count = 0
    last_matches_max = 5

    keepRunning = True
    while keepRunning:

        pygame.display.flip()
        pygame.time.wait(1)
        pygame.event.pump()

        glMatrixMode(GL_MODELVIEW)
        glPushMatrix()
        
        # Background Color is set to black
        glClearColor(0,0,0,0.1)
        glClear(GL_COLOR_BUFFER_BIT | GL_DEPTH_BUFFER_BIT)

        # Camera control
        camera.control(speed = 0.2)

        # Reading one frame for the video
        # If the video ends, we'll play it again
        hasFrame, frame = video.read()
        if not hasFrame: 
            video = cv2.VideoCapture(video_path)
            hasFrame, frame = video.read()
        
        frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
        cv2_image_to_pygame = pygame.image.frombuffer(frame.tostring(), frame.shape[1::-1],"RGB")
        draw_rect_with_tex(cv2_image_to_pygame, scale = video_scale_in_world)
    
        matches = target_searcher.search(frame)

        # Re-using previous matches if no match is found
        # Reduces flickering
        if len(matches) == 0 and last_matches_count > 0:
            matches = last_matches
            last_matches_count-=1
        else:
            last_matches = matches
            last_matches_count=last_matches_max

        # Drawing a pikachu for each match found
        for m in matches:
            corners = m[0]
            orientation = m[1]
            matrix = get_matrix(corners, orientation, camera_matrix, camera_dist)
            if obj_name == "pikachu":
                show_pikachu(pikachu_obj,matrix)
            else:
                show_cube(matrix)
        
        glPopMatrix()
        
        for event in pygame.event.get():
            if event.type == pygame.QUIT:
                pygame.quit()
                keepRunning = False
                

O código abaixo irá renderizar o Pikachu sobre os alvos

In [None]:
#  main("pikachu")

O código abaixo irá renderizar o cubo sobre os alvos (está comentado para que seja possível executar todo o notebook de uma vez)

In [None]:
main("cube")