# Curso de Visão Computacional

## Aula 1 - Entendendo o problema

### Preparando o ambiente

Para o curso de visão computacional, vamos utilizar a biblioteca OpenCV e a interface pytesseract, que interage com o Tesseract da Google. Para instalar o OpenCV, basta executar o comando abaixo:

```bash
pip install opencv-python
```
Para instalar o pytesseract, basta executar o comando abaixo:

```bash
pip install pytesseract
```


### Exemplo de uso

Vamos utilizar o pytesseract para extrair o texto de uma imagem. Para isso, vamos utilizar a imagem abaixo:

![Trecho do livro "The Witcher"](imagens/trecho_livro.png)

In [None]:
# Importando as bibliotecas necessárias
import os

import cv2
import matplotlib.pyplot as plt
import numpy as np
import pytesseract
import seaborn as sns


In [None]:
# Carregando a imagem
image_file_path = os.getcwd() + '/imagens/trecho_livro.png'
image = cv2.imread(image_file_path)
# Exibindo a imagem
# cv2.imshow('image', image)
# cv2.waitKey(0)
# cv2.destroyAllWindows()

image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
plt.imshow(image)
plt.axis('off')  # It helps when Turn off axes to remove the axis ticks and labels
plt.show()

In [None]:
# from google.colab.patches import cv2_imshow
# 
# cv2_imshow(image)

Com o Tesseract é possível extrair o texto da imagem. Para isso, vamos utilizar o método `image_to_string` do pytesseract. O código abaixo extrai o texto da imagem e imprime na tela.

In [None]:
texto = pytesseract.image_to_string(image)
print(texto)

Através do output acima podemos perceber que o Tesseract não extraiu de maneira tão eficiente o texto da imagem. Para melhorarmos a sua eficiência podemos passar alguns parâmetros para o método `image_to_string`:

1. `tessdata-dir`: Diretório onde estão os arquivos de treinamento do Tesseract.
2. `psm`: Modo de segmentação de página. O valor 6 é utilizado para segmentação de bloco de texto.

In [None]:
tesseract_config = "--tessdata-dir tessdata --psm 6"

texto = pytesseract.image_to_string(image, config=tesseract_config, lang="por")
print(texto)

### Trabalhando com placas de veículos

Vamos utilizar o pytesseract para extrair o texto de uma placa de veículo. Para isso, vamos utilizar a imagem abaixo:

![Placa de veículo](imagens/placa_carro1.png)

In [None]:
# Lendo a imagem
image_file_path = os.getcwd() + '/imagens/placa_carro1.png'
image = cv2.imread(image_file_path)

# Exibindo a imagem
# cv2.imshow('image', image)
# cv2.waitKey(0)
# cv2.destroyAllWindows()

image_rgb = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
plt.imshow(image_rgb)
plt.axis('off')  # It helps when Turn off axes to remove the axis ticks and labels
plt.show()

Antes de extrairmos o texto da imagem, precisamos realizar algumas operações de pré-processamento. Primeiramente, vamos converter a imagem para escala de cinza:

In [None]:
# Convertendo a imagem para escala de cinza
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
cv2.imwrite('imagens/outputs/gray_image.png', gray_image)

# Exibindo a imagem em escala de cinza
# cv2.imshow('gray_image', gray_image)
# cv2.waitKey(0)
# cv2.destroyAllWindows()

gray_image_rgb = cv2.cvtColor(gray_image, cv2.COLOR_BGR2RGB)
plt.imshow(gray_image_rgb)
plt.axis('off')  # It helps when Turn off axes to remove the axis ticks and labels
plt.show()

In [None]:
tesseract_config = "--tessdata-dir tessdata"
texto = pytesseract.image_to_string(gray_image, config=tesseract_config, lang="por")

print(texto)

## Limiarização

Ao rodarmos a célula acima percebemos que o Tesseract não conseguiu extrair o texto da placa de veículo, ainda que a imagem esteja em escala de cinza. Vamos aplicar a limiarização na imagem para melhorar a extração do texto através do método `cv2.threshold`:

In [None]:
# Aplicando a limiarização
_, threshold_image = cv2.threshold(gray_image, 127, 255, cv2.THRESH_BINARY)
cv2.imwrite('imagens/outputs/threshold_image.png', threshold_image)
# Exibindo a imagem limiarizada
# cv2.imshow('threshold_image', threshold_image)
# cv2.waitKey(0)
# cv2.destroyAllWindows()

threshold_image = cv2.cvtColor(threshold_image, cv2.COLOR_BGR2RGB)
plt.imshow(threshold_image)
plt.axis('off')  # It helps when Turn off axes to remove the axis ticks and labels
plt.show()

Existem outros tipos de limiarização, tais como o a Limiarização Adaptativa e a Limiarização de Otsu. Vamos ver cada uma delas:

### Limiarização Adaptativa

Este tipo de limiarização é utilizado quando a imagem possui iluminação variável. A limiarização adaptativa calcula o limiar para pequenas regiões da imagem. Para isso, vamos utilizar o método `cv2.adaptiveThreshold` com dois tipos diferentes de cálculo do limiar: `cv2.ADAPTIVE_THRESH_MEAN_C` e `cv2.ADAPTIVE_THRESH_GAUSSIAN_C`.

In [None]:
lim_adapt_mean = cv2.adaptiveThreshold(gray_image, 255, cv2.ADAPTIVE_THRESH_MEAN_C, cv2.THRESH_BINARY, 11, 8)
cv2.imwrite('imagens/outputs/lim_adapt_mean.png', lim_adapt_mean)

lim_adapt_mean_rgb = cv2.cvtColor(lim_adapt_mean, cv2.COLOR_BGR2RGB)
plt.imshow(lim_adapt_mean_rgb)
plt.axis('off')  # It helps when Turn off axes to remove the axis ticks and labels
plt.show()

In [None]:
lim_adapt_gaussian = cv2.adaptiveThreshold(gray_image, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 8)
cv2.imwrite('imagens/outputs/lim_adapt_gaussian.png', lim_adapt_gaussian)

lim_adapt_gaussian_rgb = cv2.cvtColor(lim_adapt_gaussian, cv2.COLOR_BGR2RGB)

plt.imshow(lim_adapt_gaussian_rgb)
plt.axis('off')  # It helps when Turn off axes to remove the axis ticks and labels
plt.show()

### Limiarização de Otsu

A limiarização de Otsu utiliza um algoritmo que calcula o limiar ótimo para a imagem ao analisar o histograma da intensidade dos pixels da imagem. Para isso, vamos utilizar o método `cv2.threshold` com o tipo `cv2.THRESH_OTSU`.

In [None]:
image

In [None]:
ax = sns.histplot(image.flatten())
ax.figure.set_size_inches(10, 6)

In [None]:
lim, lim_otsu = cv2.threshold(gray_image, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)

cv2.imwrite('imagens/outputs/lim_otsu.png', lim_otsu)

print(f"Limiar de Otsu: {lim}")

## Transformações Morfológicas

As transformações morfológicas são operações que processam a forma de uma imagem. Normalmente, são aplicadas em imagens binárias. As operações mais comuns são a erosão e a dilatação.

- **Erosão**: A operação de erosão remove pixels da borda dos objetos na imagem. O kernel desliza pela imagem (da esquerda para a direita e de cima para baixo). Um pixel na imagem binária é definido como 1 se todos os pixels sob o kernel forem 1, caso contrário, ele é erodido (definido como 0).
- **Dilatação**: A operação de dilatação faz o oposto da erosão. O kernel desliza pela imagem. Um pixel na imagem binária é definido como 1 se pelo menos um pixel sob o kernel for 1.

In [None]:
# Definindo um kernel para utilizar nas transformações

kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (5, 5))

In [None]:
erosion = cv2.erode(lim_otsu, kernel)
cv2.imwrite('imagens/outputs/erosion.png', erosion)

In [None]:
dilation = cv2.dilate(lim_otsu, kernel)
cv2.imwrite('imagens/outputs/dilation.png', dilation)

A partir da erosão e dilatação, podemos realizar outras operações morfológicas, tais como a abertura e o fechamento.

- **Abertura**: A operação de abertura é útil para remover ruídos brancos. Consiste em aplicar a erosão seguida da dilatação.
- **Fechamento**: A operação de fechamento é útil para remover ruídos pretos. Consiste em aplicar a dilatação seguida da erosão.

In [None]:
abertura = cv2.morphologyEx(lim_otsu, cv2.MORPH_OPEN, kernel)
cv2.imwrite('imagens/outputs/abertura.png', abertura)

In [None]:
fechamento = cv2.morphologyEx(lim_otsu, cv2.MORPH_CLOSE, kernel)
cv2.imwrite('imagens/outputs/fechamento.png', fechamento)

Por último vamos falar sobre as transformações top hat, black hat e gradient.

- **Top Hat**: A transformação top hat é a diferença entre a imagem original e a imagem aberta. Utilizada para realçar detalhes claros.
- **Black Hat**: A transformação black hat é a diferença entre a imagem fechada e a imagem original. Utilizada para realçar detalhes escuros.
- **Gradient**: A transformação gradient é a diferença entre a dilatação e a erosão da imagem. Utilizada para realçar bordas.

In [None]:
top_hat = cv2.morphologyEx(lim_otsu, cv2.MORPH_TOPHAT, kernel)
cv2.imwrite('imagens/outputs/top_hat.png', top_hat)

In [None]:
black_hat = cv2.morphologyEx(lim_otsu, cv2.MORPH_BLACKHAT, kernel)
cv2.imwrite('imagens/outputs/black_hat.png', black_hat)

In [None]:
gradient = cv2.morphologyEx(lim_otsu, cv2.MORPH_GRADIENT, kernel)
cv2.imwrite('imagens/outputs/gradient.png', gradient)

In [None]:
## Rodando o tesseract na imagem após a erosão (melhor resultado)
tesseract_config = "--tessdata-dir tessdata --psm 6"

texto = pytesseract.image_to_string(erosion, config=tesseract_config, lang="por")

print(texto)

O resultado acima mostra que a operação de erosão melhorou a extração do texto da placa de veículo, ainda que não tenha sido perfeito.

## Detecção da Placa

Para melhorarmos a detecção do texto dentro da placa do veículo vamos tentar recuperar apenas a região da placa, de maneira a reduzir a quantidade de informação que não nos interessa. Para isso, vamos utilizar o método `cv2.findContours` para encontrar os contornos da imagem e o método `cv2.Canny` para encontrar as bordas da imagem.

In [None]:
canny_image = cv2.Canny(gray_image, 100, 200)
cv2.imwrite('imagens/outputs/canny_image.png', canny_image)

In [None]:
contours, _ = cv2.findContours(canny_image, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)

contours

### Localização da Placa

Analisando a imagem que mostra apenas os contornos podemos observar que os contornos da placa do veículo não são totalmente contínuos, então faremos uso do método `cv2.approxPolyDP` para aproximar os contornos da placa do veículo, de maneira a obter um contorno que seja retangular.

In [None]:
for contour in contours:
    episilon = 0.02 * cv2.arcLength(contour, True)
    approx = cv2.approxPolyDP(contour, episilon, True)

    if len(approx) == 4 and cv2.isContourConvex(approx):
        loc = approx
        break

loc

In [None]:
# Extraindo o ponto x e y, altura e largura da placa

x, y, w, h = cv2.boundingRect(loc)

In [None]:
placa = gray_image[y:y + h, x:x + w]
cv2.imwrite('imagens/outputs/placa.png', placa)

Agora que temos a imagem apenas da placa, podemos aplicar os conceitos vistos anteriormente para extrairmos o texto da placa da maneira mais eficiente possível.

In [None]:
# Aplicando a limiarização Otsu na placa
_, otsu_placa = cv2.threshold(placa, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)

# Definição do kernel para a erosão
kernel_placa = cv2.getStructuringElement(cv2.MORPH_RECT, (4, 4))
erode_placa = cv2.erode(otsu_placa, kernel_placa)

cv2.imwrite('imagens/outputs/erode_placa.png', erode_placa)

In [None]:
# Rodando o tesseract na imagem erodida da placa

tesseract_config = "--tessdata-dir tessdata --psm 6"

texto = pytesseract.image_to_string(erode_placa, config=tesseract_config, lang="por")
print(texto)

A saída acima possui um caracter indesejado no começo do output. Vamos utilizar uma expressão regular para remover esse caracter, visto que todas as placas de veículos possuem o mesmo padrão de caracteres.

In [None]:
import re

texto_extraido = re.search('\w{3}\d{1}\w{1}\d{2}', texto)
print(texto_extraido.group(0))

## Reconhecimento automatizado

A utilização da detecção de bordas de Canny pode não ser a melhor abordagem sempre. Neste exemplo usaremos o black hat para encontrarmos a posição da placa na imagem.

In [None]:
# Lendo uma nova imagem
image_file_path = os.getcwd() + '/imagens/placa_carro3.jpg'

image = cv2.imread(image_file_path)
image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

In [None]:
# Definindo um kernel para a transformação black hat

kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (40, 13))  # 40, 13 é o tamanho da placa

black_hat = cv2.morphologyEx(image, cv2.MORPH_BLACKHAT, kernel)

cv2.imwrite('imagens/outputs/black_hat_placa3.png', black_hat)

In [None]:
# Aplicando o sobel na direção x da imagem

sobel_x = cv2.Sobel(black_hat, ddepth=cv2.CV_32F, dx=1, dy=0, ksize=1)
sobel_x = np.absolute(sobel_x)
sobel_x = sobel_x.astype('uint8')

cv2.imwrite('imagens/outputs/sobel_x_placa3.png', sobel_x)

### Máscara

Agora que temos a imagem com o sobel aplicado na direção x, vamos criar uma máscara para realçar a região da placa. O primeiro passo é aplicarmos um efeito de desfoque na imagem gerada pelo Sobel a fim de reduzir alguns ruídos.

In [None]:
sobel_x = cv2.GaussianBlur(sobel_x, (5, 5), 0)
sobel_x = cv2.morphologyEx(sobel_x, cv2.MORPH_CLOSE, kernel)
cv2.imwrite('imagens/outputs/sobel_x_blur_placa3.png', sobel_x)

In [None]:
# Aplicando a limiarização de Otsu na imagem
_, otsu_placa3 = cv2.threshold(sobel_x, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
cv2.imwrite("imagens/outputs/otsu_placa3.png", otsu_placa3)

Podemos perceber que a limiarização de Otsu deixou evidente um retângulo majoritariamente, oq pode ser um forte indicativo de ser a placa do veículo. A seguir precisamos remover alguns ruídos que foram gerados a partir da limiarização.

In [None]:
# Definição do kernel para a erosão
kernel_quadrado = cv2.getStructuringElement(cv2.MORPH_RECT, (3, 3))
otsu_placa3 = cv2.erode(otsu_placa3, kernel_quadrado, iterations=2)
otsu_placa3 = cv2.dilate(otsu_placa3, kernel_quadrado, iterations=2)

cv2.imwrite("imagens/outputs/otsu_placa3_erode_dilate.png", otsu_placa3)

In [None]:
# Criando a máscara a partir da imagem em escala de cinza

# close_gray_image = cv2.morphologyEx(image, cv2.MORPH_CLOSE, kernel)
_, mascara = cv2.threshold(image, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
cv2.imwrite("imagens/outputs/mascara_placa3.png", mascara)

In [None]:
limiarizacao = cv2.bitwise_and(otsu_placa3, otsu_placa3, mask=mascara)
limiarizacao = cv2.dilate(limiarizacao, kernel_quadrado, iterations=2)
limiarizacao = cv2.erode(limiarizacao, kernel_quadrado)

cv2.imwrite("imagens/outputs/limiarizacao_placa3.png", limiarizacao)

O passo seguinte consiste em aplicar o método `clear_border` para remover os contornos que estão nas bordas da imagem.

In [None]:
from skimage.segmentation import clear_border

limiarizacao = clear_border(limiarizacao)
cv2.imwrite("imagens/outputs/limiarizacao_placa3_clear_border.png", limiarizacao)

In [None]:
# limiarizacao = cv2.erode(limiarizacao, kernel_quadrado, iterations=2)
# limiarizacao = cv2.dilate(limiarizacao, kernel_quadrado)
# cv2.imwrite("imagens/outputs/limiarizacao_placa3_erode.png", limiarizacao)

Agora que melhorarmos a imagem podemos encontrar os contornos através do método `findContours` e aproximar os contornos da placa do veículo.

In [None]:
contornos, _ = cv2.findContours(limiarizacao, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
contornos = sorted(contornos, key=cv2.contourArea, reverse=True)[:10]
contornos

O laço de repetição abaixo servirá para encontrar o contorno que representa a placa do veículo. Faremos isso analisando a proporção entre a largura e a altura do contorno. Como 40/13 é a proporção da placa, vamos considerar contornos que possuem uma proporção entre 3 e 3.5.

In [None]:
for contorno in contornos:
    x, y, w, h = cv2.boundingRect(contorno)
    proporcao = float(w) / h

    if 3 <= proporcao <= 3.5:
        placa = image[y:y + h, x:x + w]
        valor, regiao_interesse = cv2.threshold(placa, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
        regiao_interesse = clear_border(regiao_interesse)

        cv2.imwrite("imagens/outputs/placa3.png", placa)
        cv2.imwrite("imagens/outputs/regiao_interesse_placa3.png", regiao_interesse)

In [105]:
# Rodando o tesseract na imagem da placa

tesseract_config = "--tessdata-dir tessdata --psm 6"
texto = pytesseract.image_to_string(regiao_interesse, lang='por', config=tesseract_config)
print(texto)

texto_extraido = re.search('\w{3}\d{1}\w{1}\d{2}', texto)
print(texto_extraido.group(0))

.BDM3D69

BDM3D69
