# Técnicas de Pré-processamento para OCR

<a href="https://colab.research.google.com/github/fabiobento/ocr-sis-emb-2024-2/blob/main/2-OCR_com_Python_Pré_processamento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
try:
    import google.colab
    IN_COLAB = True
    print("Executando no Google Colab")
except ImportError:
    IN_COLAB = False
    print("Não executando no Google Colab")  

# Importando as bibliotecas

In [None]:
# Baixar imagens para o laboratório.
!wget https://github.com/fabiobento/ocr-sis-emb-2024-2/raw/refs/heads/main/imagens.zip
!unzip -n -q imagens.zip

In [12]:
import cv2
import numpy as np
import matplotlib.pyplot as plt
if IN_COLAB:
    from google.colab.patches import cv2_imshow

In [13]:
# Definir função para exibição de imagens
def imshow(imagem):
    if IN_COLAB:
        cv2_imshow(imagem)
    else:
        # Exibir a imagem com matplotlib
        if len(imagem.shape) == 2:  # Se a imagem tiver apenas 2 dimensões (níveis de cinza)
            plt.imshow(imagem, cmap='gray')
            plt.axis('off')  # Oculta os eixos
            plt.show()               
        else:
            plt.imshow(imagem)        
            plt.axis('off')  # Oculta os eixos
            plt.show()   

# Escala de cinza (*grayscale*)

In [None]:
img = cv2.imread('./Imagens/img-process.jpg')
imshow(img)

In [None]:
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
imshow(gray)

# Limiarização  (*thresholding*)

## Limiarização Simples (*Threshold*)

In [None]:
img = cv2.imread('./Imagens/trecho-livro.jpg')
imshow(img)

In [None]:
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
imshow(gray)

In [None]:
val, thresh = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY)
imshow(thresh)

In [None]:
val

In [None]:
val, thresh = cv2.threshold(gray, 180, 255, cv2.THRESH_BINARY)
imshow(thresh)

In [None]:
val, thresh = cv2.threshold(gray, 140, 255, cv2.THRESH_BINARY)
imshow(thresh)

## Método de Otsu

In [None]:
val, otsu = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
imshow(otsu)
print(val)

In [None]:
img = cv2.imread('./Imagens/receita01.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
val, thresh = cv2.threshold(gray, 138, 255, cv2.THRESH_BINARY)
imshow(thresh)

In [None]:
val, otsu = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
imshow(otsu)
print(val)

## Limiarização Adaptativa

In [None]:
img = cv2.imread('./Imagens/livro02.jpg')
imshow(img)
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
val, otsu = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
imshow(otsu)
print(val)

In [None]:
adapt_media = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_MEAN_C, cv2.THRESH_BINARY, 11, 9)
imshow(adapt_media)

## Limiarização Adaptativa Gaussiana

In [None]:
img = cv2.imread('./Imagens/livro_adaptativa.jpg')
imshow(img)

In [None]:
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
adapt_media_gauss = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 9)
imshow(adapt_media_gauss)

In [None]:
adapt_media = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_MEAN_C, cv2.THRESH_BINARY, 11, 9)
imshow(adapt_media)

# Inversão

In [None]:
img = cv2.imread('./Imagens/img-process.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
imshow(gray)

In [None]:
gray

In [32]:
invert = 255 - gray

In [None]:
invert

In [None]:
imshow(invert)

In [None]:
imshow(thresh)

In [None]:
invert = 255 - thresh
imshow(invert)

# Redimensionamento

- INTER_NEAREST - uma interpolação de vizinho mais próximo. É muito usado por ser o mais rápido.
- INTER_LINEAR - uma interpolação bilinear (é usada por padrão), boa no geral para aumentar e também pra diminuir imagens.
- INTER_AREA - usa a relação de área de pixel. Pode ser um método preferido para a redução de imagens pois fornece resultados sem moiré (efeito geralmente indesejado na imagem). Mas quando a imagem é ampliada, é semelhante ao método INTER_NEAREST.
- INTER_CUBIC - bicúbica (4x4 pixel vizinhos). Possui resultados melhores.
- INTER_LANCZOS4 - interpolação Lanczos (8x8 pixel vizinhos). Dentre esses algoritmos, é o que apresenta resultados com a melhor qualidade.

In [None]:
imshow(gray)

In [None]:
maior = cv2.resize(gray, None, fx=1.5, fy=1.5, interpolation=cv2.INTER_CUBIC)
imshow(maior)

In [None]:
menor = cv2.resize(gray, None, fx = 0.5, fy = 0.5, interpolation=cv2.INTER_AREA)
imshow(menor)

# Operações Morfológicas

In [None]:
img = cv2.imread('./Imagens/texto-opencv.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
imshow(gray)

## Erosão

In [None]:
np.ones((3, 3), np.uint8)

In [None]:
erosao = cv2.erode(gray, np.ones((3, 3), np.uint8))
imshow(erosao)

## Dilatação

In [None]:
dilatacao = cv2.dilate(gray, np.ones((3,3), np.uint8))
imshow(dilatacao)

## Abertura

In [None]:
erosao = cv2.erode(gray, np.ones((5, 5), np.uint8))
abertura = cv2.dilate(erosao, np.ones((5,5), np.uint8))
imshow(gray)
imshow(erosao)
imshow(abertura)

## Fechamento

In [None]:
img = cv2.imread('./Imagens/texto-opencv2.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
imshow(gray)

In [None]:
dilatacao = cv2.dilate(gray, np.ones((5,5)))
fechamento = cv2.erode(dilatacao, np.ones((5,5)))
imshow(gray)
imshow(dilatacao)
imshow(fechamento)

# Remoção de Ruído

## Desfoque com Média

In [None]:
img = cv2.imread('./Imagens/teste_ruido.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
imshow(gray)

In [None]:
desfoque_media = cv2.blur(gray, (5,5))
imshow(desfoque_media)

## Desfoque Gaussiano


In [None]:
desfoque_gaussiano = cv2.GaussianBlur(gray, (5, 5), 0)
imshow(desfoque_gaussiano)

## Desfoque com Mediana

In [None]:
desfoque_mediana = cv2.medianBlur(gray, 3)
imshow(desfoque_mediana)

## Filtro bilateral

In [None]:
desfoque_bilateral = cv2.bilateralFilter(gray, 15, 55, 45)
imshow(desfoque_bilateral)

# Detecção de textos

In [None]:
!sudo apt install tesseract-ocr
!pip install pytesseract

In [53]:
import pytesseract

*Aviso: em setembro de 2021 o link para baixar o **por.traineddata** sofreu uma pequena alteração [ para mais explicações consulte a aula "Resolvendo problema relacionado ao pacote de idiomas" ]*

Portanto, o link final ficou: https://github.com/tesseract-ocr/tessdata/blob/main/por.traineddata?raw=true (segue abaixo o comando completo)

In [None]:
!mkdir tessdata
!wget -O ./tessdata/por.traineddata https://github.com/tesseract-ocr/tessdata/blob/main/por.traineddata?raw=true

In [None]:
imshow(thresh)

In [None]:
config_tesseract = '--tessdata-dir tessdata'
texto = pytesseract.image_to_string(thresh, lang='por', config=config_tesseract)
print(texto)

# Exercício

In [None]:
img = cv2.imread('./Imagens/frase.jpg')
imshow(img)

In [None]:
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
imshow(gray)

In [None]:
val, thresh = cv2.threshold(gray, 180, 255, cv2.THRESH_BINARY)
imshow(thresh)
print(val)

In [None]:
invert = 255 - thresh
imshow(invert)

In [None]:
print(pytesseract.image_to_string(thresh, lang='por', config=config_tesseract))