In [None]:
from PIL import Image
import pytesseract as ocr
import cv2
import numpy as np

In [None]:
#Imagem de teste 1

![title](test.jpeg)

In [None]:
frase = ocr.image_to_string(Image.open('test.jpeg'), lang='por')
print(frase)

In [None]:
# tipando a leitura para os canais de ordem RGB
imagem = Image.open('test.jpeg').convert('RGB')

# convertendo em um array editável de numpy[x, y, CANALS]
npimagem = np.asarray(imagem).astype(np.uint8)  

# diminuição dos ruidos antes da binarização
npimagem[:, :, 0] = 0 # zerando o canal R (RED)
npimagem[:, :, 2] = 0 # zerando o canal B (BLUE)

# atribuição em escala de cinza
im = cv2.cvtColor(npimagem, cv2.COLOR_RGB2GRAY) 

# aplicação da truncagem binária para a intensidade
# pixels de intensidade de cor abaixo de 127 serão convertidos para 0 (PRETO)
# pixels de intensidade de cor acima de 127 serão convertidos para 255 (BRANCO)
# A atrubição do THRESH_OTSU incrementa uma análise inteligente dos nivels de truncagem
ret, thresh = cv2.threshold(im, 127, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU) 

# reconvertendo o retorno do threshold em um objeto do tipo PIL.Image
binimagem = Image.fromarray(thresh) 

# chamada ao tesseract OCR por meio de seu wrapper
frase = ocr.image_to_string(binimagem, lang='por')

# impressão do resultado
print(frase) 

In [None]:
#Imagem de teste 2

![title](example_01.jpg)

O detector de texto EAST da OpenCV é um modelo de aprendizagem profunda, baseado em uma nova arquitetura e padrão de treinamento para detecção de texto em imagens.

Supressão não-máxima é o processo de afinamento de bordas. É a supressão de valores de pixels que não forem máximos locais na direção transversal à borda.

O módulo argparse lida com os argumentos da linha de comando.

In [None]:
from imutils.object_detection import non_max_suppression
import argparse
import sys

Usa um detector de texto baseado em aprendizado para detectar (não reconhecer) regiões de texto em uma imagem.
O detector de texto produz duas matrizes, uma contendo a probabilidade de uma determinada área contendo texto e outra que mapeia a pontuação para uma localização de caixa delimitadora na imagem de entrada.

In [None]:
def decode_predictions(scores, geometry):
    # pegue o número de linhas e colunas do volume de pontuações, então inicializa nosso conjunto de retângulos
    #  de caixa delimitadora e correspondentespontuações de confianças
    (numRows, numCols) = scores.shape[2:4]
    rects = []
    confidences = []
 
    for y in range(0, numRows):
    # extrair as pontuações (probabilidades), seguidas dos dados geométricos usados para derivar a caixa delimitadora
    # potencial coordenadas que circundam o texto
        scoresData = scores[0, 0, y]
        xData0 = geometry[0, 0, y]
        xData1 = geometry[0, 1, y]
        xData2 = geometry[0, 2, y]
        xData3 = geometry[0, 3, y]
        anglesData = geometry[0, 4, y]
 
    for x in range(0, numCols):
        # se a nossa pontuação não tiver probabilidade suficiente,ignore isto
        if scoresData[x] < 0.5:
            continue
            
    # calcula o fator de offset como nosso recurso resultante. Maps será 4x menor que a imagem de entrada
    (offsetX, offsetY) = (x * 4.0, y * 4.0)
 
    # extrair o ângulo de rotação para a previsão e então calcule o seno e cosseno
    angle = anglesData[x]
    cos = np.cos(angle)
    sin = np.sin(angle)
 
    
    # use o volume da geometria para obter a largura e a altura da caixa delimitadora
    h = xData0[x] + xData2[x]
    w = xData1[x] + xData3[x]
 
    # calcula as coordenadas inicial e final (x,y) para a caixa delimitadora de previsão de texto
    endX = int(offsetX + (cos * xData1[x]) + (sin * xData2[x]))
    endY = int(offsetY - (sin * xData1[x]) + (cos * xData2[x]))
    startX = int(endX - w)
    startY = int(endY - h)
 
    # adicione as coordenadas da caixa delimitadora e o escore de probabilidade para as nossas respectivas listas
    rects.append((startX, startY, endX, endY))
    confidences.append(scoresData[x])
 
    # retorna uma tupla das caixas delimitadoras e confidências associadas
    return (rects, confidences)

Carrega a imagem, aplica o pré-processamento e inicializa as variáveis-chave

In [None]:
#carrega a imagem de entrada, cria uma cópia e pega as dimensões da imagem
image = cv2.imread('example_01.jpg')
orig = image.copy()
(origH, origW) = image.shape[:2]

#defini a nova largura e altura e, em seguida, determinar a relação em mudança para ambas
(newW, newH) = (320, 320)
rW = origW / float(newW)
rH = origH / float(newH)

#redimensiona a imagem e pega as novas dimensões da imagem
image = cv2.resize(image, (newW, newH))
(H, W) = image.shape[:2]

Detector de texto EAST: Oa dois nomes de camadas de saída são colocados em forma de lista. Em seguida, a rede neural EAST pré-treinada é carregada na memória.

In [None]:
print(cv2.__version__)

In [None]:
# define os dois nomes de camadas de saída para o modelo de detector EAST que estamos interessados 
#o primeiro é as probabilidades de saída e o segundo pode ser usado para derivar as coordenadas da caixa del.
layerNames = [
    "feature_fusion/Conv_7/Sigmoid",
    "feature_fusion/concat_3"]

# carregar o detector de texto EAST pré-treinado
print("[INFO] loading EAST text detector...")
net = cv2.dnn.readNet('frozen_east_text_detection.pb')

Para determinar localizações de texto:

Constrói um blob e o passa através da rede neural, obtendo pontuações e geometria. Decodifica as previsões com a   função decode_predictions e aplica a  supressão não-máxima através do método de imutils.

A NMS usa efetivamente as regiões de texto mais prováveis, eliminando outras regiões sobrepostas.

In [None]:
# construa um blob a partir da imagem e, em seguida, execute um passe para o modelo para obter 
#os dois conjuntos de camadas de saída
blob = cv2.dnn.blobFromImage(image, 1.0, (W, H),
    (123.68, 116.78, 103.94), swapRB=True, crop=False)
net.setInput(blob)
(scores, geometry) = net.forward(layerNames)

# decodifique as previsões e aplique a supressão não máxima
(rects, confidences) = decode_predictions(scores, geometry)
boxes = non_max_suppression(np.array(rects), probs=confidences)

Reconhecimento do texto.

In [None]:
# inicialize a lista de resultados
results = []

# loop sobre as caixas delimitadoras
for (startX, startY, endX, endY) in boxes:

# dimensionar as coordenadas da caixa delimitadora com base nos respectivos índices
    startX = int(startX * rW)
    startY = int(startY * rH)
    endX = int(endX * rW)
    endY = int(endY * rH)

# para obter um melhor OCR do texto, aplique um pouco de preenchimento ao redor da caixa
    dX = int((endX - startX) * 0.0)
    dY = int((endY - startY) * 0.0)

# aplique preenchimento a cada lado da caixa delimitadora, respectivamente
    startX = max(0, startX - dX)
    startY = max(0, startY - dY)
    endX = min(origW, endX + (dX * 2))
    endY = min(origH, endY + (dY * 2))

# extrair o ROI real acumulado
    roi = orig[startY:endY, startX:endX]

Defini os parâmetros de configuração do Tesseract ( idioma inglês , rede neural LSTM e linha única de texto).

In [None]:
# para aplicar Tesseract, devemos fornecer um idioma, um sinalizador de OEM de 4, indicando que
# deseja usar o modelo de rede neural LSTM para OCR e, finalmente, um valor OEM, neste caso, 7 o que implica que 
# estamos tratando o ROI como uma única linha de texto.
    config = ("-l eng --oem 1 --psm 7")
    text = ocr.image_to_string(roi, config=config)

# adicione as coordenadas da caixa delimitadora e o texto com OCR à lista de resultados
    results.append(((startX, startY, endX, endY), text))

Imprimindo os resultados ordenados de forma ascebdente.

Imprime o texto com OCR. Exclui caracteres não-ASCII do texto. Desenha uma caixa delimitadora em torno do ROI e o texto do resultado acima do ROI. Exibe a saída.

In [None]:
# classifica as coordenadas da caixa delimitadora de resultados de cima para baixo
results = sorted(results, key=lambda r:r[0][1])

# loop sobre os resultados
for ((startX, startY, endX, endY), text) in results:
    print("OCR TEXT")
    print("========")
    print("{}\n".format(text))

# tira o texto não-ASCII para que possamos desenhar o texto na imagem
# usando o OpenCV, desenhe o texto e uma caixa delimitadora na região de texto da imagem de entrada
    text = "".join([c if ord(c) < 128 else "" for c in text]).strip()
    output = orig.copy()
    cv2.rectangle(output, (startX, startY), (endX, endY),
    (0, 0, 255), 2)
    cv2.putText(output, text, (startX, startY - 20),
    cv2.FONT_HERSHEY_SIMPLEX, 1.2, (0, 0, 255), 3)

# mostra a imagem de saída
    cv2.imshow("Text Detection", output)