# Preparando o ambiente

In [None]:
!pip install opencv-python==4.6.0.66
!sudo apt install tesseract-ocr
!pip install pytesseract==0.3.9

In [None]:
import pytesseract
import numpy as np
import cv2
from google.colab.patches import cv2_imshow # para mostrar as imagens no Google Colab

In [None]:
! git clone https://github.com/sthemonica/text-recognize

# Introdução ao Tesseract OCR

In [None]:
img = cv2.imread('/content/text-recognize/Imagens/Aula1-teste.png')
cv2_imshow(img)

In [None]:
texto = pytesseract.image_to_string(img)
print(texto)

# Imagens BGR

In [None]:
img = cv2.imread('/content/text-recognize/Imagens/Aula1-ocr.png')
cv2_imshow(img)

O OpenCV tem seus canais de cores invertidos, então para utilizarmos com outras bibliotecas precisamos fazer a conversão de BGR para RGB.

In [None]:
rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
cv2_imshow(rgb)

In [None]:
texto = pytesseract.image_to_string(rgb)
print(texto)

In [None]:
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
cv2_imshow(gray)

In [None]:
texto = pytesseract.image_to_string(gray)
print(texto)

Aula 2

Caracteres diferentes

In [None]:
img = cv2.imread('/content/text-recognize/Imagens/Aula2-undersampling.png')
rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
cv2_imshow(rgb)

In [None]:
texto = pytesseract.image_to_string(rgb)
print(texto)

As palavras **estão**, **frequência**, **observações** não foram bem traduzidas.

In [None]:
!tesseract --list-langs

Adicionando novo idioma no tesseract

In [None]:
!apt-get install tesseract-ocr-por

In [None]:
texto = pytesseract.image_to_string(rgb, lang='por')
print(texto)

Idiomas do projeto

In [None]:
!mkdir tessdata

In [None]:
!wget -O ./tessdata/por.traineddata https://github.com/tesseract-ocr/tessdata/blob/main/por.traineddata?raw=true
!wget -O ./tessdata/eng.traineddata https://github.com/tesseract-ocr/tessdata/blob/main/eng.traineddata?raw=true

In [None]:
config_tesseract = '--tessdata-dir tessdata'
texto = pytesseract.image_to_string(rgb, lang='por', config=config_tesseract)
print(texto)

In [None]:
!ls tessdata/

PSMs - Page Segmentation Modes

In [None]:
!tesseract --help-psm

In [None]:
img = cv2.imread('/content/text-recognize/Imagens/Aula2-trecho-livro.png')
rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
cv2_imshow(rgb)

In [None]:
config_tesseract = '--tessdata-dir tessdata'
texto = pytesseract.image_to_string(rgb, lang='por', config=config_tesseract)
print(texto)

In [None]:
config_tesseract = '--tessdata-dir tessdata --psm 6'
texto = pytesseract.image_to_string(rgb, lang='por', config=config_tesseract)
print(texto)

In [None]:
config_tesseract = '--tessdata-dir tessdata --psm 7'
texto = pytesseract.image_to_string(rgb, lang='por', config=config_tesseract)
print(texto)

In [None]:
config_tesseract = '--tessdata-dir tessdata --psm 8'
texto = pytesseract.image_to_string(rgb, lang='por', config=config_tesseract)
print(texto)

In [None]:
img = cv2.imread('/content/text-recognize/Imagens/Aula2-Saida.png')
rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
cv2_imshow(rgb)

In [None]:
config_tesseract = '--tessdata-dir tessdata --psm 7'
texto = pytesseract.image_to_string(rgb, lang='por', config=config_tesseract)
print(texto)

# Biblioteca Pillow (PIL)

PIL: Python Imaging Library

In [None]:
from PIL import Image
import matplotlib.pyplot as plt

In [None]:
img = Image.open('/content/text-recognize/Imagens/Aula2-livro.png')
plt.imshow(img)

OSD significa Orientation and Script Detection e o seu retorno são os "metadados" da imagem.

In [None]:
print(pytesseract.image_to_osd(img))

Aula 3

In [None]:
img = cv2.imread('/content/text-recognize/Imagens/Aula3-testando.png')
rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
cv2_imshow(rgb)

In [None]:
from pytesseract import Output

In [None]:
config_tesseract = '--tessdata-dir tessdata'
resultado = pytesseract.image_to_data(rgb, config=config_tesseract, lang='por',output_type=Output.DICT)
resultado

In [None]:
min_conf = 40 #@param {type: 'slider', min: 0, max: 100}

## caixa delimitadora

In [None]:
def caixa_texto(resultado, img, cor = (225, 105, 65)):
  x = resultado['left'][i]
  y = resultado['top'][i]
  w = resultado['width'][i]
  h = resultado['height'][i]

  cv2.rectangle(img, (x, y), (x+w, y+h), cor, 2)

  return x, y, img

In [None]:
#len(resultado['text'])

In [None]:
img_copia = rgb.copy()
for i in range(len(resultado['text'])):
  confianca = int(resultado['conf'][i])
  if confianca > min_conf:
    x, y, img = caixa_texto(resultado, img_copia)
cv2_imshow(img_copia)

## Caixa e texto

In [None]:
img_copia = rgb.copy()
for i in range(len(resultado['text'])):
  confianca = int(resultado['conf'][i])
  if confianca > min_conf:
    x, y, img = caixa_texto(resultado, img_copia)
    texto = resultado['text'][i]
    cv2.putText(img_copia, texto, (x, y-10), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (30, 105, 210))

cv2_imshow(img_copia)

## Trabalhando com fontes externas

In [None]:
img = cv2.imread('/content/text-recognize/Imagens/Aula1-ocr.png')
rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
cv2_imshow(rgb)

In [None]:
config_tesseract = '--tessdata-dir tessdata'
resultado = pytesseract.image_to_data(rgb, config=config_tesseract, lang='por',output_type=Output.DICT)
resultado

In [None]:
from PIL import ImageFont, ImageDraw, Image

fonte = '/content/text-recognize/Imagens/calibri.ttf'

In [None]:
def escreve_texto(texto, x, y, img, fonte, tamanho_texto=32):
  fonte = ImageFont.truetype(fonte, tamanho_texto)
  img_pil = Image.fromarray(img)
  draw = ImageDraw.Draw(img_pil)
  draw.text((x, y - tamanho_texto), texto, font = fonte)
  img = np.array(img_pil)
  return img

In [None]:
img_copia = rgb.copy()
for i in range(len(resultado['text'])):
  confianca = int(resultado['conf'][i])
  if confianca > min_conf:
    x, y, img = caixa_texto(resultado, img_copia)
    texto = resultado['text'][i]
    #cv2.putText(img_copia, texto, (x, y-10), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (30, 105, 210))
    img_copia = escreve_texto(texto, x, y, img_copia, fonte)

cv2_imshow(img_copia)