<a href="https://colab.research.google.com/github/MoisesTedeschi/Python/blob/master/Transcri%C3%A7%C3%A3o_de_imagem_em_texto_com_Python_e_Tesseract_OCR.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Transcrição de imagem em texto com Python e Tesseract OCR**

![](https://uploaddeimagens.com.br/images/002/816/223/full/download.png)

Nós, os seres humanos, podemos entender o conteúdo de uma imagem simplesmente olhando para ela. Percebemos o conteúdo de imagem e, automaticamente, sabemos se é possível ler o texto. Ou seja, é uma capacidade quase que involuntária – Olhar, ver a imagem, ler o texto (separando o que é texto e/ou figuras) e processar o conteúdo. Contudo, os computadores não funcionam da mesma maneira. Eles precisam de algo mais “concreto” e organizado de uma maneira que possam entender o conteúdo de uma imagem digital.

Mas o que é uma imagem para um computador?

Segundo Gonzalez, R. and Woods, R. (1992), uma imagem pode ser definida como uma função f(x, y), onde o valor nas coordenadas espaciais x e y corresponde ao brilho (intensidade) da imagem nessa coordenada.

A única forma de se representar uma imagem em um computador é quando ela está digitalizada tanto no domínio espacial como no das amplitudes. 

Uma imagem digital é a representação numérica e discreta de um objeto, ou especificamente, é uma função quantificada e amostrada, de duas dimensões, geradas por meios ópticos, disposta em um grade padrão, retangular igualmente espaçada, quantificada em iguais intervalos de amplitude. Assim, uma imagem digital é um vetor retangular bidimensional de amostras de valores quantificados (Cordeiro (2002), Castleman (1996)).

Em outras palavras, uma imagem digital é (basicamente) um conjunto de três canais de cor. Também conhecidos como [***RGB***](https://pt.wikipedia.org/wiki/RGB) (RED – GREEN – BLUE). O RGB pode variar seus valores internos entre 0 e 255. Logo, a “mistura” dos elementos gera uma imagem digital. Vale lembrar que, as menores unidades de uma imagem digital são denominadas Picture Element (Pixel). Um pixel é a representação numérica da luminosidade de um ponto da imagem.

Bem, agora sabemos o que é uma imagem digital (ou não). É nesse momento que entra o motivo de escrever e o OCR - “Optical Character Recognition” (Tradução Livre: Reconhecimento Óptico de Caracteres). 

O motivo principal (além da curiosidade):  Considere a preguiça como fator chave da evolução humana, okey?! Então... Quando o ser humano é motivado pela espírito da automação de algo, na real, o combustível é a preguiça. O ato fazer sempre a mesma coisa por um longo período de tempo é, literalmente, um saco. Agora imagine ter que redigitar documentos longos burocráticos por um longo período de tempo, imaginou?! É, você entendeu a motivação. Enfim, mas e a tecnologia? 

Na prática, essa tecnologia (OCR) faz a leitura de um arquivo em imagem para identificar padrões e/ou transcrever textos que estão contidos em placas, publicidade, livros e/ou documentos manuscritos que devem ser convertidos em cópia digital. Embora nem sempre seja perfeito, é muito conveniente e torna muito mais fácil e rápido para algumas pessoas realizarem seu trabalho. ("Uhm... Interessante, não é mesmo?!")

# **Mas e a aplicação na vida real?**

Um exemplo muito comum de aplicação do OCR, mas que, ao mesmo tempo causa enorme dor de cabeça para os condutores, são os radares de trânsito. Eles possuem câmeras de alta sensibilidade que capturam fotos da placa dos veículos (em casos irregulares) e enviam os arquivos para um sistema que utilizará o OCR para extrair os números e letras da imagem que foi recebida.

![](https://media1.tenor.com/images/d7b8afdded86064c3d946a3dc3950d70/tenor.gif)

No texto, para ilustrar o funcionamento do OCR, irei demonstrar o reconhecimento óptico de caracteres usando o ***Tesseract OCR***.

Originalmente, o Tesseract foi desenvolvido na Hewlett-Packard Laboratories Bristol e na Hewlett-Packard Co, Greeley Colorado (1985 à 1994). Depois de algumas mudanças, foi portado para Windows em 1996, além de alguns upgrades em 1998. Contudo, só em 2005 o Tesseract foi liberado para a comunidade pela HP. Assim sendo, desde 2006 é desenvolvido/mantido pela [***Google***](https://opensource.google/projects/tesseract).

Repositório no GitHub: https://github.com/tesseract-ocr/tesseract


# **Início dos trabalhos com Tesseract OCR**

Para o exemplo de OCR, precisamos do Tesseract OCR. O processo de instalação se encontra no link: https://github.com/tesseract-ocr/tesseract/wiki

Para instalações no Windows, o executável pode ser baixado no link: https://github.com/UB-Mannheim/tesseract/wiki


![](https://uploaddeimagens.com.br/images/002/816/225/full/downloadOCR.jpeg)

* É muito importante incluir na instalação o suporte à linguagem “portuguese”.

O funcionamento do exemplo depende, também, da **Lib** *(biblioteca)* do **Tesseract** para a linguagem Python ***(PyTesseract)***, que é uma "cápsula" (invólucro) do mecanismo Tesseract-OCR do Google.


![](https://uploaddeimagens.com.br/images/002/816/226/full/download2.jpeg)

Não vamos esquecer de criar um ambiente virtual *(virtualenv)*, é claro - Só questão de segurança para não corromper sua instalação principal do Python. Ou seja, vamos isolar nosso exemplo em um ambiente virtual. Em caso de dúvidas, recomendo o post: https://pythonacademy.com.br/blog/python-e-virtualenv-como-programar-em-ambientes-virtuais


![](https://uploaddeimagens.com.br/images/002/816/230/original/show.jpeg)

# **Show Me!!!**

Para o simples script Python com OCR, a opção de uso de editor foi o [Google Colab](https://colab.research.google.com). Como usarei o Google Colab (mais fácil para rodar o exemplo), a instalação do tesseract será um pouco diferente do que citei acima. No "Colab" é necessário rodar o comando:

In [3]:
!sudo apt install tesseract-ocr

Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following package was automatically installed and is no longer required:
  libnvidia-common-440
Use 'sudo apt autoremove' to remove it.
The following additional packages will be installed:
  tesseract-ocr-eng tesseract-ocr-osd
The following NEW packages will be installed:
  tesseract-ocr tesseract-ocr-eng tesseract-ocr-osd
0 upgraded, 3 newly installed, 0 to remove and 35 not upgraded.
Need to get 4,795 kB of archives.
After this operation, 15.8 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu bionic/universe amd64 tesseract-ocr-eng all 4.00~git24-0e00fe6-1.2 [1,588 kB]
Get:2 http://archive.ubuntu.com/ubuntu bionic/universe amd64 tesseract-ocr-osd all 4.00~git24-0e00fe6-1.2 [2,989 kB]
Get:3 http://archive.ubuntu.com/ubuntu bionic/universe amd64 tesseract-ocr amd64 4.00~git2288-10f4998a-2 [218 kB]
Fetched 4,795 kB in 1s (4,064 kB/s)
debconf: unable to initi

A biblioteca [***Pillow***](https://pypi.org/project/Pillow/), que é um *“fork”* (bifurcação) da PIL (Python Imaging Library) para lidar com a abertura e manipulação de imagens em muitos formatos no Python, também, será utilizada.

In [4]:
# Instalação de bibliotecas no Google Colaboratory.

!pip install Pillow
!pip install pytesseract

Collecting pytesseract
  Downloading https://files.pythonhosted.org/packages/1d/d8/521db389ff0aae32035bfda6ed39cb2c2e28521c47015f6431f07460c50a/pytesseract-0.3.4.tar.gz
Building wheels for collected packages: pytesseract
  Building wheel for pytesseract (setup.py) ... [?25l[?25hdone
  Created wheel for pytesseract: filename=pytesseract-0.3.4-py2.py3-none-any.whl size=13431 sha256=a93322c3d6f5ad3206fa50d8798a5e353e2fb9cc065089f514967166933b1ef1
  Stored in directory: /root/.cache/pip/wheels/63/2a/a0/7596d2e0a73cf0aeffd6f6170862c4e73f3763b7827e48691a
Successfully built pytesseract
Installing collected packages: pytesseract
Successfully installed pytesseract-0.3.4


Com a instalação do `tesseract-ocr` concluída e bibliotecas instaladas.

Importamos as bibliotecas instaladas. `Image` da biblioteca Pillow e da nossa biblioteca PyTesseract.

In [5]:
# Importando as bibliotecas instaladas.

from PIL import Image
import pytesseract

* É necessário indicar o caminho do "tesseract" para o Google Colab.

In [6]:
pytesseract.pytesseract.tesseract_cmd = (
    r'/usr/bin/tesseract'
)

Agora podemos criar uma função que obtém uma imagem e retorna o texto detectado na imagem.

`Image.open()` recebe uma string indicando um caminho válido de uma imagem (quando não especificado o diretório, a busca ocorrerá na raiz do seu arquivo de script) e retorna uma referência a um objeto em memória do tipo **PIL.Image**.

`Pytesseract.image_to_string()` recebe o parâmetro obrigatório *“image”*, e o opcional *“lang”*, isto informa ao tesseract que o alfabeto que ele está tentando reconhecer é o português *(suportando acentos e cedilha)*, caso não especificado seu padrão é ‘*eng’*, inglês.

Atribuído o retorno do texto reconhecido para a variável `text_extracao`.

In [7]:
def img_core_file(imgfile):
    """
    A função manipulará o processamento principal de imagens OCR.

     - Usaremos a classe Image do Pillow para abrir a imagem e
     o pytesseract para detectar a string na imagem.

     - É muito IMPORTANTE que o valor “lang” esteja em português, pq o valor
     padrão é inglês (Idem a instalação. Lembra?). Logo, afeta no resultado de
     saída do texto.
    """

    text_extracao = pytesseract.image_to_string(Image.open(imgfile))

    return text_extracao

Imagem de exemplo:

![](https://uploaddeimagens.com.br/images/002/816/233/full/basedeuso.jpeg)

In [1]:
# Código para fazer upload de arquivos no Google Colab. Logo, não funciona
# no ambiente local (na sua máquina local).

from google.colab import files
uploaded = files.upload()

Saving vaidarcerto.jpeg to vaidarcerto.jpeg


Em seguida, criamos uma função `img_core_file` que recebe um nome de arquivo e retorna o texto contido na imagem. 

Com o valor extraído vem do retorno de uma função, estou invocação do `print`. Ou seja, chamando a função (`img_core_file`) dentro dele e passando a imagem que desejamos extrair o texto.

In [8]:
# Não esquecer de adicionar a imagem no drive - Se tiver usando o Google
# Colab.

print(img_core_file('vaidarcerto.jpeg'))

Nao se deixe vencer pelos
obstaculos; vocé pode estar
prestes a abrir a porta certa

e nunca sabera se nao
continuar tentando.


##**Usando um ambiente local**

No seu terminal (ou CMD no Windows), você pode criar um ambiente virtual e começar a importação das bibliotecas. Como, no momento, estou usando uma versão do Windows, o código pode ser um pouquinho diferente. Assim sendo, recomendo o link sobre os [*ambientes virtuais*](https://pythonacademy.com.br/blog/python-e-virtualenv-como-programar-em-ambientes-virtuais).


**Processo no ambiente local é parecido com o do Google Colab:**

Com a instalação concluída (*Idem a instalação do Tesseract OCR acima.)* e bibliotecas do Python instaladas, você cria a função (`img_core_file`) que obtém a imagem e retorna o texto detectado na imagem.

Na IDE PyCharm - Com seu diretório selecionado, crie um arquivo ***.py*** e chame do que quiser, eu chamei o meu de ***extraindo-texto-de-imagem.py***. No mesmo diretório que o arquivo ***.py*** coloque uma imagem. Feito isso é só rodar o script e com o comando: `python extraindo-texto-de-imagem.py` e o resultado será:

![](https://uploaddeimagens.com.br/images/002/816/236/original/OUTPUT.jpeg)

# **Mas imagens com texto em inglês, a extração funciona?**

![](https://uploaddeimagens.com.br/images/002/816/237/full/NOVAIMAGEM.png)

In [9]:
# Código para fazer upload de arquivos no Google Colab. Logo, não funciona
# no ambiente local (na sua máquina local).

uploaded = files.upload()

Saving python-assert.png to python-assert.png


Com a imagem em seu devido lugar, nós podemos passar o nome da imagem para a função e ela fará todo o trabalho de extração de texto.

In [10]:
print(pytesseract.image_to_string(Image.open('python-assert.png')))

ASSERT STATEMENTS
IN PYTHON


![](https://media.giphy.com/media/12NUbkX6p4xOO4/giphy.gif)

# **Os problems... São os problems**

Como o Tesseract não é "bala de prata" (não resolve tudo e nem vai) é evidência de que o OCR nem sempre é 100%. Logo, é necessário/preciso de intervenção humana de tempos em tempos.

Existem de possíveis problemas listados no [***wiki***](https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality). Várias etapas podem ser feitas para melhorar a fidelidade da ***Engine***, tais como: 

Redimensionamento, binarização, redução de ruídos, rotação/alinhamento das linhas e remoção das bordas. Nos casos mais simples, a resolução pode ser via retirada de bordas descartando a parte excedente do texto antes enviar ao pytesseract - Claro que existem outras possibilidades e bibliotecas, é claro. Por exemplo, o uso do **OpenCV** (detalhes no [aqui](https://www.geeksforgeeks.org/text-detection-and-extraction-using-opencv-and-ocr/)), mas isso fica para outro papo.

Segundo o *wiki* acima, uma imagem elegível para uma extração mais fiel pelo tesseract-OCR deve possuir as seguintes recomendações:
<br />
<br />

* Dois canais de cores somente (preto e branco). Seja ela em escala de cinza (0≤ Vi≤ 255) ou então a imagem binarizada (Vi== 0 || Vi== 255). Vi=Valor de intensidade.
<br />
<br />
* Texto alinhado/padronizado e sem ruídos (gerados geralmente durante a etapa de binarização).
<br />
<br />
* Altura do box (espaço ocupado pelos caracteres) superior ao mínimo de 10px.
Densidade ideal de 300dpi, ou proporcionais para o pressuposto acima.
Possuir o texto extraível em um único padrão de alfabeto (ou idioma).
Sem espaço inútil, considerado como bordas para o texto.

<br />
<br />

**Still having problems?**

Se você tentou, mas ainda está obtendo resultados de baixa precisão, peça ajuda no [***fórum***](https://groups.google.com/forum/?fromgroups#!forum/tesseract-ocr), postando sua imagem que deseja extrair conteúdo.

# **Por fim...**

No exemplo, nós nos concentramos na biblioteca **PyTesseract**. Contudo, existem outras *Libs* Python que podem ajudar na extração de textos de imagens. Por exemplo:

[***OpenCV***](https://opencv-python-tutroals.readthedocs.io/en/latest/index.html): Pode extrair, também, textos de imagens, reconhecimento facial e afins.

[***Textract***](https://pypi.org/project/textract/): Pode extrair dados de PDF’s.

[***Pyocr***](https://gitlab.gnome.org/World/OpenPaperwork/pyocr): Oferece mais opções de detecção, como frases, dígitos ou palavras.

# **Autores Citados**

* Gonzalez and Woods (1992) GONZALES, R. C. WOODS, R. E. Digital Image Processing. University of Tennessee Perceptics Corporation, 1992.

* Cordeiro (2002) Cordeiro, F. M. Reconhecimento e Classificação de Padrões de Imagens de Núcleos Linfócitos do Sangue Periférico Humano coma Utilização de Redes Neurais Artificiais. Universidade Federal deSanta Catarina, 2002.

* Castleman (1996) Castleman, Kenneth R. Digital Image Processing. Upper Saddler River: Prentice Hall, Inc. 1996.