# Análise de texto de fontes desestruturadas e Web

## Aula 03

Nesta aula iremos trabalhar com extração de informações a partir de imagens (seja JPG ou transformando PDFs) utilizando bibliotecas Python para reconhecimento ótico de caracteres (OCR). A principal biblioteca que utilizaremos será a **EasyOCR** https://github.com/JaidedAI/EasyOCR.


## Instalando o EasyOCR

Primeiro, vamos instalar a biblioteca que fará a conversão das imagens em texto:

In [1]:
!pip install easyocr

Defaulting to user installation because normal site-packages is not writeable
Collecting easyocr
  Downloading easyocr-1.7.1-py3-none-any.whl (2.9 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.9/2.9 MB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m[36m0:00:01[0mm eta [36m0:00:01[0m
[?25hCollecting Shapely
  Downloading shapely-2.0.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.5 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m MB/s[0m eta [36m0:00:01[0m:01[0m
[?25hCollecting ninja
  Downloading ninja-1.11.1.1-py2.py3-none-manylinux1_x86_64.manylinux_2_5_x86_64.whl (307 kB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m307.2/307.2 KB[0m [31m7.7 MB/s[0m eta [36m0:00:00[0m MB/s[0m eta [36m0:00:01[0m
Collecting python-bidi
  Downloading python_bidi-0.4.2-py2.py3-none-any.whl (30 kB)
Collecting pyclipper
  Down

## Instalando o pdf2image

Agora, vamos instalar a biblioteca para conversão de PDF em imagem:

In [None]:
!pip install pdf2image

In [None]:
!sudo apt-get update
!sudo apt-get install libpoppler-dev
!sudo apt -y install poppler-utils

## Instalando o ipycanvas

Agora, vamos instalar a biblioteca para desenho livre (ver final do notebook):

In [None]:
!pip install ipywidgets==7.6.5
!pip install ipycanvas==0.11.0

## Instalando o opencv

Agora, vamos instalar a biblioteca para exibição e desenho nas imagens:

In [None]:
!pip install opencv-python==4.5.4.60
!pip install --upgrade opencv-contrib-python
!pip install opencv-python-headless==4.5.4.60

## Importando as bibliotecas necessárias

Agora, vamos importar as bibliotecas necessárias:

In [None]:
#import os
#os.environ["KMP_DUPLICATE_LIB_OK"]="True"

In [None]:
# Canvas hand drawing
from ipywidgets import Image
from ipywidgets import ColorPicker, IntSlider, link, AppLayout, HBox
from ipycanvas import Canvas, hold_canvas

# OCR
import easyocr

# PDF para imagem
from pdf2image import convert_from_path

# para trabalhar com diretórios / sistema operacional
import os

# para os DataFrames
import pandas as pd

# para exibir os arquivos de imagem
import cv2
import matplotlib.pyplot as plt

Caso obtenha algum erro, utilize o **!pip install** para instalar a biblioteca ausente!

Vamos conferir em qual diretório estamos executando o notebook?

In [None]:
print("O seu notebook está no diretório")
print(os.getcwd())

## Baixando os dados

Se estiver no Colab, utilize este comando para ter acesso às imagens utilizadas durante a aula:

In [None]:
!wget "https://atd-insper.s3.us-east-2.amazonaws.com/aula03/dados3.zip"
!unzip -P xspabc1 dados3.zip
!ls

## Um primeiro exemplo!

Iremos realizar a leitura dos dados de um documento que está armazenado como uma imagem.

Primeiro, vamos indicar o caminho da imagem em uma variável.

In [None]:
imagem_caminho = "id_uk-driving-licence.jpg"

Iremos exibir a imagem na tela:

In [None]:
img = cv2.imread(imagem_caminho)

plt.rcParams["figure.figsize"] = (10,10)

plt.imshow(img);

Então, utilizaremos um **Reader** do **EasyOCR** para realizar a transcrição dos dados contidos na imagem.

In [None]:
reader = easyocr.Reader(["pt"], gpu=False)

Para ver mais detalhes sobre a documentação do EasyOCR, acesse https://www.jaided.ai/easyocr/documentation/

E por fim podemos fazer o reconhecimento dos caracteres com:

In [None]:
texto = reader.readtext(imagem_caminho, detail=0)
texto

### Identificação das regiões onde houve reconhecimento de texto

Podemos utilizar uma funcionalidade do EasyOCR que permite identificar em quais regiões da imagem houve reconhecimento de caracteres (*bounding boxes*).

Para isso, iremos realizar a leitura novamente, mas sem o parâmetro **detail=0**. Neste caso, você pode remover o parâmetro detail ou deixá-lo com valor 1.

In [None]:
texto = reader.readtext(imagem_caminho)

Agora, vamos utilizar o OpenCV para conseguir exibir a imagem, identificando com retângulos as posições onde houve leitura de texto:

In [None]:
img = cv2.imread(imagem_caminho)

for (rec, txt, prob) in texto:
    # Coordenadas do retângulo a ser desenhado
    (sup_esq, sup_dir, inf_dir, inf_esq) = rec
    sup_esq   = (int(sup_esq[0]), int(sup_esq[1]))
    inf_dir   = (int(inf_dir[0]), int(inf_dir[1]))
    
    # Identifica, com um retângulo, as regiões da imagem em que houve leitura de texto
    cv2.rectangle(img, sup_esq, inf_dir, (0, 255, 0), 2)
    
plt.rcParams["figure.figsize"] = (12,12)
plt.imshow(img);

E então, exibimos os textos reconhecidos:

In [None]:
img = cv2.imread(imagem_caminho)

for (rec, txt, prob) in texto:
    # Coordenadas do retângulo a ser desenhado
    (sup_esq, sup_dir, inf_dir, inf_esq) = rec
    sup_esq   = (int(sup_esq[0]), int(sup_esq[1]))
    inf_dir   = (int(inf_dir[0]), int(inf_dir[1]))
    
    # Identifica, com um retângulo, as regiões da imagem em que houve leitura de texto
    cv2.rectangle(img, sup_esq, inf_dir, (0, 255, 0), 2)
    
    # Replica, na imagem, os textos identifados
    cv2.putText(img, txt, (sup_esq[0], sup_esq[1] - 5), cv2.FONT_HERSHEY_SIMPLEX, 0.6, (0, 0, 200), 2)
    
plt.rcParams["figure.figsize"] = (12,12)
plt.imshow(img);

Alternativa com fundo preto:

In [None]:
img = cv2.imread(imagem_caminho)

for (rec, txt, prob) in texto:
    # Coordenadas do retângulo a ser desenhado
    (sup_esq, sup_dir, inf_dir, inf_esq) = rec
    sup_esq   = (int(sup_esq[0]), int(sup_esq[1]))
    inf_dir   = (int(inf_dir[0]), int(inf_dir[1]))
    
    # Identifica, com um retângulo, as regiões da imagem em que houve leitura de texto
    cv2.rectangle(img, sup_esq, inf_dir, (0, 0, 0), -1)
    
    # Replica, na imagem, os textos identifados
    cv2.putText(img, txt, (sup_esq[0], sup_esq[1] + 17), cv2.FONT_HERSHEY_SIMPLEX, 0.6, (0, 255, 200), 2)
    
plt.rcParams["figure.figsize"] = (12,12)
plt.imshow(img);

## Lendo um PDF

Para realizar a leitura dos dados, primeiro iremos realizar a sua conversão de PDF para imagem.

In [None]:
!ls

In [None]:
paginas = convert_from_path("RP_4600023295_NF_1266.pdf", 500)
paginas

Então, podemos salvar cada página como imagem JPG:

In [None]:
i = 1
for pg in paginas:
    pg.save("RP_4600023295_NF_1266_{}.jpg".format(i), "JPEG")
    i += 1

Agora, podemos utilizar a biblioteca **EasyOCR** para efetuar a tradução de **imagem** para **texto**.

Observe que já importamos a biblioteca. Agora, iremos utilizar o **Reader** do **EasyOCR** para efetuar o processamento.

In [None]:
reader = easyocr.Reader(["pt", "en"], gpu = False)

Pronto! Com o Reader criado, basta utilizar a função **readtext** passando como parâmetro o caminho até a imagem!

In [None]:
texto = reader.readtext("RP_4600023295_NF_1266_1.jpg")
texto

In [None]:
img = cv2.imread("RP_4600023295_NF_1266_1.jpg")

plt.rcParams["figure.figsize"] = (15,15)

plt.imshow(img);

## Experimento com livros

Iremos recuperar informações de escrita provenientes de livros.

Vamos realizar a leitura de apenas uma página de um livro. Considere que o formato já é JPG.

Primeiro, exibimos a imagem:

In [None]:
img = cv2.imread("livros_aiwplain1.jpg")

plt.rcParams["figure.figsize"] = (15,15)

plt.imshow(img);

E então podemos fazer o OCR:

In [None]:
reader = easyocr.Reader(["pt", "en"], gpu = False)

In [None]:
lista_texto = reader.readtext("livros_aiwplain1.jpg", detail=0)

Observe que a saída do *readtext* é uma lista, contendo diversos pequenos pedaços (substrings) do texto completo da página. Para transformar esta lista em uma string completa, podemos fazer:

In [None]:
texto = " ".join(lista_texto)
texto

Agora poderíamos, por exemplo, procurar um termo no texto:

In [None]:
"Alice" in texto

In [None]:
"rabbit" in texto.lower()

Outras alternativas, vistas nas aulas 01 e 02:
- Remover pontuações e *stopwords*
- Separar em palavras
- Contar frequência de palavras
- Etc.

### Ler vários livros e produzir DataFrame

Considere a lista de páginas de livros:

In [None]:
lista_livros = ["livros_aiwplain1.jpg",
                "livros_ipad.jpg",
                "livros_nlp.jpg",
                "livros_nlp_2.jpg",
                "livros_nlp_ods_course.jpg"]

**Exercício 1** Crie uma função que recebe um caminho de uma imagem e a exibe na tela. Exiba a imagem de cada um dos livros.

**Exercício 2** Crie um bloco de código que percorre a lista de livros e utiliza o EasyOCR para efetuar a leitura deles (a partir dos arquivos de imagem).

Guarde os textos lidos em um dicionário ou lista, conforme considerar mais fácil e adequado.

**Exercício 3** E se quiséssemos descobrir se um trecho de livro contém determinado termo? Crie um bloco de código que permite procurar um termo em determinado livro.

**Exercício 4** Agora vamos resumir as nossas descobertas dos blocos anteriores. Considere uma lista de termos para o qual desejamos realizar buscas. Exemplo:

In [None]:
palavras = ["mind", "presentation", "language", "summer", "natural", "rabbit"]

Crie um bloco de código que, a partir dos textos lidos e palavras (termos de busca), produz um DataFrame pandas onde cada linha representa um livro e as colunas representam os termos de busca. Preencha se o termo foi ou não encontrado no livro.

### Exercícios adicionais - Livros

**Exercício 5** Faça uma análise visual da qualidade da identificação dos textos contidos nas imagens.

R:

**Exercício 6** Extraia as probabilidades para cada termo em cada livro (disponibilizada pelo EasyOCR).

a) Identifique estatísticas para cada livro. Probabilidade média, mediana, máxima e mínima.

b) Para cada livro, exiba a distribuição de probabilidades.

## Experimento com notas fiscais

Um exemplo prático do uso de OCR poderia envolver a tradução de dados de imagem de notas fiscais para acompanhamento da prestação de contas por instituições públicas.

Neste exemplo, vários PDFs que contém representações de notas fiscais eletrônicas foram extraídos do site de prestação de contas do Metrô de São Paulo. Os arquivos são aqueles nomeados no padrão **RP_*.pdf**

Links:
- https://transparencia.metrosp.com.br/dataset/contrato-rp-4600023295beetrade-assessoria-de-marketing
- https://transparencia.metrosp.com.br/dataset/contrato-rp4600023527-bt


**Exercício 7** Crie uma função que recebe uma lista de arquivos PDF. Ela deve transformar todos eles para imagem, salvando na mesma pasta, com extensão .jpg.

**Exercício 8** Crie um bloco de código que recebe uma lista de imagens, faz o OCR delas e salva um arquivo de mesmo nome, na mesma pasta, com extensão **.txt**. O arquivo de texto deve conter os caracteres reconhecidos na imagem pelo EasyOCR.

# Caligrafia

Como um experimento, vamos verificar se o EasyOCR consegue identificar caracteres escritos a mão? Para isso, utilizaremos um Canvas com área livre para grafia, com base no pacote **ipycanvas**, disponível em https://ipycanvas.readthedocs.io/en/latest/ ou https://github.com/martinRenou/ipycanvas

Primeiro, vamos importar as bibliotecas necessárias. Já fizemos isso no início do notebook, entretanto, deixaremos aqui para fins didáticos, para que percebam bem quais bibliotecas são necessárias em qual parte da aula.

In [None]:
# Canvas hand drawing
from ipywidgets import Image
from ipywidgets import ColorPicker, IntSlider, link, AppLayout, HBox
from ipycanvas import Canvas, hold_canvas

# OCR
import easyocr

In [None]:
# !pip install ipycanvas

Caso algum pacote não tenha sido importado corretamente, utilize o pip para instalar.
Por exemplo, para instalar o *ipycanvas*:

**!pip install ipycanvas**

Agora, vamos configurar alguns parâmetros da área de desenho: altura, largura, cor inicial da caneta de desenho e cor de fundo.

Caso queira entender melhor como estamos definindo as cores (padrão RGB em formato hexadecimal), consulte https://www.w3schools.com/Colors/default.asp e https://htmlcolorcodes.com

In [None]:
width = 700
height = 350

stroke_color = "#0068b3"
background_color = "#eeeeee"

e agora, criar a área para desenho. Clique e utilize o mouse para desenhar:

In [None]:
from google.colab import output
output.enable_custom_widget_manager()

In [None]:
canvas = Canvas(width=width, height=height)

drawing = False
position = None
shape = []


def on_mouse_down(x, y):
    global drawing
    global position
    global shape

    drawing = True
    position = (x, y)
    shape = [position]


def on_mouse_move(x, y):
    global drawing
    global position
    global shape

    if not drawing:
        return

    with hold_canvas(canvas):
        canvas.stroke_line(position[0], position[1], x, y)
        position = (x, y)

    shape.append(position)


def on_mouse_up(x, y):
    global drawing
    global position
    global shape

    drawing = False
    
    with hold_canvas(canvas):
        canvas.stroke_line(position[0], position[1], x, y)
        #canvas.fill_polygon(shape)

    shape = []


canvas.on_mouse_down(on_mouse_down)
canvas.on_mouse_move(on_mouse_move)
canvas.on_mouse_up(on_mouse_up)

canvas.stroke_style = stroke_color

canvas.sync_image_data = True

canvas.fill_style = background_color
canvas.fill_rect(0, 0, canvas.width, canvas.height)

picker = ColorPicker(description="Color:", value=stroke_color)

link((picker, "value"), (canvas, "stroke_style"))
link((picker, "value"), (canvas, "fill_style"))

HBox((canvas, picker))

Vamos criar um **Reader**:

In [None]:
reader = easyocr.Reader(["pt", "en"], gpu = False)

Agora, execute a célula abaixo caso queira utilizar o EasyOCR para realizar o OCR da imagem desenhada a mão:

In [None]:
img_name = "img1.png"

canvas.to_file(img_name)

img = cv2.imread(img_name)

plt.rcParams["figure.figsize"] = (10,10)

plt.imshow(img);

In [None]:
reader.readtext(img_name, detail = 0)

**Exercício 9** Utilize o canvas e responda os exercícios:

a) Desenhe palavras existentes em português. De forma geral, o EasyOCR conseguiu reconhecer corretamente?

R:

b) E quando desenhamos palavras inexistentes (mistura aleatória de caracteres)? Justifique.

R:

c) Tente replicar, desenhando a mão, as seguintes escritas:

<img src="https://atd-insper.s3.us-east-2.amazonaws.com/aula03/handwriting.png">


e compare o desempenho do EasyOCR na identificação dos caracteres das duas imagens. Consegue identificar hipóteses para as diferenças?

Obs: o nome da imagem é *handwriting.png*

R:

# Referências

Todas as imagens e PDFs utilizados nesta aula foram obtidos em buscadores e encontrados de forma pública na Web.

Lista de URLs:

Exercício de Livros:
- https://scrappystickyinkymess.files.wordpress.com/2013/08/aiwplain1.jpg
- http://nlp.ods.asia/Courses/200102.NLP/SLP/slp-preface.pdf
- https://static.docsity.com/documents_pages/notas/2015/02/23/9db87522509edf1a679f14c58f421f51.png
- https://images-na.ssl-images-amazon.com/images/I/71vlGjCEVyL.jpg
- https://help.apple.com/assets/5FF781C3D9C608399A729C42/5FF781C4D9C608399A729C5E/pt_BR/94f62b05596502341b2dd6b73b90fadf.png

Notas Fiscais do Metrô SP:
- https://transparencia.metrosp.com.br/dataset/contrato-rp-4600023295beetrade-assessoria-de-marketing
- https://transparencia.metrosp.com.br/dataset/contrato-rp4600023527-bt

ID Cards:
- https://s.toptests.co.uk/wp-content/uploads/2017/12/uk-driving-licence.jpg
- https://s.driving-tests.org/img/license/alabama-drivers-license.jpg

## Extra: `pytesseract`

Vamos utilizar uma biblioteca diferente, a `pytesseract` para fazer o reconhecimento de caracteres.

Faremos a instalação da aplicação no sistema:

In [None]:
!sudo apt update
!sudo apt install -y tesseract-ocr
!sudo apt install -y libtesseract-dev

A instalação da biblioteca python:

In [None]:
!pip install pytesseract

O import da biblioteca python:

In [None]:
import pytesseract

### Exemplo de uso

Vamos abrir a iamgem utilizendo o OpenCV

In [None]:
imagem_caminho = "id_uk-driving-licence.jpg"

img = cv2.imread(imagem_caminho)

plt.rcParams["figure.figsize"] = (10,10)

plt.imshow(img);

E utilizar `pytesseract.image_to_string` para fazer a extração

In [None]:
txt = pytesseract.image_to_string(img)
print(txt)

Caso queira exibir os bounding boxes, vamos extrair um dicionário com as informações contidas na imagem (texto e mais alguns extras)

In [None]:
img_c = img.copy()
data = pytesseract.image_to_data(img_c, output_type=pytesseract.Output.DICT)

Então, vamos exibir os bounding boxes

In [None]:
for i in range(len(data["level"])):
    if (data["text"][i] != ""):
        # Extração das coordenadas
        (x, y, width, heigth) = (data["left"][i],
                                 data["top"][i],
                                 data["width"][i],
                                 data["height"][i])
        # Plot do retângulo nas coordenadas
        cv2.rectangle(img_c,
                      (x, y),
                      (x + width, y + heigth),
                      (200, 255, 0),
                      2)

# Exibe imagem resultante
plt.imshow(img_c);

Por hoje é só!