# Aula 1

## Introdução ao OCR

### O que é o OCR? 

OCR, que em inglês é chamado de Optical Character Recognition e tem a sua tradução para Reconhecimento de Caractere Óptico, e dá se ao processo que converte uma imagem de texto em um formato de texto legível por máquina

### Como o OCR funciona?
* Aquisição da imagem
* Pré-processamento
* Reconhecimento de texto
  - Reconhecimento de padrões
  - Detecção de recursos
* Pós-processamento



Existem diversas ferramentas disponíveis para serem utilizadas e nós vamos utilizar o [`pytesseract`](https://pypi.org/project/pytesseract/), que é uma biblioteca do Python que permite com que possamos utilizar o [`Tesseract OCR`](https://tesseract-ocr.github.io/), que é um recurso open source da Google e funciona com a OCR Engine. Por ser um recurso open source tem um [`repositório no GitHub`](https://github.com/tesseract-ocr/tesseract), e mais de 100 línguas no seu vocabulário, além de ser possível fazer com que ele aprenda novas linguagens.

## OCR no Colab

As bibliotecas não são instaladas previamente no Google Colaboratory, então é necessário que a instalação seja feita utilizando o pip.



```
!pip install opencv-python==4.6.0
!sudo apt install tesseract-ocr
!pip install pytesseract==0.3.9
```

E os dados utilizados no curso serão importados utilizando o `!git clone` da pasta [`text-recognize`](https://github.com/sthemonica/text-recognize), afim de facilitar a importação de arquivos.

In [1]:
# !pip install opencv-python==4.6.0
# !sudo apt install tesseract-ocr
# !pip install pytesseract==0.3.9

In [2]:
# !git clone https://github.com/sthemonica/text-recognize

In [3]:
import pytesseract
import numpy as np
import cv2 # OpenCV
# from google.colab.patches import cv2_imshow # para mostrar as imagens no Google Colab

In [4]:
pytesseract.__version__

'0.3.9'

In [5]:
cv2.__version__

'4.7.0'

In [6]:
img = cv2.imread('/home/gilson/Documentos/alura/alura_reconhecimento_ocr_opencv/Imagens/Aula1-teste.png')
cv2.imshow('img', img)
cv2.waitKey(0) # necessário fora do colab, pressionar a tecla 0
cv2.destroyAllWindows()

In [7]:
texto = pytesseract.image_to_string(img)
print(texto)

TESTE INICIAL OCR



## Imagens BGR


O OpenCV tem seus canais de cores invertidos, então para utilizarmos com outras bibliotecas precisamos fazer a conversão de BGR para RGB. 
Existem outros tipos de conversões que podem ser feitas e a lista pode ser acessada no site da [documentação do OpenCV](https://docs.opencv.org/3.4/d8/d01/group__imgproc__color__conversions.html).

In [8]:
img = cv2.imread('/home/gilson/Documentos/alura/alura_reconhecimento_ocr_opencv/Imagens/Aula1-ocr.png')
cv2.imshow('img', img)
cv2.waitKey(0) # necessário fora do colab, pressionar a tecla 0
cv2.destroyAllWindows()

In [9]:
rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
cv2.imshow('rgb', rgb)
cv2.waitKey(0) # necessário fora do colab, pressionar a tecla 0
cv2.destroyAllWindows()

In [10]:
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
cv2.imshow('gray', gray)
cv2.waitKey(0) # necessário fora do colab, pressionar a tecla 0
cv2.destroyAllWindows()

# Aula 2

## Caracteres diferentes

In [11]:
img = cv2.imread('/home/gilson/Documentos/alura/alura_reconhecimento_ocr_opencv/Imagens/Aula2-undersampling.png')
rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
cv2.imshow('rgb', rgb)
cv2.waitKey(0) # necessário fora do colab, pressionar a tecla 0
cv2.destroyAllWindows()

In [12]:
texto = pytesseract.image_to_string(rgb)
print(texto)

Undersampling

E uma técnica que consiste em manter todos os dados da classe com menor frequéncia e
diminuir a quantidade dos que estdo na classe de maior frequéncia, fazendo com que as
observagées no conjunto possuam dados com a variavel alvo equilibrada.



As palavras **frequência**, **estão** e **observações** não conseguiram ser traduzidas de uma forma boa o suficiente, o que nos faz pensar que o Tesseract está com algum problema e vamos verificar quais as listas de línguas que estão instaladas atualmente no sistema para auxiliar na leitura das nossas imagens, para isso usamos:

```
!tesseract --list-langs
```

In [13]:
!tesseract --list-langs

List of available languages (161):
Arabic
Armenian
Bengali
Canadian_Aboriginal
Cherokee
Cyrillic
Devanagari
Ethiopic
Fraktur
Georgian
Greek
Gujarati
Gurmukhi
HanS
HanS_vert
HanT
HanT_vert
Hangul
Hangul_vert
Hebrew
Japanese
Japanese_vert
Kannada
Khmer
Lao
Latin
Malayalam
Myanmar
Oriya
Sinhala
Syriac
Tamil
Telugu
Thaana
Thai
Tibetan
Vietnamese
afr
amh
ara
asm
aze
aze_cyrl
bel
ben
bod
bos
bre
bul
cat
ceb
ces
chi_sim
chi_sim_vert
chi_tra
chi_tra_vert
chr
cos
cym
dan
deu
div
dzo
ell
eng
enm
epo
est
eus
fao
fas
fil
fin
fra
frk
frm
fry
gla
gle
glg
grc
guj
hat
heb
hin
hrv
hun
hye
iku
ind
isl
ita
ita_old
jav
jpn
jpn_vert
kan
kat
kat_old
kaz
khm
kir
kmr
kor
kor_vert
lao
lat
lav
lit
ltz
mal
mar
mkd
mlt
mon
mri
msa
mya
nep
nld
nor
oci
ori
osd
pan
pol
por
pus
que
ron
rus
san
sin
slk
slv
snd
spa
spa_old
sqi
srp
srp_latn
sun
swa
swe
syr
tam
tat
tel
tgk
tha
tir
ton
tur
uig
ukr
urd
uzb
uzb_cyrl
vie
yid
yor


In [14]:
!apt-get install tesseract-ocr-por

E: Não foi possível abrir arquivo de trava /var/lib/dpkg/lock-frontend - open (13: Permissão negada)
E: Unable to acquire the dpkg frontend lock (/var/lib/dpkg/lock-frontend), are you root?


In [15]:
!tesseract --list-langs

List of available languages (161):
Arabic
Armenian
Bengali
Canadian_Aboriginal
Cherokee
Cyrillic
Devanagari
Ethiopic
Fraktur
Georgian
Greek
Gujarati
Gurmukhi
HanS
HanS_vert
HanT
HanT_vert
Hangul
Hangul_vert
Hebrew
Japanese
Japanese_vert
Kannada
Khmer
Lao
Latin
Malayalam
Myanmar
Oriya
Sinhala
Syriac
Tamil
Telugu
Thaana
Thai
Tibetan
Vietnamese
afr
amh
ara
asm
aze
aze_cyrl
bel
ben
bod
bos
bre
bul
cat
ceb
ces
chi_sim
chi_sim_vert
chi_tra
chi_tra_vert
chr
cos
cym
dan
deu
div
dzo
ell
eng
enm
epo
est
eus
fao
fas
fil
fin
fra
frk
frm
fry
gla
gle
glg
grc
guj
hat
heb
hin
hrv
hun
hye
iku
ind
isl
ita
ita_old
jav
jpn
jpn_vert
kan
kat
kat_old
kaz
khm
kir
kmr
kor
kor_vert
lao
lat
lav
lit
ltz
mal
mar
mkd
mlt
mon
mri
msa
mya
nep
nld
nor
oci
ori
osd
pan
pol
por
pus
que
ron
rus
san
sin
slk
slv
snd
spa
spa_old
sqi
srp
srp_latn
sun
swa
swe
syr
tam
tat
tel
tgk
tha
tir
ton
tur
uig
ukr
urd
uzb
uzb_cyrl
vie
yid
yor


Agora já temos o português instalado e podemos passar novamente a imagem e definir que ela seja "lida" pelo Tesseract usando o português, para isso contamos com o  método `lang`.

In [16]:
texto = pytesseract.image_to_string(rgb, lang='por')
print(texto)

Undersampling

É uma técnica que consiste em manter todos os dados da classe com menor frequência e
diminuir a quantidade dos que estão na classe de maior frequência, fazendo com que as
observações no conjunto possuam dados com a variável alvo equilibrada.



## PSM

Page Segmentation Mode (PSM) ou em uma tradução livre modos de segmentação de página.

In [17]:
!tesseract --help-psm

Page segmentation modes:
  0    Orientation and script detection (OSD) only.
  1    Automatic page segmentation with OSD.
  2    Automatic page segmentation, but no OSD, or OCR. (not implemented)
  3    Fully automatic page segmentation, but no OSD. (Default)
  4    Assume a single column of text of variable sizes.
  5    Assume a single uniform block of vertically aligned text.
  6    Assume a single uniform block of text.
  7    Treat the image as a single text line.
  8    Treat the image as a single word.
  9    Treat the image as a single word in a circle.
 10    Treat the image as a single character.
 11    Sparse text. Find as much text as possible in no particular order.
 12    Sparse text with OSD.
 13    Raw line. Treat the image as a single text line,
       bypassing hacks that are Tesseract-specific.


In [18]:
img = cv2.imread('/home/gilson/Documentos/alura/alura_reconhecimento_ocr_opencv/Imagens/Aula2-trecho-livro.png')
rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
cv2.imshow('rgb', rgb)
cv2.waitKey(0) # necessário fora do colab, pressionar a tecla 0
cv2.destroyAllWindows()

In [None]:
config_tesseract = '--tessdata-dir tessdata --psm 7'
texto = pytesseract.image_to_string(rgb, lang='eng', config=config_tesseract)
print(texto)

## Biblioteca Pillow

Biblioteca Pillow, que é mais conhecida pelo seu nome antigo, **PIL**: Python Imaging Library. 

**Método utilizado:**

```
pytesseract.image_to_osd()
```


OSD significa Orientation and Script Detection e o seu retorno são os "metadados" da imagem.

# Aula 3

## Selecionando textos

## Caixa delimitadora

## Caixa e texto

## Fontes

## Função para fontes

# Aula 4

## Busca de informações

## Destaque de informações

## Cenários naturais

## Falsos positivos