<h1>Optical Character Recognition</h1>

Optical Character Recognition sau OCR este un algoritm folosit pentru a detecta și localiza caracterele dintr-o imagine. Folosind OCR, vor fi detectate cifrele care formează codul numeric personal într-o imagine cu un act de identitate. OCR are mai multe implementări. Pentru lucrarea de cercetare de față, a fost aleasă implementarea OCR folosind tesseract.

In [2]:
import pytesseract
import numpy as np
import cv2
import matplotlib as plt
from PIL import Image
from PIL import ImageFont, ImageDraw, ImageEnhance

Folosind librăria OpenCV, este citită o imaginea cu un act de identitate.

In [3]:
img = cv2.imread("buletinBeianAdriana.jpg")

In [5]:
img = cv2.imread("buletinBeianDragos.jpg")

In [25]:
img = cv2.imread("buletinTatarLiliana.jpg")

In [96]:
img = cv2.imread("buletinStoicaMarius.jpg")

In [75]:
img = cv2.imread("buletinKissSandor.jpg")

Imaginea a fost redimensionată, având ca și parametrii fx = 2 și fy = 2. Parametrii fx și fy au valori diferite pentru imagini diferite. Valorile vor fi stabilite prin încercări multiple, de la 0.5, fiind incrementat cu câte 0.5, uneori ajungând chiar până la 3.0. 

In [4]:
img = cv2.resize(img,None,fx = 2.5,fy = 2.5)

In [6]:
img = cv2.resize(img,None,fx = 2.0,fy = 2.0)

In [26]:
img = cv2.resize(img,None,fx = 2.0,fy = 2.0)

In [97]:
img = cv2.resize(img,None,fx = 1.5,fy = 1.5)

In [76]:
img = cv2.resize(img,None,fx = 1.2,fy = 1.2)

In [5]:
img.shape
hImage = img.shape[0]
wImage = img.shape[1]

In [6]:
print(hImage,wImage)

1000 750


Imaginea redimensionată va fi afișată.

In [50]:
cv2.imshow("Img",img)
cv2.waitKey(0)

-1

In [7]:
img.shape

(1000, 750, 3)

În cele ce urmează sunt implementate funcții de preprocesare a imaginii, înainte de a aplica algoritmul OCR.

In [8]:
# get grayscale image
def get_grayscale(image):
    return cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

#canny edge detection
def canny(image):
    return cv2.Canny(image, 100, 200)



Funcția get_grayscale face ca o imagine RGB cu 3 canale de culoare, să devină o imagine grayscale, cu un singur canal de culoare. Funcția thresholding preia imaginea grayscale și o binarizează, folosind un threshold. Funcția opening are rolul de a elimina zgomotele din imagine. Funcția canny are rolul de a detecta muchiile.

In [9]:
gray = get_grayscale(img)
canny = canny(gray)

In [10]:
cv2.imshow("Img",gray)
cv2.waitKey(0)

-1

In [11]:
cv2.imshow("Canny",canny)
cv2.waitKey(0)

-1

În folderul Tesseract-OCR a fost instalată aplicația tesseract. Pentru a putea fi folosit tesseract în aplicația de față, este necesară încărcarea executabilului din folderul Tesseract-OCR.

In [12]:
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

In [13]:
img.shape
hImage = img.shape[0]
wImage = img.shape[1]

In [14]:
hImage,wImage

(1000, 750)

Folosind funcția image_to_boxes, aplicată pe imaginea canny, au fost detectate multe dintre caracterele din imagine.

In [15]:
boxes = pytesseract.image_to_boxes(canny)

In [16]:
print(boxes)

~ 144 872 738 877 0
m 0 795 38 855 0
a 28 795 84 857 0
m 69 797 114 861 0
e 102 797 156 863 0
T 175 792 208 838 0
L 200 795 233 816 0
O 232 795 312 851 0
R 284 787 319 846 0
C 348 795 363 843 0
E 352 792 421 856 0
7 479 799 491 847 0
7 517 800 543 848 0
] 542 800 543 848 0
R 622 809 650 843 0
O 652 809 688 843 0
M 690 809 750 843 0
~ 1 754 45 761 0
~ 46 731 103 763 0
o 179 739 194 756 0
i 189 739 202 776 0
f 199 740 228 775 0
i 219 740 249 775 0
t 245 742 271 776 0
h 270 742 280 756 0
a 282 742 295 758 0
“ 362 760 376 778 0
E 375 732 401 778 0
a 397 732 432 778 0
s 432 734 486 779 0
a 494 734 520 778 0
n 509 734 525 780 0
e 528 734 561 781 0
e 562 735 581 781 0
r 579 735 593 781 0
i 589 735 635 781 0
e 621 734 635 781 0
e 167 704 188 720 0
x 181 691 196 735 0
e 188 705 206 720 0
2 214 702 230 728 0
7 229 702 246 728 0
6 247 702 263 728 0
0 264 702 281 728 0
4 282 702 298 728 0
2 298 702 316 730 0
9 316 702 333 729 0
2 335 704 351 730 0
6 352 704 368 730 0
4 370 704 386 730 0
3 387 704 

Caracterele au fost introduse într-un array unidimensional.

In [86]:
l = []
for b in boxes.splitlines():
    b = b.split(' ')
    l.append(b[0])

In [87]:
print(l)

['_', 'o', 'r', 'l', 'a', 'a', 'a', 'n', 't', 'r', 's', 'c', 'a', 'r', 'n', '2', 'S', 'a', 'w', '1', '9', '2', '1', '0', '1', '7', '2', '8', '0', '0', '1', '2', 'a', 'e', 'a', '<', 'J', '°', '«', 'i', 'e', 'm', 'O', 'U', 'R', 'A', 'R', 'E', 'I', 'E', 'R', 'u', 'O', 'M', 'e', 'A', 'N', 'I', 'A', 'A', 'T', 'e', 'O', 'w', 'y', 'e', '€', 'a', 'a', 'n', 't', 'a', 'G', 'c', 'v', '—', 'I', 'D', 'O', 'R', 'M', 'I', 'A', 'L', 'Y', 'R', 'O', '8', 'l', 'e', 's', '5', 'I', 'D', 'O', 'R', '-', 'M', 'Z', 'H', 'A', 'L', 'Y', 'C', 'a', 'l', 'f', 'i', 'v', 'a', 'm', 'a', 'i', 'm', 'e', 'v', 'o', 'e', 'n', 'i', 'i', 't', 'a', 'i', 'N', 'o', 'u', 'e', 'n', 'a', 'l', 'l', 'i', 'i', 'y', '“', 'R', 'o', 'm', 'a', 'n', 'd', '/', 'R', 'O', 'U', 'f', 'f', '«', 'J', 'n', 'e', 'o', 'u', 's', 'M', 'u', 'r', 'o', 't', 'f', 'o', 'o', 'n', 'u', 'r', 'e', 's', '.', '@', ')', 'B', 'i', 'e', 'i', 'u', 'n', '.', 'T', 'r', 'e', 'y', 'a', 'u', 'r', 'e', 's', '|', 'D', 'o', 'n', 'm', 'e', 's', 'i', 't', 'i', 'e', 'n', 'l',

<h2>Detectie serie</h2>

Algoritmul de mai jos are rolul de a detecta seria din buletin. Una dintre posibilele aplicații ale algoritmului ar fi putut detecta CNP-ul și blura cifrele acestuia, fiind afișate doar datele care nu sunt atât de compromițătoare, precum seria. Array-ul unidimensional de caractere este parcurs. Dacă se ajunge la un caracter numeric, se marchează începutul unui șir de numere, folosind variabila okLeft, și se salvează indexul poziției de început, în variabila left. Dacă șirul de numere citit aparține seriei, vor fi citite 6 numere, urmate de un caracter care nu este numeric. Se salvează și indexul poziției ultimei cifre care aparține seriei.

In [80]:
cnt = 0
maxx = 0
count = 0
okLeft = 0
maxLeft = maxRight = 0
for i in l:
    if i.isnumeric() :
        if okLeft == 0:
            left = cnt
            okLeft = 1
        count = count + 1
    else :
        if count > maxx:
            maxx = count
            maxLeft = left
            maxRight = cnt - 1
            if count == 6:
                break
        count = 0
        okLeft = 0
    cnt = cnt + 1          
print(maxLeft,maxRight)

322 330


Sunt afișate cifrele de la indexul poziției primei cifre din serie, până la indexul ultimei cifre din serie.

In [20]:
cnt = 0
for i in l:
    if cnt >= maxLeft and cnt <= maxRight:
        print(i)
    cnt = cnt + 1

1
8
8
1
1
6


Cifrele din serie au fost detectate și localizate. Pentru fiecare cifră, se preiau coordonatele x,y, width-ul și height-ul. Fiecare cifră va fi încadrată într-o imagine de 18X18. Scopul este crearea unei imagini de 28X28, astfel încât cifra șă fie cât mai mult centrată în imagine. Dacă cifra nu este centrată în imagine, clasificarea va fi greu de realizat. În jurul celor 18X18 pixeli cu cifra vor fi introduși pixeli negri pentru a umple imaginea de 28X28. Cifrele detectate au culoarea negru pe fundal alb. A fost necesară modificarea imaginii într-una cu cifre albe pe fundal negru, de aici scăderea fiecărei valori din imagine cu 255. Cele 6 imagini cu cifrele din serie vor fi salvate pentru a fi utilizate în rețeaua neuronală convoluțională.  

In [70]:
cnt = 0
count = 0
width = 18
height = 18
w1 = 28
h1 = 28
dim = (width,height)
print(hImage)

for b in boxes.splitlines():
    b = b.split(' ')
    if cnt >= maxLeft and cnt <= maxRight:
        x,y,w,h = int(b[1]),int(b[2]),int(b[3]),int(b[4])
        p1 = x
        p2 = hImage - y
        p3 = w
        p4 = hImage - h
        roi = img[hImage - h:hImage - y,x:w]
        resized = cv2.resize(roi, dim, interpolation = cv2.INTER_AREA)
        resized = cv2.cvtColor(resized, cv2.COLOR_BGR2GRAY)
        resized = 255 - resized
        canvas = np.zeros((28,28),dtype=int)
        canvas[5:23, 5:23] = resized
        name = "roi" + str(count) + ".jpg"
        cv2.imwrite(name,canvas)
        image = cv2.rectangle(img,(p1,p2),(p3,p4),(255,0,0),1)
        cv2.putText(img,b[0],(x,hImage - y + 25),cv2.FONT_HERSHEY_COMPLEX,1,(50,255,255),2)
        cnp+=b[0]
        print(resized.shape)
        print(name)
        print(b)
        count = count + 1
    cnt = cnt + 1
print(cnp)
cv2.imshow('Result',img)
cv2.waitKey(0)  

1000
(18, 18)
roi0.jpg
['2', '214', '702', '230', '728', '0']
(18, 18)
roi1.jpg
['7', '229', '702', '246', '728', '0']
(18, 18)
roi2.jpg
['6', '247', '702', '263', '728', '0']
(18, 18)
roi3.jpg
['0', '264', '702', '281', '728', '0']
(18, 18)
roi4.jpg
['4', '282', '702', '298', '728', '0']
(18, 18)
roi5.jpg
['2', '298', '702', '316', '730', '0']
(18, 18)
roi6.jpg
['9', '316', '702', '333', '729', '0']
(18, 18)
roi7.jpg
['2', '335', '704', '351', '730', '0']
(18, 18)
roi8.jpg
['6', '352', '704', '368', '730', '0']
(18, 18)
roi9.jpg
['4', '370', '704', '386', '730', '0']
(18, 18)
roi10.jpg
['3', '387', '704', '403', '730', '0']
(18, 18)
roi11.jpg
['8', '405', '704', '423', '731', '0']
(18, 18)
roi12.jpg
['2', '424', '704', '440', '731', '0']
2760429264382


-1

In [71]:
# font
font = cv2.FONT_HERSHEY_SIMPLEX
  
# org
org = (int(wImage/2), 50)
  
# fontScale
fontScale = 1
   
# Blue color in BGR
color = (255, 0, 0)
  
# Line thickness of 2 px
thickness = 2
   
# Using cv2.putText() method
image = cv2.putText(img, 'CNP ' + cnp, org, font, 
                   fontScale, color, thickness, cv2.LINE_AA)

In [72]:
cv2.imshow("Img",img)
cv2.waitKey(0)

-1

<h2>Detectie CNP</h2>

Caracterele au fost introduse într-un array unidimensional.

In [17]:
l = []
for b in boxes.splitlines():
    b = b.split(' ')
    l.append(b[0])

In [18]:
print(l)

['~', 'm', 'a', 'm', 'e', 'T', 'L', 'O', 'R', 'C', 'E', '7', '7', ']', 'R', 'O', 'M', '~', '~', 'o', 'i', 'f', 'i', 't', 'h', 'a', '“', 'E', 'a', 's', 'a', 'n', 'e', 'e', 'r', 'i', 'e', 'e', 'x', 'e', '2', '7', '6', '0', '4', '2', '9', '2', '6', '4', '3', '8', '2', '\\', 'A', 'n', 'o', 'e', 'M', 'm', '~', '\\', ')', 'E', 'O', 'K', 'O', 'L', '|', '4', 'e', 'r', 'e', 'C', 'u', 'c', 'a', 'm', 'o', 'i', 'P', 'r', 'o', 'n', 'e', 'a', 'y', 'F', 'L', 'A', 'a', 'g', 'a', 'A', 'D', 'R', 'I', 'A', 'N', 'A', '-', 'C', 'A', 'S', 'T', 'A', 'N', 'A', 'S', 'c', 'i', 'y', 'i', 'c', 'a', 'l', 'o', 'm', 'o', 'r', 'e', 'n', 'a', 'l', 'i', 'c', 'n', 'O', 'C', 'A', 'N', 'I', 'L', 'I', 'y', 'S', 'a', 'm', 'a', 'R', 'o', 'm', 'é', 'n', 'é', '/', 'R', 'O', 'U', '(', 'e', 's', 's', 'a', 'r', 'i', 'q', 'o', 'U', 'i', 'n', 'w', '€', 'o', 'a', 'o', 'S', 'C', 's', 'y', 'o', 'n', 'e', '@', 'f', 'B', 'l', 'o', 'g', 'h', 'J', 'u', 'd', '.', 'A', 'i', 's', 'M', 'u', 'a', '.', 'T', 'a', 'r', 'n', 'e', 'w', 'a', 'N', 'S

Algoritmul de mai jos are rolul de a detecta codul numeric personal din buletin. Array-ul unidimensional de caractere este parcurs. Dacă se ajunge la un caracter numeric, se marchează începutul unui șir de numere, folosind variabila okLeft, și se salvează indexul poziției de început, în variabila left. Dacă șirul de numere citit aparține CNP-ului, vor fi citite 13 numere, urmate de un caracter care nu este numeric. Se salvează și indexul poziției ultimei cifre care aparține CNP-ului.

In [19]:
cnt = 0
maxx = 0
count = 0
okLeft = 0
maxLeft = maxRight = 0
for i in l:
    if i.isnumeric() :
        if okLeft == 0:
            left = cnt
            okLeft = 1
        count = count + 1
    else :
        if count > maxx:
            maxx = count
            maxLeft = left
            maxRight = cnt - 1
            if count == 13:
                break
        count = 0
        okLeft = 0
    cnt = cnt + 1          
print(maxLeft,maxRight)

40 52


In [20]:
cnt = 0
for i in l:
    if cnt >= maxLeft and cnt <= maxRight:
        print(i)
    cnt = cnt + 1

2
7
6
0
4
2
9
2
6
4
3
8
2


Cifrele din CNP au fost detectate și localizate. Pentru fiecare cifră, se preiau coordonatele x,y, width-ul și height-ul. Fiecare cifră va fi încadrată într-o imagine de 18X18. Scopul este crearea unei imagini de 28X28, astfel încât cifra șă fie cât mai mult centrată în imagine. Dacă cifra nu este centrată în imagine, clasificarea va fi greu de realizat. În jurul celor 18X18 pixeli cu cifra vor fi introduși pixeli negri pentru a umple imaginea de 28X28. Cifrele detectate au culoarea negru pe fundal alb. A fost necesară modificarea imaginii într-una cu cifre albe pe fundal negru, de aici scăderea fiecărei valori din imagine cu 255. Cele 13 imagini cu cifrele din serie vor fi salvate pentru a fi utilizate în rețeaua neuronală convoluțională.  

In [21]:
cnt = 0
count = 0

width = 18
height = 18

dim = (width,height)
cnp = ''
print(hImage)
for b in boxes.splitlines():
    b = b.split(' ')
    if cnt >= maxLeft and cnt <= maxRight:
        x,y,w,h = int(b[1]),int(b[2]),int(b[3]),int(b[4])
        p1 = x
        p2 = hImage - y
        p3 = w
        p4 = hImage - h
        roi = img[hImage - h:hImage - y,x:w]
        resized = cv2.resize(roi, dim, interpolation = cv2.INTER_AREA)
        resized = cv2.cvtColor(resized, cv2.COLOR_BGR2GRAY)
        resized = 255 - resized
        canvas = np.zeros((28,28),dtype=int)
        canvas[5:23, 5:23] = resized
        name = "cnp" + str(count) + ".jpg"
        cv2.imwrite(name,canvas)
        image2 = img.copy()
        #image = cv2.rectangle(img,(p1,p2),(p3,p4),(255,0,0),1)
        cv2.putText(img,b[0],(x,hImage - y + 25),cv2.FONT_HERSHEY_COMPLEX,1,(50,255,255),2)
        cnp += b[0]
        #img[hImage - h:hImage - y,x:w] = cv2.blur(img[hImage - h:hImage - y,x:w], (23, 23))
        print(b)
        count = count + 1
    cnt = cnt + 1
#cv2.rectangle(img,(p1f,p2f),(p3f,p4f),(255,0,0),-1)
print(cnp)
cv2.imshow('Result',img)
cv2.waitKey(0)  

1000
['2', '214', '702', '230', '728', '0']
['7', '229', '702', '246', '728', '0']
['6', '247', '702', '263', '728', '0']
['0', '264', '702', '281', '728', '0']
['4', '282', '702', '298', '728', '0']
['2', '298', '702', '316', '730', '0']
['9', '316', '702', '333', '729', '0']
['2', '335', '704', '351', '730', '0']
['6', '352', '704', '368', '730', '0']
['4', '370', '704', '386', '730', '0']
['3', '387', '704', '403', '730', '0']
['8', '405', '704', '423', '731', '0']
['2', '424', '704', '440', '731', '0']
2760429264382


-1

In [22]:
start_point = (0, 0) 
end_point = (370, 100) 
  
# Blue color in BGR 
color = (0, 0, 0) 
  
# Line thickness of 2 px 
thickness = 2
  
# Using cv2.rectangle() method 
# Draw a rectangle with blue line borders of thickness of 2 px 
image = cv2.rectangle(img, start_point, end_point, color, -1) 

In [23]:
# font
font = cv2.FONT_HERSHEY_SIMPLEX
  
# org
org = (10, 50)
  
# fontScale
fontScale = 1
   
# Blue color in BGR
color = (255, 255, 255)
  
# Line thickness of 2 px
thickness = 2
   
# Using cv2.putText() method
image = cv2.putText(img, 'CNP ' + cnp, org, font, 
                   fontScale, color, thickness, cv2.LINE_AA)

In [24]:
cv2.imshow("Img",img)
cv2.waitKey(0)

-1