# OCR Optic Character Recognition
Буюу зурагнаас дүрс илрүүлэх аргууд энэхүү сэдвийн доор хамаарагддаг бөгөөд энэхүү лабораторын ажилаар бидний амьдралд өдөр тутамд хэрэглэгддэг асуудал болох баримт бичгийн зурагнаас текст олборлох даалгаврыг зурагын боловсруулалтын "Image Acquisition" ашиглан шийдвэрлэх болно.

# Хүрэх үр дүн
1. Математикийн ойлголтыг дүрс боловсруулалтад хэрэглэх; A
2. Зургийн боловсруулалтын хэрэгсэлүүдийг онцлог домайнд хэрхэн хэрэгжүүлэх ойлголт авах, тайлбарлах B
3. Практик асуудлыг шийдвэрлэхийн тулд алгоритмыг төлөвлөх, хэрэгжүүлэх замаар дүрс боловсруулалтын мэдлэгийг харуулах I
4. Дүрс боловсруулалтын чиглэлээр хийгдэж байгаа шинэ судалгааны ажлуудтай танилцах, мэдэх J
5. Зураг боловсруулах сантай ажиллан зураг боловсруулах чадвартай болно A
7. Бие даан туршилт судалгаан дээр суурилсан өгүүлэл бичих ба үр дүн гарган
авна. J

[Tesseract github](https://github.com/tesseract-ocr/tesseract)

In [1]:
# libraries
import cv2
from matplotlib import pyplot as plt
import pytesseract
import numpy as np


In [2]:
# util
config = ('-l mon — oem 3 — psm 3')

kernel = np.array([[0, -1, 0],
                   [-1, 5, -1],
                   [0, -1, 0]])

In [3]:
# minii nutag image 2 
def img2():
    img = cv2.imread('minii_nutag2.jpg')
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    noise = cv2.medianBlur(gray, 7)

    thresh = cv2.threshold(noise, 200, 255, 0)[1]
    edged = cv2.Canny(thresh, 1500, 100)
    contours, hierarchy = cv2.findContours(edged, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)

    perim = cv2.arcLength(contours[0], True)
    # setting the precision
    epsilon = 0.02 * perim

    approxCorners = cv2.approxPolyDP(contours[0], epsilon, True)
    corners = np.array(approxCorners).reshape(4, 2)
    print(corners.shape)
    
    for point in corners:
        cv2.circle(img, (point[0], point[1]), 30, (0, 0, 255), -1)

    wrapped_img = np.zeros((img.shape[1], img.shape[0], 3))
    
    print(wrapped_img.shape)
    dst = np.float32(np.array(
        [[0, 0], [wrapped_img.shape[0], 0], [0, wrapped_img.shape[1]], [wrapped_img.shape[0], wrapped_img.shape[1]]]))
    src = np.array([corners[0], corners[3], corners[1], corners[2]])
    src = np.float32(src)

    matrix = cv2.getPerspectiveTransform(src, dst)
    result = cv2.warpPerspective(img, matrix, (wrapped_img.shape[0], wrapped_img.shape[1]))

    image_sharp = cv2.filter2D(src=result, ddepth=-1, kernel=kernel)

    text = pytesseract.image_to_string(image_sharp, config=config)
    print("TEXT: " + text)
    return text

In [4]:
# minii nutag advanced
def advImg():
    img = cv2.imread('minii_nutag_advanced.jpg')
   
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    noise = cv2.medianBlur(gray, 37)

    thresh = cv2.threshold(noise, 204, 255, 0)[1]
    edged = cv2.Canny(thresh, 1500, 100)
    contours, hierarchy = cv2.findContours(edged, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)

    perim = cv2.arcLength(contours[1], True)
    # setting the precision
    epsilon = 0.02 * perim

    approxCorners = cv2.approxPolyDP(contours[1], epsilon, True)
    corners = np.array(approxCorners).reshape(4, 2)
    
    print(corners.shape)
    for point in corners:
        cv2.circle(img, (point[0], point[1]), 30, (0, 0, 255), -1)

    wrapped_img = np.zeros((img.shape[1], img.shape[0], 3))
    
    print(wrapped_img.shape)
    dst = np.float32(np.array(
        [[0, 0], [wrapped_img.shape[0], 0], [0, wrapped_img.shape[1]], [wrapped_img.shape[0], wrapped_img.shape[1]]]))
    src = np.array([corners[1], corners[0], corners[2], corners[3]])
    src = np.float32(src)

    matrix = cv2.getPerspectiveTransform(src, dst)
    result = cv2.warpPerspective(img, matrix, (wrapped_img.shape[0], wrapped_img.shape[1]))

    image_sharp = cv2.filter2D(src=result, ddepth=-1, kernel=kernel)

    text = pytesseract.image_to_string(image_sharp, config=config)
    print("TEXT: " + text)
    return text

In [5]:
target_text = """
Хэнтий Хангай Соёны өндөр сайхан нуруунууд
Хойд зүгийн чимэг болсон ой хөвч уулнууд
Мэнэн Шарга Номины өөргөн их говиуд
Өмнө зүгийн манлай болсон элсэн манхан далайнууд
Энэ бол миний төрсөн нутаг
Монголын сайхан орон
Хэрлэн,Онон,Туулын тунгалаг ариун мөрнүүд
Хотол олны эм болсон горхи булаг рашаанууд
Хөвсгөл,Увс,Буйрын гүн цэнхэр нуурууд
Хүн малын ундаа болсон тойром бүрд уснууд
Энэ бол миний төрсөн нутаг
Монголын сайхан орон
Орхон,Сэлэнгэ,Хөхийн онц сайн голууд
Уурхай баялгийн охь болсон олон уул даваанууд
Хуучин хөшөө дурсгал,хот балгадын сууринууд
Хол газраа одсон харгуй дардан замууд
Энэ бол миний төрсөн нутаг
Монголын сайхан орон
Холхи газраас гялалзсан цаст өндөр хайрхнууд
Хөх тэнгэр цэлмэсэн хөдөө хээр цайдмууд
Холын бараа харагдсан ноён шовх сарьдгууд
Хүний сэтгэл тэнийсэн уудам амьсгалт талууд
Энэ бол миний төрсөн нутаг
Монголын сайхан орон
Хангай говийн хооронд Халхын уудам нутаг
Хар бага наснаас хөдлөн гулд  давхисан газар
Гөрөөс араатан авласан урт урт шилнүүд
Хүлэг морин уралдсан хөндий сайхан хоолойнууд
Энэ бол миний төрсөн нутаг
Монголын сайхан орон
"""

def matchTargetText(text):
    target_text1 = target_text.replace("\n", " ")
    target_text1 = target_text1.replace(",", " ").lower().split(" ")
    
    text = text.replace("\n", " ")
    text = text.replace(",", " ").lower().split(" ")
    
    accuracy = len(list(set(target_text1) & set(text))) * 100 / len(set(target_text1))
    print("Танилтын хувь: %0.2f%%"%accuracy)

In [6]:
miniiNutag2 = img2()

(4, 2)
(1536, 2048, 3)
TEXT: Хэнтий Хангай Соёны өндөр сайхан нуруунууд
Хойд зүгийн чимэг болсон ой хөвч уулнууд
Мэнэн Шарга Номины өөргөн их гоянуд
Өмнө зүгийн манлай болсон элсэн манхан далайнууд
Энэ бол миний торсон нутаг
Монголын сайхан орон
Хэрлэн, Опон, Туулын тунгалаг ариун мөрнүүд
Хотол олны эм болсон горхи булаг рашаанууд
Хөвсгөл, Увс, Буйрын гүн цэнхэр нууруул
Хүн малын ундаа болсон тойром бүрд уснууд
Энэ бол миний төрсөн нутаг
Монголын сайхан орон
Орхон,Сэлэнгэ,Хөхийн онц сайн голууд
Уурхай баялгийн охь болсон олон уул даваанууд
Хуучин хөшөө дурсгал, хот балгадын сууринууд
Хол газраа одсон харгуй дардан замууд
Энэ бол миний төрсөн нутаг
Монголын сайхан орон
Холхи газраас гялалзсан цаст өндөр хайрхнууд
Хөх тэнгэр цэлмэсэн хөдөө хээр цайдмууд
Холын бараа харагдсан ноён шовх сарьдгууд
Хүний сэтгэл тэнийсэн уудам амьсгалт талууд
Энэ бол миний төрсөн нутаг
Монголын сайхан орон
Хангай говийн хооронд Халхын уудам нутаг
Хар бага наснаас хөдлөн гулд давхисан газар
Гөрөөс араатан авла

In [7]:
advImage = advImg()

(4, 2)
(1536, 2048, 3)
TEXT: “Е ВаХсэүвүжэрХүЛлЭ ЭЭ.

Хэнтий Ханг ай Соёны Өндөр сайхан нуруунууд

2207 5 Е
Хойд ЗҮГийн чимэг болсон ой хөвч уулнууд

Мэнэн Шарга Номины өөргөн их говиуд

Өмнө зүгийн манлай болсон элсэн манхан далайнууд

Энэ бол миний төрсөн нутаг

Монголын сайхан орон

Хэрлэн, Онон, Туулын тунгалаг ариун мөрнүүд

Хотол олны ЭМ болсон горхи булаг рашаанууд
Хөвсгөл, Увс, Буйрын гүн цэнхэр нуурууд
Хүн малын ундаа болсон тойром бүрд уснууд

Энэ бол миний төрсөн нутаг
Монголын сайхан орон
Орхон,Сэлэнгэ,Хөхийн онц сайн голууд
Уурхай баялгийн охь болсон олон уул даваанууд
Хуучин хөшөө дурсгал, хот балгадын сууринууд
Хол газраа одсон харгуй дардан замууд
Энэ бол миний төрсөн нутаг
Монголын сайхан орон
Холхи газраас гялалзсан цаст өндөр хайрхнууд
Хөх тэнгэр цэлмэсэн хөдөө хээр цайдмуул
Холын бараа харагдсан ноён шовх сарьдгуул
Хүний сэтгэл тэнийсэн уудам амьсгалт талуУл
Энэ бол миний төрсөн нутаг
Монголын сайхан орон
Хангай говийн хооронд Халхын уудам нута!
Хар бага наснаас хөд

In [8]:
print("minii nutag2 img:")
matchTargetText(miniiNutag2)

minii nutag2 img:
Танилтын хувь: 97.56%


In [9]:
print("minii nutag advanced:")
matchTargetText(advImage)

minii nutag advanced:
Танилтын хувь: 97.56%


## Даалгавар 1 PerspectiveTransform
1. Зургын чанар хүчжүүлэх
2. Зөвхөн А4 цаасыг дүрслэх 

  https://docs.opencv.org/4.x/dd/d49/tutorial_py_contour_features.html

  https://docs.opencv.org/3.4/d4/d61/tutorial_warp_affine.html 

3. Threshold-ын утгыг тохируулах
4. Алдааг багасгах, Танилтын хувь 100% руу дөхүүлэх. 

## Даалгавар 2
  /content/minii_nutag2.jpg зурагт боловсруулалтыг гүйцэтгэх.

## Даалгавар advanced
  /content/minii_nutag_advanced.jpg зурагт боловсруулалтыг гүйцэтгэх.

## Даалгавар нэмэлт
  Дурын албан бичгээс текст олборлох программ бичих
## Хугацаа 3 долоо хоног
Өөрийн сурж мэдсэн дүгнэлтийг энэхүү Ipynb файлд оруулна уу 500 хүртэлх үгтэй.

# Дүгнэлт


`OCR буюу optical character recognition нь зургаас текст задлахад ашигладаг технологи юм.` OCR нь зураг дээрх тэмдэгтүүдийг таньж, тэдгээрийг машинд уншигдахуйц текст болгон хувиргах боломжийг олгодог. Tesseract бол Python программыг ашиглан зургаас текст гаргаж авах боломжтой `open source` OCR engine юм. `Зураг боловсруулалтанд` OCR-ийн чухал хэсэг юм. 

Зургийг сайжруулах, `OCR-ийн accurarcy` сайжруулахын тулд хоёртын дүрслэл(`Binarization`), чимээ шуугиан бууруулах, бүдүүвчийг арилгах зэрэг дүрс боловсруулах аргуудыг ашигладаг. Хоёртын дүрслэл гэдэг нь саарал өнгийн дүрсийг хоёртын дүрс болгон хувиргах үйл явц бөгөөд пиксел нь хар эсвэл цагаан өнгөтэй байна. 

Энэ нь зургийн `contrast` сайжруулж, дүрүүдийг онцгойлон харуулахын тулд хийгддэг. `noise reduction` нь OCR нарийвчлалд саад учруулж болох толбо, цэг зэрэг хүсээгүй элементүүдийг зурагнаас арилгахад ашиглагддаг. Бууруулах нь бага зэрэг хазайсан эсвэл эргүүлсэн дүрсийг шулуун болгох үйл явц юм. 

Python-д Pillow, OpenCV, Scikit-image зэрэг хэд хэдэн сангуудыг зураг боловсруулахад ашиглаж болно. Эдгээр сангууд нь шүүлтүүр, морфологийн үйлдэл, хувиргалт зэрэг дүрс боловсруулах янз бүрийн функц, хэрэгслээр хангадаг.

Tesseract-тай OCR болон Python дээр зураг боловсруулах нь автоматжуулсан өгөгдөл оруулах, хэвлэсэн баримт бичгийг дижитал хэлбэрт оруулах, машин сурахад зориулж зургаас текст задлах зэрэг өргөн хүрээний хэрэглээнд ашиглагдаж болно.