In [6]:
import pytesseract
from pytesseract import Output
import cv2
import editdistance
import numpy as np

In [7]:
def calculate_wer(reference, hypothesis):
    ref_words = reference.split()
    hyp_words = hypothesis.split()
    distance = editdistance.eval(ref_words, hyp_words)
    return distance / len(ref_words)

def calculate_cer(reference, hypothesis):
    distance = editdistance.eval(reference, hypothesis)
    return distance / len(reference)


In [30]:
def ocr_with_psm(image_path, psm):
    config = f'--psm {psm} -l san' 
    image = cv2.imread(image_path)  
    ocr_result = pytesseract.image_to_string(image, lang='san', config=config) 
    return ocr_result


In [40]:
def evaluate_psms(image_path, ground_truth):
    psm_results = {}

    for psm in range(0, 14): 
        try:
            ocr_result = ocr_with_psm(image_path, psm)
            wer = calculate_wer(ground_truth, ocr_result)
            cer = calculate_cer(ground_truth, ocr_result)
            psm_results[psm] = {'OCR_Result': ocr_result, 'WER': wer, 'CER': cer}
        except:
            psm_results[psm] = 'error'
    
    return psm_results


In [33]:
def ground_truth_reader(ground_truth_path):
    with open(ground_truth_path, 'r+', encoding='utf-8') as f:
        gt = f.read()
    return gt

print(ground_truth_reader('images\\san2\\t1_gt'))

1) निःपक्षपातितां सूचयितुं नित्यं शुभ्रध्वजः प्रचालनीयः । पूर्वगृहं विंता कस्यापि 
नैकायाः तथैव नौकाकर्मचारिणां साहाय्यं कर्तव्यम् कदापि यदि नौका आपद्रस्ता 
भवति तर्हि कर्मचारिभिः धैर्येण स्वसंरक्षणं करणीयम् ।


In [34]:
import os
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'  # Windows path
os.environ['TESSDATA_PREFIX'] = r'C:\Program Files\Tesseract-OCR\tessdata'  # Ensure correct tessdata path

In [41]:
image_path = "images\\san2\\t1.jpeg" 
gt_path = 'images\\san2\\t1_gt'
ground_truth = ground_truth_reader(gt_path)
results = evaluate_psms(image_path, ground_truth)

for psm, metrics in results.items():
    print(f"PSM: {psm}")
    print(f"WER: {metrics['WER']:.4f}, CER: {metrics['CER']:.4f}")
    print(f"OCR Output: {metrics['OCR_Result']}\n")


PSM: 0
WER: 0.2692, CER: 0.0526
OCR Output: 1) निःपक्षपातितां सूचयितुं नित्यं शुभ्वजः प्रचालनीयः। पूर्वगृहं विता कस्यापि
नैकायाः तथैव नौकाकर्मचारिणां साहाय्यं कर्तव्यम्‌ कदापि यदि नौका आपद्स्ता
भवति तर्हि कर्मचारिभिः धैर्येण स्वसंरक्षणं करणीयम्‌ ।


PSM: 1
WER: 0.2692, CER: 0.0526
OCR Output: 1) निःपक्षपातितां सूचयितुं नित्यं शुभ्वजः प्रचालनीयः। पूर्वगृहं विता कस्यापि
नैकायाः तथैव नौकाकर्मचारिणां साहाय्यं कर्तव्यम्‌ कदापि यदि नौका आपद्स्ता
भवति तर्हि कर्मचारिभिः धैर्येण स्वसंरक्षणं करणीयम्‌ ।


PSM: 2
WER: 0.2692, CER: 0.0526
OCR Output: 1) निःपक्षपातितां सूचयितुं नित्यं शुभ्वजः प्रचालनीयः। पूर्वगृहं विता कस्यापि
नैकायाः तथैव नौकाकर्मचारिणां साहाय्यं कर्तव्यम्‌ कदापि यदि नौका आपद्स्ता
भवति तर्हि कर्मचारिभिः धैर्येण स्वसंरक्षणं करणीयम्‌ ।


PSM: 3
WER: 0.2692, CER: 0.0526
OCR Output: 1) निःपक्षपातितां सूचयितुं नित्यं शुभ्वजः प्रचालनीयः। पूर्वगृहं विता कस्यापि
नैकायाः तथैव नौकाकर्मचारिणां साहाय्यं कर्तव्यम्‌ कदापि यदि नौका आपद्स्ता
भवति तर्हि कर्मचारिभिः धैर्येण स्वसंरक्षणं करणीयम्‌ ।




In [42]:
results

{0: {'OCR_Result': '1) निःपक्षपातितां सूचयितुं नित्यं शुभ्वजः प्रचालनीयः। पूर्वगृहं विता कस्यापि\nनैकायाः तथैव नौकाकर्मचारिणां साहाय्यं कर्तव्यम्\u200c कदापि यदि नौका आपद्स्ता\nभवति तर्हि कर्मचारिभिः धैर्येण स्वसंरक्षणं करणीयम्\u200c ।\n',
  'WER': 0.2692307692307692,
  'CER': 0.05263157894736842},
 1: {'OCR_Result': '1) निःपक्षपातितां सूचयितुं नित्यं शुभ्वजः प्रचालनीयः। पूर्वगृहं विता कस्यापि\nनैकायाः तथैव नौकाकर्मचारिणां साहाय्यं कर्तव्यम्\u200c कदापि यदि नौका आपद्स्ता\nभवति तर्हि कर्मचारिभिः धैर्येण स्वसंरक्षणं करणीयम्\u200c ।\n',
  'WER': 0.2692307692307692,
  'CER': 0.05263157894736842},
 2: {'OCR_Result': '1) निःपक्षपातितां सूचयितुं नित्यं शुभ्वजः प्रचालनीयः। पूर्वगृहं विता कस्यापि\nनैकायाः तथैव नौकाकर्मचारिणां साहाय्यं कर्तव्यम्\u200c कदापि यदि नौका आपद्स्ता\nभवति तर्हि कर्मचारिभिः धैर्येण स्वसंरक्षणं करणीयम्\u200c ।\n',
  'WER': 0.2692307692307692,
  'CER': 0.05263157894736842},
 3: {'OCR_Result': '1) निःपक्षपातितां सूचयितुं नित्यं शुभ्वजः प्रचालनीयः। पूर्वगृहं विता कस्यापि\nनै