# Оценка качества OCR с использованием метрик Precision, Recall и F1-мера

## Импорт библиотек и загрузка файлов

In [None]:
!pip install Levenshtein

In [3]:
import pandas as pd
import Levenshtein as lev

In [16]:
ocr_output = """Минусинскъ, окружный городъ Енисейской губерніи, расположенъ при устьѣ незначительной рѣки Мипусинки, при самомъ впаденіи ея въ рукавъ Енисея, главное русло котораго находится отъ города въ 8 верстахъ. Минусинскъ лежитъ подъ 55" *2Г сѣверной широты и подъ 107” восточной долготы, разстояніемъ отъ С.-Петербурга въ 5,428 верстахъ, отъ Москвы въ 4,355, отъ Красноярска въ 552 и отъ китайской границы, пли отъ ближайшаго пограничнаго знака, находящагося на Енисеѣ и называемаго Бомъ-Кемчугъ, въ 445 верстахъ."""
ground_truth = """Минусинскъ, окружный городъ Енисейской губерніи, расположенъ при устьѣ незначительной рѣки Минусинки, при самомъ впаденіи ея въ рукавъ Енисея, главное русло котораго находится отъ города въ 8 верстахъ. Минусинскъ лежитъ подъ 55°21' сѣверной широты и подъ 107° восточной долготы, разстояніемъ отъ С.-Петербурга въ 5,428 верстахъ, отъ Москвы въ 4,355, отъ Красноярска въ 552 и отъ китайской границы, или отъ ближайшаго пограничнаго знака, находящагося на Енисеѣ и называемаго Бомъ-Кемчугъ, въ 445 верстахъ."""

## Вычисление метрик

In [17]:
def measure_quality(ocr_output, ground_truth):
  """
  Calculates precision, recall, and F1-score
  using the Levenshtein distance to compare text from OCR with ground truth data.

  :param ocr_output: A text file containing the raw OCR results.
  :param ground_truth: A text file containing the verified ground truth text.
  """

  matching_parts = lev.matching_blocks(lev.editops(ocr_output, ground_truth), ocr_output, ground_truth)
  true_pos = len(''.join([ocr_output[x[0]:x[0]+x[2]] for x in matching_parts]))

  precision = true_pos / len(ground_truth)
  recall = true_pos / len(ocr_output)
  f_score = 2 * ((precision * recall) / (precision + recall))

  return precision, recall, f_score

In [18]:
precision, recall, f_score = measure_quality(ocr_output, ground_truth)

In [21]:
print(f'Precision: {round(precision, 4)}\nRecall: {round(recall, 4)}\nF1-score: {round(f_score, 4)}')

Precision: 0.9861
Recall: 0.9842
F1-score: 0.9851
