
# Jämförelse mellan Docling vs EasyOCR

Detta notebook syftar till att systematiskt jämföra två framstående verktyg för textutvinning och dokumentbearbetning: **Docling** och **EasyOCR**. Vi undersöker deras förmåga att extrahera text och struktur från PDF-dokument, samt utvärderar deras prestanda, noggrannhet och specifika styrkor i olika scenarier.



In [1]:
!pip install docling pdf2image EasyOCR jiwer

Collecting docling
  Downloading docling-2.63.0-py3-none-any.whl.metadata (11 kB)
Collecting pdf2image
  Downloading pdf2image-1.17.0-py3-none-any.whl.metadata (6.2 kB)
Collecting EasyOCR
  Downloading easyocr-1.7.2-py3-none-any.whl.metadata (10 kB)
Collecting jiwer
  Downloading jiwer-4.0.0-py3-none-any.whl.metadata (3.3 kB)
Collecting docling-core<3.0.0,>=2.50.1 (from docling-core[chunking]<3.0.0,>=2.50.1->docling)
  Downloading docling_core-2.54.0-py3-none-any.whl.metadata (7.6 kB)
Collecting docling-parse<5.0.0,>=4.7.0 (from docling)
  Downloading docling_parse-4.7.1-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (10 kB)
Collecting docling-ibm-models<4,>=3.9.1 (from docling)
  Downloading docling_ibm_models-3.10.2-py3-none-any.whl.metadata (7.3 kB)
Collecting filetype<2.0.0,>=1.2.0 (from docling)
  Downloading filetype-1.2.0-py2.py3-none-any.whl.metadata (6.5 kB)
Collecting pypdfium2!=4.30.1,<5.0.0,>=4.30.0 (from docling)
  Downloading pypdfium2-4.30.0-py3-non

In [2]:
!apt-get install -y poppler-utils # a package of PDF tools

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following NEW packages will be installed:
  poppler-utils
0 upgraded, 1 newly installed, 0 to remove and 41 not upgraded.
Need to get 186 kB of archives.
After this operation, 697 kB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy-updates/main amd64 poppler-utils amd64 22.02.0-2ubuntu0.12 [186 kB]
Fetched 186 kB in 1s (127 kB/s)
Selecting previously unselected package poppler-utils.
(Reading database ... 121713 files and directories currently installed.)
Preparing to unpack .../poppler-utils_22.02.0-2ubuntu0.12_amd64.deb ...
Unpacking poppler-utils (22.02.0-2ubuntu0.12) ...
Setting up poppler-utils (22.02.0-2ubuntu0.12) ...
Processing triggers for man-db (2.10.2-1) ...


In [3]:
#Upload pdf
from google.colab import files
uploaded = files.upload()

pdf_path = list(uploaded.keys())[0]

Saving pdf_test.pdf to pdf_test.pdf


In [4]:
from docling.datamodel.base_models import InputFormat
from docling.datamodel.pipeline_options import PdfPipelineOptions, EasyOcrOptions # controls how the pdf pipeline works
from docling.document_converter import DocumentConverter, PdfFormatOption


In [5]:
import time
import psutil
import os

# hjälpfunktioner
def get_memory_usage():
    # Returnerar aktuell minnesanvändning i MB
    process = psutil.Process(os.getpid())
    return process.memory_info().rss / 1024 / 1024  # MB

In [14]:
# Hämta startminnet FÖRE körning
docling_mem_start = get_memory_usage()
start_time_docling = time.time()

converter = DocumentConverter()
result = converter.convert("pdf_test.pdf")

md_text = result.document.export_to_markdown()
Path("pdf_test.md").write_text(md_text, encoding="utf-8")

# Hämta stopptid och slutminne
end_time_docling = time.time()
docling_mem_end = get_memory_usage()

# Spara variabler för analys
docling_time = end_time_docling - start_time_docling
docling_mem = docling_mem_end - docling_mem_start

print(f"Docling Tid: {docling_time:.2f} sekunder")
print(f"Docling Minnesökning: {docling_mem:.2f} MB")
print(md_text[:1000])

Docling Tid: 111.79 sekunder
Docling Minnesökning: 876.32 MB
## Årsredovisning 2022

Cockpit

Mission Planner

Goto Station

Process

FLEXQUBE'

7

## Det här är FlexQube

FlexQube är en global leverantör av modulära och robusta mekaniska vagnar och robotiserade lösningar för materialhantering. Koncernen grundades 2010 och har sedan dess säkrat ett stort antal framstående företag som kunder.

FlexQube är ett teknikbolag med huvudkontor i Göteborg samt egna verksamheter i USA, Mexiko, Tyskland och England. Bolaget är verksamt inom vagnsbaserad materialhantering genom ett patenterat modulkoncept. FlexQube utvecklar och designar kundanpassade lösningar för både robotiserad och mekaniserad vagnslogistik. Genom företagets egenutvecklade och unika automationskoncept erbjuds robusta och självkörande robotvagnar. FlexQube har över 1000 kunder i 37 länder där de primära marknaderna är Nordamerika och Europa.

FlexQubes kunder återfinns inom bland annat tillverkningsindustrin, distribution- och 

### EasyOCR pipeline

In [7]:
import easyocr
from pdf2image import convert_from_path
from pathlib import Path
import numpy as np


pdf_path = "pdf_test.pdf"

print("Kör EasyOCR (Mäter tid och minne)")


# Hämta startminnet FÖRE körning
easyocr_mem_start = get_memory_usage()
start_time_easyocr = time.time()


# Konvertera PDF till bilder
print("Konverterar PDF till bilder...")
# Tiden för konvertering INGÅR i mätningen
pages = convert_from_path(pdf_path, dpi=250)

print(f"Antal sidor: {len(pages)}")

# Initiera EasyOCR
print("Laddar EasyOCR-modeller...")
reader = easyocr.Reader(['sv', 'en'], gpu=True)

# Kör OCR på alla sidor
print("Kör OCR på PDF-sidor.")
all_text = ""

for i, page in enumerate(pages):
    print(f"OCR sida {i+1}/{len(pages)}...")
    page_np = np.array(page)
    # paragraph=True för att få större textblock
    result = reader.readtext(page_np, detail=1, paragraph=True)
    for item in result:
        all_text += item[1] + "\n"

# Exportera till markdown
output_file = "easyocr_output.md"
Path(output_file).write_text(all_text, encoding="utf-8")


# Hämta stopptid och slutminne
end_time_easyocr = time.time()
easyocr_mem_end = get_memory_usage()


# Spara variabler för analys
easyocr_time = end_time_easyocr - start_time_easyocr
easyocr_mem = easyocr_mem_end - easyocr_mem_start


print(f"\n Text sparad i: {output_file}\n")
print(f"EasyOCR Tid: {easyocr_time:.2f} sekunder")
print(f"EasyOCR Minnesökning: {easyocr_mem:.2f} MB")
print("\nFörhandsvisning av resultat:")
print(all_text[:1000])

Kör EasyOCR (Mäter tid och minne)
Konverterar PDF till bilder...
Antal sidor: 68
Laddar EasyOCR-modeller...
Kör OCR på PDF-sidor.
OCR sida 1/68...
OCR sida 2/68...
OCR sida 3/68...
OCR sida 4/68...
OCR sida 5/68...
OCR sida 6/68...
OCR sida 7/68...
OCR sida 8/68...
OCR sida 9/68...
OCR sida 10/68...
OCR sida 11/68...
OCR sida 12/68...
OCR sida 13/68...
OCR sida 14/68...
OCR sida 15/68...
OCR sida 16/68...
OCR sida 17/68...
OCR sida 18/68...
OCR sida 19/68...
OCR sida 20/68...
OCR sida 21/68...
OCR sida 22/68...
OCR sida 23/68...
OCR sida 24/68...
OCR sida 25/68...
OCR sida 26/68...
OCR sida 27/68...
OCR sida 28/68...
OCR sida 29/68...
OCR sida 30/68...
OCR sida 31/68...
OCR sida 32/68...
OCR sida 33/68...
OCR sida 34/68...
OCR sida 35/68...
OCR sida 36/68...
OCR sida 37/68...
OCR sida 38/68...
OCR sida 39/68...
OCR sida 40/68...
OCR sida 41/68...
OCR sida 42/68...
OCR sida 43/68...
OCR sida 44/68...
OCR sida 45/68...
OCR sida 46/68...
OCR sida 47/68...
OCR sida 48/68...
OCR sida 49/68.

In [8]:
#extract the file
from google.colab import files
files.download("easyocr_output.md")
files.download("pdf_test.md") # Docling utan OCR

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

 Spara Docling resultatet som JSON

In [9]:
import json
from pathlib import Path

docling_json = {
    "source_pdf": pdf_path,
    "markdown_text": md_text
}

with open("docling_output.json", "w", encoding="utf-8") as f:
    json.dump(docling_json, f, ensure_ascii=False, indent=4)

print("Docling JSON sparad docling_output.json")

Docling JSON sparad docling_output.json


Spara EasyOCR resultatet som JSON

In [10]:

easyocr_json_list = []

for i, page in enumerate(pages):
    page_np = np.array(page)
    ocr_result = reader.readtext(page_np, detail=1, paragraph=False)

    for item in ocr_result:
        bbox = item[0]
        text = item[1]
        conf = item[2]



        # Konvertera bbox till float och listor
        bbox_clean = [[float(x), float(y)] for (x, y) in bbox]


        entry = {
            "page": int(i + 1),
            "bbox": bbox_clean,
            "text": str(text),
            "confidence": float(conf)
        }

        easyocr_json_list.append(entry)

# Skriv JSON
with open("easyocr_output.json", "w", encoding="utf-8") as f:
    json.dump(easyocr_json_list, f, ensure_ascii=False, indent=4)

print("EasyOCR JSON sparad easyocr_output.json")



EasyOCR JSON sparad easyocr_output.json


#  Quality Analysis


In [11]:
!pip install -q psutil # För minnesmätning
!pip install -q pandas

In [15]:
import time
import psutil
import pandas as pd
from difflib import SequenceMatcher
import json
import numpy as np
import os
import re
from jiwer import wer, cer


# Hjälpfunktioner
def get_memory_usage():
    # Returnerar aktuell minnesanvändning i MB
    process = psutil.Process(os.getpid())
    return process.memory_info().rss / 1024 / 1024

def normalize_text(text):
    """Rengör texten för rå tecken- och ordjämförelse (Används för SequenceMatcher)."""
    # Ta bort tabeller, rubriker och bindestreck för att isolera brödtext
    text = re.sub(r'#+\s*', '', text)
    text = re.sub(r'\|.*\|', '', text)
    text = re.sub(r'[\.\-]+', ' ', text)
    text = text.replace('\n', ' ').replace('\r', ' ')
    text = re.sub(r'\s+', ' ', text).strip()
    return text.lower()

def similarity_score(a, b):
    # Jämför likhet mellan två strängar (0 till 1)
    return SequenceMatcher(None, a, b).ratio()


def calculate_ocr_metrics(reference: str, hypothesis: str) -> dict:
    """Beräknar CER och WER baserat på jiwer, garanterat fri från radbrytningar."""

    def clean_text_for_jiwer(text):
        text = text.replace('\n', ' ').replace('\r', ' ')
        text = re.sub(r'[#*>-]+', ' ', text)
        text = re.sub(r'\|.*\|', ' ', text)
        text = re.sub(r'[^a-zåäöA-ZÅÄÖ0-9\s.,:;?!"]', ' ', text)
        text = re.sub(r'\s+', ' ', text).strip().lower()
        return text

    ref_raw_clean = clean_text_for_jiwer(reference)
    hyp_raw_clean = clean_text_for_jiwer(hypothesis)

    # För CER: ta bort skiljetecken
    ref_cer = re.sub(r'[.,:;?!"]', '', ref_raw_clean)
    hyp_cer = re.sub(r'[.,:;?!"]', '', hyp_raw_clean)

    # För WER: dela i ord men skicka tillbaka som sträng
    ref_wer_words = ref_raw_clean.split()
    hyp_wer_words = hyp_raw_clean.split()

    # CER
    char_error_rate = cer(ref_cer, hyp_cer)

    # WER: gör om listor till strängar
    if not ref_wer_words:
        word_error_rate = 1.0
    else:
        word_error_rate = wer(" ".join(ref_wer_words), " ".join(hyp_wer_words))

    return {
        "CER": char_error_rate,
        "WER": word_error_rate,
    }



Läs in resultat och ground_truth

In [16]:
# Läs in resultatfiler
try:
    with open("gold.txt", 'r', encoding='utf-8') as f:
        ground_truth_text = f.read()
    with open("pdf_test.md", 'r', encoding='utf-8') as f:
        docling_output = f.read()
    with open("easyocr_output.md", 'r', encoding='utf-8') as f:
        easyocr_output = f.read()
    with open("docling_output.json", 'r', encoding='utf-8') as f:
        docling_json = json.load(f)

except FileNotFoundError as e:
    print(f"FEL: Filen {e.filename} saknas. Kontrollera att filerna skapades i föregående steg.")
    exit()

### Utvärdera parametrar:
 - Noggrannhet (accuracy) = similarity_score för att jämföra docling och EasyOCR mot ground_Truth.
 - Prestanda (Performance) där mått tid (sek) och minnespåverkan (MB)
 - Strukturförståelse där mått antal rubriker vs antal rader/text block.
- WER/CER

In [17]:
# Normalisera all text före jämförelse för att fokusera på teckenkorrekthet
clean_truth = normalize_text(ground_truth_text)
clean_docling = normalize_text(docling_output)
clean_easyocr = normalize_text(easyocr_output)

score_docling = similarity_score(clean_truth, clean_docling)
score_easyocr = similarity_score(clean_truth, clean_easyocr)

In [18]:
# PLATSVÄRDEN
docling_time = 114.05 # sekunder
easyocr_time = 369.05
docling_mem = 1119.55 # MB
easyocr_mem = 3721.92

In [19]:
# WER / CER
docling_metrics = calculate_ocr_metrics(ground_truth_text, docling_output)
docling_cer = docling_metrics["CER"]
docling_wer = docling_metrics["WER"]

easyocr_metrics = calculate_ocr_metrics(ground_truth_text, easyocr_output)
easyocr_cer = easyocr_metrics["CER"]
easyocr_wer = easyocr_metrics["WER"]

### Strukturförståelse (Structure Understanding)

Jämföra hur de extraherar texten. Docling exportera till text-format, vilket bevarar rubriker (#, ##) listor och tabeller medan EasyOCR ger bara råtext.

In [20]:
# Docling analys: Hur många rubriker hittades?
docling_headings = docling_output.count('#')

table_count = 0
for page_data in docling_json.get('document', {}).get('pages', []):
    for element in page_data.get('elements', []):
        if element.get('type') == 'table':
            table_count += 1
docling_tables = table_count

# EasyOCR analys: Hur många rader är det (då det inte har struktur)?
easyocr_lines = len(easyocr_output.split('\n'))

print("Alla mått beräknade")

Alla mått beräknade


In [21]:
# Skapa och visa resultatabellen

data = {
    "Verktyg": ["Docling", "EasyOCR"],
    "Tid (sek)": [round(docling_time, 2), round(easyocr_time, 2)],
    "Minnespåverkan (MB)": [round(docling_mem, 2), round(easyocr_mem, 2)],
    "CER (Lägst är bäst)": [f"{docling_cer:.4f}", f"{easyocr_cer:.4f}"],
    "WER (Lägst är bäst)": [f"{docling_wer:.4f}", f"{easyocr_wer:.4f}"],
    "Similarity score (Högst är bäst)": [f"{score_docling:.4f}", f"{score_easyocr:.4f}"],
    "Strukturindikator": [f"{docling_headings} rubriker", f"{easyocr_lines} rader"]
}

df = pd.DataFrame(data)

print("\n" + "="*110)
print("                      ANALYS: Docling vs EasyOCR med CER/WER")
print("="*110)
print(df.to_markdown(index=False))

print("\n\n" + "-"*80)
print("VISUELL JÄMFÖRELSE AV STRUKTUR OCH SVENSKA TECKEN")
print("-" * 80)

print("\n--- Docling Output (Markdown-format, första 500 tecken) ---")
print(docling_output[:500])

print("\n--- EasyOCR Output (Råtext, första 500 tecken) ---")
print(easyocr_output[:500])

print("\n--- Facit (Ground Truth.txt, första 500 tecken) ---")
print(ground_truth_text[:500])

# Diagnostik av Textlängd
def clean_for_count(text):
    return " ".join(text.split())

gt_chars = len(clean_for_count(ground_truth_text))
gt_words = len(clean_for_count(ground_truth_text).split())
docling_chars = len(clean_for_count(docling_output))
docling_words = len(clean_for_count(docling_output).split())
easyocr_chars = len(clean_for_count(easyocr_output))
easyocr_words = len(clean_for_count(easyocr_output).split())

print("\n--- DIAGNOSTIK AV TEXTLÄNGD ---")
print(f"Ground Truth (Facit): {gt_chars} tecken | {gt_words} ord")
print(f"Docling Output:       {docling_chars} tecken | {docling_words} ord")
print(f"EasyOCR Output:       {easyocr_chars} tecken | {easyocr_words} ord")

print("\n--- Tecken Skillnad mot Facit ---")
print(f"Docling Avvikelse: {docling_chars - gt_chars} tecken")
print(f"EasyOCR Avvikelse: {easyocr_chars - gt_chars} tecken")


                      ANALYS: Docling vs EasyOCR med CER/WER
| Verktyg   |   Tid (sek) |   Minnespåverkan (MB) |   CER (Lägst är bäst) |   WER (Lägst är bäst) |   Similarity score (Högst är bäst) | Strukturindikator   |
|:----------|------------:|----------------------:|----------------------:|----------------------:|-----------------------------------:|:--------------------|
| Docling   |      114.05 |               1119.55 |                0      |                 0     |                             1      | 694 rubriker        |
| EasyOCR   |      369.05 |               3721.92 |                4.5679 |                 4.917 |                             0.1537 | 2651 rader          |


--------------------------------------------------------------------------------
VISUELL JÄMFÖRELSE AV STRUKTUR OCH SVENSKA TECKEN
--------------------------------------------------------------------------------

--- Docling Output (Markdown-format, första 500 tecken) ---
## Årsredovisning 2022

Coc