In [17]:
import fitz, re
from pix2text import Pix2Text

In [8]:
import onnxruntime as ort
print("Providers:", ort.get_available_providers())
print("Device:", ort.get_device())


Providers: ['TensorrtExecutionProvider', 'CUDAExecutionProvider', 'CPUExecutionProvider']
Device: GPU


# giao_trinh_4.pdf

In [None]:
# trích suất trang đầu phần 1.1 Các khái niệm cơ bản

# kiểm tra giao nhau
def intersects(b1, b2):
    x0, y0, x1, y1 = b1
    X0, Y0, X1, Y1 = b2
    return not (x0 > X1 or y0 > Y1 or x1 < X0 or y1 < Y0)

# phát hiện công thức và chuyển thành latex
def extract_text_and_formula(page):
    layout = page.get_text(
        'dict',
        sort=True
        )
    dpi = 150
    pix = page.get_pixmap(dpi=dpi)
    img = pix.pil_image() # chuyển về ảnh pil
    zoom = dpi/72.0 # 1 point = 1/72 inch (pt->px)
    mat_forward = fitz.Matrix(zoom, zoom)
    mat_inverse = ~mat_forward # ma trận nghịch đảo (px->pt)

    # phát hiện công thức trong ảnh
    page_obj = p2t.recognize_page(
        img,
        file_type='text_formula',
        resized_shape=1024,
        return_text=False,
        save_debug_res=None
    )

    formulas = []
    if page_obj:
        formulas = [
            {
                'bbox_pt': fitz.Rect(f.box) * mat_inverse, # chuyển luôn về đơn vị point
                'latex': f.text
            }
            for f in page_obj.elements if f.type.name == "FORMULA"
        ]

    if not formulas:
        return layout
    
    seen_formulas = set()
    for block in layout.get('blocks', []):
        if block['type'] != 0: # chuỗi văn bản có type == 0
            continue
        
        for line in block.get('lines', []):
            line_bbox = fitz.Rect(line['bbox']) # pt
            relevant_formulas = [f for f in formulas if intersects(line_bbox, f['bbox_pt'])]
            if not relevant_formulas:
                continue

            new_spans = []
            original_spans = line['spans']
            # xác định span cần loại vì có ít hơn (cải thiện hiệu suất)
            spans_to_remove_idx = set()
            for i, span in enumerate(original_spans):
                sb = fitz.Rect(span['bbox'])
                for f in relevant_formulas:
                    r_pt = f['bbox_pt']
                    overlap = abs(sb & r_pt)
                    if overlap > 0.8 * abs(sb):
                        spans_to_remove_idx.add(i)
                        break

            for i, span in enumerate(original_spans):
                if i not in spans_to_remove_idx:
                    new_spans.append(span)

            for f in relevant_formulas:
                if f['latex'] not in seen_formulas:
                    new_spans.append({
                        'type': 'formula',
                        'text': f"$$ {f['latex']} $$",
                        'bbox': f['bbox_pt']
                    })
                    seen_formulas.add(f['latex'])
            line['spans'] = sorted(new_spans, key=lambda s: s['bbox'][0])
    return layout

# chuyển pdf về markdown
def render_md(layout):
    md = ''
    for block in layout['blocks']:
        for line in block['lines']:
            spans = line['spans']
            line_text = ''
            for i, s in enumerate(spans):
                text = s['text']
                if i == 0:
                    line_text += text
                else:
                    pre = spans[i-1]['text']
                    if pre and pre[-1] != ' ' and text and text[0] != ' ':
                        line_text += ' ' + text
                    else:
                        line_text += text
            md += line_text + '\n'
        md += '\n'
    return md

providers = ['CUDAExecusionProvider', 'CPUExecutionProvider']

p2t = Pix2Text.from_config(
    analyzer_config={
        "model_name": "mfd-pro",
        "model_backend": "onnx",
        "providers": providers,
    },
    formula_ocr_config={
        "model_name": "mfr-pro",
        "model_backend": "onnx",
        "providers": providers,
    }
)

doc = fitz.open('source/giao_trinh_4.pdf')
page = doc.load_page(11)
layout = extract_text_and_formula(page)
md = render_md(layout)
print(md)

[32m[INFO] 2025-07-24 01:50:40,867 [RapidOCR] base.py:24: Using engine_name: onnxruntime[0m
[32m[INFO] 2025-07-24 01:50:40,869 [RapidOCR] main.py:55: Using C:\Users\admin\AppData\Roaming\cnstd\1.2\ppocr\ch_PP-OCRv5_det\ch_PP-OCRv5_det_infer.onnx[0m



0: 1024x736 7 titles, 11 plain texts, 1 abandon, 4 isolate_formulas, 1125.5ms
Speed: 11.1ms preprocess, 1125.5ms inference, 2.0ms postprocess per image at shape (1, 3, 1024, 736)
Loading C:\Users\admin\AppData\Roaming\pix2text\1.1\mfd-onnx\mfd-v20240618.onnx for ONNX Runtime inference...
Using ONNX Runtime CPUExecutionProvider

0: 672x1024 (no detections), 255.6ms
Speed: 5.5ms preprocess, 255.6ms inference, 1.3ms postprocess per image at shape (1, 3, 672, 1024)


0it [00:00, ?it/s]



0: 128x1024 2 embeddings, 42.1ms
Speed: 0.9ms preprocess, 42.1ms inference, 0.9ms postprocess per image at shape (1, 3, 128, 1024)


100%|██████████| 2/2 [00:00<00:00,  5.47it/s]
100%|██████████| 1/1 [00:02<00:00,  2.83s/it]







0: 608x1024 1 isolated, 197.2ms
Speed: 4.5ms preprocess, 197.2ms inference, 2.0ms postprocess per image at shape (1, 3, 608, 1024)


100%|██████████| 1/1 [00:00<00:00,  4.23it/s]
100%|██████████| 1/1 [00:01<00:00,  1.04s/it]


0: 128x1024 3 embeddings, 44.6ms
Speed: 1.0ms preprocess, 44.6ms inference, 2.1ms postprocess per image at shape (1, 3, 128, 1024)



100%|██████████| 3/3 [00:00<00:00,  5.30it/s]
100%|██████████| 1/1 [00:00<00:00,  1.59it/s]


0: 192x1024 2 embeddings, 61.5ms
Speed: 1.5ms preprocess, 61.5ms inference, 1.1ms postprocess per image at shape (1, 3, 192, 1024)



100%|██████████| 2/2 [00:00<00:00,  6.09it/s]



0: 192x1024 6 embeddings, 69.6ms
Speed: 2.1ms preprocess, 69.6ms inference, 1.2ms postprocess per image at shape (1, 3, 192, 1024)


100%|██████████| 6/6 [00:01<00:00,  5.15it/s]



0: 160x1024 3 embeddings, 51.3ms
Speed: 1.3ms preprocess, 51.3ms inference, 1.0ms postprocess per image at shape (1, 3, 160, 1024)


100%|██████████| 3/3 [00:00<00:00,  4.97it/s]



0: 128x1024 3 embeddings, 50.8ms
Speed: 2.8ms preprocess, 50.8ms inference, 1.3ms postprocess per image at shape (1, 3, 128, 1024)


100%|██████████| 3/3 [00:00<00:00,  4.90it/s]



0: 160x1024 (no detections), 48.7ms
Speed: 1.1ms preprocess, 48.7ms inference, 0.7ms postprocess per image at shape (1, 3, 160, 1024)


0it [00:00, ?it/s]
100%|██████████| 1/1 [00:00<00:00,  1.56it/s]


0: 288x1024 (no detections), 94.0ms
Speed: 1.8ms preprocess, 94.0ms inference, 0.7ms postprocess per image at shape (1, 3, 288, 1024)



0it [00:00, ?it/s]



0: 1472x1024 (no detections), 529.7ms
Speed: 14.4ms preprocess, 529.7ms inference, 0.8ms postprocess per image at shape (1, 3, 1472, 1024)


0it [00:00, ?it/s]


Chương 1

Ma trận

Nội dung

• Định nghĩa và ví dụ.

• Các phép biến đổi sơ cấp.

• Các phép toán đối với ma trận.

• Hạng của ma trận.

• Ma trận nghịch đảo.

1.1
Các khái niệm cơ bản

Định nghĩa 1.1 (Ma trận) .
Ma trận cỡm × n là một bảng số(thực hoặc phức) hình chữnhật có m hàng và n cột.

$$ A=\left( \begin{matrix} {a_{1 1}} & {\ldots} & {a_{1 j}} & {\ldots} & {a_{1 n}} \\ {\ldots} & {\ldots} & {\ldots} & {\ldots} & {\ldots} \\ {a_{i 1}} & {\ldots} & {a_{i j}} & {\ldots} & {a_{i n}} \\ {\ldots} & {\ldots} & {\ldots} & {\ldots} & {\ldots} \\ {a_{m 1}} & {\ldots} & {a_{m j}} & {\ldots} & {a_{m n}} \\ \end{matrix} \right)
 $$











































Ví dụ1.1

$$ A=\left( \begin{matrix} {3} & {4} & {1} \\ {2} & {0} & {5} \\ \end{matrix} \right)_{2 \times3}, B=\left( \begin{matrix} {1+i} & {2} \\ {3-i} & {4 i} \\ \end{matrix} \right)
 $$


















A là ma trận cỡ2 × 3 có 2 hàng và 3 cột. Các phần tửcủa ma trận A:

$$ a_{1 1}=3, a_{1 2}=4, a_{1 3}=1, a_{2 1}=2,

In [29]:
def render_md(layout):
    md = ''
    for block in layout['blocks']:
        for line in block['lines']:
            spans = line['spans']
            line_text = ''
            for i, s in enumerate(spans):
                text = s['text']
                if i == 0:
                    line_text += text
                else:
                    pre = spans[i-1]['text']
                    if pre and pre[-1] != ' ' and text and text[0] != ' ':
                        line_text += ' ' + text
                    else:
                        line_text += text
            md += line_text + '\n'
        md += '\n'
    return md

md = render_md(layout)
print(md)

Chương 1

Ma trận

Nội dung

• Định nghĩa và ví dụ.

• Các phép biến đổi sơ cấp.

• Các phép toán đối với ma trận.

• Hạng của ma trận.

• Ma trận nghịch đảo.

1.1
Các khái niệm cơ bản

Định nghĩa 1.1 (Ma trận) .
Ma trận cỡ m × n là một bảng số(thực hoặc phức) hình chữnhật có m hàng và n cột.

$$ A=\left( \begin{matrix} {a_{1 1}} & {\ldots} & {a_{1 j}} & {\ldots} & {a_{1 n}} \\ {\ldots} & {\ldots} & {\ldots} & {\ldots} & {\ldots} \\ {a_{i 1}} & {\ldots} & {a_{i j}} & {\ldots} & {a_{i n}} \\ {\ldots} & {\ldots} & {\ldots} & {\ldots} & {\ldots} \\ {a_{m 1}} & {\ldots} & {a_{m j}} & {\ldots} & {a_{m n}} \\ \end{matrix} \right)
 $$











































Ví dụ1.1

$$ A=\left( \begin{matrix} {3} & {4} & {1} \\ {2} & {0} & {5} \\ \end{matrix} \right)_{2 \times3}, B=\left( \begin{matrix} {1+i} & {2} \\ {3-i} & {4 i} \\ \end{matrix} \right)
 $$


















A là ma trận cỡ 2 × 3 có 2 hàng và 3 cột. Các phần tửcủa ma trận A :

$$ a_{1 1}=3, a_{1 2}=4, a_{1 3}=1, a_{2 1}

In [None]:
with open('extracted/giao_trinh_4.md', 'w', encoding='utf-8') as f:
    for line in md.splitlines():
        if line.strip():
            f.write(line + '\n')