英文

In [None]:
from paddleocr_backup import PaddleOCR, draw_ocr
import os
import datetime # 導入 datetime 模組，用於生成時間戳

# 指定圖片路徑
image_path = r'C:\Users\User\Desktop\PaddleOCR\2.png'

# 檢查圖片是否存在
if not os.path.exists(image_path):
    print(f"錯誤：圖片文件 '{image_path}' 不存在。請檢查路徑是否正確。")
else:
    # 初始化 OCR 模型
    # lang='ch' 表示使用中文模型，'en' 表示英文，你也可以指定其他語言
    # use_gpu=True 表示使用 GPU，如果你的電腦沒有 GPU 或者沒有配置 CUDA，請設置為 False
    # use_angle_cls=True 表示使用方向分類器，可以識別圖片中文字的旋轉角度
    # 注意：你這裡設定了 lang="en"，如果你圖片裡是中文，請改為 lang="ch"
    ocr = PaddleOCR(use_angle_cls=True, lang="en", use_gpu=False)

    print(f"正在對圖片 '{image_path}' 執行 OCR 識別...")

    # 執行 OCR 識別
    result = ocr.ocr(image_path, cls=True)

    # 初始化一個列表來保存所有識別到的文字
    recognized_texts = []

    # 打印識別結果
    if result and result[0]:
        print("\nOCR 識別結果：")
        for line in result[0]:
            # line[0] 是文字框的座標
            text = line[1][0] # 識別出的文字
            confidence = line[1][1] # 置信度
            print(f"文字框座標: {line[0]}, 識別文字: '{text}', 置信度: {confidence:.2f}")
            recognized_texts.append(text) # 將識別到的文字添加到列表中

        # ----- 新增的程式碼：將識別結果保存到 .txt 文件 -----
        # 獲取圖片所在目錄
        output_dir = os.path.dirname(image_path)
        # 獲取當前時間戳，用於生成唯一的文件名
        timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
        # 構造輸出文本文件的路徑
        # 文件名可以包含圖片名稱，並加上時間戳避免重複
        image_name_without_ext = os.path.splitext(os.path.basename(image_path))[0]
        output_text_filename = f"{image_name_without_ext}_ocr_result_{timestamp}.txt"
        output_text_path = os.path.join(output_dir, output_text_filename)

        try:
            with open(output_text_path, 'w', encoding='utf-8') as f:
                for text_line in recognized_texts:
                    f.write(text_line + '\n') # 每個識別到的文字後換行
            print(f"\nOCR 識別結果已保存到文本文件：{output_text_path}")
        except IOError as e:
            print(f"\n保存文本文件時發生錯誤: {e}")
        # ----------------------------------------------------

        # 可選：繪製識別結果並保存到圖片
        # 你需要安裝 OpenCV 和 Pillow 來使用這個功能： pip install opencv-python Pillow
        try:
            from PIL import Image
            img = Image.open(image_path).convert('RGB')
            boxes = [line[0] for line in result[0]]
            txts = [line[1][0] for line in result[0]]
            scores = [line[1][1] for line in result[0]]

            # ----- 修正點：請確保 font_path 指向一個有效的、支持中文的字體文件 -----
            # 在 Windows 上，字體文件通常在 C:\Windows\Fonts\
            # 以下是一些常見的中文字體路徑，請根據你系統中實際存在的字體進行選擇
            # 推薦使用微軟雅黑 (msyh.ttc)，因為它在多數 Windows 系統上都有且顯示效果好
            font_path_for_drawing = r'C:\Windows\Fonts\msyh.ttc' # <--- 請檢查此路徑在你系統中是否存在！
            # 範例：如果你有仿宋字體，可以使用 r'C:\Windows\Fonts\simfang.ttf'
            # 範例：如果你是英文內容且沒有中文字體，可以省略 font_path 參數，它會使用 PaddleOCR 內建的預設字體

            # 將圖片繪製到新的圖片上
            im_show = draw_ocr(img, boxes, txts, scores, font_path=font_path_for_drawing)
            
            # 定義輸出圖片路徑，包含時間戳以避免覆蓋
            output_image_filename = f"{image_name_without_ext}_ocr_visual_{timestamp}.jpg"
            output_image_path = os.path.join(output_dir, output_image_filename)
            
            im_show = Image.fromarray(im_show)
            im_show.save(output_image_path)
            print(f"\n識別結果已保存到可視化圖片：{output_image_path}")

        except ImportError:
            print("\n警告：無法繪製識別結果。請安裝 'opencv-python' 和 'Pillow' 庫 (pip install opencv-python Pillow)。")
        except FileNotFoundError:
            print(f"\n錯誤：繪製圖片時找不到字體文件。請檢查 font_path: '{font_path_for_drawing}' 是否正確。")
        except Exception as e:
            print(f"\n繪製結果時發生未知錯誤: {e}")
    else:
        print("未在圖片中識別到任何文字。")

print("\nOCR 測試完成。")

[2025/05/11 23:40:25] ppocr DEBUG: Namespace(alpha=1.0, alphacolor=(255, 255, 255), benchmark=False, beta=1.0, binarize=False, cls_batch_num=6, cls_image_shape='3, 48, 192', cls_model_dir='C:\\Users\\User/.paddleocr/whl\\cls\\ch_ppocr_mobile_v2.0_cls_infer', cls_thresh=0.9, cpu_threads=10, crop_res_save_dir='./output', det=True, det_algorithm='DB', det_box_type='quad', det_db_box_thresh=0.6, det_db_score_mode='fast', det_db_thresh=0.3, det_db_unclip_ratio=1.5, det_east_cover_thresh=0.1, det_east_nms_thresh=0.2, det_east_score_thresh=0.8, det_limit_side_len=960, det_limit_type='max', det_model_dir='C:\\Users\\User/.paddleocr/whl\\det\\en\\en_PP-OCRv3_det_infer', det_pse_box_thresh=0.85, det_pse_min_area=16, det_pse_scale=1, det_pse_thresh=0, det_sast_nms_thresh=0.2, det_sast_score_thresh=0.5, draw_img_save_dir='./inference_results', drop_score=0.5, e2e_algorithm='PGNet', e2e_char_dict_path='./ppocr/utils/ic15_dict.txt', e2e_limit_side_len=768, e2e_limit_type='max', e2e_model_dir=None, e

正在對圖片 'C:\Users\User\Desktop\PaddleOCR\2.png' 執行 OCR 識別...
[2025/05/11 23:40:28] ppocr DEBUG: dt_boxes num : 2, elapsed : 0.2828524112701416
[2025/05/11 23:40:28] ppocr DEBUG: cls num  : 2, elapsed : 0.10084939002990723
[2025/05/11 23:40:28] ppocr DEBUG: rec_res num  : 2, elapsed : 0.4053843021392822

OCR 識別結果：
文字框座標: [[26.0, 59.0], [1657.0, 63.0], [1657.0, 132.0], [26.0, 128.0]], 識別文字: 'Tom is watering the flowers in his garden', 置信度: 1.00
文字框座標: [[30.0, 326.0], [808.0, 335.0], [807.0, 398.0], [30.0, 389.0]], 識別文字: 'The books are new..', 置信度: 0.99

OCR 識別結果已保存到文本文件：C:\Users\User\Desktop\PaddleOCR\2_ocr_result_20250511_234028.txt

識別結果已保存到可視化圖片：C:\Users\User\Desktop\PaddleOCR\2_ocr_visual_20250511_234028.jpg

OCR 測試完成。


中文

In [None]:
from paddleocr_backup import PaddleOCR, draw_ocr
import os
import datetime # 導入 datetime 模組，用於生成時間戳

# 指定圖片路徑
image_path = r'C:\Users\User\Desktop\PaddleOCR\3.png'

# 檢查圖片是否存在
if not os.path.exists(image_path):
    print(f"錯誤：圖片文件 '{image_path}' 不存在。請檢查路徑是否正確。")
else:
    # 初始化 OCR 模型
    # lang='ch' 表示使用中文模型，'en' 表示英文，你也可以指定其他語言
    # use_gpu=True 表示使用 GPU，如果你的電腦沒有 GPU 或者沒有配置 CUDA，請設置為 False
    # use_angle_cls=True 表示使用方向分類器，可以識別圖片中文字的旋轉角度
    # 注意：你這裡設定了 lang="en"，如果你圖片裡是中文，請改為 lang="ch"
    ocr = PaddleOCR(use_angle_cls=True, lang="ch", use_gpu=False)

    print(f"正在對圖片 '{image_path}' 執行 OCR 識別...")

    # 執行 OCR 識別
    result = ocr.ocr(image_path, cls=True)

    # 初始化一個列表來保存所有識別到的文字
    recognized_texts = []

    # 打印識別結果
    if result and result[0]:
        print("\nOCR 識別結果：")
        for line in result[0]:
            # line[0] 是文字框的座標
            text = line[1][0] # 識別出的文字
            confidence = line[1][1] # 置信度
            print(f"文字框座標: {line[0]}, 識別文字: '{text}', 置信度: {confidence:.2f}")
            recognized_texts.append(text) # 將識別到的文字添加到列表中

        # ----- 新增的程式碼：將識別結果保存到 .txt 文件 -----
        # 獲取圖片所在目錄
        output_dir = os.path.dirname(image_path)
        # 獲取當前時間戳，用於生成唯一的文件名
        timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
        # 構造輸出文本文件的路徑
        # 文件名可以包含圖片名稱，並加上時間戳避免重複
        image_name_without_ext = os.path.splitext(os.path.basename(image_path))[0]
        output_text_filename = f"{image_name_without_ext}_ocr_result_{timestamp}.txt"
        output_text_path = os.path.join(output_dir, output_text_filename)

        try:
            with open(output_text_path, 'w', encoding='utf-8') as f:
                for text_line in recognized_texts:
                    f.write(text_line + '\n') # 每個識別到的文字後換行
            print(f"\nOCR 識別結果已保存到文本文件：{output_text_path}")
        except IOError as e:
            print(f"\n保存文本文件時發生錯誤: {e}")
        # ----------------------------------------------------

        # 可選：繪製識別結果並保存到圖片
        # 你需要安裝 OpenCV 和 Pillow 來使用這個功能： pip install opencv-python Pillow
        try:
            from PIL import Image
            img = Image.open(image_path).convert('RGB')
            boxes = [line[0] for line in result[0]]
            txts = [line[1][0] for line in result[0]]
            scores = [line[1][1] for line in result[0]]

            # ----- 修正點：請確保 font_path 指向一個有效的、支持中文的字體文件 -----
            # 在 Windows 上，字體文件通常在 C:\Windows\Fonts\
            # 以下是一些常見的中文字體路徑，請根據你系統中實際存在的字體進行選擇
            # 推薦使用微軟雅黑 (msyh.ttc)，因為它在多數 Windows 系統上都有且顯示效果好
            font_path_for_drawing = r'C:\Windows\Fonts\msyh.ttc' # <--- 請檢查此路徑在你系統中是否存在！
            # 範例：如果你有仿宋字體，可以使用 r'C:\Windows\Fonts\simfang.ttf'
            # 範例：如果你是英文內容且沒有中文字體，可以省略 font_path 參數，它會使用 PaddleOCR 內建的預設字體

            # 將圖片繪製到新的圖片上
            im_show = draw_ocr(img, boxes, txts, scores, font_path=font_path_for_drawing)
            
            # 定義輸出圖片路徑，包含時間戳以避免覆蓋
            output_image_filename = f"{image_name_without_ext}_ocr_visual_{timestamp}.jpg"
            output_image_path = os.path.join(output_dir, output_image_filename)
            
            im_show = Image.fromarray(im_show)
            im_show.save(output_image_path)
            print(f"\n識別結果已保存到可視化圖片：{output_image_path}")

        except ImportError:
            print("\n警告：無法繪製識別結果。請安裝 'opencv-python' 和 'Pillow' 庫 (pip install opencv-python Pillow)。")
        except FileNotFoundError:
            print(f"\n錯誤：繪製圖片時找不到字體文件。請檢查 font_path: '{font_path_for_drawing}' 是否正確。")
        except Exception as e:
            print(f"\n繪製結果時發生未知錯誤: {e}")
    else:
        print("未在圖片中識別到任何文字。")

print("\nOCR 測試完成。")

[2025/05/11 23:42:26] ppocr DEBUG: Namespace(alpha=1.0, alphacolor=(255, 255, 255), benchmark=False, beta=1.0, binarize=False, cls_batch_num=6, cls_image_shape='3, 48, 192', cls_model_dir='C:\\Users\\User/.paddleocr/whl\\cls\\ch_ppocr_mobile_v2.0_cls_infer', cls_thresh=0.9, cpu_threads=10, crop_res_save_dir='./output', det=True, det_algorithm='DB', det_box_type='quad', det_db_box_thresh=0.6, det_db_score_mode='fast', det_db_thresh=0.3, det_db_unclip_ratio=1.5, det_east_cover_thresh=0.1, det_east_nms_thresh=0.2, det_east_score_thresh=0.8, det_limit_side_len=960, det_limit_type='max', det_model_dir='C:\\Users\\User/.paddleocr/whl\\det\\ch\\ch_PP-OCRv4_det_infer', det_pse_box_thresh=0.85, det_pse_min_area=16, det_pse_scale=1, det_pse_thresh=0, det_sast_nms_thresh=0.2, det_sast_score_thresh=0.5, draw_img_save_dir='./inference_results', drop_score=0.5, e2e_algorithm='PGNet', e2e_char_dict_path='./ppocr/utils/ic15_dict.txt', e2e_limit_side_len=768, e2e_limit_type='max', e2e_model_dir=None, e

正在對圖片 'C:\Users\User\Desktop\PaddleOCR\3.png' 執行 OCR 識別...
[2025/05/11 23:42:28] ppocr DEBUG: dt_boxes num : 6, elapsed : 0.3685154914855957
[2025/05/11 23:42:28] ppocr DEBUG: cls num  : 6, elapsed : 0.031264543533325195
[2025/05/11 23:42:29] ppocr DEBUG: rec_res num  : 6, elapsed : 0.5215065479278564

OCR 識別結果：
文字框座標: [[144.0, 21.0], [887.0, 15.0], [888.0, 75.0], [144.0, 80.0]], 識別文字: '我是一個愛寧靜的人：', 置信度: 0.87
文字框座標: [[10.0, 124.0], [902.0, 120.0], [902.0, 180.0], [10.0, 184.0]], 識別文字: '所以我最怕嘈吵的聲音。每', 置信度: 0.96
文字框座標: [[12.0, 228.0], [905.0, 228.0], [905.0, 286.0], [12.0, 286.0]], 識別文字: '当我专心地寫字和看書的时', 置信度: 0.90
文字框座標: [[10.0, 329.0], [906.0, 329.0], [906.0, 388.0], [10.0, 388.0]], 識別文字: '候，窗外突然传來嘈吵的汽', 置信度: 0.95
文字框座標: [[10.0, 433.0], [901.0, 433.0], [901.0, 492.0], [10.0, 492.0]], 識別文字: '車喇叭聲，都會啸得我連心', 置信度: 0.94
文字框座標: [[11.0, 538.0], [714.0, 540.0], [714.0, 596.0], [11.0, 594.0]], 識別文字: '藏也差點跳了出來呢！', 置信度: 0.97

OCR 識別結果已保存到文本文件：C:\Users\User\Desktop\PaddleOCR\3_ocr_result_20250511_23

測Images資料夾前十張照片存到ocr資料夾

In [None]:
from paddleocr_backup import PaddleOCR, draw_ocr
import os
import datetime
from PIL import Image

# 指定圖片資料夾路徑
images_folder = r'C:\Users\User\Desktop\PaddleOCR\images'

# 指定輸出資料夾路徑
output_folder = r'C:\Users\User\Desktop\PaddleOCR\ocr'

# 指定要處理的圖片數量
num_images_to_process = 10

# 確保輸出資料夾存在，如果不存在則創建
if not os.path.exists(output_folder):
    os.makedirs(output_folder)
    print(f"已創建輸出資料夾：{output_folder}")

# 確保圖片資料夾存在
if not os.path.exists(images_folder):
    print(f"錯誤：圖片資料夾 '{images_folder}' 不存在。請檢查路徑是否正確。")
else:
    # 獲取資料夾中的所有圖片文件
    all_files = os.listdir(images_folder)
    image_files = [f for f in all_files if f.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp'))]

    if not image_files:
        print(f"錯誤：圖片資料夾 '{images_folder}' 中沒有找到任何圖片文件。")
    else:
        # 初始化 OCR 模型
        # 注意：這裡仍然設定了 lang="en"，如果你的圖片是中文，請改為 lang="ch"
        ocr = PaddleOCR(use_angle_cls=True, lang="en", use_gpu=False)

        print(f"即將對資料夾 '{images_folder}' 中的前 {min(num_images_to_process, len(image_files))} 張圖片執行 OCR 識別...")

        # 處理前 N 張圖片
        for i, image_file in enumerate(image_files[:num_images_to_process]):
            image_path = os.path.join(images_folder, image_file)
            print(f"\n正在處理圖片 '{image_path}'...")

            # 執行 OCR 識別
            result = ocr.ocr(image_path, cls=True)

            # 初始化一個列表來保存所有識別到的文字
            recognized_texts = []

            # 打印識別結果
            if result and result[0]:
                print("OCR 識別結果：")
                for line in result[0]:
                    text = line[1][0]
                    confidence = line[1][1]
                    print(f"文字框座標: {line[0]}, 識別文字: '{text}', 置信度: {confidence:.2f}")
                    recognized_texts.append(text)

                # ----- 保存識別結果到 .txt 文件 -----
                image_name_without_ext = os.path.splitext(image_file)[0]
                output_text_filename = f"{image_name_without_ext}.txt"
                output_text_path = os.path.join(output_folder, output_text_filename)

                try:
                    with open(output_text_path, 'w', encoding='utf-8') as f:
                        for text_line in recognized_texts:
                            f.write(text_line + '\n')
                    print(f"OCR 識別結果已保存到文本文件：{output_text_path}")
                except IOError as e:
                    print(f"保存文本文件時發生錯誤: {e}")
                # ----------------------------------------------------

                # ----- 可選：繪製識別結果並保存到圖片 -----
                try:
                    img = Image.open(image_path).convert('RGB')
                    boxes = [line[0] for line in result[0]]
                    txts = [line[1][0] for line in result[0]]
                    scores = [line[1][1] for line in result[0]]

                    font_path_for_drawing = r'C:\Windows\Fonts\msyh.ttc'  # <--- 請檢查此路徑在你系統中是否存在！

                    im_show = draw_ocr(img, boxes, txts, scores, font_path=font_path_for_drawing)

                    output_image_filename = f"{image_name_without_ext}_ocr.jpg"
                    output_image_path = os.path.join(output_folder, output_image_filename)

                    im_show = Image.fromarray(im_show)
                    im_show.save(output_image_path)
                    print(f"識別結果已保存到可視化圖片：{output_image_path}")

                except ImportError:
                    print("警告：無法繪製識別結果。請安裝 'opencv-python' 和 'Pillow' 庫 (pip install opencv-python Pillow)。")
                except FileNotFoundError:
                    print(f"錯誤：繪製圖片時找不到字體文件。請檢查 font_path: '{font_path_for_drawing}' 是否正確。")
                except Exception as e:
                    print(f"繪製結果時發生未知錯誤: {e}")
            else:
                print("未在圖片中識別到任何文字。")

            if i + 1 == num_images_to_process:
                break

print("\nOCR 測試完成。")

[2025/05/11 22:13:31] ppocr DEBUG: Namespace(alpha=1.0, alphacolor=(255, 255, 255), benchmark=False, beta=1.0, binarize=False, cls_batch_num=6, cls_image_shape='3, 48, 192', cls_model_dir='C:\\Users\\User/.paddleocr/whl\\cls\\ch_ppocr_mobile_v2.0_cls_infer', cls_thresh=0.9, cpu_threads=10, crop_res_save_dir='./output', det=True, det_algorithm='DB', det_box_type='quad', det_db_box_thresh=0.6, det_db_score_mode='fast', det_db_thresh=0.3, det_db_unclip_ratio=1.5, det_east_cover_thresh=0.1, det_east_nms_thresh=0.2, det_east_score_thresh=0.8, det_limit_side_len=960, det_limit_type='max', det_model_dir='C:\\Users\\User/.paddleocr/whl\\det\\en\\en_PP-OCRv3_det_infer', det_pse_box_thresh=0.85, det_pse_min_area=16, det_pse_scale=1, det_pse_thresh=0, det_sast_nms_thresh=0.2, det_sast_score_thresh=0.5, draw_img_save_dir='./inference_results', drop_score=0.5, e2e_algorithm='PGNet', e2e_char_dict_path='./ppocr/utils/ic15_dict.txt', e2e_limit_side_len=768, e2e_limit_type='max', e2e_model_dir=None, e

一張CER

In [None]:
from paddleocr_backup import PaddleOCR
import os
import datetime
from PIL import Image
import Levenshtein

def calculate_cer_with_details(ground_truth, prediction):
    """計算字元錯誤率 (CER) 並返回詳細的錯誤信息"""
    if not ground_truth:
        return 1.0 if prediction else 0.0, []
    if not prediction:
        return 1.0, []

    ground_truth = ground_truth.upper()
    prediction = prediction.upper()

    distance = Levenshtein.distance(ground_truth, prediction)
    cer = distance / len(ground_truth)
    details = []

    # 使用 Levenshtein 的操作來追蹤差異
    operations = Levenshtein.editops(ground_truth, prediction)
    gt_index = 0
    pred_index = 0
    for op, gt_pos, pred_pos in operations:
        if op == 'insert':
            details.append(f"預測行: 1, 位置: {pred_pos + 1}, 插入: '{prediction[pred_pos]}'")
        elif op == 'delete':
            details.append(f"實際行: 1, 位置: {gt_pos + 1}, 刪除: '{ground_truth[gt_pos]}'")
        elif op == 'replace':
            details.append(f"實際行: 1, 位置: {gt_pos + 1}, 替換為: '{prediction[pred_pos]}', 原字元: '{ground_truth[gt_pos]}'")

    return cer, details

# 指定要測試的單張圖片路徑
image_path = r'C:\Users\User\Desktop\PaddleOCR\4.png'

# 提供 ground_truth 文字
ground_truth_text = """Can Human Survive After 100 Years?
Earth is now in a very bad situation, it is sick and fragile. Lots of reasons
that cause the Earth sick is made from human. How can we help to make
Earth healthier?
Every day after we go to school or work, some of us forgot to turn of air
conditioner or faucet, it is not only a waste of energy, but also a reason that
lets Earth become sicker. On the way to school, our parents drive the car to
take us to school, the car will release Carbon Dioxide (CO2), it will cause green
house effect and broke the Ozone layer. Human keep destroy natural
resources on Earth, and if these kinds of things continue to happen, our next
generation will have no chance of having a good living environment or living
on Earth!
It won't take long for you to turn off the electrical appliances, or having
bus and train instead of car and motorcycle. I believe, if we can have less
pollution human and the other organism expect cockroach and mosquito can
survive on a healthy Earth after 100 year."""

# 指定 OCR 輸出文本資料夾路徑
ocr_output_folder = r'C:\Users\User\Desktop\PaddleOCR\ocr_cer_detailed'

# 確保輸出資料夾存在，如果不存在則創建
if not os.path.exists(ocr_output_folder):
    os.makedirs(ocr_output_folder)
    print(f"已創建 OCR 輸出資料夾：{ocr_output_folder}")

# 檢查圖片是否存在
if not os.path.exists(image_path):
    print(f"錯誤：圖片文件 '{image_path}' 不存在。請檢查路徑是否正確。")
else:
    # 初始化 OCR 模型
    ocr = PaddleOCR(use_angle_cls=True, lang="ch", use_gpu=False)
    print(f"正在對圖片 '{image_path}' 執行 OCR 並計算 CER (含詳細錯誤)...")

    ocr_output_text = ""
    current_cer = 0.0
    error_details = []

    # 執行 OCR 識別
    result = ocr.ocr(image_path, cls=True)

    if result and result[0]:
        for i, line in enumerate(result[0]):
            text = line[1][0]
            ocr_output_text += text + "\n"
        ocr_output_text = ocr_output_text.strip()

        # 計算 CER 並獲取詳細錯誤
        if ground_truth_text:
            current_cer, error_details = calculate_cer_with_details(ground_truth_text, ocr_output_text)
            print(f"圖片 '{os.path.basename(image_path)}' 的 CER: {current_cer:.4f}")

            if error_details:
                print("詳細錯誤：")
                for detail in error_details:
                    print(detail)
            else:
                print("沒有發現字元錯誤。")

            # 保存 OCR 輸出到 .txt 文件
            timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
            image_name_without_ext = os.path.splitext(os.path.basename(image_path))[0]
            ocr_output_filename = f"{image_name_without_ext}_ocr_detailed_{timestamp}.txt"
            ocr_output_path = os.path.join(ocr_output_folder, ocr_output_filename)
            try:
                with open(ocr_output_path, 'w', encoding='utf-8') as f:
                    f.write(ocr_output_text)
                print(f"OCR 輸出已保存到：{ocr_output_path}")
            except IOError as e:
                print(f"保存 OCR 輸出文件時發生錯誤: {e}")
        else:
            print("沒有提供 ground_truth 文字，無法計算 CER。")

    else:
        print("未在圖片中識別到任何文字。")

print("\nOCR 和 CER 計算完成 (含詳細錯誤)。")

[2025/05/12 10:37:58] ppocr DEBUG: Namespace(alpha=1.0, alphacolor=(255, 255, 255), benchmark=False, beta=1.0, binarize=False, cls_batch_num=6, cls_image_shape='3, 48, 192', cls_model_dir='C:\\Users\\User/.paddleocr/whl\\cls\\ch_ppocr_mobile_v2.0_cls_infer', cls_thresh=0.9, cpu_threads=10, crop_res_save_dir='./output', det=True, det_algorithm='DB', det_box_type='quad', det_db_box_thresh=0.6, det_db_score_mode='fast', det_db_thresh=0.3, det_db_unclip_ratio=1.5, det_east_cover_thresh=0.1, det_east_nms_thresh=0.2, det_east_score_thresh=0.8, det_limit_side_len=960, det_limit_type='max', det_model_dir='C:\\Users\\User/.paddleocr/whl\\det\\ch\\ch_PP-OCRv4_det_infer', det_pse_box_thresh=0.85, det_pse_min_area=16, det_pse_scale=1, det_pse_thresh=0, det_sast_nms_thresh=0.2, det_sast_score_thresh=0.5, draw_img_save_dir='./inference_results', drop_score=0.5, e2e_algorithm='PGNet', e2e_char_dict_path='./ppocr/utils/ic15_dict.txt', e2e_limit_side_len=768, e2e_limit_type='max', e2e_model_dir=None, e

正在對圖片 'C:\Users\User\Desktop\PaddleOCR\4.png' 執行 OCR 並計算 CER (含詳細錯誤)...
[2025/05/12 10:38:00] ppocr DEBUG: dt_boxes num : 16, elapsed : 0.09481143951416016
[2025/05/12 10:38:00] ppocr DEBUG: cls num  : 16, elapsed : 0.07304883003234863
[2025/05/12 10:38:02] ppocr DEBUG: rec_res num  : 16, elapsed : 1.7580554485321045
圖片 '4.png' 的 CER: 0.2362
詳細錯誤：
實際行: 1, 位置: 4, 刪除: ' '
實際行: 1, 位置: 10, 刪除: ' '
實際行: 1, 位置: 18, 刪除: ' '
實際行: 1, 位置: 24, 刪除: ' '
實際行: 1, 位置: 26, 替換為: 'O', 原字元: '0'
實際行: 1, 位置: 27, 替換為: 'O', 原字元: '0'
實際行: 1, 位置: 28, 刪除: ' '
實際行: 1, 位置: 41, 刪除: ' '
實際行: 1, 位置: 44, 刪除: ' '
實際行: 1, 位置: 48, 刪除: ' '
實際行: 1, 位置: 53, 刪除: ' '
實際行: 1, 位置: 58, 刪除: ' '
實際行: 1, 位置: 62, 刪除: ' '
實際行: 1, 位置: 73, 刪除: ' '
實際行: 1, 位置: 76, 刪除: ' '
實際行: 1, 位置: 79, 刪除: ' '
實際行: 1, 位置: 84, 刪除: ' '
實際行: 1, 位置: 88, 刪除: ' '
實際行: 1, 位置: 97, 刪除: ' '
實際行: 1, 位置: 102, 刪除: ' '
實際行: 1, 位置: 105, 刪除: ' '
實際行: 1, 位置: 118, 刪除: ' '
實際行: 1, 位置: 124, 刪除: ' '
實際行: 1, 位置: 128, 刪除: ' '
實際行: 1, 位置: 134, 刪除: ' '
實際行: 1, 位置: 139, 刪除: ' 

前十張OCR

In [None]:
from paddleocr_backup import PaddleOCR
import os
import datetime
from PIL import Image
import Levenshtein

def calculate_cer_with_details(ground_truth, prediction):
    """計算字元錯誤率 (CER) 並返回詳細的錯誤信息"""
    if not ground_truth:
        return 1.0 if prediction else 0.0, []
    if not prediction:
        return 1.0, []

    ground_truth = ground_truth.upper()
    prediction = prediction.upper()

    distance = Levenshtein.distance(ground_truth, prediction)
    cer = distance / len(ground_truth)
    details = []

    operations = Levenshtein.editops(ground_truth, prediction)
    gt_index = 0
    pred_index = 0
    gt_lines = ground_truth.splitlines()
    pred_lines = prediction.splitlines()
    gt_line_index = 0
    pred_line_index = 0
    gt_char_index = 0
    pred_char_index = 0

    for op, gt_pos, pred_pos in operations:
        # 找到對應的行號和字元位置 (這部分可能不完全精確，因為 OCR 結果可能是多行)
        temp_gt_index = 0
        for i, line in enumerate(gt_lines):
            if temp_gt_index <= gt_pos < temp_gt_index + len(line) + 1:
                gt_line_index = i + 1
                gt_char_index = gt_pos - temp_gt_index + 1
                break
            temp_gt_index += len(line) + 1

        temp_pred_index = 0
        for i, line in enumerate(pred_lines):
            if temp_pred_index <= pred_pos < temp_pred_index + len(line) + 1:
                pred_line_index = i + 1
                pred_char_index = pred_pos - temp_pred_index + 1
                break
            temp_pred_index += len(line) + 1

        if op == 'insert':
            details.append(f"預測行: {pred_line_index}, 位置: {pred_char_index}, 插入: '{prediction[pred_pos]}'")
        elif op == 'delete':
            details.append(f"實際行: {gt_line_index}, 位置: {gt_char_index}, 刪除: '{ground_truth[gt_pos]}'")
        elif op == 'replace':
            details.append(f"實際行: {gt_line_index}, 位置: {gt_char_index}, 替換為: '{prediction[pred_pos]}', 原字元: '{ground_truth[gt_pos]}'")

    return cer, details

# 指定圖片資料夾路徑
images_folder = r'C:\Users\User\Desktop\PaddleOCR\images'
# 指定 ground_truth 文本資料夾路徑
ground_truth_folder = r'C:\Users\User\Desktop\PaddleOCR\txt'
# 指定 OCR 輸出文本資料夾路徑
ocr_output_folder = r'C:\Users\User\Desktop\PaddleOCR\ocr_cer_batch_detailed'

# 指定要處理的圖片數量
num_images_to_process = 10

# 確保輸出資料夾存在，如果不存在則創建
if not os.path.exists(ocr_output_folder):
    os.makedirs(ocr_output_folder)
    print(f"已創建 OCR 輸出資料夾：{ocr_output_folder}")

# 確保圖片和 ground_truth 資料夾存在
if not os.path.exists(images_folder):
    print(f"錯誤：圖片資料夾 '{images_folder}' 不存在。請檢查路徑是否正確。")
elif not os.path.exists(ground_truth_folder):
    print(f"錯誤：ground_truth 文本資料夾 '{ground_truth_folder}' 不存在。請檢查路徑是否正確。")
else:
    # 獲取圖片文件列表
    all_files = os.listdir(images_folder)
    image_files = sorted([f for f in all_files if f.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp'))])

    if not image_files:
        print(f"錯誤：圖片資料夾 '{images_folder}' 中沒有找到任何圖片文件。")
    else:
        # 初始化 OCR 模型
        ocr = PaddleOCR(use_angle_cls=True, lang="en", use_gpu=False)
        print(f"即將對資料夾 '{images_folder}' 中的前 {min(num_images_to_process, len(image_files))} 張圖片執行 OCR 並計算 CER (含詳細錯誤)...")

        total_cer = 0.0
        cer_values = {}
        processed_count = 0

        for i, image_file in enumerate(image_files[:num_images_to_process]):
            image_path = os.path.join(images_folder, image_file)
            image_name_without_ext = os.path.splitext(image_file)[0]
            ground_truth_file_path = os.path.join(ground_truth_folder, f"{image_name_without_ext}.txt")
            ocr_output_text = ""
            ground_truth_text = ""
            current_cer = 0.0
            error_details = []

            print(f"\n正在處理圖片 '{image_path}'...")

            # 執行 OCR 識別
            result = ocr.ocr(image_path, cls=True)

            if result and result[0]:
                for line in result[0]:
                    text = line[1][0]
                    ocr_output_text += text + "\n"
                ocr_output_text = ocr_output_text.strip()

                # 讀取 ground_truth 文本
                if os.path.exists(ground_truth_file_path):
                    try:
                        with open(ground_truth_file_path, 'r', encoding='utf-8') as f:
                            ground_truth_text = f.read().strip()
                    except IOError as e:
                        print(f"讀取 ground_truth 文件 '{ground_truth_file_path}' 時發生錯誤: {e}")
                else:
                    print(f"警告：找不到對應的 ground_truth 文件 '{ground_truth_file_path}'。")

                # 計算 CER 並獲取詳細錯誤
                if ground_truth_text:
                    current_cer, error_details = calculate_cer_with_details(ground_truth_text, ocr_output_text)
                    cer_values[image_file] = current_cer
                    total_cer += current_cer
                    processed_count += 1
                    print(f"圖片 '{image_file}' 的 CER: {current_cer:.4f}")
                    if error_details:
                        print("詳細錯誤：")
                        for detail in error_details:
                            print(detail)
                    else:
                        print("沒有發現字元錯誤。")

                # 保存 OCR 輸出到 .txt 文件
                timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
                ocr_output_filename = f"{image_name_without_ext}_ocr_detailed_{timestamp}.txt"
                ocr_output_path = os.path.join(ocr_output_folder, ocr_output_filename)
                try:
                    with open(ocr_output_path, 'w', encoding='utf-8') as f:
                        f.write(ocr_output_text)
                    print(f"OCR 輸出已保存到：{ocr_output_path}")
                except IOError as e:
                    print(f"保存 OCR 輸出文件時發生錯誤: {e}")

            else:
                print("未在圖片中識別到任何文字。")

            if i + 1 == num_images_to_process:
                break

        if processed_count > 0:
            average_cer = total_cer / processed_count
            print(f"\n前 {processed_count} 張圖片的總 CER (平均): {average_cer:.4f}")
        else:
            print("\n沒有成功處理任何圖片並計算 CER。")

print("\nOCR 和 CER 計算完成 (含詳細錯誤)。")

已創建 OCR 輸出資料夾：C:\Users\User\Desktop\PaddleOCR\ocr_cer_batch_detailed
[2025/05/11 23:26:51] ppocr DEBUG: Namespace(alpha=1.0, alphacolor=(255, 255, 255), benchmark=False, beta=1.0, binarize=False, cls_batch_num=6, cls_image_shape='3, 48, 192', cls_model_dir='C:\\Users\\User/.paddleocr/whl\\cls\\ch_ppocr_mobile_v2.0_cls_infer', cls_thresh=0.9, cpu_threads=10, crop_res_save_dir='./output', det=True, det_algorithm='DB', det_box_type='quad', det_db_box_thresh=0.6, det_db_score_mode='fast', det_db_thresh=0.3, det_db_unclip_ratio=1.5, det_east_cover_thresh=0.1, det_east_nms_thresh=0.2, det_east_score_thresh=0.8, det_limit_side_len=960, det_limit_type='max', det_model_dir='C:\\Users\\User/.paddleocr/whl\\det\\en\\en_PP-OCRv3_det_infer', det_pse_box_thresh=0.85, det_pse_min_area=16, det_pse_scale=1, det_pse_thresh=0, det_sast_nms_thresh=0.2, det_sast_score_thresh=0.5, draw_img_save_dir='./inference_results', drop_score=0.5, e2e_algorithm='PGNet', e2e_char_dict_path='./ppocr/utils/ic15_dict.txt'

_-------

In [None]:
from paddleocr_backup import PaddleOCR
import os
import datetime
from PIL import Image
import Levenshtein

def calculate_cer_with_details(ground_truth, prediction):
    """計算字元錯誤率 (CER) 並返回詳細的錯誤信息"""
    if not ground_truth:
        return 1.0 if prediction else 0.0, []
    if not prediction:
        return 1.0, []

    ground_truth = ground_truth.upper()
    prediction = prediction.upper()

    distance = Levenshtein.distance(ground_truth, prediction)
    cer = distance / len(ground_truth)
    details = []

    operations = Levenshtein.editops(ground_truth, prediction)
    gt_index = 0
    pred_index = 0
    gt_lines = ground_truth.splitlines()
    pred_lines = prediction.splitlines()
    gt_line_index = 0
    pred_line_index = 0
    gt_char_index = 0
    pred_char_index = 0

    for op, gt_pos, pred_pos in operations:
        # 找到對應的行號和字元位置 (這部分可能不完全精確，因為 OCR 結果可能是多行)
        temp_gt_index = 0
        for i, line in enumerate(gt_lines):
            if temp_gt_index <= gt_pos < temp_gt_index + len(line) + 1:
                gt_line_index = i + 1
                gt_char_index = gt_pos - temp_gt_index + 1
                break
            temp_gt_index += len(line) + 1

        temp_pred_index = 0
        for i, line in enumerate(pred_lines):
            if temp_pred_index <= pred_pos < temp_pred_index + len(line) + 1:
                pred_line_index = i + 1
                pred_char_index = pred_pos - temp_pred_index + 1
                break
            temp_pred_index += len(line) + 1

        if op == 'insert':
            details.append(f"預測行: {pred_line_index}, 位置: {pred_char_index}, 插入: '{prediction[pred_pos]}'")
        elif op == 'delete':
            details.append(f"實際行: {gt_line_index}, 位置: {gt_char_index}, 刪除: '{ground_truth[gt_pos]}'")
        elif op == 'replace':
            details.append(f"實際行: {gt_line_index}, 位置: {gt_char_index}, 替換為: '{prediction[pred_pos]}', 原字元: '{ground_truth[gt_pos]}'")

    return cer, details

# 指定圖片資料夾路徑
images_folder = r'C:\Users\User\Desktop\PaddleOCR\images'
# 指定 ground_truth 文本資料夾路徑
ground_truth_folder = r'C:\Users\User\Desktop\PaddleOCR\txt'
# 指定 OCR 輸出文本資料夾路徑
ocr_output_folder = r'C:\Users\User\Desktop\PaddleOCR\ocr_cer_batch_detailed'

# 指定要處理的圖片數量
num_images_to_process = 50

# 確保輸出資料夾存在，如果不存在則創建
if not os.path.exists(ocr_output_folder):
    os.makedirs(ocr_output_folder)
    print(f"已創建 OCR 輸出資料夾：{ocr_output_folder}")

# 確保圖片和 ground_truth 資料夾存在
if not os.path.exists(images_folder):
    print(f"錯誤：圖片資料夾 '{images_folder}' 不存在。請檢查路徑是否正確。")
elif not os.path.exists(ground_truth_folder):
    print(f"錯誤：ground_truth 文本資料夾 '{ground_truth_folder}' 不存在。請檢查路徑是否正確。")
else:
    # 獲取圖片文件列表
    all_files = os.listdir(images_folder)
    image_files = sorted([f for f in all_files if f.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp'))])

    if not image_files:
        print(f"錯誤：圖片資料夾 '{images_folder}' 中沒有找到任何圖片文件。")
    else:
        # 初始化 OCR 模型
        # lang="ch" 是中文模型，如果您要識別中文，請使用這個
        # lang="en" 是英文模型
        ocr = PaddleOCR(use_angle_cls=True, lang="ch", use_gpu=False) # 將語言改為中文

        print(f"即將對資料夾 '{images_folder}' 中的前 {min(num_images_to_process, len(image_files))} 張圖片執行 OCR 並計算 CER (含詳細錯誤)...")

        total_cer = 0.0
        cer_values = {}
        processed_count = 0

        for i, image_file in enumerate(image_files[:num_images_to_process]):
            image_path = os.path.join(images_folder, image_file)
            image_name_without_ext = os.path.splitext(image_file)[0] # 例如: "image_00000"

            # *** 關鍵修改部分 ***
            # 從 "image_00000" 提取數字部分 "00000"
            file_index = image_name_without_ext.split('_')[1]
            ground_truth_file_path = os.path.join(ground_truth_folder, f"label_{file_index}.txt")
            # *********************

            ocr_output_text = ""
            ground_truth_text = ""
            current_cer = 0.0
            error_details = []

            print(f"\n正在處理圖片 '{image_path}'...")

            # 執行 OCR 識別
            result = ocr.ocr(image_path, cls=True)

            if result and result[0]:
                for line in result[0]:
                    text = line[1][0]
                    ocr_output_text += text + "\n"
                ocr_output_text = ocr_output_text.strip()

                # 讀取 ground_truth 文本
                if os.path.exists(ground_truth_file_path):
                    try:
                        with open(ground_truth_file_path, 'r', encoding='utf-8') as f:
                            ground_truth_text = f.read().strip()
                    except IOError as e:
                        print(f"讀取 ground_truth 文件 '{ground_truth_file_path}' 時發生錯誤: {e}")
                else:
                    print(f"警告：找不到對應的 ground_truth 文件 '{ground_truth_file_path}'。")

                # 計算 CER 並獲取詳細錯誤
                if ground_truth_text:
                    current_cer, error_details = calculate_cer_with_details(ground_truth_text, ocr_output_text)
                    cer_values[image_file] = current_cer
                    total_cer += current_cer
                    processed_count += 1
                    print(f"圖片 '{image_file}' 的 CER: {current_cer:.4f}")
                    if error_details:
                        print("詳細錯誤：")
                        for detail in error_details:
                            print(detail)
                    else:
                        print("沒有發現字元錯誤。")

                # 保存 OCR 輸出到 .txt 文件
                timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
                ocr_output_filename = f"{image_name_without_ext}_ocr_detailed_{timestamp}.txt"
                ocr_output_path = os.path.join(ocr_output_folder, ocr_output_filename)
                try:
                    with open(ocr_output_path, 'w', encoding='utf-8') as f:
                        f.write(ocr_output_text)
                    print(f"OCR 輸出已保存到：{ocr_output_path}")
                except IOError as e:
                    print(f"保存 OCR 輸出文件時發生錯誤: {e}")

            else:
                print("未在圖片中識別到任何文字。")

            if i + 1 == num_images_to_process:
                break

        if processed_count > 0:
            average_cer = total_cer / processed_count
            print(f"\n前 {processed_count} 張圖片的總 CER (平均): {average_cer:.4f}")
        else:
            print("\n沒有成功處理任何圖片並計算 CER。")

print("\nOCR 和 CER 計算完成 (含詳細錯誤)。")

[2025/05/11 23:36:09] ppocr DEBUG: Namespace(alpha=1.0, alphacolor=(255, 255, 255), benchmark=False, beta=1.0, binarize=False, cls_batch_num=6, cls_image_shape='3, 48, 192', cls_model_dir='C:\\Users\\User/.paddleocr/whl\\cls\\ch_ppocr_mobile_v2.0_cls_infer', cls_thresh=0.9, cpu_threads=10, crop_res_save_dir='./output', det=True, det_algorithm='DB', det_box_type='quad', det_db_box_thresh=0.6, det_db_score_mode='fast', det_db_thresh=0.3, det_db_unclip_ratio=1.5, det_east_cover_thresh=0.1, det_east_nms_thresh=0.2, det_east_score_thresh=0.8, det_limit_side_len=960, det_limit_type='max', det_model_dir='C:\\Users\\User/.paddleocr/whl\\det\\ch\\ch_PP-OCRv4_det_infer', det_pse_box_thresh=0.85, det_pse_min_area=16, det_pse_scale=1, det_pse_thresh=0, det_sast_nms_thresh=0.2, det_sast_score_thresh=0.5, draw_img_save_dir='./inference_results', drop_score=0.5, e2e_algorithm='PGNet', e2e_char_dict_path='./ppocr/utils/ic15_dict.txt', e2e_limit_side_len=768, e2e_limit_type='max', e2e_model_dir=None, e

轉HSV和灰度

In [None]:
import cv2
import matplotlib.pyplot as plt
import os

# 圖片路徑 (請確保反斜線是正確的，或者使用 raw string)
image_path = r"C:\Users\User\Desktop\PaddleOCR\images\image_00010.jpg" # 使用 raw string r"..."

# --- 1. 檢查檔案是否存在 ---
if not os.path.exists(image_path):
    print(f"錯誤：找不到圖片檔案 '{image_path}'")
    print("請檢查路徑是否正確，以及檔案是否存在。")
    exit()

# --- 2. 讀取圖片 ---
# cv2.imread() 預設以 BGR 格式讀取圖片
original_bgr = cv2.imread(image_path)

# 檢查圖片是否成功讀取
if original_bgr is None:
    print(f"錯誤：無法讀取圖片 '{image_path}'.")
    print("請檢查檔案是否為有效的圖片格式 (如 .jpg, .png 等) 或檔案是否損毀。")
    exit()

# --- 3. 色彩空間轉換 ---

# 將 BGR 轉換為 RGB (方便 Matplotlib 顯示原始圖片的正確顏色)
original_rgb = cv2.cvtColor(original_bgr, cv2.COLOR_BGR2RGB)

# 將 BGR 轉換為 HSV
# HSV (Hue, Saturation, Value) 色彩空間
# H: 色調 (0-179 在 OpenCV 中)
# S: 飽和度 (0-255)
# V: 明度 (0-255)
hsv_image = cv2.cvtColor(original_bgr, cv2.COLOR_BGR2HSV)

# 將 BGR 轉換為灰度
# 灰度圖只有一個通道，表示亮度信息
gray_image = cv2.cvtColor(original_bgr, cv2.COLOR_BGR2GRAY)

# --- 4. 使用 Matplotlib 可視化 ---
# 創建一個畫布 (figure) 和一組子圖 (axes)
# 這裡我們創建 1 行 3 列的子圖，figsize 用來設定畫布大小
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

# 顯示原始圖片 (RGB)
axes[0].imshow(original_rgb)
axes[0].set_title('原始圖片 (RGB)')
axes[0].axis('off') # 不顯示座標軸

# 顯示 HSV 圖片
# 注意：直接顯示 HSV 圖片可能看起來與預期不同，因為 Matplotlib 的 imshow
# 會嘗試將其解釋為 RGB (如果通道數為3)。
# HSV 的三個通道分別代表色調、飽和度和明度，其視覺呈現方式與RGB不同。
axes[1].imshow(hsv_image)
axes[1].set_title('HSV 色彩空間')
axes[1].axis('off')

# 顯示灰度圖片
# 灰度圖需要指定色彩映射 (colormap) 為 'gray'
axes[2].imshow(gray_image, cmap='gray')
axes[2].set_title('灰度色彩空間')
axes[2].axis('off')

# 自動調整子圖參數，使之填充整個圖像區域
plt.tight_layout()

# 顯示圖片
plt.show()

print("圖片處理與顯示完成。")

# --- 5. (可選) 如果你只想用 OpenCV 的視窗顯示 ---
# cv2.imshow('Original BGR', original_bgr)
# cv2.imshow('HSV Image', hsv_image)
# cv2.imshow('Grayscale Image', gray_image)

# cv2.waitKey(0) # 等待用戶按下任意鍵
# cv2.destroyAllWindows() # 關閉所有 OpenCV 創建的視窗

排除字

In [None]:
from paddleocr_backup import PaddleOCR, draw_ocr
import os
import datetime # 導入 datetime 模組，用於生成時間戳
from PIL import Image # 確保 Image 被正確導入
import difflib

# 指定圖片路徑
image_path = r'C:\Users\User\Desktop\PaddleOCR\images\image_00010.jpg'

# 要過濾掉的關鍵字列表
filter_keywords = ['姓名', '性刷','性别', '民族','民旗' ,'出生','住址', '公民身份号码','民身份号码']

# 檢查圖片是否存在
if not os.path.exists(image_path):
    print(f"錯誤：圖片文件 '{image_path}' 不存在。請檢查路徑是否正確。")
else:
    # 初始化 OCR 模型
    # lang='ch' 表示使用中文模型，'en' 表示英文，你也可以指定其他語言
    # use_gpu=True 表示使用 GPU，如果你的電腦沒有 GPU 或者沒有配置 CUDA，請設置為 False
    # use_angle_cls=True 表示使用方向分類器，可以識別圖片中文字的旋轉角度
    ocr = PaddleOCR(use_angle_cls=True, lang="ch", use_gpu=False) # 假設圖片是中文，如果不是請修改 lang

    print(f"正在對圖片 '{image_path}' 執行 OCR 識別...")

    # 執行 OCR 識別
    result = ocr.ocr(image_path, cls=True)

    # 初始化列表來保存處理後的文本結果
    texts_for_file_output = [] # 用於保存到文本文件 (過濾後)
    
    # 用於繪圖的數據，需要保持座標、過濾後的文本和置信度對齊
    # 只有在過濾後文本不為空時才添加到這些列表
    drawable_boxes = []
    drawable_texts = []
    drawable_scores = []

    # 打印並處理識別結果
    if result and result[0]: # result[0] 包含識別結果的列表
        print("\nOCR 識別結果 (過濾前與過濾後)：")
        for line_data in result[0]: # 更清晰的變量名
            box_coordinates = line_data[0]    # 文字框的座標
            original_text = line_data[1][0]   # 識別出的原始文字
            confidence = line_data[1][1]      # 置信度

            print(f"  原始文字: '{original_text}', 置信度: {confidence:.2f}")

            # ---- 文字過濾 ----
            text_after_filtering = original_text
            for keyword in filter_keywords:
                text_after_filtering = text_after_filtering.replace(keyword, '')
            text_after_filtering = text_after_filtering.strip() # 去除替換後可能產生的前後空格
            # ------------------

            # 將過濾後的文本（即使是空字符串）添加到用於文件輸出的列表
            texts_for_file_output.append(text_after_filtering)

            if text_after_filtering: # 如果過濾後文本不為空
                print(f"  -> 過濾後文字: '{text_after_filtering}' (將用於繪圖和文本文件)")
                drawable_boxes.append(box_coordinates)
                drawable_texts.append(text_after_filtering)
                drawable_scores.append(confidence)
            else:
                print(f"  -> 過濾後文字為空或僅含空格，將不在繪圖中使用，文本文件中將為空行或僅含過濾殘餘。")
        
        # ----- 將過濾後的識別結果保存到 .txt 文件 -----
        output_dir = os.path.dirname(image_path)
        timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
        image_name_without_ext = os.path.splitext(os.path.basename(image_path))[0]
        # 修改文件名以表示已過濾
        output_text_filename = f"{image_name_without_ext}_ocr_result_filtered_{timestamp}.txt"
        output_text_path = os.path.join(output_dir, output_text_filename)

        try:
            with open(output_text_path, 'w', encoding='utf-8') as f:
                for text_line in texts_for_file_output: # 使用包含所有過濾後文本的列表
                    f.write(text_line + '\n') # 每個識別到的文字後換行
            print(f"\n過濾後的 OCR 識別結果已保存到文本文件：{output_text_path}")
        except IOError as e:
            print(f"\n保存文本文件時發生錯誤: {e}")
        # ----------------------------------------------------

        # ----- 可選：繪製過濾後的識別結果並保存到圖片 -----
        if drawable_texts: # 僅當有可繪製的文本時才進行
            try:
                img_for_drawing = Image.open(image_path).convert('RGB')
                
                # 使用過濾和對齊後的 drawable_boxes, drawable_texts, drawable_scores
                font_path_for_drawing = r'C:\Windows\Fonts\msyh.ttc' # 微軟雅黑
                if not os.path.exists(font_path_for_drawing):
                    print(f"警告：字體 '{font_path_for_drawing}' 不存在，將嘗試使用預設字體。")
                    font_path_for_drawing = None # PaddleOCR 會使用其內建字體


                im_show_array = draw_ocr(img_for_drawing, drawable_boxes, drawable_texts, drawable_scores, font_path=font_path_for_drawing)
                
                # 定義輸出圖片路徑
                output_image_filename = f"{image_name_without_ext}_ocr_visual_filtered_{timestamp}.jpg"
                output_image_path = os.path.join(output_dir, output_image_filename)
                
                # draw_ocr 返回的是 NumPy 數組，需要轉回 PIL Image 對象進行保存
                im_show_pil = Image.fromarray(im_show_array)
                im_show_pil.save(output_image_path)
                print(f"\n過濾後的識別結果已保存到可視化圖片：{output_image_path}")

            except ImportError:
                print("\n警告：無法繪製識別結果。請安裝 'Pillow' 庫 (pip install Pillow)。OpenCV 也建議安裝。")
            except FileNotFoundError:
                # 此處主要指font_path_for_drawing指定的字體文件未找到
                print(f"\n錯誤：繪製圖片時找不到字體文件。請檢查 font_path: '{font_path_for_drawing}' 是否正確。")
            except Exception as e:
                print(f"\n繪製結果時發生未知錯誤: {e}")
        else:
            print("\n沒有可繪製的過濾後文字，跳過生成可視化圖片。")
            
    else:
        print("未在圖片中識別到任何文字。")

print("\nOCR 測試完成。")

In [None]:
# -*- coding: utf-8 -*-
"""
OCR 文字偵測 + 彈性關鍵字遮蔽（模糊比對 + 正則空格處理）
作者：ChatGPT         日期：2025‑05‑17
-----------------------------------------------------------------
需求：
1. 讀取指定圖片進行 PaddleOCR
2. 依關鍵字過濾個資（支援錯字、空格、類似詞）
3. 產生：
   ‑ 過濾後文字 txt
   ‑ 過濾後標註圖片
-----------------------------------------------------------------
"""

import os, datetime, difflib, re
from paddleocr_backup import PaddleOCR, draw_ocr
from PIL import Image

# ========= 使用者僅需修改以下區塊 ========= #
IMAGE_PATH  = r'C:\Users\User\Desktop\PaddleOCR\images\image_00006.jpg'
USE_GPU     = False          # 如裝好 CUDA 可改 True
OCR_LANG    = 'ch'           # zh(簡體) / ch(繁體) / en / 日韓… 詳見官方
SIM_THR     = 0.80           # 模糊比對相似度門檻 (0~1)
FILTER_WORDS = [
    '姓名', '性别', '民族', '出生', '住址', '公民身份号码',
    # 常見錯字／簡繁／拆字也可先列入
    '性別', '民旗', '性 别', '民 族'
]
# ========================================== #

# ---------- 函式區 ----------
def similar_to_keyword(text: str, keywords: list, thr: float) -> bool:
    """利用 difflib 判斷 text 是否與任一 keyword 相似到 thr 以上"""
    for kw in keywords:
        if difflib.SequenceMatcher(None, kw, text).ratio() >= thr:
            return True
    return False


def flex_regex_filter(text: str, keywords: list) -> str:
    """
    讓 keyword 中每個字後面可夾雜空白，再用正則替換
    例如 '出生' -> '出\s*生\s*'
    """
    filtered = text
    for kw in keywords:
        pattern = ''.join(fr'{re.escape(c)}\s*' for c in kw)
        filtered = re.sub(pattern, '', filtered, flags=re.IGNORECASE)
    return filtered.strip()


def apply_privacy_filter(orig_text: str) -> str:
    """
    先以模糊比對「整段文字」判斷是否完全屬於個資，
    是→整段清空；否→再用正則把片段關鍵字拿掉
    """
    if similar_to_keyword(orig_text, FILTER_WORDS, SIM_THR):
        return ''                      # 整段屬於敏感詞，直接清空
    return flex_regex_filter(orig_text, FILTER_WORDS)

# ----------------------------

# 1. 檢查圖片
if not os.path.isfile(IMAGE_PATH):
    raise FileNotFoundError(f'找不到圖片：{IMAGE_PATH}')

# 2. 初始化 OCR
ocr = PaddleOCR(use_angle_cls=True, lang=OCR_LANG, use_gpu=USE_GPU)
print(f'正在處理：{IMAGE_PATH}')

# 3. 執行 OCR
ocr_res = ocr.ocr(IMAGE_PATH, cls=True)

# 4. 準備輸出容器
txt_lines        = []    # 所有（含空行）文字
draw_boxes, draw_txts, draw_scores = [], [], []

# 5. 逐行處理
if ocr_res and ocr_res[0]:
    print('\n--- 識別結果 ---')
    for box, (text, score) in ocr_res[0]:
        print(f"原始: '{text}'  conf={score:.2f}")

        clean_text = apply_privacy_filter(text)
        txt_lines.append(clean_text)  # 即使空行也寫入

        if clean_text:                # 要畫的才存
            draw_boxes.append(box)
            draw_txts.append(clean_text)
            draw_scores.append(score)
            print(f"  → 保留: '{clean_text}'")
        else:
            print("  → 已遮蔽 / 空行")

else:
    print('⚠️ 未識別到任何文字')
    txt_lines.append('')  # 仍寫入空行避免後續報錯

# 6. 存 txt
out_dir   = os.path.dirname(IMAGE_PATH)
stamp     = datetime.datetime.now().strftime('%Y%m%d_%H%M%S')
base_name = os.path.splitext(os.path.basename(IMAGE_PATH))[0]
txt_path  = os.path.join(out_dir, f'{base_name}_filtered_{stamp}.txt')

with open(txt_path, 'w', encoding='utf-8') as f:
    f.write('\n'.join(txt_lines))
print(f'\n✅ 已輸出文字檔：{txt_path}')

# 7. 產生標註圖（若有文字）
if draw_txts:
    font_path = r'C:\Windows\Fonts\msyh.ttc'
    if not os.path.exists(font_path):
        font_path = None  # 讓 paddle 走內建字體
    img = Image.open(IMAGE_PATH).convert('RGB')
    vis = draw_ocr(img, draw_boxes, draw_txts, draw_scores, font_path=font_path)
    vis_img = Image.fromarray(vis)
    vis_path = os.path.join(out_dir, f'{base_name}_vis_{stamp}.jpg')
    vis_img.save(vis_path)
    print(f'✅ 已輸出標註圖：{vis_path}')
else:
    print('⚠️ 沒有可視化文字需要繪製，跳過輸出標註圖')

print('\n🎉 OCR 隱私過濾完成')
