In [None]:
!pip install easyocr
!pip install matplotlib imutils easyocr opencv-python-headless requests numpy Pillow tqdm

In [3]:
import matplotlib.pyplot as plt
from imutils.perspective import four_point_transform
from imutils.contours import sort_contours
import imutils
from easyocr import Reader
import cv2
import requests
import numpy as np
from PIL import ImageFont, ImageDraw, Image
import os
import re
import tqdm

In [12]:
# EasyOCR Reader
reader = Reader(['en'])

# 이미지 경로 및 로딩
image_path = '/home/jdh251425/2025_DKU_Capstone/AI/dataset/labels/test/7.jpg'
image = cv2.imread(image_path)
h, w, _ = image.shape

image_file_name = image_path.split('/')[-1].split('.')[0]

# 결과 경로
result_path = f'/home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result/recognized_text_{image_file_name}.txt'

# 텍스트 인식
results = reader.readtext(image, detail=1)

# 결과 저장
with open(result_path, 'w') as f:
    for (bbox, text, prob) in results:
        # 좌표 추출
        x1, y1 = bbox[0]
        x3, y3 = bbox[2]
        width = x3 - x1
        height = y3 - y1
        x_center = x1 + width / 2
        y_center = y1 + height / 2

        # 정규화 (0~1 범위로)
        x_center_norm = x_center / w
        y_center_norm = y_center / h
        width_norm = width / w
        height_norm = height / h

        # 저장
        f.write(f"Detected Text: {text}\n")
        f.write(f"Confidence: {prob:.4f}\n")
        f.write(f"Normalized xywh: ({x_center_norm:.6f}, {y_center_norm:.6f}, {width_norm:.6f}, {height_norm:.6f})\n\n")


Downloading recognition model, please wait. This may take several minutes depending upon your network connection.


Progress: |██████████████████████████████████████████████████| 100.0% Complete

In [15]:
'''
쓸만한 코드 1
대비 없는 버전

results = reader.readtext(image, detail=1)
reader = Reader(['ko', 'en'])
'''

import cv2
import numpy as np
from easyocr import Reader

# EasyOCR Reader
reader = Reader(['ko', 'en'])

# 이미지 경로 및 로딩
image_path = '/home/jdh251425/2025_DKU_Capstone/AI/dataset/labels/test/254.jpg'
image = cv2.imread(image_path)
h, w, _ = image.shape

image_file_name = image_path.split('/')[-1].split('.')[0]

# 텍스트 인식
results = reader.readtext(image, detail=1)

# 바운딩 박스 및 텍스트 출력
for (bbox, text, prob) in results:
    # 바운딩 박스 좌표
    pts = np.array(bbox, dtype=np.int32)

    # 박스 그리기 (초록색)
    cv2.polylines(image, [pts], isClosed=True, color=(0, 255, 0), thickness=2)

    # 텍스트 표시 (좌상단 점 기준)
    x, y = bbox[0]
    cv2.putText(image, text, (int(x), int(y) - 10), cv2.FONT_HERSHEY_SIMPLEX,
                0.8, (0, 0, 255), 2, cv2.LINE_AA)

# 이미지 저장
output_path = f'/home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result/{image_file_name}.jpg'
cv2.imwrite(output_path, image)
print(f"박스가 그려진 이미지가 {output_path}에 저장되었습니다.")


박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result/{image_file_name}.jpg에 저장되었습니다.


In [20]:
'''
쓸만한 코드 2
대비 있는 버전

reader = Reader(['ko', 'en'])
results = reader.readtext(image, detail=1, contrast_ths=0.05)
'''

import os
import cv2
import numpy as np
from easyocr import Reader

# EasyOCR Reader
reader = Reader(['ko', 'en'])

# 이미지 경로
directory_path = '/home/jdh251425/2025_DKU_Capstone/AI/dataset/labels/test'

# 디렉토리 순회
for filename in os.listdir(directory_path):
    if '_' in filename:
        continue
    if filename.endswith('.jpg'):
        image_path = os.path.join(directory_path, filename)
        image = cv2.imread(image_path)
        h, w, _ = image.shape

        image_file_name = filename.split('.')[0]

        # 텍스트 인식
        results = reader.readtext(image, detail=1, contrast_ths=0.05)

        # 바운딩 박스 및 텍스트 출력
        for (bbox, text, prob) in results:
            # 바운딩 박스 좌표
            pts = np.array(bbox, dtype=np.int32)

            # 박스 그리기 (초록색)
            cv2.polylines(image, [pts], isClosed=True, color=(0, 255, 0), thickness=2)

            # 텍스트 표시 (좌상단 점 기준)
            x, y = bbox[0]
            cv2.putText(image, text, (int(x), int(y) - 10), cv2.FONT_HERSHEY_SIMPLEX,
                        0.8, (0, 0, 255), 2, cv2.LINE_AA)

        # 이미지 저장
        output_path = f'/home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_contrast/{image_file_name}.jpg'
        cv2.imwrite(output_path, image)
        print(f"박스가 그려진 이미지가 {output_path}에 저장되었습니다.")

박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_contrast/68.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_contrast/136.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_contrast/301.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_contrast/123.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_contrast/212.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_contrast/99.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_contrast/72.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_contrast/17.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_contrast/208.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_contrast/41.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_contrast/

In [22]:
'''
쓸만한 코드 3

contrast_ths=0.05

reader = Reader(['en'], recog_network='english_g2')
results = reader.readtext(
            image,
            detail=1,
            allowlist='0123456789',
            contrast_ths=0.05,
            adjust_contrast=0.7,
            mag_ratio=2.0
        )
'''

import os
import cv2
import numpy as np
from easyocr import Reader

# EasyOCR Reader
reader = Reader(['en'], recog_network='english_g2')


# 이미지 경로
directory_path = '/home/jdh251425/2025_DKU_Capstone/AI/dataset/labels/test'

# 디렉토리 순회
for filename in os.listdir(directory_path):
    if '_' in filename:
        continue
    if filename.endswith('.jpg'):
        image_path = os.path.join(directory_path, filename)
        image = cv2.imread(image_path)
        h, w, _ = image.shape

        image_file_name = filename.split('.')[0]

        # 텍스트 인식
        results = reader.readtext(
            image,
            detail=1,
            allowlist='0123456789',
            contrast_ths=0.05,
            adjust_contrast=0.7,
            mag_ratio=2.0
        )

        # 바운딩 박스 및 텍스트 출력
        for (bbox, text, prob) in results:
            # 바운딩 박스 좌표
            pts = np.array(bbox, dtype=np.int32)

            # 박스 그리기 (초록색)
            cv2.polylines(image, [pts], isClosed=True, color=(0, 255, 0), thickness=2)

            # 텍스트 표시 (좌상단 점 기준)
            x, y = bbox[0]
            cv2.putText(image, text, (int(x), int(y) - 10), cv2.FONT_HERSHEY_SIMPLEX,
                        0.8, (0, 0, 255), 2, cv2.LINE_AA)

        # 이미지 저장
        output_path = f'/home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_best_param/{image_file_name}.jpg'
        cv2.imwrite(output_path, image)
        print(f"박스가 그려진 이미지가 {output_path}에 저장되었습니다.")

박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_best_param/68.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_best_param/136.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_best_param/301.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_best_param/123.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_best_param/212.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_best_param/99.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_best_param/72.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_best_param/17.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_best_param/208.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_best_param/41.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/E

In [23]:
!pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

Looking in indexes: https://download.pytorch.org/whl/cu126
Collecting torchaudio
  Using cached https://download.pytorch.org/whl/cu126/torchaudio-2.6.0%2Bcu126-cp39-cp39-linux_x86_64.whl.metadata (6.6 kB)
Using cached https://download.pytorch.org/whl/cu126/torchaudio-2.6.0%2Bcu126-cp39-cp39-linux_x86_64.whl (3.5 MB)
Installing collected packages: torchaudio
Successfully installed torchaudio-2.6.0+cu126


In [4]:
'''
쓸만한 코드 4
파라미터 미세 조정을 시도한다.
'''
import cv2
import numpy as np
import os
from easyocr import Reader

# EasyOCR Reader
reader = Reader(['en'], recog_network='english_g2')

# 파일 경로 리스트
files_path = [
    '/home/jdh251425/2025_DKU_Capstone/AI/dataset/labels/test/109.jpg',
    '/home/jdh251425/2025_DKU_Capstone/AI/dataset/labels/test/121.jpg',
    '/home/jdh251425/2025_DKU_Capstone/AI/dataset/labels/test/123.jpg',
    '/home/jdh251425/2025_DKU_Capstone/AI/dataset/labels/test/124.jpg',
    '/home/jdh251425/2025_DKU_Capstone/AI/dataset/labels/test/131.jpg'
]

output_base_dir = "/home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_param_exp/"

# 파일 경로 순회
for image_path in files_path:
    image = cv2.imread(image_path)
    h, w, _ = image.shape

    image_file_name = image_path.split('/')[-1].split('.')[0]

    # 텍스트 인식
    results = reader.readtext(
        image,
        detail=1,
        # allowlist='0123456789',
        contrast_ths=1.0,
        adjust_contrast=1.0,
        mag_ratio=2.0
    )

    # 바운딩 박스 및 텍스트 출력
    for (bbox, text, prob) in results:
        # 바운딩 박스 좌표
        pts = np.array(bbox, dtype=np.int32)

        # 박스 그리기 (초록색)
        cv2.polylines(image, [pts], isClosed=True, color=(0, 255, 0), thickness=2)

        # 텍스트 표시 (좌상단 점 기준)
        x, y = bbox[0]
        cv2.putText(image, text, (int(x), int(y) - 10), cv2.FONT_HERSHEY_SIMPLEX,
                    0.8, (0, 0, 255), 2, cv2.LINE_AA)
        
    # 이미지 저장
    output_path = os.path.join(output_base_dir, f'{image_file_name}.jpg')
    cv2.imwrite(output_path, image)
    print(f"박스가 그려진 이미지가 {output_path}에 저장되었습니다.")
        
    image = cv2.imread(image_path)
    h, w, _ = image.shape

    # 결과 경로
    result_path = os.path.join(output_base_dir, f'recognized_text_{image_file_name}.txt')

    # 텍스트 인식
    results = reader.readtext(image, detail=1)

    # 결과 저장
    with open(result_path, 'w') as f:
        for (bbox, text, prob) in results:
            # 좌표 추출
            x1, y1 = bbox[0]
            x3, y3 = bbox[2]
            width = x3 - x1
            height = y3 - y1
            x_center = x1 + width / 2
            y_center = y1 + height / 2

            # 정규화 (0~1 범위로)
            x_center_norm = x_center / w
            y_center_norm = y_center / h
            width_norm = width / w
            height_norm = height / h

            # 저장
            f.write(f"Detected Text: {text}\n")
            f.write(f"Confidence: {prob:.4f}\n")
            f.write(f"Normalized xywh: ({x_center_norm:.6f}, {y_center_norm:.6f}, {width_norm:.6f}, {height_norm:.6f})\n\n")

박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_param_exp/109.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_param_exp/121.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_param_exp/123.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_param_exp/124.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/result_param_exp/131.jpg에 저장되었습니다.


In [1]:
import os
import cv2
import numpy as np
from easyocr import Reader

def process_images(files_path, output_base_dir):
    # EasyOCR Reader
    reader = Reader(['en'], recog_network='english_g2')

    # 디렉토리 생성
    if not os.path.exists(output_base_dir):
        os.makedirs(output_base_dir)

    # 파일 경로 순회
    for image_path in files_path:
        image = cv2.imread(image_path)
        h, w, _ = image.shape

        image_file_name = image_path.split('/')[-1].split('.')[0]

        # 텍스트 인식
        results = reader.readtext(
            image,
            detail=1,  # 결과의 상세 수준 (0: 간단, 1: 상세)
            contrast_ths=1.0,  # 대비 임계값 설정 (0.0 ~ 1.0)
            adjust_contrast=2.0,  # 이미지 대비 조정 (0.0 ~ 2.0)
            mag_ratio=1.0  # 이미지 확대 비율 (1.0 이상, 일반적으로 1.0 ~ 3.0)
        )

        # 바운딩 박스 및 텍스트 출력
        for (bbox, text, prob) in results:
            pts = np.array(bbox, dtype=np.int32)
            cv2.polylines(image, [pts], isClosed=True, color=(0, 255, 0), thickness=2)
            x, y = bbox[0]
            cv2.putText(image, text, (int(x), int(y) - 10), cv2.FONT_HERSHEY_SIMPLEX,
                        0.8, (0, 0, 255), 2, cv2.LINE_AA)

        # 이미지 저장
        output_path = os.path.join(output_base_dir, f'{image_file_name}.jpg')
        cv2.imwrite(output_path, image)
        print(f"박스가 그려진 이미지가 {output_path}에 저장되었습니다.")

        # 결과 경로
        result_path = os.path.join(output_base_dir, f'recognized_text_{image_file_name}.txt')

        # 결과 저장
        with open(result_path, 'w') as f:
            for (bbox, text, prob) in results:
                x1, y1 = bbox[0]
                x3, y3 = bbox[2]
                width = x3 - x1
                height = y3 - y1
                x_center = x1 + width / 2
                y_center = y1 + height / 2
                x_center_norm = x_center / w
                y_center_norm = y_center / h
                width_norm = width / w
                height_norm = height / h
                f.write(f"Detected Text: {text}\n")
                f.write(f"Confidence: {prob:.4f}\n")
                f.write(f"Normalized xywh: ({x_center_norm:.6f}, {y_center_norm:.6f}, {width_norm:.6f}, {height_norm:.6f})\n\n")

# 결과 저장을 위한 기본 디렉토리
output_base_dir = "/home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/comparison_0408_4_question_num/"

input_base_dir = "/home/jdh251425/2025_DKU_Capstone/AI/OCR/exp_dataset/question number"

# 파일 경로 리스트 생성
files_path = []
for root, dirs, files in os.walk(input_base_dir):
    for file in files:
        if file.endswith('.png'):
            files_path.append(os.path.join(root, file))


process_images(files_path, output_base_dir)

박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/comparison_0408_4_question_num/1.jpg에 저장되었습니다.
박스가 그려진 이미지가 /home/jdh251425/2025_DKU_Capstone/AI/OCR/Easy/comparison_0408_4_question_num/4.jpg에 저장되었습니다.
