# 실습 03: PaddleOCR 기본 사용법

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/leecks1119/document_ai_lecture/blob/master/notebooks/Lab03_PaddleOCR.ipynb)

## 🎯 학습 목표
- PaddleOCR 설치 및 기본 사용법
- 한글/영어 혼합 문서 인식
- 결과 시각화

## ⏱️ 소요 시간: 20분
## 📊 난이도: ⭐⭐☆☆☆


In [None]:
# PaddleOCR 설치
!pip install -q paddlepaddle paddleocr
print("✅ PaddleOCR 설치 완료!")


In [None]:
# 샘플 이미지 생성
from PIL import Image, ImageDraw, ImageFont
import numpy as np

img = Image.new('RGB', (600, 400), color='white')
draw = ImageDraw.Draw(img)

text = """삼성전자 주식회사
Samsung Electronics

품의서 (Purchase Request)

품의번호: PR-2025-0001
작성일자: 2025년 1월 15일
담당부서: 구매팀
"""

draw.text((30, 30), text, fill='black')
img.save('sample_doc.jpg')

print("✅ 샘플 이미지 생성 완료!")
img


In [None]:
# PaddleOCR 실행
from paddleocr import PaddleOCR

# 한글+영어 OCR 초기화 (최신 API)
ocr = PaddleOCR(use_textline_orientation=True, lang='korean')

# OCR 실행 (최신 API: predict 사용)
result = ocr.predict('sample_doc.jpg')

print("\n📄 인식된 텍스트:\n")
print("="*50)

# PaddleOCR predict() 결과 구조: [[[bbox, (text, confidence)], ...]]
for line in result[0]:
    bbox = line[0]  # 바운딩 박스 좌표
    text = line[1]  # 텍스트 (문자열)
    confidence = line[2]  # 신뢰도 (float)
    print(f"{text:30s} (신뢰도: {confidence:.2%})")
print("="*50)


In [None]:
# 결과 시각화
from paddleocr import draw_ocr
import cv2
import matplotlib.pyplot as plt

# 원본 이미지 로드
image = cv2.imread('sample_doc.jpg')
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

# 바운딩 박스 추출
boxes = [line[0] for line in result[0]]
texts = [line[1] for line in result[0]]
scores = [line[2] for line in result[0]]

# 시각화
im_show = draw_ocr(image, boxes, texts, scores, font_path=None)
im_show = Image.fromarray(im_show)

plt.figure(figsize=(12, 8))
plt.imshow(im_show)
plt.axis('off')
plt.title('PaddleOCR 인식 결과', fontsize=16)
plt.tight_layout()
plt.show()

print("\n✅ 시각화 완료!")
