# 6. OCR을 활용한 문자 인식

## 6.1 OCR 개요 및 활용 사례

### 1. OCR이란?
OCR(Optical Character Recognition, 광학 문자 인식)은 이미지 내의 텍스트를 감지하고 이를 디지털 텍스트로 변환하는 기술이다. OCR은 문서 자동화, 차량 번호판 인식, 전자상거래 및 금융 서비스에서 널리 사용된다.

### 2. OCR의 동작 원리
- **이미지 전처리**: 이진화, 노이즈 제거, 대비 조정을 통해 문자 인식률을 높임.
- **문자 감지**: 텍스트의 위치를 찾아 영역을 분리.
- **문자 인식**: 머신러닝 및 딥러닝 기반 알고리즘을 사용하여 문자 변환 수행.

### 3. OCR 기술의 활용 분야
- **문서 자동화**: 스캔된 문서를 텍스트 데이터로 변환하여 데이터 입력 작업 자동화.
- **차량 번호판 인식**: 교통 관리 시스템에서 차량 번호판을 인식하여 속도 위반 감지.
- **전자상거래 및 금융**: 영수증, 신분증, 청구서 등의 문서를 자동으로 처리.

---

# 실습 9: OpenCV + Tesseract로 간단한 문자 인식

### 1. 환경 설정
OCR을 수행하기 위해 다음 라이브러리를 설치해야 한다.
```bash
pip install opencv-python pytesseract
```
Tesseract OCR 엔진을 설치하고 환경 변수를 설정해야 한다.

### 2. OpenCV를 활용한 이미지 전처리
이미지에서 텍스트를 보다 잘 추출하기 위해 OpenCV를 활용하여 대비 조정 및 이진화를 적용한다.

In [None]:
import cv2
import pytesseract

# 이미지 로드
image = cv2.imread('sample_text.jpg')

# 그레이스케일 변환
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 이진화 처리
thresh = cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY_INV)[1]

# OCR 수행
text = pytesseract.image_to_string(thresh, lang='eng')
print("인식된 텍스트:", text)

## 6.2 OCR을 활용한 실전 프로젝트

### 1. OCR을 활용한 번호판 인식 원리
번호판 인식을 위해 YOLO를 활용하여 번호판 영역을 검출한 후, 해당 영역을 OCR을 사용하여 문자를 인식한다.

### 2. OpenCV + YOLO로 번호판 영역 검출
YOLO를 활용하여 차량 이미지에서 번호판 영역을 검출한다.

In [None]:
import cv2
import numpy as np

def detect_license_plate(image_path):
    net = cv2.dnn.readNet('yolov4.weights', 'yolov4.cfg')
    image = cv2.imread(image_path)
    blob = cv2.dnn.blobFromImage(image, 0.00392, (416, 416), swapRB=True, crop=False)
    net.setInput(blob)
    output_layers = net.getUnconnectedOutLayersNames()
    detections = net.forward(output_layers)
    return detections

### 3. OCR을 활용한 문자 인식
검출된 번호판 영역을 잘라서 OCR을 적용한다.

In [None]:
license_plate_roi = image[y:y+h, x:x+w]
text = pytesseract.image_to_string(license_plate_roi, lang='eng')
print("번호판 번호:", text)