In [None]:
import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 한국어만
text_kor = pytesseract.image_to_string(Image.open('image.jpg'), lang='kor')
print("한국어만:", text_kor)

# 한국어 + 영어
text_both = pytesseract.image_to_string(Image.open('image.jpg'), lang='kor+eng')  
print("한국어+영어:", text_both)

# 영어만 (비교용)
text_eng = pytesseract.image_to_string(Image.open('image.jpg'), lang='eng')
print("영어만:", text_eng)


In [1]:
import os
import pytesseract
from PIL import Image
import PyPDF2

# Tesseract 경로 설정
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

def extract_text(file_path):
    """
    파일에서 텍스트 추출 (이미지 + PDF 지원)
    
    Args:
        file_path (str): 파일 경로
    
    Returns:
        str: 추출된 텍스트
    """
    
    # 파일 존재 확인
    if not os.path.exists(file_path):
        return f"❌ 파일을 찾을 수 없습니다: {file_path}"
    
    # 확장자 확인
    _, ext = os.path.splitext(file_path)
    ext = ext.lower()
    
    try:
        # 이미지 파일 처리
        if ext in ['.png', '.jpg', '.jpeg', '.bmp', '.tiff', '.gif']:
            return _extract_from_image(file_path)
        
        # PDF 파일 처리
        elif ext == '.pdf':
            return _extract_from_pdf(file_path)
        
        else:
            return f"❌ 지원하지 않는 파일 형식: {ext}"
    
    except Exception as e:
        return f"❌ 처리 중 오류 발생: {str(e)}"

def _extract_from_image(image_path):
    """이미지에서 텍스트 추출 (한국어 + 영어)"""
    
    image = Image.open(image_path)
    
    # 한국어 + 영어로 OCR
    text = pytesseract.image_to_string(image, lang='kor+eng')
    
    # 텍스트 정리
    cleaned = '\n'.join([line.strip() for line in text.split('\n') if line.strip()])
    
    return cleaned if cleaned else "📄 이미지에서 텍스트를 찾을 수 없습니다."

def _extract_from_pdf(pdf_path):
    """PDF에서 텍스트 추출"""
    
    text = ""
    
    with open(pdf_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfReader(file)
        
        for page_num, page in enumerate(pdf_reader.pages, 1):
            try:
                page_text = page.extract_text()
                if page_text.strip():
                    text += f"--- 페이지 {page_num} ---\n"
                    text += page_text + "\n\n"
            except Exception as e:
                text += f"--- 페이지 {page_num} (읽기 실패) ---\n\n"
    
    return text.strip() if text.strip() else "📄 PDF에서 텍스트를 찾을 수 없습니다."

# 사용 예시
if __name__ == "__main__":
    # 파일 경로 입력받기
    file_path = 'image.jpg'
    
    print(f"\n📁 처리 중: {file_path}")
    print("=" * 50)
    
    # 텍스트 추출
    result = extract_text(file_path)
    print(result)



📁 처리 중: image.jpg
기드, 0000       |
처방 의
nS 23)
|sasooneen eB
670100040. 21 01141
:비클여)대원이부프로펜정
비금며)아레스달전
Alte HINER
[Musee 성원
4 8712 요쿠가 있을 Hole VEE:
0208000 ILIA AR SAMI RAAEENE- a, 3.5
641506:10.공실런한쌍(아독시실린수회운)디중아록 | 0988
8
3
2
12118200088 | 0.       8
644702000.카티로판시된(아이비연70에한융유등의 | 35 | 5
1648902470.비오었250슨(지카러마이세스보활라다크 | 0.5 | 9
FICHE (ASMSIIUMASHBSH “1.00 | 3
3
3
2
3
3
| oes
0.6167
006 |
aise 으리비무스현막억(렌디조산레보획로되라, 4 |
euro a Baio (aeRO) He) Ose
|644100870.포오리틈건조시험(뚜마트싱포르모69) | 0.2 |
아다
2
2
2
2
2
2
2
2
2
2
2
2
«
ne guasKos |
aueiazol 22
|
0
dae 6 are i :
MA Saat
