# **0. 패키지 설치**

In [None]:
!pip install openai
!pip install langchain
!pip install -U langchain-community
!pip install pypdf
!pip install faiss-cpu
!pip install tiktoken

Collecting langchain-community
  Downloading langchain_community-0.3.27-py3-none-any.whl.metadata (2.9 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.10.1-py3-none-any.whl.metadata (3.4 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.1-py3-none-any.whl.metadata (9.4 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.26.1-py3-none-any.whl.metadata (7.3 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading typing_inspect-0.9.0-py3-none-any.whl.metadata (1.5 kB)
Collecting python-dotenv>=0.21.0 (from pydantic-settings<3.0.0,>=2.4.0->langchain-community)
  Downloading python_dotenv-1.1.1-py3-none-any.whl.metadata (24 k

In [None]:
from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema.output_parser import StrOutputParser
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings

# **0. 구글 드라이브 마운트 & api key**

In [None]:
from google.colab import drive
drive.mount('/content/drive')

import glob
import os

Mounted at /content/drive


In [None]:
import os
import openai
from langchain.chat_models import ChatOpenAI

#  API 키 설정
OPENAI_API_KEY = "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"
os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY
client = openai.OpenAI(api_key=OPENAI_API_KEY)
openai.api_key = OPENAI_API_KEY

# **1. 문서 업로드 & Retriever**

In [None]:
import os
from langchain.document_loaders import PyPDFLoader
from langchain.document_loaders import UnstructuredPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings
from langchain.retrievers import ContextualCompressionRetriever, EnsembleRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor

# 1. 📥 PDF 로딩 (하위 폴더 포함) + 출처 추적
def load_all_pdfs(root_dir):
    all_docs = []
    for dirpath, _, filenames in os.walk(root_dir):
        for filename in filenames:
            if filename.endswith(".pdf"):
                full_path = os.path.join(dirpath, filename)
                loader = UnstructuredPDFLoader(full_path)
                docs = loader.load()

                for doc in docs:
                    # 📎 source: 상대 경로 기준으로 저장 (예: RAG/작품A.pdf)
                    relative_path = os.path.relpath(full_path, root_dir)
                    doc.metadata["source"] = relative_path
                    doc.page_content = doc.page_content.strip().replace("\n", " ").replace("  ", " ")

                all_docs.extend(docs)
    return all_docs

# 2. 텍스트 분할기
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=100,
    separators=["\n\n", "\n", ".", " ", ""]
)

# 3. 임베딩
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# 4. 배치 임베딩
def embed_in_batches(docs, batch_size=100):
    vectorstore = None
    for i in range(0, len(docs), batch_size):
        batch = docs[i:i + batch_size]
        print(f"🔄 Embedding batch {i} ~ {i + len(batch)} / {len(docs)}")
        if vectorstore is None:
            vectorstore = FAISS.from_documents(batch, embedding=embeddings)
        else:
            vectorstore.add_documents(batch)
    return vectorstore

# 5. 저장 경로
VECTORSTORE_PATH = "/content/drive/MyDrive/Colab Notebooks/TAVE 프로젝트_STUBO/문학/faiss_index"

# 6. 벡터스토어 생성 또는 로딩
def build_vectorstore():
    root_dir = "/content/drive/MyDrive/Colab Notebooks/TAVE 프로젝트_STUBO/문학/data"
    all_docs = load_all_pdfs(root_dir)
    split_docs = text_splitter.split_documents(all_docs)
    vectorstore = embed_in_batches(split_docs)
    vectorstore.save_local(VECTORSTORE_PATH)
    return vectorstore

# 7. 리트리버 생성
def get_retriever():
    if os.path.exists(VECTORSTORE_PATH):
        print("📁 기존 벡터스토어 불러오는 중...")
        vectorstore = FAISS.load_local(VECTORSTORE_PATH, embeddings, allow_dangerous_deserialization=True)
    else:
        print("🧠 새 벡터스토어 생성 중...")
        vectorstore = build_vectorstore()

    retriever = vectorstore.as_retriever(
        search_type="mmr",
        search_kwargs={
            "k": 5,
            "score_threshold": 0.5
        }
    )
    return retriever

# 🔄 최종 retriever
retriever = get_retriever()

📁 기존 벡터스토어 불러오는 중...


# **2. 개념 답변 QA chain**

In [None]:
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.3)

# 개념 설명 체인
concept_prompt = ChatPromptTemplate.from_template("""
너는 한국의 대학수학능력시험의 국어 과목 중 문학의 개념에 대해 설명해주는 튜터야. 아래 질문에 대해 간단명료하게 설명해줘.

질문:
{question}
""")

concept_chain = concept_prompt | llm | StrOutputParser()

# **3. 문제 답변&해설 QA 체인**

In [None]:
# 문제 기반 QA RAG 체인
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain.chat_models import ChatOpenAI
from langchain_core.runnables import RunnableLambda

# LLM 설정
llm = ChatOpenAI(model="gpt-4o", temperature=0.3)

# 문제 기반 QA 체인용 프롬프트
qa_prompt = ChatPromptTemplate.from_template("""
당신은 한국 수능 국어 문학 전문 튜터입니다.

다음은 수능 국어 문학 객관식 문제입니다. ①, ②, ③, ④, ⑤ 중 하나를 고르는 객관식 문제이며,
정답은 반드시 지문 및 <보기>의 정확한 분석에 근거해 판단해야 합니다.

🟨 반드시 지켜야 할 분석 기준:

1. 지문 분석을 중심으로 판단하며, **선택지의 내용이 지문과 일치하는지** 엄밀히 검토하세요.
2. 문제에 <보기>가 있다면, <보기> 속 설명(구조, 시점, 표현, 인물 해석 등)을 **지문에 어떻게 적용했는지** 구체적으로 분석하세요.
3. **서술 방식, 인물 심리 표현, 문체, 시점 변화, 지시 표현, 병렬 구조** 등은 서술상·표현상 특징 문제에서 핵심 근거입니다.
4. 참고 자료는 반드시 보조적 용도로만 활용합니다. 절대 지문을 덮어쓰거나 대체해서는 안 됩니다.

📌 답변 형식:

[정답]
- (①, ②, ③, ④, ⑤ 중 하나)

[해설]
- 문제에서 요구한 핵심 요소(예: 표현 방식, 구조, 시점 등)에 따라 왜 정답인지 논리적으로 설명합니다.
- 지문 및 <보기>의 문장을 **직접 인용**하여 명확한 판단 근거를 제시하세요.
- 나머지 오답 선택지들은 각각 왜 틀렸는지를 간단히 설명하세요.

📖 [지문]
{context}

📚 [참고 자료] — 필요 시만 사용 (retriever 제공):
{reference}

🙋‍♂️ [문제 및 <보기>]
{question}
""")

def format_with_retrieved_docs(inputs):
    question = inputs["question"]
    context = inputs["context"]

    # 🔍 관련 문서 검색 (context와 question 모두 기준으로 검색)
    retrieved_docs = retriever.get_relevant_documents(f"{context}\n\n{question}")
    retrieved_context = "\n\n".join(doc.page_content for doc in retrieved_docs)

    return {
        "context": context,           # 지문 및 <보기>
        "reference": retrieved_context,  # 보조 자료
        "question": question
    }

# RAG QA 체인: 문항 지문 중심 + retriever 참고
rag_qa_chain = (
    RunnableLambda(format_with_retrieved_docs)
    | qa_prompt
    | llm
    | StrOutputParser()
)

# **4. 문제 vs 개념 분류 함수**

In [None]:
def is_problem_question(question: str) -> bool:
    classification_prompt = ChatPromptTemplate.from_template("""
다음 질문이 문학 개념 질문인지, 지문 기반 문제인지 판별해줘. '개념' 또는 '문제' 중 하나로만 답해.

질문:
{question}
""")
    chain = classification_prompt | llm | StrOutputParser()
    result = chain.invoke({"question": question})
    return "문제" in result.strip()

# **5. 최종 질문 처리 함수**

In [None]:
def tutor_response(question: str, passage: str = None):
    """
    문학 질문 또는 문항에 대한 응답을 처리합니다.

    Parameters:
    - question: 수험생 질문 또는 문학 개념 질문
    - passage: 선택적 입력. 문항 지문이 있는 경우 함께 제공
    """
    if is_problem_question(question):
        if not passage:
            print("❗ 오류: 문학 문제 풀이에는 지문(passage)이 필요합니다.")
            return

        print("📘 [문제에 대한 정답 및 해설]")

        # rag_qa_chain에 지문과 문제를 분리해서 입력
        response = rag_qa_chain.invoke({
            "context": passage,
            "question": question
        })
        print(response)

    else:
        print("📘 [문학 개념 설명]")
        response = concept_chain.invoke({"question": question})
        print(response)

# **6. 이미지(지문(조금 성공..?) / 문제(성공) 인식**

### **<지문 텍스트 추출>**
이미지 5등분 -> gpt-4o로 텍스트 추출 -> gpt-4o가 추출한 텍스트와 이미지를 비교하면 특수문자 삽입 -> gpt-4o가 특수문자 검토 -> gpt-4o가 지문 범위([A], [B] 등) 삽입

In [None]:
from PIL import Image
import openai
import base64
import io
from typing import List, Tuple

# ✅ 이미지 → base64
def image_to_base64(image: Image.Image) -> str:
    buffer = io.BytesIO()
    image.save(buffer, format="PNG")
    return f"data:image/png;base64,{base64.b64encode(buffer.getvalue()).decode()}"

# ✅ 이미지 수직 분할
def split_image_vertically(image: Image.Image, parts: int = 5) -> List[Image.Image]:
    width, height = image.size
    part_height = height // parts
    return [
        image.crop((0, i * part_height, width, height if i == parts - 1 else (i + 1) * part_height))
        for i in range(parts)
    ]

# ✅ GPT에게 OCR 시키는 함수
def gpt_ocr_text(image: Image.Image) -> str:
    base64_img = image_to_base64(image)

    system_prompt = """
    너는 수능 국어 문학의 지문 OCR 텍스트 추출 전문가야.

    아래 이미지를 보고 **OCR 텍스트를 그대로 추출**해.
    텍스트 추출만 하고, 절대 가공하거나 설명하지 마.

    📌 반드시 지킬 것:
    - 줄바꿈은 이미지에 보이는 그대로 살려야 해.
    - 띄어쓰기, 특수문자, 괄호, 마침표 등 모든 문장 부호도 그대로 유지해야 해.
    - 해석이나 부연 설명 없이 **순수한 OCR 결과만 출력**해야 해.
    """

    try:
        response = openai.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": system_prompt.strip()},
                {
                    "role": "user",
                    "content": [
                        {"type": "image_url", "image_url": {
                            "url": base64_img,
                            "detail": "high"
                        }}
                    ]
                }
            ],
            temperature=0,
            max_tokens=16000
        )
        output = response.choices[0].message.content.strip()
        if not output or "죄송하지만" in output:
            raise ValueError("GPT OCR 실패 또는 결과 없음")
        return output
    except Exception as e:
        return f"[❌ GPT OCR 실패]: {str(e)}"

# ✅ GPT-4o로 특수기호&괄호 삽입
def refine_text_with_gpt(image: Image.Image, ocr_output: str) -> str:
    base64_img = image_to_base64(image)

    system_prompt = """
    너는 수능 국어 문학 지문 정리 전문가야.

    다음은 OCR로 추출한 지문과 원본 이미지야. 너는 이 두 정보를 비교해서 다음과 같이 OCR 결과를 정확하게 수정해야 해.

    📌 반드시 지켜야 할 규칙:

    1. ✅ 이미지 안에서 특수기호(원형 문자/알파벳)를 정확히 식별하고, OCR 텍스트의 알맞은 위치에 삽입해야 해.
      - OCR 결과만 보면 안 돼. 반드시 이미지에서 특수기호 위치를 기준으로 판단해야 해.

    2. ✅ 삽입해야 할 특수기호는 다음과 같아:
      - 한글 원형 문자: ㉠, ㉡, ㉢, ㉣, ㉤
      - 원형 알파벳: ⓐ, ⓑ, ⓒ, ⓓ, ⓔ

    3. ✅ **모든 특수기호 뒤에는 밑줄로 강조된 문장이 반드시 있고**, 그 **강조된 문장 전체를 괄호 '( )'로 반드시 감싸야 해.**
      - 특수기호와 괄호는 붙여서 작성해: 예) ⓐ(강조된 문장)
      - 괄호는 해당 문장의 시작과 끝을 정확히 감싸야 하며, 줄바꿈이나 공백이 있어도 전체를 포함해야 해.

    4. ✅ 한 특수기호에 해당하는 강조 문장이 **여러 줄에 걸쳐 있더라도** 괄호로 정확히 감싸야 해.
      - 중간 줄바꿈이나 공백이 있더라도 강조 문장 전체가 괄호 안에 들어가야 해.

    5. ❌ 특수기호가 없는 문장은 수정하지 마.
      ❌ 철자 오류, 띄어쓰기 오류 등 OCR 자체 오류도 고치지 마.

    6. ✅ 출력은 반드시 지문 전체를 포함해야 하며, 특수기호 + 강조문장 부분만 수정해야 해.
      ❌ 설명, 해설, 추가 정보 없이 **지문 전체만 출력**해야 해.


     ⚠️ 반드시 특수기호 뒤에는 밑줄로 강조된 부분이 괄호'()'로 감싸져 있어야해.
     ⚠️ 특수기호 뒤에 괄호가 없다면 다시 밑줄로 강조된 부분을 다시 찾고 괄호를 추가해줘.
    """

    try:
        response = openai.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": system_prompt.strip()},
                {
                    "role": "user",
                    "content": [
                        {"type": "text", "text": f"OCR 추출 결과:\n{ocr_output.strip()}"},
                        {"type": "image_url", "image_url": {
                            "url": base64_img,
                            "detail": "auto"
                        }}
                    ]
                }
            ],
            temperature=0.1,
            max_tokens=16000  # 가능한 최대값 사용
        )
        output = response.choices[0].message.content.strip()
        if not output or "죄송하지만" in output or "도와드릴 수 없습니다" in output:
            raise ValueError("GPT 응답 오류 또는 내용 없음")
        return output
    except Exception as e:
        return f"[❌ GPT 정교화 실패]: {str(e)}"

In [None]:
# ✅ 특수기호 위치 점검 및 보정 요청
def verify_special_symbols(original_image: Image.Image, restored_text: str) -> str:
    base64_img = image_to_base64(original_image)

    system_prompt = """
      너는 수능 국어 문학의 지문 OCR 복원 전문가야.

      다음은 OCR로 추출한 지문과 원본 이미지야. 너는 이 두 정보를 비교해서 다음과 같이 OCR 결과를 정확하게 수정해야 해.
      추출한 지문의 특수기호(㉠, ㉡, ㉢, ㉣, ㉤, ⓐ, ⓑ, ⓒ, ⓓ, ⓔ 등)가 원본 이미지의 특수기호와 다를 수 있어서 수정해줘.

      원본 이미지를 보고
      - 문장 앞 기호가 이미지와 정확히 일치하는지 확인하고,
      - 잘못된 기호는 올바른 특수기호로 수정해.
      - 이미지에는 특수기호가 없는데 텍스트에는 있는 경우는 특수기호를 삭제해줘.
      - **추출한 지문의 특수기호 뒤에 괄호'('가 없다면 이미지에서 밑줄로 강조된 부분을 찾아서 괄호로 감싸서 지문을 수정해줘.**

      ⚠️ ①, ②, ③, ④, ⑤ 이런 원형 숫자 특수기호는 지문에 있을 수 없어 반드시 다시 올바른 특수기호로 수정해줘.
      ⚠️ 동일한 특수기호가 또 나올 수 없어 다시 올바른 특수기호로 수정해줘.
      ⚠️ 반드시 특수기호 뒤에는 밑줄로 강조된 부분이 괄호'()'로 반드시 감싸져 있어야해.
      ⚠️ 추출한 지문의 특수기호 뒤에 괄호가 없다면 원본 이미지에서 특수기호 뒤에 다시 밑줄로 강조된 부분을 다시 찾고 지문 텍스트에 괄호'()'를 추가해줘.
      ⚠️ 이미지 기호 위치를 꼭 확인해 판단하고,
      ⚠️ 출력은 반드시 지문 전체를 출력해.
    """

    try:
        response = openai.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": system_prompt.strip()},
                {
                    "role": "user",
                    "content": [
                        {"type": "text", "text": f"복원된 지문 일부:\n{restored_text.strip()}"},
                        {"type": "image_url", "image_url": {
                            "url": base64_img,
                            "detail": "high"
                        }}
                    ]
                }
            ],
            temperature=0.1,
            max_tokens=16000
        )
        return response.choices[0].message.content.strip()
    except Exception as e:
        return f"[❌ GPT 기호 검토 실패]: {str(e)}"

In [None]:
# 이미지 우측 지문 범위 표시
def insert_passage_brackets_with_gpt(image: Image.Image, ocr_text: str) -> str:
    base64_img = image_to_base64(image)

    system_prompt = """
    너는 수능 국어 문학의 지문 OCR 복원 전문가야.

    다음은 OCR로 추출한 지문과 원본 이미지야.
    원본 이미지의 **좌측 혹은 우측에 [A], [B], [C] 등의 표시와 함께 특정 지문 범위를 나타내는 선들이 있는 경우가 있어.**
    이 시각적 정보는 어떤 지문 구간이 문제 풀이에서 중요한지를 알려주는 단서야.

    🔍 너의 임무는 다음과 같아:

    1. 지문 이미지의 맨 왼쪽과 맨 오른쪽을 잘 살펴보고,
      특정 지문 범위를 나타내는 선과 함께 [A], [B], [C] 등이 지문 내 **어디서부터 어디까지를 가리키는지** 판단해.
        - 각 범위는 반드시 **1줄 이상**이 되도록 하고, **문장이 끊기지 않게 자연스럽게 포함**해야 해.
        - 문장의 시작이나 끝이 잘리지 않도록, 지문 흐름에 맞게 해당 **시작 줄과 끝 줄 전체를 포함**해야 해.

    2. 만약 특정 지문 범위를 나타내는 선이 있다면, 판단된 범위를 지문 중 그대로 유지하되 아래 예시처럼 `[A]{}`로 감싸 강조해줘:
        ...
        [A] {
            (해당 범위 시작 줄)
            ...
            (해당 범위 끝 줄)
        }
        ...

    ⚠️ 유의사항:
    - 줄 단위로 판단하되, 의미 단위(문장 구조)를 최대한 유지해야 해.
    - 특정 지문 범위의 시작과 끝 위치는 이미지 오른쪽의 선과 시각적으로 정렬된 지문 줄을 찾아 판단해야 해.
    - 줄바꿈, 공백, 괄호, 특수기호 등은 OCR 텍스트 스타일을 그대로 유지해.
    """

    try:
        response = openai.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": system_prompt.strip()},
                {
                    "role": "user",
                    "content": [
                        {"type": "text", "text": f"OCR 결과:\n{ocr_text.strip()}"},
                        {"type": "image_url", "image_url": {
                            "url": base64_img,
                            "detail": "high"
                        }}
                    ]
                }
            ],
            temperature=0.1,
            max_tokens=16000
        )
        return response.choices[0].message.content.strip()
    except Exception as e:
        return f"[❌ GPT 지문 범위 삽입 실패]: {str(e)}"

In [None]:
import os
from PIL import Image

def run_split_pipeline(image_path: str, parts: int = 4):
    print("📂 이미지 로딩 중...")
    image = Image.open(image_path)

    # 1. 이미지 수직 분할
    print(f"🔀 이미지 {parts}등분 중...")
    split_images = split_image_vertically(image, parts=parts)

    # 2. 각 분할 이미지 OCR
    ocr_parts = []
    for idx, part_img in enumerate(split_images):
        print(f"🔍 [{idx + 1}/{parts}] 분할 이미지 OCR 중...")
        part_text = gpt_ocr_text(part_img)
        ocr_parts.append(part_text)

    # 3. OCR 결과 병합
    combined_ocr = "\n".join(ocr_parts).strip()

    # 4. GPT로 정교화(특수기호&괄호 삽입)
    print("🔧 GPT 정교화 단계 진행 중...")
    refined_text = refine_text_with_gpt(image, combined_ocr)

    # 5. 특수기호 위치 검토 및 보정 => 성공
    print("🧠 특수기호 위치 검토 및 보정 중...")
    symbol_corrected_text = verify_special_symbols(image, refined_text)

    # 6. 이미지 우측 지문 범위 표시
    print("🗂️ GPT 지문 범위 표시([A], [B] 등) 삽입 중...")
    final_result = insert_passage_brackets_with_gpt(image, symbol_corrected_text)

    return final_result.strip()

### **지문 추출 테스트**


In [None]:
test_dir = "/content/drive/MyDrive/Colab Notebooks/TAVE 프로젝트_STUBO/문학/data/output_images"
image_filename = "2022-03-국어_p6.png"
image_path = os.path.join(test_dir, image_filename)

run_split_pipeline(image_path)

📂 이미지 로딩 중...
🔀 이미지 4등분 중...
🔍 [1/4] 분할 이미지 OCR 중...
🔍 [2/4] 분할 이미지 OCR 중...
🔍 [3/4] 분할 이미지 OCR 중...
🔍 [4/4] 분할 이미지 OCR 중...
🔧 GPT 정교화 단계 진행 중...
🧠 특수기호 위치 검토 및 보정 중...
🗂️ GPT 지문 범위 표시([A], [B] 등) 삽입 중...

✅ 최종 복원된 지문:

```
[22~27] 다음 글을 읽고 물음에 답하시오.

(가)
㉠(이보소 저 각시님 설운 말씀 그만하오)
말씀을 드러하니 설운 줄 다 모를새
㉡(인연인을 한가지며 이별인을 같을손가)
광한전 백옥경의 님을 뫼셔 즐기더니
아양을 하였거니 재앙인을 업슬손가
해 다 저문 날의 가는 줄 설워 마소
엇더타 이 내 몸이 견줄 데 전혀 업네
광한전 어디인가 백옥경 내 알던가
원앙침 비취금에 뫼셔 본 적 전혀 업네
내 얼굴 이 거동이 무엇으로 님 사랑할가
길쌈을 모르거니 가무(歌舞)야 더 이를가
㉢(엇던지 님 향(向)한 한 조각 이 마음을)
하늘이 생기시고 성현이 가르처서
정학*이 앞에 잇고 부월*이 뒤에 이셔
일백 번 죽고 죽어 뼈가 가루가 된 후라도
님 향한 이 마음이 변할손가
나도 일을 가져 남의 업는 것만 얻어
부용화 옷을 짓고 목난으로 주머니 삼아
하늘께 맹세하여 님 섬기라 원이러니
조물 시키헛나 귀신이 훼방헛나
내 팔자 그만하니 사람을 원망할가
내 몸의 죄옴 죄를 무르니 그 더 죄라

[A] {
    내 답이 가한 뒤를 모르거니 이 뒤에
    나도 모르거니 남이 어이 알겠는가
    (중략)
    뫼셔 이러하기 각시님 갈던들
    설움이 이러하며 생각인들 이러할가
    차생의 이러커든 후생을 어이 알고
    차라리 씨어져 구름이나 되어서
    ㉣(상광 오색*이 님 계신 데 덮었으면)
    그도 마소 하면 바람이나 되어서
    ㉤(하일 청음*의 님 계신 데 불어서)
    그도 마소 하면 일륜명월 되어서
    영영 반야에 뚜렷이 비최고저
}

- 김춘택, 「별사

In [None]:
test_dir = "/content/drive/MyDrive/Colab Notebooks/TAVE 프로젝트_STUBO/문학/data/output_images"
image_filename = "2022-03-국어_p5.png" # 특수기호가 ㄱ,a 막 섞여있는 경우
image_path = os.path.join(test_dir, image_filename)

run_split_pipeline(image_path)

📂 이미지 로딩 중...
🔀 이미지 4등분 중...
🔍 [1/4] 분할 이미지 OCR 중...
🔍 [2/4] 분할 이미지 OCR 중...
🔍 [3/4] 분할 이미지 OCR 중...
🔍 [4/4] 분할 이미지 OCR 중...
🔧 GPT 정교화 단계 진행 중...
🧠 특수기호 위치 검토 및 보정 중...
🗂️ GPT 지문 범위 표시([A], [B] 등) 삽입 중...

✅ 최종 복원된 지문:

🔍 특정 지문 범위를 강조하여 복원한 결과는 다음과 같습니다:

---

일일은 할미 집에 온 다음 해 3월 보름에 할미는 술 팔러
가고, 낭자 홀로 초당에서 수를 놓고 있는데, 청조가 날아와
매화 가지에 앉아 울거늘, 낭자가 왈,
“저 새도 나처럼 부모를 여의었는가? 어찌 혼자 우는가?”
하고 눈물을 흘리다가 홀연 줄더니, 그 새가 낭자에게 왈,
“낭자의 부모님이 저기 계시니, 저와 함께 가시이다.”
하거늘, 낭자가 그 새를 따라 한 곳에 다다르니, 백옥 같은 연
못 가운데 구슬로 대를 쌓고 그 위에 누각을 지었으되, 주춧돌
과 기둥은 만호와 호박으로 만들었고 지붕은 유리로 이었는지
라. 광채가 찬란하여 바로 보지 못할러라. 산호로 만든 현판에
금으로 ‘요지’라 쓰여 있었으니, 서왕모의 집일러라.
너무 어리그러하여 낭자가 들어가지 못하고 문밖에서 주저
하더니, 문득 서쪽에서 오색구름이 일어나고 기이한 향내 진동
하더니, 무수한 선관과 선녀들이 용도 타며 봉황도 타며 쌍쌍
이 들어가고, 청운(靑雲)이 어린 곳에 옥황상제께서 육룡이 모
는 옥수레를 타고 오셨으며, 그 뒤에 서천 석가여래 오신다 하
고 제천 제불과 삼태 칠성과 관음 나한과 보살이 시위하여 오
되, 사방에서 풍류 소리 진동하니, 그 위엄 있고 엄숙한 행차
와 거동이 일대 장관이더라. 이윽고 구름이 크게 일어나며 그
속에 백옥교자 탄 선녀가 백년화 한 가지를 꺾어 주고 단정히
앉아 있는데, 좌우에 무수한 선녀가 시위하여 오더니, 이는
[A] {
㉠(월궁항아)의 행차라. 항아가 속홍을 보고, 왈,

“반갑다, 소야야

In [None]:
test_dir = "/content/drive/MyDrive/Colab Notebooks/TAVE 프로젝트_STUBO/문학/data/output_images"
image_filename = "2022-03-국어_p7.png" # 텍스트만 있는 경우
image_path = os.path.join(test_dir, image_filename)

run_split_pipeline(image_path)

📂 이미지 로딩 중...
🔀 이미지 4등분 중...
🔍 [1/4] 분할 이미지 OCR 중...
🔍 [2/4] 분할 이미지 OCR 중...
🔍 [3/4] 분할 이미지 OCR 중...
🔍 [4/4] 분할 이미지 OCR 중...
🔧 GPT 정교화 단계 진행 중...
🧠 특수기호 위치 검토 및 보정 중...
🗂️ GPT 지문 범위 표시([A], [B] 등) 삽입 중...

✅ 최종 복원된 지문:

```
[28~30] 다음 글을 읽고 물음에 답하시오.

(가)
어느 사이에 나는 아내도 없고, 또,
아내와 같이 살던 집도 없어지고,
그리고 살뜰한 부모며 동생들과도 멀리 떨어져서,
그 어느 바람 센인 쓸쓸한 거리 끝에 헤매이였다.
바로 날도 저물어서,
바람은 더욱 세게 불고, 추위는 점점 더해 오는데,
나는 어느 목수네 집 헌 삿을 깐,
한 방에 들어서 길을 붙이였다*.
이리하여 나는 이 습내 나는 춥고, 누긋한 방에서,
낮이나 밤이나 나는 나 혼자도 너무 많은 것같이 생각하며,
딜옹배기*에 복덕불*이라도 담겨 오면,
이것을 안고 손을 쬐며 재 우에 뜻 없이 글자를 쓰기도 하며,
또 문밖에 나가지도 않고 자리에 누워서,
머리에 손깍지 베개를 하고 굴기도 하면서,
나는 내 슬픔이며 어리석음이더를 소처럼 연하여 찌김질하는 것이었다.
내 가슴이 꽉 메어 올 적이며,
내 눈에 뜨거운 것이 펑 괴일 적이며,
또 내 스스로 화끈 낯이 붉도록 부끄러울 적이며,
나는 내 슬픔과 어리석음에 눌려 죽을 수밖에 없는 것을
느끼는 것이었다.
그러나 잠시 뒤에 나는 고개를 들어,
허연 문창을 바라보든가 또 눈을 떠서 높은 천정을 쳐다보
는 것인데,
이때 나는 내 뜻이며 힘으로, 나를 이끌어 가는 것이 힘든
일인 것을 생각하고,
이것들보다 더 크고, 높은 것이 있어서, 나를 마음대로 굴려
가는 것을 생각하는 것인데,
이렇게 하여 여러 날이 지나는 동안에,
내 어지러운 마음에는 슬픔이며, 한탄이며, 가라앉을 것은
차츰 앙금이 되어 가라앉고,
외로운 생각만이 드는 때쯤 해서는,
더러 나즈춘*에 쌀랑

### **<문제 텍스트 추출>**

In [None]:
def extract_question(question_path):
    import mimetypes

    # 파일 확장자에 맞게 MIME 타입 추정
    mime_type, _ = mimetypes.guess_type(question_path)
    if not mime_type:
        mime_type = "image/png"  # 기본값 fallback

    with open(question_path, "rb") as f:
        base64_img = base64.b64encode(f.read()).decode("utf-8")

    image_url = f"data:{mime_type};base64,{base64_img}"

    system_prompt = """
    너는 수능 국어 문학 문제 이미지를 텍스트로 정확하게 복원하는 OCR 모델이야.

    아래 이미지는 문학 문제 하나의 '질문 문장 + ①~⑤ 선택지'가 포함된 이미지야.
    만약 <보기> 문장이 존재한다면 질문 앞에 위치하며, 반드시 포함해서 출력해.

    형식은 아래와 같이 출력해:

    (질문과 <보기> 내용. <보기>가 없다면 생략)
    ① ...
    ② ...
    ③ ...
    ④ ...
    ⑤ ...

    ❗ 절대 설명이나 부가 텍스트를 추가하지 말고 형식 그대로 출력해.
    """

    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt.strip()},
            {
                "role": "user",
                "content": [
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": image_url
                        }
                    }
                ]
            }
        ],
        max_tokens=1500,
        temperature=0.1
    )

    return response.choices[0].message.content.strip()

In [None]:
# 🔸 지문 이미지 경로
question_path = os.path.join(test_dir, "2022-03-국어_25.png")

# 🔸 결과 출력
extracted_text = extract_question(question_path)
print("=== 추출된 문제 텍스트 ===")
print(extracted_text)

=== 추출된 문제 텍스트 ===
<보기>를 바탕으로 (가), (나)를 감상한 내용으로 적절하지 않은 것은?

<보기>
문학에서는 상상력을 발휘하여 현실의 한계를 벗어나 다른 존재로 거듭 나기를 바라는 심정을 형상화하기도 한다. 고전 시가에서 변신에 대한 소망은 주로 (가)와 같이 죽어서 다른 존재로 다시 태어나는 ‘전생’이나, (나)와 같이 죽지 않고 다른 존재로 몸을 바꾸는 ‘전신’ 등으로 구현된다. 그리고 변신의 양상에는 혼자서 변신하기를 바라는가 아니면 상대방과 함께 변신하기를 바라는가, 다른 인간으로 변신하기를 바라는가 아니면 인간이 아닌 다른 존재로 변신하기를 바라는가 등이 있다.

① (가)의 ‘구름’은 현실의 한계를 벗어나기 위해 화자가 죽어서 다시 태어나기를 바라는 존재로 볼 수 있겠군.
② (나)의 ‘삼사월 참엽곰’은 화자가 상상력을 발휘해 몸을 바꾸기를 바라는 존재로 볼 수 있겠군.
③ (나)의 ‘그 나무에 그 층이 남기며 나비 감듯’은 임이 자신과 함께 변신하여 서로의 관계가 굳건하게 이어지기를 바라는 화자의 소망을 드러낸 것으로 볼 수 있겠군.
④ (가)의 ‘해 다 저문 날’과 (나)의 ‘동서달’은 모두 화자가 임과 헤어지는 시간으로, 화자가 변신을 바라는 계기로 작용한다고 볼 수 있겠군.
⑤ (가)의 ‘바람’은 화자 자신의 변신을, (나)의 ‘오리나무’는 임의 변신을 바라는 화자의 심정을 형상화한 것으로 볼 수 있겠군.


# **7. 22~25년 모의고사 & 수능으로 성능 평가**

## **- 성능평가 코드**

In [None]:
import os
import re

# 공통 회차 / 페이지 목록
SESSIONS = ["03", "06", "09", "수능"]
PAGES = ["p5", "p6", "p7", "p8"]

# 지문 페이지 → 문항 범위 매핑
passage_problem_mapping = {
    "2022-03-국어": {"p5": (18, 21), "p6": (22, 27), "p7": (28, 30), "p8": (31, 34)},
    "2022-06-국어": {"p5": (18, 21), "p6": (22, 27), "p7": (28, 31), "p8": (32, 34)},
    "2022-09-국어": {"p5": (18, 21), "p6": (22, 27), "p7": (28, 31), "p8": (32, 34)},
    "2022-수능-국어": {"p5": (18, 21), "p6": (22, 26), "p7": (27, 30), "p8": (31, 34)},
    "2023-03-국어": {"p5": (18, 21), "p6": (22, 27), "p7": (28, 30), "p8": (31, 34)},
    "2023-06-국어": {"p5": (18, 21), "p6": (22, 26), "p7": (27, 30), "p8": (31, 34)},
    "2023-09-국어": {"p5": (18, 21), "p6": (22, 27), "p7": (28, 31), "p8": (32, 34)},
    "2023-수능-국어": {"p5": (18, 21), "p6": (22, 27), "p7": (28, 31), "p8": (32, 34)},
    "2024-03-국어": {"p5": (18, 23), "p6": (24, 26), "p7": (27, 30), "p8": (31, 34)},
    "2024-06-국어": {"p5": (18, 21), "p6": (22, 26), "p7": (27, 30), "p8": (31, 34)},
    "2024-09-국어": {"p5": (18, 21), "p6": (22, 27), "p7": (28, 31), "p8": (32, 34)},
    "2024-수능-국어": {"p5": (18, 21), "p6": (22, 27), "p7": (28, 31), "p8": (32, 34)},
    "2025-03-국어": {"p5": (18, 21), "p6": (22, 26), "p7": (27, 30), "p8": (31, 34)},
    "2025-06-국어": {"p5": (18, 21), "p6": (22, 26), "p7": (27, 30), "p8": (31, 34)},
}

In [None]:
import os
import re
import json

# SESSIONS, PAGES, passage_problem_mapping 등은 기존과 동일

# 정답 키 JSON 파일 경로
ANSWER_KEY_PATH = "/content/drive/MyDrive/Colab Notebooks/TAVE 프로젝트_STUBO/문학/data/answer_key.json"

# 정답 키 로드 함수
def load_answer_key(path):
    if not os.path.exists(path):
        print(f"❌ 정답 키 파일 없음: {path}")
        return {}
    with open(path, "r", encoding="utf-8") as f:
        return json.load(f)

ANSWER_KEY = load_answer_key(ANSWER_KEY_PATH)


# =============================
# 🔹 OCR & 평가 실행 함수 (수정됨) 🔹
# =============================

def extract_and_evaluate_passage_and_questions(base_path, exam_name, page, tutor_mode=False):
    if exam_name not in passage_problem_mapping or page not in passage_problem_mapping[exam_name]:
        print(f"❌ 매핑 정보 없음: {exam_name} {page}")
        return 0, 0

    start, end = passage_problem_mapping[exam_name][page]
    passage_filename = f"{exam_name}_{page}.png"
    passage_path = os.path.join(base_path, passage_filename)

    if not os.path.exists(passage_path):
        print(f"\n⚠️ 지문 이미지 없음: {passage_filename}")
        return 0, 0

    print(f"\n📘 지문: {exam_name}_{start}~{end}")
    print("=" * 40)

    # 지문 텍스트 추출
    passage_text = run_split_pipeline(passage_path)

    correct = 0
    total = 0

    for num in range(start, end + 1):
        question_filename = f"{exam_name}_{num}.png"
        question_path = os.path.join(base_path, question_filename)

        if not os.path.exists(question_path):
            print(f"\n⚠️ 문제 이미지 없음: {question_filename}")
            continue

        print(f"\n--- ❓ 문제 {num} ---")

        # 문제 텍스트 추출
        question_text = extract_question(question_path)
        print(question_text)

        if tutor_mode:
            # 답변 생성 및 정답 추출
            result = tutor_response(question=question_text, passage=passage_text)

            # 정답 비교 (tutor_response에서 정답을 "answer" 키로 반환한다고 가정)
            if isinstance(result, dict) and "answer" in result:
                predicted = result["answer"]
                key = f"{exam_name}_{num}"
                gt_answer = ANSWER_KEY.get(key)

                print(f"📌 예측: {predicted} / 정답: {gt_answer}")

                if gt_answer is not None:
                    if predicted == gt_answer:
                        correct += 1
                    total += 1

        print("\n")

    return correct, total


# =============================
# 🔹 실행 함수 (수정됨) 🔹
# =============================

def run_passage_and_questions(base_path, image_filename):
    match = re.match(r"(.*?)_(p\d+)\.png", image_filename)
    if not match:
        print(f"❌ 잘못된 파일명 형식: {image_filename}")
        return

    exam_name, page = match.groups()
    extract_and_evaluate_passage_and_questions(base_path, exam_name, page)


def run_passage_and_questions_by_year(base_path, year):
    for 회차 in SESSIONS:
        exam_name = f"{year}-{회차}-국어"
        for page in PAGES:
            extract_and_evaluate_passage_and_questions(base_path, exam_name, page)


def run_tutor_inference_by_year(base_path, year):
    total_correct = 0
    total_questions = 0

    for 회차 in SESSIONS:
        exam_name = f"{year}-{회차}-국어"
        for page in PAGES:
            correct, total = extract_and_evaluate_passage_and_questions(
                base_path, exam_name, page, tutor_mode=True
            )
            total_correct += correct
            total_questions += total

    if total_questions > 0:
        accuracy = total_correct / total_questions
        print(f"\n🎯 [{year}년 전체 평가 결과] 정답률: {total_correct}/{total_questions} ({accuracy:.2%})")
    else:
        print(f"\n⚠️ 평가할 문항이 없습니다: {year}년")

## **<2022년>**

In [None]:
# 실제 이미지가 저장된 경로
base_path = "/content/drive/MyDrive/Colab Notebooks/TAVE 프로젝트_STUBO/문학/data/output_images"
run_tutor_inference_by_year(base_path, "2022")


📘 지문: 2022-03-국어_18~21
📂 이미지 로딩 중...
🔀 이미지 4등분 중...
🔍 [1/4] 분할 이미지 OCR 중...
🔍 [2/4] 분할 이미지 OCR 중...
🔍 [3/4] 분할 이미지 OCR 중...
🔍 [4/4] 분할 이미지 OCR 중...
🔧 GPT 정교화 단계 진행 중...
🧠 특수기호 위치 검토 및 보정 중...
🗂️ GPT 지문 범위 표시([A], [B] 등) 삽입 중...

✅ 최종 복원된 지문:

```markdown
일일은 할미 집에 온 다음 해 3월 보름에 할미는 술 팔러
가고, 낭자 홀로 초당에서 수를 놓고 있는데, 청조가 날아와
매화 가지에 앉아 울거늘, 낭자가 왈,
"저 새도 나처럼 부모를 여의었는가? 어찌 혼자 우는가?"
하고 눈물을 흘리다가 홀연 졸더니, 그 새가 낭자에게 왈,
"낭자의 부모님이 저기 계시니, 저와 함께 가시이다."
하거늘, 낭자가 그 새를 따라 한 곳에 다다르니, 백옥 같은 연
못 가운데 구슬로 대를 쌓고 그 위에 누각을 지었으되, 주춧돌
과 기둥은 만호와 호박으로 만들었고 지붕은 유리로 이었는지
라. 광채가 찬란하여 바로 보지 못할러라. 산호로 만든 현판에
금으로 '요지'라 쓰여 있었으니, 서왕모의 집일러라.
너무 어리그러하여 낭자가 들어가지 못하고 문밖에서 주저
하더니, 문득 서쪽에서 오색구름이 일어나고 기이한 향내 진동
하더니, 무수한 선관과 선녀들이 용도 타며 봉황도 타며 쌍쌍
이 들어가고, 청운(靑雲)이 어린 곳에 옥황상제께서 육룡이 모
는 옥수레를 타고 오셨으며, 그 뒤에 서천 석가여래 오신다 하
고 제천 제불과 삼태 칠성과 관음 나한과 보살이 시위하여 오
되, 사방에서 풍류 소리 진동하니, 그 위엄 있고 엄숙한 행차
와 거동이 일대 장관이더라. 이윽고 구름이 크게 일어나며 그
속에 백옥교자 탄 선녀가 백년화 한 가지를 꺾어 주고 단정히
앉아 있는데, 좌우에 무수한 선녀가 시위하여 오더니, 이는
㉠(월궁항아)의 행차라. 항아가 속홍을 보고, 왈,
[A] {
“반갑다, 소야야! 인간 세

RateLimitError: Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}}

## **<2023년>**

In [None]:
# 실제 이미지가 저장된 경로
base_path = "/content/drive/MyDrive/Colab Notebooks/TAVE 프로젝트_STUBO/문학/data/output_images"
run_tutor_inference_by_year(base_path, "2023")

## **<2024년>**

In [None]:
# 실제 이미지가 저장된 경로
base_path = "/content/drive/MyDrive/Colab Notebooks/TAVE 프로젝트_STUBO/문학/data/output_images"
run_tutor_inference_by_year(base_path, "2024")

## **<2025년>**

In [None]:
# 실제 이미지가 저장된 경로
base_path = "/content/drive/MyDrive/Colab Notebooks/TAVE 프로젝트_STUBO/문학/data/output_images"
run_tutor_inference_by_year(base_path, "2025")