In [None]:
!pip install easyocr transformers torch
!pip install requests opencv-python
!pip install opencv-python-headless

In [None]:
!pip install --upgrade git+https://github.com/huggingface/transformers
!pip install accelerate
!pip install timm==1.0.13
!pip install --upgrade accelerate transformers

In [None]:
!pip install langgraph
!pip install matplotlib

In [None]:
import os
import random
import json
import re
import numpy as np
import unicodedata
import requests
import numpy as np
from glob import glob
from tqdm import tqdm
from PIL import Image
from io import BytesIO
import matplotlib.pyplot as plt

In [None]:
import faiss
import pickle
import editdistance
import openai

In [None]:
from langgraph.graph import StateGraph, END
from langchain_core.runnables import RunnableLambda
from transformers import AutoTokenizer, AutoModelForCausalLM
from typing import TypedDict, Any, Dict, List
from transformers import TrOCRProcessor, VisionEncoderDecoderModel, AutoTokenizer
from sentence_transformers import SentenceTransformer

In [None]:
from paddleocr import PaddleOCR
import easyocr
import cv2

### LangGraph 구성
OCR output → LLM → 요약문 → VectorDB search → 요약문 관련 문제 → LLM → 힌트 생성

In [None]:
# curriculum_units.json 파일을 읽어서 변수로 불러오기
with open("curriculum_units.json", "r", encoding="utf-8") as f:
    curriculum_units = json.load(f)

curriculum_titles = "\n".join(item["title"] for item in curriculum_units)

In [None]:
## 설명이 추가된 소단원 내용
# curriculum_units = loaded_subtopics
# curriculum_units

In [None]:
# llM 모델 준비
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct"

llm_model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

In [None]:
# small_model_name = "LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct"

# small_llm_model = AutoModelForCausalLM.from_pretrained(
#     small_model_name,
#     torch_dtype=torch.bfloat16,
#     trust_remote_code=True,
#     device_map="auto"
# )
# small_tokenizer = AutoTokenizer.from_pretrained(model_name)

In [None]:
class AgentState(TypedDict):
    # trocr_result: str
    easyocr_result: str
    paddleocr_result: str
    merged_text: str # OCR result들을 reconstruction한 결과
    summary: str # LLM 요약문
    is_math_related: bool # 수학 관련 여부
    warning: str
    valid_topic: str # 최종 선택 단원

In [None]:
def str_to_bool(value):
    return str(value).strip().lower() == "yes"

In [None]:
def run_ocr_merge(easy, paddle) -> str:
    prompt = f"""다음은 동일한 교안 이미지에 대해 두 가지 OCR 엔진(EasyOCR, PaddleOCR)이 추출한 텍스트 결과입니다.  
두 결과를 비교하여 잘못된 문장을 보완하고, 가능한 한 정확하고 자연스러운 하나의 최종 결과로 합쳐주세요.  
문맥상 맞지 않거나 인식이 잘못된 단어는 유추하여 수정해 주세요.  
최종 결과 텍스트를 먼저 출력하고, 마지막에 최종 결과가 수학 교육과 관련된 내용인지 여부를 아래와 같은 JSON 형식으로 출력해 주세요.

```json
{{"is_math_related": "yes"}}  # 또는 {{"is_math_related": "no"}}

### EasyOCR 결과:
{easy}

### PaddleOCR 결과:
{paddle}
"""

    messages = [
        {"role": "system", 
         "content":"당신은 두 개의 OCR 결과(EasyOCR와 PaddleOCR)를 비교하여, "
                   "최대한 정확하고 자연스러운 하나의 통합된 텍스트를 생성하는 전문 AI입니다."},
        {"role": "user", "content": prompt}
    ]

    input_ids = tokenizer.apply_chat_template(
        messages,
        tokenize=True,
        add_generation_prompt=True,
        return_tensors="pt"
    )

    output_ids = llm_model.generate(
        input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=1024,
        do_sample=False,
    )

    output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
    result = output_text.split("[|assistant|]")[-1].strip()

    # ✅ is_math_related 값 추출
    match = re.search(r'```json\s*(\{.*?\})\s*```', result, re.DOTALL)
    if match:
        try:
            is_math_related_str = json.loads(match.group(1))["is_math_related"]
            is_math_related = is_math_related_str.lower() == "yes"
        except Exception as e:
            raise ValueError(f"JSON 파싱 오류: {e}")
    else:
        raise ValueError("⚠️ JSON 블록을 결과에서 찾을 수 없습니다.")

    # ✅ JSON 블록 제거한 최종 merged_text
    merged_text = re.sub(r'```json\s*\{.*?\}\s*```', '', result, flags=re.DOTALL).strip()

    # JSON 헤더 단독 제거
    merged_text = re.sub(r'### JSON 결과:?\s*', '', merged_text).strip()

    # ✅ 출력 로그 (필요 시 제거 가능)
    print("\n✅ 통합 텍스트:\n", merged_text)
    print("\n✅ 수학 관련 여부:", is_math_related_str)

    # ✅ 반환
    if not is_math_related:
        return {
            "merged_text": merged_text,
            "is_math_related": False,
            "warning": "⚠️ 수학 관련 내용이 아닙니다. 그래프를 종료합니다."
        }
    else:
        return {
            "merged_text": merged_text,
            "is_math_related": True
        }

In [None]:
def run_exaone_summary(text: str) -> str:
    prompt = f"""당신은 초등학교 수학 교육 자료를 분석하고 분류하는 유능한 AI입니다.  
아래 지침에 따라 교안 내용을 **간결하게 요약**하고, **가장 관련성 높은 단원**을 순차적으로 판단해 주세요.

---

## 🔍 분석 단계 1: 교안 요약
- 아래 교안을 기반으로 다음 정보를 추출하세요:
  - 핵심 개념: 수학적 원리, 개념, 또는 활동
  - 학습 목표: 학생이 이 수업을 통해 도달해야 할 목표

## 🔎 분석 단계 2: 1차 후보 단원 선정 (단원명 기반)
- 아래 제공된 초등 수학 단원 목록을 참고하여, **교안의 주제와 단원명 간 유사도**를 판단해  
  관련성이 높은 단원 5개를 **정확한 단원명**으로 추려냅니다.

## 🧠 분석 단계 3: 최종 관련 단원 선정 (내용 기반)
- 위에서 추린 5개 단원의 핵심 개념과 학습 목표를 확인하고, **요약된 교안 내용과 가장 밀접한 단원 1개를 최종 선택**합니다.
- 단순한 활동 중심보다는 개념을 설명한 단원이 더 적절합니다.
- 단원의 명칭은 반드시 **초등 수학 단원 목록에서 일치하는 이름만 사용**하세요.

---

✅ 주의사항:
- 단원명 외에는 부가 설명, 해설, 괄호 등을 포함하지 마세요.
- 출력 형식을 반드시 지켜 주세요.

---

### Input (교안 원문):
{text}

---

### 초등 수학 단원 목록:
{curriculum_units}

---

### Output 형식:

1. 요약 내용:
- 핵심 개념: ...
- 학습 목표: ...

2. 1차 후보 단원 (단원명 기반 유사도 상위 5개, JSON 형식):
```json
{{
  "topic_1st": "여기에 단원명",
  "topic_2st": "여기에 단원명",
  "topic_3st": "여기에 단원명",
  "topic_4st": "여기에 단원명",
  "topic_5st": "여기에 단원명"
}}

3. 최종 선택 단원 (내용 기반 유사도 최상위 1개, JSON 형식):
```
json
{{
  "most_relevant_topic": "여기에 단원명"
}}
"""
    messages = [
        {"role": "system", 
         "content": "당신은 초등학교 교육자료를 잘 요약해 주는 유능한 AI입니다."},
        {"role": "user", "content": prompt}
    ]

    input_ids = tokenizer.apply_chat_template(
            messages,
            tokenize=True,
            add_generation_prompt=True,
            return_tensors="pt"
            )

    print("\n🧮 입력 토큰 수:", len(input_ids[0]))
    
    output_ids = llm_model.generate(
        input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=512,
        do_sample=False,
        )

    # ✅ 여기서 문자열로 디코딩
    output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)

    # ✅ 문자열에 대해 split 적용
    if "[|assistant|]" in output_text:
        result = output_text.split("[|assistant|]")[-1].strip()
        print('\n\n✅ ', result)
        return result

    # print('\n\n', output_text.strip())
    return output_text.strip()

In [None]:
# from sentence_transformers import CrossEncoder

# # CrossEncoder 모델 로딩 (한번만 하면 됨)
# cross_encoder = CrossEncoder("sentence-transformers/all-MiniLM-L12-v2")

In [None]:
def parse_summary_for_rerank(summary_text):
    print("✅ 함수 시작")

    core_concept_match = re.search(
        r"^\s*-\s*\**핵심 개념\**:\s*(.+?)\s*^\s*-\s*\**학습 목표\**:\s*(.+?)(?=\n\s*(?:\d+\.|\Z))",
        summary_text,
        re.DOTALL | re.MULTILINE,
    )

    if core_concept_match:
        core_concept = core_concept_match.group(1).strip()
        objective = core_concept_match.group(2).strip()
        print("🔍 핵심개념:", core_concept)
        print("🔍 학습목표:", objective)
    else:
        print("❌ 핵심개념/학습목표 추출 실패")
        return []

    llm_text = f"핵심 개념은 '{core_concept}'이며 학습 목표는 '{objective}'이다."

    # 2) 관련 단원 JSON 추출 (설명 있는 항목 제거)
    candidate_titles = []
    for i in range(1, 6):
        pattern = rf'"topic_{i}st"\s*:\s*"([^"]+)"'
        match = re.search(pattern, summary_text)
        if match:
            title = match.group(1)
            candidate_titles.append(title)

    if not candidate_titles:
        print("❌ 관련 단원 추출 실패")
        return []

    print("🎯 후보 단원:", candidate_titles)

    # 3) curriculum_units에서 title 기반으로 문장쌍 만들기
    title2item = {item["title"]: item for item in curriculum_units}
    sentence_pairs = []
    valid_candidates = []

    print("llm_text: ", llm_text)
    for title in candidate_titles:
        item = title2item.get(title)
        if item:
            # candidate_text = f"{item['title']} {item['core_concept']} {item['objective']}"
            candidate_text = f"{item['title']} 단원의 핵심 개념은 '{item['core_concept']}' 이며, 학습 목표는 '{item['objective']}' 이다."
            print("candidate_text: ", candidate_text)
            sentence_pairs.append((llm_text, candidate_text))
            valid_candidates.append(title)
        else:
            print(f"🚫 curriculum_units에 없는 단원 패스: {title}")

    if not sentence_pairs:
        print("❌ 유효한 소단원 없음")
        return []

    # 4) CrossEncoder 예측 및 정렬
    scores = cross_encoder.predict(sentence_pairs)
    scored = sorted(zip(valid_candidates, scores), key=lambda x: x[1], reverse=True)

    print("✅ 최종 선정된 소단원:", scored)

    return scored  # List of (title, score)

In [None]:
def extract_all_valid_topics(summary_text: str) -> list[str]:
    # curriculum_units에 존재하는 title 집합
    subtopic_titles = {item["title"] for item in curriculum_units}
    
    valid_topics = []

    # 최대 5개의 후보 주제 추출
    for i in range(1, 6):
        pattern = rf'"topic_{i}st"\s*:\s*"([^"]+)"'
        match = re.search(pattern, summary_text)
        if match:
            title = match.group(1)
            if title in subtopic_titles:
                print(f"✅ 유효한 주제 발견: {title}")
                valid_topics.append(title)
    
    return valid_topics

In [None]:
def run_exaone_select(summary_text: str) -> str:
    # 1. 요약문에서 핵심 개념과 학습 목표 추출 (각각 따로)
    core_concept_match = re.search(
        r"-\s*\*?\*?핵심 개념\*?\*?\s*:\s*(.+?)(?=\n\s*-\s*\*?\*?학습 목표\*?\*?\s*:)",
        summary_text,
        re.DOTALL,
    )

    objective_match = re.search(
        r"-\s*\*?\*?학습 목표\*?\*?\s*:\s*(.+?)(?=\n\s*\d+\.|\n\s*```|\Z)",
        summary_text,
        re.DOTALL,
    )

    if not core_concept_match or not objective_match:
        print("❌ 핵심 개념/학습 목표 추출 실패")
        return ""

    core_concept = core_concept_match.group(1).strip()
    objective = objective_match.group(1).strip()

    # 2. topic_1st ~ topic_5st 에서 후보 단원 제목 추출
    candidate_titles = []
    for i in range(1, 6):
        pattern = rf'"topic_{i}st"\s*:\s*"([^"]+)"'
        match = re.search(pattern, summary_text)
        if match:
            candidate_titles.append(match.group(1))

    if not candidate_titles:
        print("❌ 후보 단원 추출 실패")
        return ""

    # 3. 후보 중 curriculum_units에 존재하는 유효한 단원 필터링
    title2item = {item["title"]: item for item in curriculum_units}
    valid_candidates = []
    candidate_descriptions = []

    for title in candidate_titles:
        item = title2item.get(title)
        if item:
            description = (
                f"{item['title']}\n"
                f"핵심 개념: {item['core_concept']}\n"
                f"학습 목표: {item['objective']}\n"
            )
            valid_candidates.append(item["title"])
            candidate_descriptions.append(description)
        else:
            print(f"🚫 curriculum_units에 없는 단원 패스: {title}")

    if not valid_candidates:
        print("❌ 유효한 단원이 없습니다")
        return ""

    # 4. 프롬프트 생성
    curriculum_titles_text = "\n".join(f"- {desc}" for desc in candidate_descriptions)

    prompt = f"""다음은 초등 수학 수업 요약입니다. 설명과 **가장 관련 있는 개념 중심 단원 하나만** 정확하게 골라주세요.

- 반드시 아래 목록에서 **하나만 선택**해야 하며, **정확한 단원명만** 작성해 주세요. (부연 설명, 괄호, 줄바꿈 없이 단순히 단원명만!)
- **개념이나 정의를 중심으로 한 단원**을 우선적으로 고려해 주세요. 단순한 활동 중심보다는 개념을 설명한 단원이 더 적절합니다.
- 아래와 같은 JSON 형식으로만 출력해 주세요.

- **핵심 개념**: {core_concept}
- **학습 목표**: {objective}

다음은 소단원 목록입니다:
{curriculum_titles_text}

응답 예시:
```json
{{
  "valid_topic": "여기에 정확한 단원명을 작성해 주세요"
}}
```"""

    messages = [
        {"role": "system", 
         "content": "당신은 초등학교 수학 교육 내용을 분석해 가장 관련 있는 단원을 추천하는 전문가 AI입니다."},
        {"role": "user", "content": prompt}
    ]

    input_ids = tokenizer.apply_chat_template(
        messages,
        tokenize=True,
        add_generation_prompt=True,
        return_tensors="pt"
    )

    print("\n🧮 입력 토큰 수:", len(input_ids[0]))

    output_ids = llm_model.generate(
        input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=256,
        do_sample=False,
    )

    output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
    # print("📝 LLM 출력:\n", output_text)
     
    matches = re.findall(r'"valid_topic"\s*:\s*"([^"]+)"', output_text)
    
    if matches:
        selected_title = matches[-1].strip()
        # print("valid_candidates: ", valid_candidates)
    
        if selected_title in [v.strip() for v in valid_candidates]:
            print("✅ 최종 추천 단원:", selected_title)
            return selected_title
        else:
            print(f"⚠️ 추천된 단원이 후보군에 없음: {selected_title}")
    else:
        print("❌ 출력에서 valid_topic 추출 실패")
    return ""

In [None]:
def ocr_merge_node(state: dict) -> dict:
    easy = state["easyocr_result"]
    paddle = state["paddleocr_result"]
    result = run_ocr_merge(easy, paddle)

    output = {
        "merged_text": result["merged_text"],
        "is_math_related": result["is_math_related"]
    }

    # warning이 있는 경우에만 포함
    if "warning" in result:
        output["warning"] = result["warning"]
        
    return output

def summarize_node(state: dict) -> dict:
    input_text = state["merged_text"]
    summary = run_exaone_summary(input_text)
    # parse_summary_for_rerank(summary)
    # valid_tipics = extract_all_valid_topics(summary)
    return {"summary": summary}

def select_topic_node(state: dict) -> dict:
    summary = state["summary"]
    valid_topic = run_exaone_select(summary)
    return {"valid_topic": valid_topic}

def end_with_warning_node(state: dict) -> dict:
    print(state.get("warning", "⚠️ 비정상 종료"))
    return {}  # 결과 반환 없이 종료

In [None]:
builder = StateGraph(AgentState)
builder.add_node("ocr_merge", RunnableLambda(ocr_merge_node)) # OCR 결과(EasyOCR와 PaddleOCR)를 통합
builder.add_node("summarize", RunnableLambda(summarize_node))
builder.add_node("select_topic", RunnableLambda(select_topic_node))
builder.add_node("end_with_warning", RunnableLambda(end_with_warning_node))

builder.set_entry_point("ocr_merge")

# 수학 관련 여부에 따라 흐름 결정
builder.add_conditional_edges(
    "ocr_merge",
    lambda state: "end_with_warning" if not state.get("is_math_related", False) else "summarize"
)

builder.add_edge("summarize", "select_topic")
builder.add_edge("select_topic", END)
builder.add_edge("end_with_warning", END)

graph = builder.compile()

### OCR

In [None]:
# 3) EasyOCR reader 생성 (한글+영어)
reader = easyocr.Reader(['ko', 'en'], gpu=True)

In [None]:
def EasyOCR_from_file(file_path=None, url=None, show_image=True):
    if file_path:
        img = cv2.imread(file_path)
    elif url:
        response  = requests.get(url)
        img = np.asarray(bytearray(response.content), dtype="uint8")
        img = cv2.imdecode(img, cv2.IMREAD_COLOR)
    else:
        raise ValueError("Either file_path or url must be provided.")

    # BGR(OpenCV) -> RGB(PIL) 변환
    img = cv2.resize(img, None, fx=2, fy=2, interpolation=cv2.INTER_CUBIC)
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    blur = cv2.GaussianBlur(gray, (3, 3), 0)
    _, binary = cv2.threshold(blur, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)

    # 4) 이미지에 OCR 수행
    results = reader.readtext(binary)
    
    # 5) 결과 출력
    # for bbox, text, prob in results:
    #     print(f'Text: {text}, Confidence: {prob:.2f}')

    # 이미지 출력
    if show_image:
        plt.figure(figsize=(8, 6))
        plt.imshow(binary, cmap='gray')
        plt.axis('off')
        plt.show()
    
    # merged_text = " ".join([text for _, text, _ in results])
    return results, binary

In [None]:
# PaddleOCR을 thread 방식이 아닌 직접 호출 방식으로 사용 시 instance 생성 필요
ocr = PaddleOCR(text_recognition_model_name="korean_PP-OCRv5_mobile_rec",
                use_doc_orientation_classify=False,
                use_doc_unwarping=False,
                use_textline_orientation=True,  # 텍스트 방향 보정
                text_det_box_thresh=0.4,        # 박스 임계값
                text_rec_score_thresh=0.6,      # 인식 신뢰도 임계값
                text_det_unclip_ratio=1.5,      # 텍스트 박스 확장 비율
                text_det_thresh=0.3,             # 텍스트 감지 임계값
               )

In [None]:
def PaddleOCR_from_file(file_path=None, url=None, show_image=True):
    if file_path:
        img = cv2.imread(file_path)
    elif url:
        response = requests.get(url)
        img = np.asarray(bytearray(response.content), dtype="uint8")
        img = cv2.imdecode(img, cv2.IMREAD_COLOR)
    else:
        raise ValueError("Either file_path or url must be provided.")

    # 이미지 전처리
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    denoised = cv2.fastNlMeansDenoising(gray)
    clahe = cv2.createCLAHE(clipLimit=2.0, tileGridSize=(8, 8))
    enhanced = clahe.apply(denoised)
    _, binary = cv2.threshold(enhanced, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
    padding = 30
    padded_binary = cv2.copyMakeBorder(binary, padding, padding, padding, padding, cv2.BORDER_CONSTANT, value=255)
    color_binary = cv2.cvtColor(padded_binary, cv2.COLOR_GRAY2BGR)

    # OCR 수행
    result = ocr.predict(color_binary)
    ocr_result = result[0]

    texts = ocr_result["rec_texts"]        # 텍스트 인식 결과
    scores = ocr_result["rec_scores"]      # 인식 신뢰도
    polys  = ocr_result["rec_polys"]       # 텍스트 위치 (polygon)

    # 이미지 출력
    if show_image:
        plt.figure(figsize=(8, 6))
        plt.imshow(color_binary)
        plt.axis('off')
        plt.show()

    return ' '.join(texts)

In [None]:
# PaddleOCR을 thread 방식으로 사용
paddleocr_result = None

def PaddleOCR_from_file_thread(file_path=None, url=None, show_image=True):
    if file_path:
        img = cv2.imread(file_path)
    elif url:
        response = requests.get(url)
        img = np.asarray(bytearray(response.content), dtype="uint8")
        img = cv2.imdecode(img, cv2.IMREAD_COLOR)
    else:
        raise ValueError("Either file_path or url must be provided.")

    ocr = PaddleOCR(text_recognition_model_name="korean_PP-OCRv5_mobile_rec",
                    use_doc_orientation_classify=False,
                    use_doc_unwarping=False,
                    use_textline_orientation=True,  # 텍스트 방향 보정
                    text_det_box_thresh=0.4,        # 박스 임계값
                    text_rec_score_thresh=0.6,      # 인식 신뢰도 임계값
                    text_det_unclip_ratio=1.5,      # 텍스트 박스 확장 비율
                    text_det_thresh=0.3,             # 텍스트 감지 임계값
                   )#use_angle_cls

    height, width = img.shape[:2]
    print(f"Width: {width}, Height: {height}")

    # 이미지 전처리
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    denoised = cv2.fastNlMeansDenoising(gray)
    clahe = cv2.createCLAHE(clipLimit=2.0, tileGridSize=(8, 8))
    enhanced = clahe.apply(denoised)
    _, binary = cv2.threshold(enhanced, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
    padding = 30
    padded_binary = cv2.copyMakeBorder(binary, padding, padding, padding, padding, cv2.BORDER_CONSTANT, value=255)
    color_binary = cv2.cvtColor(padded_binary, cv2.COLOR_GRAY2BGR)

    # OCR 수행
    result = ocr.predict(color_binary)
    ocr_result = result[0]

    texts = ocr_result["rec_texts"]        # 텍스트 인식 결과
    scores = ocr_result["rec_scores"]      # 인식 신뢰도
    polys  = ocr_result["rec_polys"]       # 텍스트 위치 (polygon)

    # 이미지 출력
    if show_image:
        plt.figure(figsize=(8, 6))
        plt.imshow(color_binary)
        plt.axis('off')
        plt.show()

    global paddleocr_result
    paddleocr_result = ' '.join(texts)

In [None]:
# # 사전 준비: TrOCR 로딩
# trocr_processor = TrOCRProcessor.from_pretrained("ddobokki/ko-trocr") 
# trocr_model = VisionEncoderDecoderModel.from_pretrained("ddobokki/ko-trocr")
# trocr_tokenizer = AutoTokenizer.from_pretrained("ddobokki/ko-trocr")

# device = "cuda" if torch.cuda.is_available() else "cpu"
# trocr_model = trocr_model.to(device)

In [None]:
# def TROCR_from_file(detection_result, image):
#     img_pil = Image.fromarray(cv2.cvtColor(image, cv2.COLOR_GRAY2RGB))
#     ocr_texts = []
#     for (bbox, _, _) in detection_result:
#         # bbox는 4개의 점 좌표로 주어짐 -> xmin, ymin, xmax, ymax로 변환
#         pts = np.array(bbox).astype(int)
#         xmin = np.min(pts[:, 0])
#         ymin = np.min(pts[:, 1])
#         xmax = np.max(pts[:, 0])
#         ymax = np.max(pts[:, 1])
    
#         # 박스 영역 잘라내기
#         cropped = img_pil.crop((xmin, ymin, xmax, ymax))
    
#         # TrOCR 추론
#         pixel_values = trocr_processor(cropped, return_tensors="pt").pixel_values.to(device)
#         generated_ids = trocr_model.generate(pixel_values, max_length=64)
#         generated_text = trocr_tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
#         generated_text = unicodedata.normalize("NFC", generated_text)
#         ocr_texts.append(generated_text)
#         # print("Detected text:", generated_text)

#     return ' '.join(ocr_texts)

### TEST

In [None]:
import threading

In [None]:
%%timeit
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20221226131232394.png&imgGubun=D'
file_path = ''
paddle_thread = threading.Thread(target=PaddleOCR_from_file_thread, args=(file_path, url, False))
paddle_thread.start()

results, binary = EasyOCR_from_file(file_path, url)
easyocr_result = " ".join([text for _, text, _ in results])
print("EasyOCR 결과: ", easyocr_result)

# trocr_result = TROCR_from_file(results, binary)
# print("\nTROCR 결과: ", trocr_result)

paddle_thread.join()

# paddleocr_result = PaddleOCR_from_file(url=url, show_image=False)
print("\nPaddleOCR 결과: ", paddleocr_result)

In [None]:
%%time
result = graph.invoke({"easyocr_result": easyocr_result, "paddleocr_result":paddleocr_result})
print("✅ 요약 및 문제 생성 완료!")

In [None]:
def test_graph(file_path=None, url=None):
    paddle_thread = threading.Thread(target=PaddleOCR_from_file_thread, args=(file_path, url, False))
    paddle_thread.start()
    
    results, binary = EasyOCR_from_file(file_path, url)
    easyocr_result = " ".join([text for _, text, _ in results])
    print("EasyOCR 결과: ", easyocr_result)
    
    # trocr_result = TROCR_from_file(results, binary)
    # print("\nTROCR 결과: ", trocr_result)
    
    paddle_thread.join()
    
    # paddleocr_result = PaddleOCR_from_file(url=url, show_image=False)
    print("\nPaddleOCR 결과: ", paddleocr_result)
    
    result = graph.invoke({"easyocr_result": easyocr_result, "paddleocr_result":paddleocr_result})
    print("✅ 요약 및 문제 생성 완료!")

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20221222103639635.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20221222103435065.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20230428170405246.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20221226131232394.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20221222104929447.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20221226131610654.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20221226131632718.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20221226132234942.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20221226132145911.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20221222104708761.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20221222104717403.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20221229134742525.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20221229135232326.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20230425125336384.jpeg&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20230102143620114.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20230102143842371.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
url = 'https://www.home-learn.co.kr/common/image.do?imgPath=newsroom&imgName=CK20221226131332329.png&imgGubun=D'
test_graph(url=url)

In [None]:
%%time
file_path = 'Office_Lens_20161216-122020.jpg'
test_graph(file_path=file_path)

In [None]:
%%time
url = 'https://i.ytimg.com/vi/55d4n_dQxs4/maxresdefault.jpg?'
test_graph(url=url)

In [None]:
%%time
file_path = 'ratio.png'
test_graph(file_path=file_path)

### EVALUATION

In [None]:
evaluation_prompt = f"""
다음은 두 개의 OCR 결과(EasyOCR, PaddleOCR)를 통합하여 LLM이 생성한 텍스트입니다.  
이 통합 결과가 원문에 기반하여 얼마나 정확하고 자연스러운지를 아래 기준에 따라 평가해 주세요.

## 평가 항목:
1. **정확성 (0~10점)**: 두 OCR 결과에 있는 정보를 충실히 반영했는가? 누락, 왜곡 없이 잘 통합했는가?
2. **오류 수정 (0~10점)**: 인식 오류(오탈자, 잘못된 단어 등)를 문맥에 맞게 자연스럽게 수정했는가?
3. **문장의 자연스러움 (0~10점)**: 결과 문장이 문법적으로 매끄럽고 읽기 쉬운가?

각 항목을 0~10점으로 평가한 후, 전체 평균 점수(소수점 첫째 자리까지)를 **"total_score"**로 계산해 주세요.  

## 출력 형식 (JSON):
```json
{{
  "evaluation": {{
    "accuracy": 8.5,
    "error_correction": 9.0,
    "fluency": 9.5,
    "total_score": 9.0
  }},
  "comments": "대부분의 정보를 잘 통합했으며, 오탈자 수정도 훌륭합니다. 다만 일부 숫자 인식 오류가 그대로 유지되어 감점되었습니다."
}}

## OCR 결과:
### EasyOCR:
{easyocr_result}

### PaddleOCR:
{paddleocr_result}

## LLM 통합 결과:
{result["merged_text"]}
"""

In [None]:
from openai import OpenAI

# OpenAI 클라이언트 생성
client = OpenAI(api_key="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")  # 실제 키로 대체

# GPT-4o-mini 호출
response = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[
        {
            "role": "system",
            "content": """당신은 OCR 결과 통합을 전문으로 평가하는 전문가입니다. 두 가지 OCR 결과를 하나의 자연스럽고 정확한 문장으로 통합한 
                        AI의 결과물을 평가하는 역할입니다. 평가 기준은 정확성, 오류 수정 능력, 문장의 자연스러움입니다. 이 기준에 따라 세심하게 
                        평가하고 근거를 들어 설명해 주세요."""
        },
        {"role": "user", "content": evaluation_prompt}
    ],
    temperature=0.7,
    max_tokens=256
)

print(response.choices[0].message.content)