# GPT Prompt 생성


> **주제: 한국 보험 약관의 해석 및 비판적 분석** <br/><br/>
Topic: Interpretation and critical analysis of Korean insurance terms


## Step 1: 약관 원문 '심층 이해' (CoT 집중, RAG 활용)

### 이 단계의 목표: 분석 대상 약관 문구를 정확히 이해하는 것. RAG를 통해 관련 외부 정보를 참고하며 이해의 깊이를 더해.
### 수정 내용:
주어진 약관 문구를 읽을 때, 동시에 벡터 스토어에서 해당 문구와 관련된 정보를 검색. (Langchain Retriever 사용)

검색된 관련 정보(예: 분쟁 사례, 관련 법규 조항)를 약관 문구와 함께 GPT 프롬프트에 넣어줘.

GPT는 약관 문구와 검색된 외부 정보를 모두 참고해 약관의 의미 심층적 파악 가능

CoT처럼 단계별 이해 과정을 프롬프트에 포함시켜서 정확한 이해 유도

### basic setting

#### library load

In [2]:
!pip install -U langchain-community langchain-openai chromadb PyMuPDF langchain-chroma



In [1]:
import os
import json
import re
# Google Drive 마운트 필요
from google.colab import drive
from google.colab import userdata
import time
drive.mount('/content/drive')
from collections import defaultdict


Mounted at /content/drive


In [3]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings # <-- 이 임포트 라인 사용
from langchain_openai import ChatOpenAI     # <-- 이 임포트 라인 사용
from langchain_chroma import Chroma
from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough, RunnableParallel
from langchain_core.documents import Document

#### setting openai-api-key and model

In [4]:
# --- OpenAI API 키 설정 (userdata로 가져와 os.environ에 설정) ---
print("OpenAI API 키 설정 확인 중 (userdata 사용)...")
# Colab '비밀' 저장소에서 'OPENAI_API_KEY' 값을 가져옵니다.
from google.colab import userdata
openai_api_key = userdata.get('OPENAI_API_KEY')
os.environ["OPENAI_API_KEY"] = xx

if openai_api_key is None:
    print("!!! 오류: Colab '비밀'에서 'OPENAI_API_KEY'를 가져오지 못했습니다. !!!")
    print("Colab 왼쪽의 자물쇠 아이콘(비밀)에서 'OPENAI_API_KEY' 이름으로 키가 설정되었는지 확인해주세요.")
    # API 키 없이는 임베딩 모델 로드 및 GPT 모델 호출이 불가능하므로 관련 객체는 None
    embeddings = None
    llm = None
    rag_vectorstore = None # 벡터 스토어 로드 불가
else:
    # userdata로 가져온 키 값을 os.environ 환경 변수에 설정해 줍니다. <-- 이 부분이 핵심!
    os.environ['OPENAI_API_KEY'] = openai_api_key
    print("'OPENAI_API_KEY' 환경 변수 설정 완료 (userdata 사용).")

    # 이제 Langchain 모델들이 이 환경 변수에서 키를 자동으로 읽어갑니다.

    # 임베딩 모델 로드 (벡터 스토어 로드 및 RAG 검색 시 필요)
    try:
        embeddings = OpenAIEmbeddings(model="text-embedding-3-small") # 환경 변수 사용
        print("OpenAI 임베딩 모델 준비 완료.")
    except Exception as e:
        print(f"!!! 오류: 임베딩 모델 로드 오류: {e} !!!")
        print("환경 변수에 설정된 API 키가 유효한지, 모델 이름이 올바른지 확인하세요.")
        embeddings = None

    # GPT 모델 준비 (심층 이해 분석 및 CoT 추론 시 필요)
    try:
        llm = ChatOpenAI(model="gpt-4o-2024-05-13", temperature=0.0) # 환경 변수 사용
        print(f"GPT 모델 준비 완료: {llm.model_name}")
    except Exception as e:
        print(f"!!! 오류: GPT 모델 로드 오류: {e} !!!")
        print("환경 변수에 설정된 API 키가 유효한지, 모델 이름이 올바른지 확인하세요.")
        llm = None

    # 임베딩 모델 또는 LLM 로드 실패 시 rag_vectorstore 로드 불가
    if embeddings is None or llm is None:
         rag_vectorstore = None # 아래 벡터 스토어 로드 로직이 오류나지 않도록 None으로 설정
    # else: rag_vectorstore는 아래 로드 로직에서 설정



OpenAI API 키 설정 확인 중 (userdata 사용)...
'OPENAI_API_KEY' 환경 변수 설정 완료 (userdata 사용).
OpenAI 임베딩 모델 준비 완료.
GPT 모델 준비 완료: gpt-4o-2024-05-13


In [19]:
!pip install -U langchain-huggingface


Collecting langchain-huggingface
  Downloading langchain_huggingface-0.2.0-py3-none-any.whl.metadata (941 bytes)
Downloading langchain_huggingface-0.2.0-py3-none-any.whl (27 kB)
Installing collected packages: langchain-huggingface
Successfully installed langchain-huggingface-0.2.0


In [20]:
from langchain_huggingface import HuggingFaceEndpoint


# Hugging Face API 토큰 필요 (https://huggingface.co/settings/tokens 에서 생성)
HUGGINGFACEHUB_API_TOKEN = "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"

llm = HuggingFaceEndpoint(
    repo_id="HuggingFaceH4/zephyr-7b-beta",  # 무료 사용 가능한 공개 모델
    huggingfacehub_api_token="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",  # 본인의 HF 토큰
    temperature=0.7,
    max_new_tokens=512
)

In [None]:
!pip install bitsandbytes accelerate transformers



In [21]:
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
from langchain.llms import HuggingFacePipeline
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

model_name = "HuggingFaceH4/zephyr-7b-beta"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    load_in_4bit=True,
    torch_dtype=torch.float16
)

llm = pipeline("text-generation", model=model, tokenizer=tokenizer)
# LangChain용 LLM 래퍼 생성
llm_langchain = HuggingFacePipeline(pipeline=llm)

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


Loading checkpoint shards:   0%|          | 0/8 [00:00<?, ?it/s]

Device set to use cuda:0
  llm_langchain = HuggingFacePipeline(pipeline=llm)


In [22]:
!pip install -U bitsandbytes accelerate transformers



In [23]:
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

model_name = "HuggingFaceH4/zephyr-7b-beta"

# 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 4비트로 모델 로드
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",                 # 자동 분산
    load_in_4bit=True,                # 4비트 로딩
    torch_dtype=torch.float16         # 권장 dtype
)

# pipeline 생성 (device 명시하면 안 됨)
llm = pipeline("text-generation", model=model, tokenizer=tokenizer)

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


Loading checkpoint shards:   0%|          | 0/8 [00:00<?, ?it/s]

Device set to use cuda:0


In [24]:
import openai
client = openai.OpenAI(api_key = userdata.get('OPENAI_API_KEY'))

#### check vector store and number of chunks

In [25]:
# --- 벡터 스토어 영구 저장 경로 지정 --- (이전 코드와 동일)
PERSIST_DIRECTORY = '/content/drive/MyDrive/PROJECT/cn_api_project/chroma_db' # 예시 경로

# --- 벡터 스토어 로드 (최신 Chroma 클래스 사용) ---
rag_vectorstore = None # 초기화
# 임베딩 모델이 성공적으로 로드되었고 (API 키가 설정되었고) 저장 경로가 존재하면 로드 시도
if embeddings is not None and os.path.exists(PERSIST_DIRECTORY):
    print(f"\n--- 벡터 스토어 로드 중: '{PERSIST_DIRECTORY}' ---")
    try:
        # 영구 저장된 ChromaDB에서 벡터 스토어 로드 (최신 Chroma 클래스 사용)
        # 최신 Chroma 클래스도 로드 시 persist_directory와 embedding_function을 받습니다.
        rag_vectorstore = Chroma(persist_directory=PERSIST_DIRECTORY, embedding_function=embeddings)
        print("벡터 스토어 로드 완료.")
        print(f"로드된 청크 개수: {rag_vectorstore._collection.count()}") # 로드된 청크 개수 확인!

    except Exception as e:
        print(f"!!! 오류: 벡터 스토어 로드 중 오류 발생 !!!")
        print(f"오류 내용: {e}")
        print(f"경로 확인: '{PERSIST_DIRECTORY}'에 파일 있는지, 로드 시 사용한 임베딩 모델이 올바른지 확인하세요.")
        rag_vectorstore = None
else:
    if embeddings is None:
        print("\n!!! 벡터 스토어 로드 불가: 임베딩 모델 로드 오류 (API 키 확인 필요). !!!")
    elif not os.path.exists(PERSIST_DIRECTORY):
         print(f"\n!!! 벡터 스토어 로드 불가: 저장 폴더를 찾을 수 없습니다 - '{PERSIST_DIRECTORY}' !!!")
         print("첫 번째 노트북에서 Step 0을 실행하여 벡터 스토어를 해당 경로에 저장했는지 확인해주세요.")



--- 벡터 스토어 로드 중: '/content/drive/MyDrive/PROJECT/cn_api_project/chroma_db' ---
벡터 스토어 로드 완료.
로드된 청크 개수: 37249


### 심층 이해 과정

#### 심층 이해를 위한 프롬프트 템플릿





> deep_understanding_template


In [7]:
# --- 심층 이해를 위한 프롬프트 템플릿 (CoT + RAG Context 포함) --- (이전 코드와 동일)
deep_understanding_template = """
## 역할: 보험 약관 심층 분석 전문가 (RAG 기반 분석자)

## 분석 목표:
- 아래 **[분석 대상 약관 문구]**와 **[참고 자료]**를 기반으로 해당 조항의 의미, 목적, 실제 적용 맥락을 깊이 있게 해석해 주세요.
- 모호하거나 법적 쟁점이 될 수 있는 요소를 명확히 밝히고, 관련된 유사 표현, 해석 방식, 소비자 민원 또는 사례 기반으로 조항의 의미를 깊이 있게 해석해 주세요.


[분석 대상 약관 문구]:
{clause_text}

[참고 자료]:
{rag_context}

---

## 분석 지침:

1. **문구 정밀 분석:**
   - 각 단어, 문장 구조, 조건 표현, 예외 조항 등을 세밀하게 분석합니다.
   - 문구의 표면적 의미뿐 아니라 실질적인 적용 범위를 유추해 주세요.

2. **RAG 연결:**
   - [참고 자료]에 있는 유사 약관, 분쟁 사례, 법령 조항 중 약관 해석에 직접적으로 기여하는 내용을 우선 정리합니다.
   - 어떤 자료가 어떤 식으로 해석에 도움을 주는지 명확히 설명해 주세요.

### 3. 실제 적용 시나리오 기반 추론 (Chain of Thought)
- 다음 단계별로 사고 과정을 전개하세요:
  - Step 1: 해당 조항이 적용되는 전형적인 상황
  - Step 2: 적용 여부 판단 조건
  - Step 3: 보험자 vs 계약자의 책임 귀속
  - Step 4: 모호성 또는 분쟁 발생 가능성

4. **핵심 정리 (보험 전문가 관점):**
   - 이 조항의 목적, 핵심 쟁점, 소비자 보호 또는 보험자의 책임 측면에서 반드시 유의해야 할 점을 정리합니다.
   - 오해 소지가 있는 부분, 반드시 명확히 이해해야 하는 요소도 명시해 주세요.


5. **분류 및 메타 정보 출력**

6. **출력 형식 (Markdown):**
   다음과 같이 구분하여 출력해 주세요:

```markdown
# 약관 문구 심층 이해 분석

## 1. 분석 대상 약관 문구

{clause_text}

## 2. RAG 참고 자료 요약 및 연결

- **자료1 - 유사 약관 조항:** [조항 내용 요약 + 연결된 해석]
- **자료2 - 소비자 민원 사례:** [어떤 민원에서 어떤 쟁점으로 다뤄졌는지]
- **자료3 - 법령 또는 기준:** [어떤 법적 기준이 적용되며 이 조항과의 연결점]
...

## 3. 문구의 구조적 분석 및 해석

- 각 문장 요소 분석
- 조건 해석 및 의도 추론
...

## 4. 실제 적용 시나리오 및 단계별 추론 (CoT)

- Step 1: 이 조항이 적용될 수 있는 전형적인 상황
- Step 2: 이 조항이 불명확하게 적용될 수 있는 예외적 상황
...

## 5. 전문가 관점 핵심 요약

- 조항의 주요 목적:
- 소비자/보험자가 주의해야 할 핵심 요소:
- 자주 발생하는 오해 및 분쟁 포인트:
...

## 6. 분석 메타 정보

- 약관 요약 위치 (소제목):
- 문서 출처:
- 문제 유형: ["문구 모호성", "보장 조건 불명확", "책임 범위 불명확", "적용 예외 과도", "법령과 불일치"]
"""

#### load_summary_text 함수

In [8]:
def load_summary_text(summary_file_path):
    summary_clause_text = ""
    print(f"\n--- 분석 대상 약관 원문 전체 텍스트 로드 중: '{summary_file_path}' ---")
    try:
        if os.path.exists(summary_file_path):
            with open(summary_file_path, 'r', encoding='utf-8') as f:
                summary_clause_text = f.read()
            print("약관 원문 전체 텍스트 로드 완료.")
            print(f"로드된 텍스트 길이: {len(summary_clause_text)} 문자.")
        else:
            print(f"!!! 오류: 약관 원문 전체 텍스트 파일을 찾을 수 없습니다 - '{summary_file_path}' !!!")
            print("경로와 파일 이름을 확인하세요.")
    except Exception as e:
        print(f"!!! 오류: 약관 원문 전체 텍스트 로드 중 예외 발생: {e} !!!")
    return summary_clause_text

#### analyze_clause_deeply 함수


> 특정 약관 문구를 RAG 검색 및 CoT를 활용하여 심층적으로 이해하고 분석

In [9]:
def analyze_clause_deeply(clause_text, rag_vectorstore, llm, num_rag_results=5, model="gpt-4o-2024-05-13"):

    if llm is None:
        print("!!! 오류: GPT 모델(llm)이 로드되지 않아 분석을 진행할 수 없습니다. API 키 설정 확인 필요. !!!")
        return "분석 실패: GPT 모델 오류"
        # RAG 검색은 rag_vectorstore가 None이 아니면 시도합니다.
        rag_context_text = "참고 자료 없음 (벡터 스토어 로드 실패)."
    if rag_vectorstore is not None:
        print("\n--- RAG 검색 시작 ---")
        try:
            retriever = rag_vectorstore.as_retriever(search_kwargs={"k": num_rag_results})
            retrieved_docs = retriever.invoke(clause_text)
            rag_context_text = "\n----\n".join([
                f"출처: {doc.metadata.get('source', '알 수 없음')}, 페이지: {doc.metadata.get('page', '알 수 없음')}\n{doc.page_content}"
                for doc in retrieved_docs
            ])
            print(f"RAG 검색 완료. 총 {len(retrieved_docs)}개의 참고 자료 확보.")
        except Exception as e:
            print(f"!!! 오류: RAG 검색 중 오류 발생: {e} !!!")
            print("벡터 스토어 로드 상태, 임베딩 모델, API 키 등을 확인하세요.")
            rag_context_text = "오류 발생: 참고 자료 검색 실패."

    # GPT 프롬프트 메시지 구성 (약관 문구 + RAG Context 포함)
    message = deep_understanding_template.format(
        clause_text=clause_text,
        rag_context=rag_context_text if rag_context_text else "참고 자료 없음."
    )

    # GPT 모델 호출 (심층 이해 분석 및 CoT 추론)
    print("\n--- GPT 심층 이해 분석 시작 (CoT 유도) ---")
    try:
        messages = [{"role": "user", "content": message}]
        response = llm.invoke(messages)
        response_text = response.content

        print("\n--- GPT 심층 이해 분석 완료 ---")
        return response_text

    except Exception as e:
        print(f"!!! 오류: GPT 심층 이해 분석 중 오류 발생: {e} !!!")
        print("GPT API 호출 중 문제 발생. API 키, 모델 이름, 토큰 제한 등을 확인하세요.")
        return f"분석 실패: GPT 오류 - {e}"

### 일단 요약본 하나만 심층분석

In [26]:
summary_file_path = '/content/drive/MyDrive/PROJECT/cn_api_project/data/보험약관/summary/삼성화재_반려묘보험_애니펫_summary.txt'

In [27]:
summary_text = load_summary_text(summary_file_path)
clause_list = summary_text.split("\n\n")  # 또는 '\n제' 등 조항 기준


--- 분석 대상 약관 원문 전체 텍스트 로드 중: '/content/drive/MyDrive/PROJECT/cn_api_project/data/보험약관/summary/삼성화재_반려묘보험_애니펫_summary.txt' ---
약관 원문 전체 텍스트 로드 완료.
로드된 텍스트 길이: 71103 문자.


In [28]:
summary_clause_text = "" # 변수 초기화
print(f"\n--- 분석 대상 약관 원문 전체 텍스트 로드 중: '{summary_file_path}' ---")
try: # 파일 존재 확인
    if os.path.exists(summary_file_path):
    # 파일 읽기 모드('r', read)로 열고 전체 내용 읽기
        with open(summary_file_path, 'r', encoding='utf-8') as f:
            summary_clause_text = f.read()
        print("약관 원문 전체 텍스트 로드 완료.")
        print(f"로드된 텍스트 길이: {len(summary_clause_text)} 문자.")
    else:
        print(f"!!! 오류: 약관 원문 전체 텍스트 파일을 찾을 수 없습니다 - '{summary_file_path}' !!!")
        print("Google Drive 마운트 상태와 경로를 확인해주세요.")
        summary_clause_text = "" # 파일 없으면 빈 문자열

except Exception as e:
    print(f"!!! 오류: 약관 원문 전체 텍스트 로드 중 오류 발생: {e} !!!")
    summary_clause_text = "" # 로드 실패 시 빈 문자열


--- 분석 대상 약관 원문 전체 텍스트 로드 중: '/content/drive/MyDrive/PROJECT/cn_api_project/data/보험약관/summary/삼성화재_반려묘보험_애니펫_summary.txt' ---
약관 원문 전체 텍스트 로드 완료.
로드된 텍스트 길이: 71103 문자.


#### split_text_into_chunks 정의
> text, chunk_size = 2000, chunk_overlap = 200

In [29]:
def split_text_into_chunks(text, chunk_size=1000, chunk_overlap=200):
    text_splitter = RecursiveCharacterTextSplitter(
        separators=["\n\n", "\n", ".", " "],
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        length_function=len,
    )
    chunks = text_splitter.split_text(text)
    print(f"총 {len(chunks)}개의 청크로 분할됨. (chunk_size={chunk_size}, overlap={chunk_overlap})")
    return chunks

#### analyze_chunks_individually
> text_chunks, rag_vectorstore, llm

In [30]:
def analyze_chunks_individually(text_chunks, rag_vectorstore, llm):
    all_results = []

    for i, chunk in enumerate(text_chunks):
        print(f"\n--- [{i+1}/{len(text_chunks)}] 번째 청크 분석 시작 ---")
        result = analyze_clause_deeply(chunk, rag_vectorstore, llm)
        all_results.append(f"🔹 [청크 {i+1} 분석 결과]\n{result}\n")

    return "\n\n".join(all_results)

#### Huggingface

In [15]:
!pip install -U bitsandbytes accelerate transformers

Collecting bitsandbytes
  Downloading bitsandbytes-0.46.0-py3-none-manylinux_2_24_x86_64.whl.metadata (10 kB)
Collecting transformers
  Downloading transformers-4.52.4-py3-none-any.whl.metadata (38 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_

In [16]:
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

model_name = "HuggingFaceH4/zephyr-7b-beta"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    load_in_4bit=True,
    torch_dtype=torch.float16
)

llm = pipeline("text-generation", model=model, tokenizer=tokenizer)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/1.43k [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


tokenizer.model:   0%|          | 0.00/493k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.80M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/168 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/638 [00:00<?, ?B/s]

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Fetching 8 files:   0%|          | 0/8 [00:00<?, ?it/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not in

model-00004-of-00008.safetensors:   0%|          | 0.00/1.95G [00:00<?, ?B/s]

model-00001-of-00008.safetensors:   0%|          | 0.00/1.89G [00:00<?, ?B/s]

model-00003-of-00008.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00005-of-00008.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00002-of-00008.safetensors:   0%|          | 0.00/1.95G [00:00<?, ?B/s]

model-00007-of-00008.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00006-of-00008.safetensors:   0%|          | 0.00/1.95G [00:00<?, ?B/s]

model-00008-of-00008.safetensors:   0%|          | 0.00/816M [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/8 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/111 [00:00<?, ?B/s]

Device set to use cuda:0


#### 코드 실행

> 변수 정의

In [41]:
# --- 벡터 스토어 영구 저장 경로 지정 --- (이전 코드와 동일)
PERSIST_DIRECTORY = '/content/drive/MyDrive/PROJECT/cn_api_project/chroma_db' # 예시 경로

# --- 벡터 스토어 로드 (최신 Chroma 클래스 사용) ---
rag_vectorstore = None # 초기화
# 임베딩 모델이 성공적으로 로드되었고 (API 키가 설정되었고) 저장 경로가 존재하면 로드 시도
if embeddings is not None and os.path.exists(PERSIST_DIRECTORY):
    print(f"\n--- 벡터 스토어 로드 중: '{PERSIST_DIRECTORY}' ---")
    try:
        # 영구 저장된 ChromaDB에서 벡터 스토어 로드 (최신 Chroma 클래스 사용)
        # 최신 Chroma 클래스도 로드 시 persist_directory와 embedding_function을 받습니다.
        rag_vectorstore = Chroma(persist_directory=PERSIST_DIRECTORY, embedding_function=embeddings)
        print("벡터 스토어 로드 완료.")
        print(f"로드된 청크 개수: {rag_vectorstore._collection.count()}") # 로드된 청크 개수 확인!

    except Exception as e:
        print(f"!!! 오류: 벡터 스토어 로드 중 오류 발생 !!!")
        print(f"오류 내용: {e}")
        print(f"경로 확인: '{PERSIST_DIRECTORY}'에 파일 있는지, 로드 시 사용한 임베딩 모델이 올바른지 확인하세요.")
        rag_vectorstore = None
else:
    if embeddings is None:
        print("\n!!! 벡터 스토어 로드 불가: 임베딩 모델 로드 오류 (API 키 확인 필요). !!!")
    elif not os.path.exists(PERSIST_DIRECTORY):
         print(f"\n!!! 벡터 스토어 로드 불가: 저장 폴더를 찾을 수 없습니다 - '{PERSIST_DIRECTORY}' !!!")
         print("첫 번째 노트북에서 Step 0을 실행하여 벡터 스토어를 해당 경로에 저장했는지 확인해주세요.")




 # 1. 텍스트 로딩
summary_clause_text = load_summary_text(summary_file_path)

# 2. 청크로 분할
text_chunks = split_text_into_chunks(summary_clause_text, chunk_size=2000)

# 3. GPT + RAG로 하나씩 분석
final_summary = analyze_chunks_individually(text_chunks, rag_vectorstore, llm)


# 4. 결과 출력 또는 저장
print("\n===== 전체 분석 결과 요약 =====\n")
print(final_summary[:1000])


--- 벡터 스토어 로드 중: '/content/drive/MyDrive/PROJECT/cn_api_project/chroma_db' ---
벡터 스토어 로드 완료.
로드된 청크 개수: 37249

--- 분석 대상 약관 원문 전체 텍스트 로드 중: '/content/drive/MyDrive/PROJECT/cn_api_project/data/보험약관/summary/삼성화재_반려묘보험_의기냥냥_summary.txt' ---
약관 원문 전체 텍스트 로드 완료.
로드된 텍스트 길이: 173890 문자.
총 100개의 청크로 분할됨. (chunk_size=2000, overlap=200)

--- [1/100] 번째 청크 분석 시작 ---

--- RAG 검색 시작 ---
!!! 오류: RAG 검색 중 오류 발생: Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}} !!!
벡터 스토어 로드 상태, 임베딩 모델, API 키 등을 확인하세요.

--- GPT 심층 이해 분석 시작 (CoT 유도) ---
!!! 오류: GPT 심층 이해 분석 중 오류 발생: 'TextGenerationPipeline' object has no attribute 'invoke' !!!
GPT API 호출 중 문제 발생. API 키, 모델 이름, 토큰 제한 등을 확인하세요.

--- [2/100] 번째 청크 분석 시작 ---

--- RAG 검색 시작 ---
!!! 오류: RAG 검색

KeyboardInterrupt: 

In [40]:
def load_summary_text(summary_file_path):
    summary_clause_text = ""
    print(f"\n--- 분석 대상 약관 원문 전체 텍스트 로드 중: '{summary_file_path}' ---")
    try:
        if os.path.exists(summary_file_path):
            with open(summary_file_path, 'r', encoding='utf-8') as f:
                summary_clause_text = f.read()
            print("약관 원문 전체 텍스트 로드 완료.")
            print(f"로드된 텍스트 길이: {len(summary_clause_text)} 문자.")
        else:
            print(f"!!! 오류: 약관 원문 전체 텍스트 파일을 찾을 수 없습니다 - '{summary_file_path}' !!!")
            print("경로와 파일 이름을 확인하세요.")
    except Exception as e:
        print(f"!!! 오류: 약관 원문 전체 텍스트 로드 중 예외 발생: {e} !!!")
    return summary_clause_text

In [39]:
def analyze_clause_deeply(clause_text, rag_vectorstore, llm, num_rag_results=5, model="gpt-4o-2024-05-13"):

    if llm is None:
        print("!!! 오류: GPT 모델(llm)이 로드되지 않아 분석을 진행할 수 없습니다. API 키 설정 확인 필요. !!!")
        return "분석 실패: GPT 모델 오류"
        # RAG 검색은 rag_vectorstore가 None이 아니면 시도합니다.
        rag_context_text = "참고 자료 없음 (벡터 스토어 로드 실패)."
    if rag_vectorstore is not None:
        print("\n--- RAG 검색 시작 ---")
        try:
            retriever = rag_vectorstore.as_retriever(search_kwargs={"k": num_rag_results})
            retrieved_docs = retriever.invoke(clause_text)
            rag_context_text = "\n----\n".join([
                f"출처: {doc.metadata.get('source', '알 수 없음')}, 페이지: {doc.metadata.get('page', '알 수 없음')}\n{doc.page_content}"
                for doc in retrieved_docs
            ])
            print(f"RAG 검색 완료. 총 {len(retrieved_docs)}개의 참고 자료 확보.")
        except Exception as e:
            print(f"!!! 오류: RAG 검색 중 오류 발생: {e} !!!")
            print("벡터 스토어 로드 상태, 임베딩 모델, API 키 등을 확인하세요.")
            rag_context_text = "오류 발생: 참고 자료 검색 실패."

    # GPT 프롬프트 메시지 구성 (약관 문구 + RAG Context 포함)
    message = deep_understanding_template.format(
        clause_text=clause_text,
        rag_context=rag_context_text if rag_context_text else "참고 자료 없음."
    )

    # GPT 모델 호출 (심층 이해 분석 및 CoT 추론)
    print("\n--- GPT 심층 이해 분석 시작 (CoT 유도) ---")
    try:
        messages = [{"role": "user", "content": message}]
        response = llm.invoke(messages)
        response_text = response.content

        print("\n--- GPT 심층 이해 분석 완료 ---")
        return response_text

    except Exception as e:
        print(f"!!! 오류: GPT 심층 이해 분석 중 오류 발생: {e} !!!")
        print("GPT API 호출 중 문제 발생. API 키, 모델 이름, 토큰 제한 등을 확인하세요.")
        return f"분석 실패: GPT 오류 - {e}"


In [38]:
from transformers import pipeline

# 예시로 HuggingFace의 GPT2 또는 Mistral 모델을 사용할 수 있습니다.
# 사전 로딩된 pipeline (또는 사용자가 만든 HF pipeline)을 llm으로 받음
# 예: llm = pipeline("text-generation", model="mistralai/Mistral-7B-Instruct-v0.1", device=0)

def analyze_clause_deeply(clause_text, rag_vectorstore, llm, num_rag_results=5):
    rag_context_text = "참고 자료 없음."

    # RAG 검색 수행
    if rag_vectorstore is not None:
        print("\n--- RAG 검색 시작 ---")
        try:
            retriever = rag_vectorstore.as_retriever(search_kwargs={"k": num_rag_results})
            retrieved_docs = retriever.invoke(clause_text)
            rag_context_text = "\n----\n".join([
                f"출처: {doc.metadata.get('source', '알 수 없음')}, 페이지: {doc.metadata.get('page', '알 수 없음')}\n{doc.page_content}"
                for doc in retrieved_docs
            ])
            print(f"RAG 검색 완료. 총 {len(retrieved_docs)}개의 참고 자료 확보.")
        except Exception as e:
            print(f"!!! 오류: RAG 검색 중 오류 발생: {e} !!!")
            rag_context_text = "오류 발생: 참고 자료 검색 실패."

    # 프롬프트 구성
    prompt = deep_understanding_template.format(
        clause_text=clause_text,
        rag_context=rag_context_text
    )

    print("\n--- GPT(HF 모델) 심층 이해 분석 시작 ---")
    try:
        if hasattr(llm, "invoke"):  # OpenAI 방식
            messages = [{"role": "user", "content": prompt}]
            response = llm.invoke(messages)
            response_text = response.content

        else:  # HuggingFace pipeline 방식
            # huggingface text-generation pipeline 사용
            result = llm(prompt, max_new_tokens=1024, do_sample=True, temperature=0.7)
            response_text = result[0]['generated_text'] if isinstance(result, list) else str(result)

        print("--- GPT 심층 이해 분석 완료 ---")
        return response_text

    except Exception as e:
        print(f"!!! 오류: GPT(HF) 분석 중 오류 발생: {e} !!!")
        return f"분석 실패: 모델 오류 - {e}"

In [42]:
import os
os.environ["HUGGINGFACE_API_TOKEN"] = "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"

In [35]:
# 1. 텍스트 로딩
summary_clause_text = load_summary_text(summary_file_path)

# 2. 청크로 분할
text_chunks = split_text_into_chunks(summary_clause_text, chunk_size=2000)

# 3. GPT + RAG로 하나씩 분석
final_summary = analyze_chunks_individually(text_chunks, rag_vectorstore, llm)


# 4. 결과 출력 또는 저장
print("\n===== 전체 분석 결과 요약 =====\n")
print(final_summary[:1000])


--- 분석 대상 약관 원문 전체 텍스트 로드 중: '/content/drive/MyDrive/PROJECT/cn_api_project/data/보험약관/summary/삼성화재_반려묘보험_애니펫_summary.txt' ---
약관 원문 전체 텍스트 로드 완료.
로드된 텍스트 길이: 71103 문자.
총 40개의 청크로 분할됨. (chunk_size=2000, overlap=200)

--- [1/40] 번째 청크 분석 시작 ---

--- RAG 검색 시작 ---
!!! 오류: RAG 검색 중 오류 발생: Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}} !!!

--- GPT(HF 모델) 심층 이해 분석 시작 ---




KeyboardInterrupt: 

In [36]:
summary_file_path = '/content/drive/MyDrive/PROJECT/cn_api_project/data/보험약관/summary/삼성화재_반려묘보험_의기냥냥_summary.txt'

In [37]:
 # 1. 텍스트 로딩
summary_clause_text = load_summary_text(summary_file_path)

# 2. 청크로 분할
text_chunks = split_text_into_chunks(summary_clause_text, chunk_size=2000)

# 3. GPT + RAG로 하나씩 분석
final_summary = analyze_chunks_individually(text_chunks, rag_vectorstore, llm)


# 4. 결과 출력 또는 저장
print("\n===== 전체 분석 결과 요약 =====\n")
print(final_summary[:1000])


--- 분석 대상 약관 원문 전체 텍스트 로드 중: '/content/drive/MyDrive/PROJECT/cn_api_project/data/보험약관/summary/삼성화재_반려묘보험_의기냥냥_summary.txt' ---
약관 원문 전체 텍스트 로드 완료.
로드된 텍스트 길이: 173890 문자.
총 100개의 청크로 분할됨. (chunk_size=2000, overlap=200)

--- [1/100] 번째 청크 분석 시작 ---

--- RAG 검색 시작 ---
!!! 오류: RAG 검색 중 오류 발생: Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}} !!!

--- GPT(HF 모델) 심층 이해 분석 시작 ---


KeyboardInterrupt: 



---

### 결과 저장

In [None]:
!pip install FPDF
from fpdf import FPDF

Collecting FPDF
  Downloading fpdf-1.7.2.tar.gz (39 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: FPDF
  Building wheel for FPDF (setup.py) ... [?25l[?25hdone
  Created wheel for FPDF: filename=fpdf-1.7.2-py2.py3-none-any.whl size=40704 sha256=e45bdd8f1b1db078cc650a7b001bd808fc8d1891387d0ed75884e024cbb584e0
  Stored in directory: /root/.cache/pip/wheels/65/4f/66/bbda9866da446a72e206d6484cd97381cbc7859a7068541c36
Successfully built FPDF
Installing collected packages: FPDF
Successfully installed FPDF-1.7.2


In [None]:
# 저장할 Google Drive 경로 설정 (마운트 후 사용)
BASE_GDRIVE_FOLDER = "/content/drive/MyDrive/PROJECT/cn_api_project"
OUTPUT_FOLDER_NAME = "insurance_outputs"

> 폴더 생성 유틸 함수

In [None]:
# 폴더 생성 유틸 함수
def ensure_output_folder_exists():
    folder_path = os.path.join(BASE_GDRIVE_FOLDER, OUTPUT_FOLDER_NAME)
    os.makedirs(folder_path, exist_ok=True)
    return folder_path

> txt 저장 함수

In [None]:
# ❷ 분석 대상이었던 원본 파일 경로
# original_path = "/content/drive/MyDrive/PROJECT/cn_api_project/data/보험약관/summary/삼성화재_반려묘보험_애니펫_summary.txt"

In [None]:
def save_summary_to_txt(summary_text, original_path, suffix="_outputs.txt"):
    folder_path = ensure_output_folder_exists()

    # 원래 파일명에서 확장자 제거하고 suffix 추가
    original_filename = os.path.basename(original_path)  # 예: "summary_cat_insurance_A.txt"
    filename_without_ext = os.path.splitext(original_filename)[0]  # 예: "summary_cat_insurance_A"
    new_filename = filename_without_ext + suffix  # 예: "summary_cat_insurance_A_outputs.txt"

    file_path = os.path.join(folder_path, new_filename)

    with open(file_path, "w", encoding="utf-8") as f:
        f.write(summary_text)

    print(f"✅ 텍스트 저장 완료: {file_path}")
    return file_path


> 실행

In [None]:
# 텍스트 저장
save_summary_to_txt(final_summary, original_path = summary_file_path)

✅ 텍스트 저장 완료: /content/drive/MyDrive/PROJECT/cn_api_project/insurance_outputs/hanhwa_pet_terms_summary_outputs.txt


'/content/drive/MyDrive/PROJECT/cn_api_project/insurance_outputs/hanhwa_pet_terms_summary_outputs.txt'

## Step 2: 잠재적 '문제점 발상' 및 근거 제시 (ToT 발상 + CoT 근거, RAG 필수 활용)

### 목표: 약관의 잠재적 문제점을 다양하게 발상하고, 그 근거를 제시하는 것. 이때 RAG를 적극적으로 활용해서 더 현실적이고 근거가 풍부한 문제점을 발상
### 수정 내용:
* 잠재적 문제점 발상을 시킬 때, **GPT 프롬프트에 분석 대상 약관 원문 텍스트와 함께 Step 1에서 검색된 외부 참고 자료(벡터 스토어 검색 결과)**를 반드시 포함

* 프롬프트 지침에 "제공된 약관 내용과 **추가 참고 자료**를 꼼꼼히 비교하며 문제점을 발상하라"고 명시


* 특히 문제점의 '근거 및 추론 과정' (CoT) 부분을 설명할 때, 약관 원문의 어떤 문구와 더불어 추가 참고 자료의 어떤 내용을 참고해서 그 문제점을 발상하게 되었는지 구체적으로 언급하도록 유도. (예: "약관 제X조 Y항 내용과 금감원 분쟁 사례집 Z 페이지의 유사 사례를 보니 이런 문제가 발생할 수 있습니다.")


* 이전 약관 전체 요약 내용도 여전히 컨텍스트로 함께 제공해서 전체 맥락 따름.


* ToT 발상 단계이므로 temperature는 좀 높게 유지, Self-consistency로 여러 후보를 생성하고 안정적인 목록을 선택하는 것은 동일 적용.
-----

### 함수 정의



#### problem_sampling_template_rag
> 프롬프트 템플릿 생성



In [None]:
# --- 2단계 - 잠재적 문제점 발상 프롬프트 템플릿 (보충된 버전) ---
problem_sampling_template_rag = """
## 역할: 소비자 권익 보호를 위해 보험 약관의 숨겨진 위험을 분석·탐지하는 전문 분석가

## 임무:
아래의 세 가지 자료:
- **[분석 대상 약관 원문 텍스트]**
- **[이전 약관 전체 요약] (전체 맥락 이해용)**
- **[추가 참고 자료] (법령, 판례, 분쟁 사례, 유사 약관 등)**

를 **통합적으로 비교·검토**하여, 다음을 수행하세요:

> 소비자가 **오해하거나 손해를 볼 수 있는 모든 잠재적 문제점**을 철저하고 창의적으로 발굴합니다. 마치 **약관 속 숨겨진 함정을 파헤치는 전문가**처럼, 약관의 허점·위험·모순·비현실성을 **RAG 기반으로 탐지**해 주세요.

---

### 🔍 분석 방법 지침:

1. **비판적 분석 및 비교 시각 유지:**
   - 원문 약관의 문장/용어/구조를 **정밀 분석**합니다.
   - 이전 약관 요약을 참고하여 **문맥적 흐름과 변화**를 파악합니다.
   - 특히, **[추가 참고 자료]와의 비교**를 통해 문제점을 도출하세요.
     > 예: 법령/판례와의 불일치, 금감원 분쟁 사례의 유사 피해, 유사 약관과의 격차 등

2. **다양한 관점에서 창의적 문제점 발상 (ToT):**
   - 다음과 같은 관점으로 **잠재적 리스크**를 다양한 시나리오로 탐색합니다 (**최소 7건 이상**):
     * 약관 문구의 모호성/다의성
     * 보장 및 면책 범위의 불명확성
     * 고지 의무/통지 의무 관련 위험
     * 보험금 청구/지급 절차의 불합리
     * 조항 간 상충 가능성
     * 법률/판례/유사 약관과의 불일치
     * 의료 현실 또는 소비자 행동과의 괴리
     * 소비자에게 중요한 정보의 미노출
     * 기타 예상 외 시나리오

3. **문제점의 발생 논리 및 근거 제시 (CoT):**
   각 문제점은 반드시 다음의 구조에 따라 **구체적이고 신뢰성 있는 추론**을 포함해야 합니다:

   | 항목 | 설명 |
   |------|------|
   | (A) 분석 대상 약관 문구 | 어떤 문구를 문제의 핵심으로 보았는지 직접 인용 |
   | (B) 비교한 참고 자료 | 어떤 법령, 분쟁 사례, 유사 약관과 비교했는지 |
   | (C) 문제 도출 논리 | 이 비교를 통해 어떤 논리적 이유로 문제가 발생한다고 보았는지 |

   예시:
   - 약관 제6조 3항의 "정신질환으로 인한 입원은 보장하지 않음" →
   - [참고자료] 금감원 분쟁사례집 2023, p.47: '우울증 입원 보장 관련 분쟁 사례' →
   - 의료기관 입원이 지속 증가하는 현실과 괴리가 있으며, 정신질환자의 실질 보장이 불가함

4. **추가 지침:**
   - 각 문제점은 **[추가 참고 자료]에서 최소 1개 이상 인용하지 않으면 제외**합니다.
   - `"문제점_유형"`은 아래 중 복수 선택 가능:
     * 모호한 표현
     * 보상 제외 조건의 불명확성
     * 고지 의무/통지 의무
     * 지급/청구 절차
     * 문서 내 상충 조항
     * 법령/판례와의 불일치
     * 현실과의 괴리
     * 소비자에게 불리한 정보 미노출
     * 기타

5. **[선택적] 신뢰도 등급 (신뢰/주의/불확실):**
   - 참고자료와의 논리적 정합성, 반복적 사례 존재 여부 등을 바탕으로, 문제점의 근거 신뢰도 등급을 평가할 수 있습니다.

---

## 출력 포맷 (JSON):

```json
{{
  "잠재적_문제점_후보": [
    {{
      "id": 1,
      "간단_표시용_요약": "정신질환 입원 보장 제외로 인한 사각지대",
      "문제점_요약": "정신질환 입원 불인정 조항",
      "발생_가능_시나리오": "우울증으로 입원한 가입자가 보험금을 청구했으나, 해당 조항에 따라 지급 거부됨",
      "근거_및_추론과정": "약관 제6조 3항에서 정신질환 입원을 보장하지 않음. 금감원 분쟁사례집 2023 p.47에서 유사한 사례 발생. 현실에서는 정신질환 입원이 반복되는 구조이나 이 조항은 전면 배제함.",
      "관련_약관_원문_표현": "정신질환으로 인한 입원은 보험금 지급 대상에서 제외",
      "문제점_유형": ["보상 제외 조건의 불명확성", "현실과의 괴리"],
      "예상_소비자_영향": "보험금 전액 미지급",
      "참고_자료_출처": ["금감원 분쟁사례집 2023 p.47", "보험업감독규정 제9조"],
      "근거_신뢰도": "신뢰"
    }}
    // ... more 문제점 ...
  ]
}}
"""

#### request_gpt 헬퍼 함수

In [None]:
def request_gpt(message, model="gpt-4o-2024-05-13", temperature=0.7, type="json_object"):
# 이 함수는 openai.OpenAI() 클라이언트 객체를 사용합니다.
# client 객체가 위에 정의되어 있다고 가정합니다.
    if client is None:
        print("API 클라이언트가 초기화되지 않았습니다.")
        return {} if type == "json_object" else "API 클라이언트 오류"

    messages = [{"role": "user", "content": message}]
    try:
        response = client.chat.completions.create(
                model=model,
                messages=messages,
                temperature=temperature,
                response_format={"type" : type}
            ).model_dump()
        content = response['choices'][0]['message']['content']
        if type == "json_object":
            content = content.strip()
            # 가끔 ```json ... ``` 형태로 오는 응답 처리
            if content.startswith("```json"): content = content[7:]
            if content.endswith("```"): content = content[:-3]
            content = content.strip()
            return json.loads(content)
        else: return content
    except Exception as e:
        print(f"API 호출 중 오류 발생: {e}")
        return {} if type == "json_object" else f"API Error: {e}"

#### identify_potential_problems_with_rag 함수 정의


> (analysis_target_text, previous_full_summary, rag_vectorstore, iterations=7, model="gpt-4o-2024-05-13", temperature=0.7)



In [None]:
def identify_potential_problems_with_rag(analysis_target_text, previous_full_summary, rag_vectorstore, iterations=7, model="gpt-4o-2024-05-13", temperature=0.7):
    if client is None:
        print("\n!!! API 클라이언트가 초기화되지 않아 문제점 발상을 실행할 수 없습니다. !!!")
        return []
    # RAG 검색은 rag_vectorstore가 None이 아니면 시도합니다.
    rag_context_text = "참고 자료 검색 실패 또는 없음." # 초기값 설정
    if rag_vectorstore is not None:
        print("\n--- RAG 검색 시작 ---")
        try:
            retriever = rag_vectorstore.as_retriever(search_kwargs={"k": 5}) # 관련 문서 청크 5개 검색 (조절 가능)

            # RAG 검색 실행: 분석 대상 텍스트를 쿼리로 사용
            # 분석 대상 텍스트 전체가 너무 길 수 있으므로 일부만 쿼리로 사용 (예: 앞 500자)
            query_text_for_rag = analysis_target_text[:500] # 쿼리 길이를 제한하여 검색 (조절 필요)
            if not query_text_for_rag.strip():
                print("경고: 분석 대상 텍스트가 비어있거나 너무 짧아 RAG 검색 쿼리 생성 불가.")
                rag_context_text = "분석 대상 텍스트 부족: 참고 자료 검색 불가."
            else:
                retrieved_docs = retriever.invoke(query_text_for_rag)
                rag_context_text = "\n----\n".join([
                    f"출처: {doc.metadata.get('source', '알 수 없음')}, 페이지: {doc.metadata.get('page', '알 수 없음')}\n{doc.page_content}"
                    for doc in retrieved_docs
                ])
                print(f"RAG 검색 완료. 총 {len(retrieved_docs)}개의 참고 자료 확보.")
                # print(f"참고 자료 일부:\n{rag_context_text[:500]}...") # 디버깅용

        except Exception as e:
            print(f"!!! 오류: RAG 검색 중 오류 발생: {e} !!!")
            print("벡터 스토어 로드 상태, 임베딩 모델, API 키 등을 확인하세요.")
            rag_context_text = "오류 발생: 참고 자료 검색 실패."

    # Self-consistency를 위한 발상 반복
    problem_list_counts = defaultdict(int)
    problem_list_details = {}

    print (f"\n===== [2단계] 잠재적 문제점 발상 Self-consistency (RAG 활용) 분석 시작 ({iterations}회 반복) =====")

    sampling_temperature = temperature # 발상 온도 사용 (보통 0.7 ~ 1.0)

    for i in range(iterations):
        print(f"\n----- [{i+1}/{iterations} 번째 문제점 발상 시도 중] -----")

        # 프롬프트 메시지 구성 (보충된 템플릿 사용)
        message = problem_sampling_template_rag.format(
            previous_full_summary=previous_full_summary if previous_full_summary else "없음",
            analysis_target_text=analysis_target_text, # 분석 대상 텍스트 전체 전달
            rag_context=rag_context_text if rag_context_text else "참고 자료 없음." # RAG 검색 결과 전달!
        )

        try:
            # request_gpt 함수 사용 (client 객체 사용)
            response_json = request_gpt(
                message,
                model=model,
                temperature=sampling_temperature,
                type="json_object" # JSON 형태로 응답 요청
            )

            # 응답 형식이 기대와 다를 경우 처리
            if not isinstance(response_json, dict) or "잠재적_문제점_후보" not in response_json:
                print("문제점 발상 응답 형식이 올바르지 않습니다. 결과 스킵.")
                print(f"Raw Response Sample: {str(response_json)[:200]}...")
                continue # 이번 결과는 무시

            problem_candidates = response_json.get("잠재적_문제점_후보", [])

            # 문제점 후보 목록을 문자열로 변환하여 일관성 체크 기준 마련 (JSON 정규화)
            problem_list_string_key = json.dumps(problem_candidates, sort_keys=True, ensure_ascii=False)

            # 결과가 비어있거나 너무 적으면 스킵
            if not problem_candidates or len(problem_candidates) < 3: # 최소 후보 개수 기준 (조절 필요)
                print(f"발상된 문제점 후보 개수가 부족합니다 ({len(problem_candidates)}개). 결과 스킵.")
                continue

            # print(f"발상된 문제점 후보 목록 (총 {len(problem_candidates)}개) 생성 완료.") # 디버깅용

            problem_list_counts[problem_list_string_key] += 1
            if problem_list_string_key not in problem_list_details:
                problem_list_details[problem_list_string_key] = problem_candidates

        except Exception as e:
            print(f"API 호출 중 오류 발생 또는 JSON 처리 오류: {e}")
            error_key = f"[API 오류: {e}]"
            problem_list_counts[error_key] += 1


    # Self-consistency 결과 요약 및 최빈값 선택
    print(f"\n===== [2단계] 잠재적 문제점 발상 Self-consistency (RAG 활용) 결과 요약 빈도 =====")
    if not problem_list_counts:
        print("문제점 발상 결과가 없습니다.")
        return []

    sorted_results = sorted(problem_list_counts.items(), key=lambda x: x[1], reverse=True)
    for key_string, count in sorted_results:
        display_key = key_string[:100].replace('\n', ' ') + '...' if len(key_string) > 100 else key_string
        print(f"'{display_key}': {count}회")

    most_frequent_list_key = sorted_results[0][0]

    print(f"\n===== [2단계] Self-consistency 최종 문제점 발상 결과 (RAG 활용) =====")
    final_problem_candidates_list = problem_list_details.get(most_frequent_list_key, [])
    print(f"총 {len(final_problem_candidates_list)}개의 문제점 후보 선정 (Self-consistency 기반):")
    for p in final_problem_candidates_list:
        # f-string 오류 방지를 위해 replace('\n', ' ') 결과를 변수에 먼저 저장 후 사용
        근거_CoT_display = p.get('근거_및_추론과정', 'N/A')[:150].replace('\n', ' ')
        print(f"- 요약: {p.get('문제점_요약', 'N/A')}")
        print(f"  근거 (CoT): {근거_CoT_display}...") # 수정된 부분
        print(f"  관련 약관/자료: {p.get('관련_약관_원문_표현', 'N/A')} | 출처: {p.get('참고_자료_출처', 'N/A')}")
        print("-" * 20)

    return final_problem_candidates_list

#### run_problem_identification_step 함수 정의


> 2단계 잠재적 문제점 발상 및 근거 제시 과정</br>
use_rag=True 이고 rag_vectorstore가 제공되면 RAG 발상을 사용



In [None]:
def run_problem_identification_step(analysis_text, previous_summary, use_rag=False, rag_vectorstore=None, iterations=7, model="gpt-4o-2024-05-13", temperature=0.7):
    if use_rag and rag_vectorstore is not None:
        print("\n--- [2단계] RAG를 사용한 잠재적 문제점 발상 시작 ---")
        problem_candidates = identify_potential_problems_with_rag(
        analysis_target_text=analysis_text,
        previous_full_summary=previous_summary,
        rag_vectorstore=rag_vectorstore,
        iterations=iterations,
        model=model,
        temperature=temperature # 발상 온도
        )
    else:
        print("\n--- [2단계] 일반 잠재적 문제점 발상 시작 (RAG 비활성) ---")
        problem_candidates = identify_potential_problems_with_rag(
        analysis_target_text=analysis_text,
        previous_full_summary=previous_summary,
        rag_vectorstore=None, # RAG 비활성 시 None 전달
        iterations=iterations,
        model=model,
        temperature=temperature
        )
    print(f"\n--- [2단계] 잠재적 문제점 발상 완료. 총 {len(problem_candidates)}개의 후보 선정. ---")
    return problem_candidates

### 실행 예시를 위한 입력 데이터 준비 (전체 약관 원문 + 전체 요약)

#### 실행 예시를 위한 입력 데이터 준비 (약관 원문 TXT 파일 로드)

In [None]:
full_policy_text_file_path = '/content/drive/MyDrive/PROJECT/cn_api_project/txt/full/무배당 삼성화재 다이렉트보험약관.txt'

In [None]:
analysis_target_text_full = "" # 변수 초기화
print(f"\n--- 분석 대상 약관 원문 전체 텍스트 로드 중: '{full_policy_text_file_path}' ---")
try: # 파일 존재 확인
    if os.path.exists(full_policy_text_file_path):
    # 파일 읽기 모드('r', read)로 열고 전체 내용 읽기
        with open(full_policy_text_file_path, 'r', encoding='utf-8') as f:
            analysis_target_text_full = f.read()
        print("약관 원문 전체 텍스트 로드 완료.")
        print(f"로드된 텍스트 길이: {len(analysis_target_text_full)} 문자.")
    else:
        print(f"!!! 오류: 약관 원문 전체 텍스트 파일을 찾을 수 없습니다 - '{full_policy_text_file_path}' !!!")
        print("Google Drive 마운트 상태와 경로를 확인해주세요.")
        analysis_target_text_full = "" # 파일 없으면 빈 문자열

except Exception as e:
    print(f"!!! 오류: 약관 원문 전체 텍스트 로드 중 오류 발생: {e} !!!")
    analysis_target_text_full = "" # 로드 실패 시 빈 문자열


--- 분석 대상 약관 원문 전체 텍스트 로드 중: '/content/drive/MyDrive/UNIV./25-1/컴퓨터네트워크/cn_api_project/txt/full/무배당 삼성화재 다이렉트보험약관.txt' ---
약관 원문 전체 텍스트 로드 완료.
로드된 텍스트 길이: 219962 문자.


#### 이전 약관 전체 요약 내용 (previous_full_summary)

In [None]:
previous_summary_file_path = '/content/drive/MyDrive/UNIV./25-1/컴퓨터네트워크/cn_api_project/txt/summary/full_summary.txt'

In [None]:
previous_full_summary_text = "" # 변수 초기화
print(f"\n--- 이전 약관 전체 요약 텍스트 로드 중: '{previous_summary_file_path}' ---")
try:
    # 파일 존재 확인
    if os.path.exists(previous_summary_file_path):
    # 파일 읽기 모드('r', read)로 열고 전체 내용 읽기
        with open(previous_summary_file_path, 'r', encoding='utf-8') as f:
            previous_full_summary_text = f.read()
            print("이전 약관 전체 요약 로드 완료.")
            print(f"로드된 텍스트 길이: {len(previous_full_summary_text)} 문자.")
    else:
        print(f"!!! 경고: 이전 약관 전체 요약 파일을 찾을 수 없습니다 - '{previous_summary_file_path}' !!!")
        print("이전 약관 요약 없이 문제점 발상이 진행됩니다.")
        previous_full_summary_text = "" # 파일 없으면 빈 문자열

except Exception as e:
    print(f"!!! 오류: 이전 약관 전체 요약 텍스트 로드 중 오류 발생: {e} !!!")
    previous_full_summary_text = "" # 로드 실패 시 빈 문자열


--- 이전 약관 전체 요약 텍스트 로드 중: '/content/drive/MyDrive/UNIV./25-1/컴퓨터네트워크/cn_api_project/txt/summary/full_summary.txt' ---
이전 약관 전체 요약 로드 완료.
로드된 텍스트 길이: 28235 문자.


### 2단계 실행 예시 (문제점 발상)



> 벡터 스토어가 로드되었고 (rag_vectorstore is not None)
GPT 모델이 로드되었다면 (llm is not None)
그리고 분석 대상 텍스트와 이전 요약 텍스트가 로드되었다면
2단계 분석을 실행





> 1. 약관 원문 전체 텍스트 분할: analysis_target_text_full 변수에 담긴 약관 원문 전체 텍스트를 적절한 크기(예: 3000~5000자)의 청크로 나눠. 이때 약관의 목차나 조항 기준으로 자르면 더 의미있는 단위가 될 수 있지만, 간단하게는 문자열 길이 기준으로 자를 수 있어.
2. 분할된 각 청크 순회: 나눠진 각 청크에 대해 반복문을 돌면서 문제점 발상 Self-consistency (run_problem_identification_step)를 실행해.
3. 프롬프트 내용: 각 반복 시 run_problem_identification_step 함수에 다음 내용을 전달해.
analysis_text: 현재 반복에서 처리할 약관 원문 텍스트 청크 (전체 대신 부분!).
previous_summary: 이전 약관 전체 요약 (이건 계속 전체를 넘겨줘도 괜찮을 거야).
rag_vectorstore: 벡터 스토어 객체 (RAG 검색에 사용).
4. 결과 취합: 각 청크별로 발상된 문제점 후보 목록 결과들을 하나의 큰 리스트로 모아.



In [None]:
if rag_vectorstore is not None and llm is not None and analysis_target_text_full and previous_full_summary_text: # 입력 데이터도 확인
    print(f"\n--- 2단계 잠재적 문제점 발상 시작 (약관 원문 전체 대상, RAG 활용) ---")


--- 2단계 잠재적 문제점 발상 시작 (약관 원문 전체 대상, RAG 활용) ---


In [None]:
# --- 약관 원문 전체 텍스트를 청크로 분할 ---
chunk_size_analysis = 4000 # 분석 프롬프트에 넣을 텍스트 청크 크기 (토큰 고려 조절)
                               # gpt-4o 128k 토큰 감안, RAG 검색 결과 등 포함 시 안전하게 4000-8000자 추천
chunk_overlap_analysis = 500 # 청크 간 겹침 (컨텍스트 유지)

# Langchain RecursiveCharacterTextSplitter를 다시 사용하여 분할
# 임베딩 시 사용한 것과 동일하거나 다른 설정 사용 가능
analysis_text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size_analysis,
    chunk_overlap=chunk_overlap_analysis
        # chunk_size와 overlap 설정은 RAG 임베딩 시와 다를 수 있습니다.
        # 여기서는 분석 프롬프트에 들어갈 텍스트 양을 조절하는 목적입니다.
    )

# Document 객체로 만들어야 TextSplitter 사용 가능. 간단하게 전체 텍스트를 하나의 Document로 만듭니다.
# 메타데이터는 필요에 따라 추가 (예: source)
from langchain_core.documents import Document # 임포트 확인
doc_to_split = Document(page_content=analysis_target_text_full, metadata={"source": "원본 약관 전체"})

print(f"\n약관 원문 전체 텍스트 ({len(analysis_target_text_full)}자)를 {chunk_size_analysis}자씩 분할 중...")
analysis_chunks = analysis_text_splitter.split_documents([doc_to_split]) # split_documents는 Document 리스트를 받습니다.
print(f"약관 원문 전체 텍스트 분할 완료. 총 {len(analysis_chunks)}개의 분석 청크 생성.")


약관 원문 전체 텍스트 (219962자)를 4000자씩 분할 중...
약관 원문 전체 텍스트 분할 완료. 총 63개의 분석 청크 생성.


In [None]:
all_problem_candidates_from_chunks = [] # 모든 청크에서 발상된 문제점 후보들을 모을 리스트

# --- 분할된 각 청크에 대해 문제점 발상 실행 ---
for i, chunk_doc in enumerate(analysis_chunks):
    current_analysis_chunk_text = chunk_doc.page_content # 현재 청크의 텍스트 내용
    print(f"\n\n===== [전체 약관 분석] 청크 {i+1}/{len(analysis_chunks)} 문제점 발상 시작 =====")

    # run_problem_identification_step 함수 호출하여 현재 청크에 대해 2단계 실행
    # analysis_text에 현재 청크 텍스트를 전달
    # previous_summary에 이전 약관 전체 요약 텍스트를 전달
    # use_rag=True로 설정하여 RAG 활성화 (각 청크 분석 시마다 관련 RAG 검색 수행)
    chunk_problem_candidates = run_problem_identification_step(
        analysis_text=current_analysis_chunk_text, # 분석 대상: 현재 약관 청크!
        previous_summary=previous_full_summary_text, # 이전 요약 내용 전체! (각 청크 분석 시마다 참고)
        use_rag=True, # RAG 활성화!
        rag_vectorstore=rag_vectorstore, # 로드된 벡터 스토어 전달
        iterations=1, # Self-consistency 반복 횟수 (각 청크별 반복) - 전체 실행 시간 고려 조절 필요!
        model="gpt-4o-2024-05-13", # GPT 모델
        temperature=1.0 # 발상 단계 온도
        )

    # 현재 청크에서 발상된 문제점 후보들을 전체 리스트에 추가
    all_problem_candidates_from_chunks.extend(chunk_problem_candidates)

    print(f"\n--- 청크 {i+1}/{len(analysis_chunks)} 문제점 발상 완료. 현재까지 발상된 총 후보 개수: {len(all_problem_candidates_from_chunks)} ---")



===== [전체 약관 분석] 청크 1/63 문제점 발상 시작 =====

--- [2단계] RAG를 사용한 잠재적 문제점 발상 시작 ---

--- RAG 검색 시작 ---
RAG 검색 완료. 총 5개의 참고 자료 확보.

===== [2단계] 잠재적 문제점 발상 Self-consistency (RAG 활용) 분석 시작 (1회 반복) =====

----- [1/1 번째 문제점 발상 시도 중] -----

===== [2단계] 잠재적 문제점 발상 Self-consistency (RAG 활용) 결과 요약 빈도 =====
'[{"id": 1, "관련_약관_원문_표현": "정당한 이유 없이 입원기간 중 의사의 지시를 따르지 않음", "근거_및_추론과정": "약관 원문 제3관 제4조에 따르면 '정당한 이...': 1회

===== [2단계] Self-consistency 최종 문제점 발상 결과 (RAG 활용) =====
총 7개의 문제점 후보 선정 (Self-consistency 기반):
- 요약: 보상 제외 조건의 모호성
  근거 (CoT): 약관 원문 제3관 제4조에 따르면 '정당한 이유 없이 입원기간 중 의사의 지시를 따르지 않음'은 보상 제외 조건 중 하나이다. 하지만 '정당한 이유'와 '의사의 지시'의 해석은 주관적이다. 예를 들어, 환자가 특정 의학적 이유로 다른 치료를 선택한다면 이는 보험사와 소...
  관련 약관/자료: 정당한 이유 없이 입원기간 중 의사의 지시를 따르지 않음 | 출처: ['금감원 분쟁사례집 2023 p.45', '약관 규제법 제6조']
--------------------
- 요약: 고지 의무의 까다로움
  근거 (CoT): 약관 원문 제5관 제14조에 따르면 계약자는 계약 전에 중요한 사항을 보험사에 알려야 한다. 하지만 '중요한 사항'의 범위나 중요성을 소비자가 판단하기 어려운 경우가 많다. 법적 분쟁 사례에서도 고지 의무는 보험사와 소비자 간의 가장 빈번한 분쟁 원인 중 하나로 나타난...
  관련 약관/자료: 계약자는 계

In [None]:
print("\n\n===== 2단계 최종 결과 (전체 약관 문제점 발상 종합) =====")
print(f"약관 원문 전체 분석 결과, 총 {len(all_problem_candidates_from_chunks)}개의 잠재적 문제점 후보 발상.")



===== 2단계 최종 결과 (전체 약관 문제점 발상 종합) =====
약관 원문 전체 분석 결과, 총 442개의 잠재적 문제점 후보 발상.


### gdrive에 step2 폴더 만들어 저장

In [None]:
# --- Step 2 결과 저장 경로 지정 ---
# Google Drive 내에서 Step 2 결과를 저장할 폴더 경로
# 이 폴더가 없다면 자동으로 생성됩니다.
STEP2_RESULTS_SAVE_DIR = '/content/drive/MyDrive/UNIV./25-1/컴퓨터네트워크/cn_api_project/step2_results' # 예시 경로
# 저장할 파일 이름
STEP2_RESULTS_FILE_NAME = 'problem_candidates.json'
# 최종 저장될 파일 경로
step2_results_save_path = os.path.join(STEP2_RESULTS_SAVE_DIR, STEP2_RESULTS_FILE_NAME)


print("\n--- Step 2 결과 (잠재적 문제점 후보 목록) Google Drive에 저장 시작 ---")

# 저장할 데이터 확인 (all_problem_candidates_from_chunks 변수에 결과가 담겨 있는지)
# run_problem_identification_step 함수 실행 결과를 담았던 변수 이름을 확인하세요.
# 이전 코드에서 all_problem_candidates_from_chunks 변수에 결과가 담겼습니다.
data_to_save = all_problem_candidates_from_chunks if 'problem_candidates_result' in locals() and all_problem_candidates_from_chunks else []


if data_to_save:
    try:
        # 저장 디렉토리가 없다면 생성
        if not os.path.exists(STEP2_RESULTS_SAVE_DIR):
            os.makedirs(STEP2_RESULTS_SAVE_DIR, exist_ok=True)
            print(f"저장 디렉토리 생성: '{STEP2_RESULTS_SAVE_DIR}'")
        else:
            print(f"저장 디렉토리 확인: '{STEP2_RESULTS_SAVE_DIR}'")

        # JSON 파일로 저장
        # 'w' 모드는 쓰기 모드, encoding='utf-8'은 한글 깨짐 방지
        # json.dump() 함수로 파이썬 객체를 JSON 문자열로 변환하여 파일에 씁니다.
        # ensure_ascii=False는 한글이 유니코드 이스케이프(\uXXXX)되지 않도록 합니다.
        # indent=2는 JSON 파일을 들여쓰기하여 사람이 읽기 쉽게 만듭니다. (파일 크기는 커짐)
        with open(step2_results_save_path, 'w', encoding='utf-8') as f:
            json.dump(data_to_save, f, ensure_ascii=False, indent=2)

        print(f"--- Step 2 결과 JSON 파일 저장 완료! ---")
        print(f"파일 경로: '{step2_results_save_path}'")
        print(f"저장된 문제점 후보 개수: {len(data_to_save)}")

    except Exception as e:
        print(f"!!! 오류: Step 2 결과 저장 중 오류 발생 !!!")
        print(f"오류 내용: {e}")
        print(f"경로 확인: '{step2_results_save_path}' 경로에 쓸 수 있는지, Google Drive 마운트 상태가 올바른지 확인하세요.")

else:
    print("!!! Step 2 분석 결과 (문제점 후보 목록)가 비어있습니다. 저장할 내용이 없습니다. !!!")
    print("이전 분석 실행 단계에서 오류가 발생했는지 확인해주세요.")

print("\n--- Step 2 노트북 마무리 코드 실행 완료 ---")


--- Step 2 결과 (잠재적 문제점 후보 목록) Google Drive에 저장 시작 ---
저장 디렉토리 생성: '/content/drive/MyDrive/UNIV./25-1/컴퓨터네트워크/cn_api_project/step2_results'
--- Step 2 결과 JSON 파일 저장 완료! ---
파일 경로: '/content/drive/MyDrive/UNIV./25-1/컴퓨터네트워크/cn_api_project/step2_results/problem_candidates.json'
저장된 문제점 후보 개수: 442

--- Step 2 노트북 마무리 코드 실행 완료 ---
