## Setting

### Packages

In [1]:
import torch
from transformers import BertModel
from langchain_community.document_loaders import PDFPlumberLoader
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import BertForSequenceClassification  # 추가된 임포트
from sentence_transformers import SentenceTransformer
from langchain_community.vectorstores import FAISS
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_core.messages import HumanMessage
from langgraph.graph import StateGraph, END
from typing import TypedDict, Annotated, Sequence
import operator
from langchain_upstage import UpstageEmbeddings
from langchain_openai import ChatOpenAI
import os
from dotenv import load_dotenv
import sentencepiece as spm
from langchain_core.prompts import PromptTemplate
import time

### Virtual Env

In [2]:
# .env 파일에서 환경 변수 로드
load_dotenv()

True

### Load Evaluataion Model

In [3]:
# BERT 모델 및 토크나이저 로드
bert_tokenizer = AutoTokenizer.from_pretrained("monologg/kobert", trust_remote_code=True)
#bert_model = BertModel.from_pretrained("monologg/kobert")
bert_model = BertForSequenceClassification.from_pretrained("monologg/kobert", trust_remote_code=True)

The argument `trust_remote_code` is to be used with Auto classes. It has no effect here and is ignored.
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at monologg/kobert and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


### Load Generation Model

In [4]:
# ChatOpenAI 모델 초기화
gpt_llm = ChatOpenAI(
    model_name="gpt-4o-mini-2024-07-18",  # 또는 다른 OpenAI 모델
    temperature=0.2,
    openai_api_key=os.getenv("OPENAI_API_KEY")  # .env 파일에서 API 키 로드
)

### RAG Setting

Embedding : UpstageEmbeddings

text_splitter : RecursiveCharacterTextSplitter

vectorstore : pinecone,faiss

document_loader : PDFPlumberLoader

#### Pinecone

In [5]:
import os
print(os.environ["OPENAI_API_KEY"])
print(os.environ["PINECONE_API_KEY"])
print(os.environ["UPSTAGE_API_KEY"])
# LangSmith 추적을 설정합니다. https://smith.langchain.com
# !pip install langchain-teddynote


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
ef8401a9-8e31-4a23-a0fc-98be372c344f
up_f3IfWgnKZIyJEdPRpaIGUvW2KAyfF


In [6]:

from langchain_teddynote import logging
# 프로젝트 이름을 입력합니다.
logging.langsmith("Liberty_ai")


LangSmith 추적을 시작합니다.
[프로젝트명]
Liberty_ai


In [7]:

from langchain_teddynote.korean import stopwords

# 한글 불용어 사전 불러오기 (불용어 사전 출처: https://www.ranks.nl/stopwords/korean)
stopword = stopwords()
stopword

['아',
 '휴',
 '아이구',
 '아이쿠',
 '아이고',
 '어',
 '나',
 '우리',
 '저희',
 '따라',
 '의해',
 '을',
 '를',
 '에',
 '의',
 '가',
 '으로',
 '로',
 '에게',
 '뿐이다',
 '의거하여',
 '근거하여',
 '입각하여',
 '기준으로',
 '예하면',
 '예를 들면',
 '예를 들자면',
 '저',
 '소인',
 '소생',
 '저희',
 '지말고',
 '하지마',
 '하지마라',
 '다른',
 '물론',
 '또한',
 '그리고',
 '비길수 없다',
 '해서는 안된다',
 '뿐만 아니라',
 '만이 아니다',
 '만은 아니다',
 '막론하고',
 '관계없이',
 '그치지 않다',
 '그러나',
 '그런데',
 '하지만',
 '든간에',
 '논하지 않다',
 '따지지 않다',
 '설사',
 '비록',
 '더라도',
 '아니면',
 '만 못하다',
 '하는 편이 낫다',
 '불문하고',
 '향하여',
 '향해서',
 '향하다',
 '쪽으로',
 '틈타',
 '이용하여',
 '타다',
 '오르다',
 '제외하고',
 '이 외에',
 '이 밖에',
 '하여야',
 '비로소',
 '한다면 몰라도',
 '외에도',
 '이곳',
 '여기',
 '부터',
 '기점으로',
 '따라서',
 '할 생각이다',
 '하려고하다',
 '이리하여',
 '그리하여',
 '그렇게 함으로써',
 '하지만',
 '일때',
 '할때',
 '앞에서',
 '중에서',
 '보는데서',
 '으로써',
 '로써',
 '까지',
 '해야한다',
 '일것이다',
 '반드시',
 '할줄알다',
 '할수있다',
 '할수있어',
 '임에 틀림없다',
 '한다면',
 '등',
 '등등',
 '제',
 '겨우',
 '단지',
 '다만',
 '할뿐',
 '딩동',
 '댕그',
 '대해서',
 '대하여',
 '대하면',
 '훨씬',
 '얼마나',
 '얼마만큼',
 '얼마큼',
 '남짓',
 '여',
 '얼마간',
 '약간',
 '다소',
 '좀',
 '조

In [8]:
from langchain_community.document_loaders import PDFPlumberLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
import glob

# 텍스트 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=50)

split_docs = []

# 텍스트 파일을 load -> List[Document] 형태로 변환
files = sorted(glob.glob("data/*.pdf"))

for file in files:
    loader = PDFPlumberLoader(file)
    split_docs.extend(loader.load_and_split(text_splitter))

# 문서 개수 확인
len(split_docs)

880

In [9]:
split_docs[0].page_content

'형법\n형법\n[시행 2024.2.9.][법률 제19582호, 2023.8.8., 일부개정]\n제1편 총칙\n제1장 형법의 적용범위\n제1조(범죄의 성립과 처벌) ① 범죄의 성립과 처벌은 행위 시의 법률에 따른다.\n② 범죄 후 법률이 변경되어 그 행위가 범죄를 구성하지 아니하게 되거나 형이 구법(舊法)보다 가벼워진 경\n우에는 신법(新法)에 따른다.\n③ 재판이 확정된 후 법률이 변경되어 그 행위가 범죄를 구성하지 아니하게 된 경우에는 형의 집행을 면제\n한다.\n[전문개정 2020.12.8.]'

In [10]:
# metadata 를 확인합니다.
split_docs[0].metadata

{'source': 'data/Criminal Law Selected Provisions.pdf',
 'file_path': 'data/Criminal Law Selected Provisions.pdf',
 'page': 0,
 'total_pages': 38,
 'Creator': 'Hancom PDF 1.3.0.404',
 'Producer': 'Hancom PDF 1.3.0.404',
 'CreationDate': "D:20241001192149+09'00'",
 'ModDate': "D:20241001192149+09'00'",
 'PDFVersion': '1.4'}

In [41]:
from langchain_teddynote.community.pinecone import preprocess_documents

contents, metadatas = preprocess_documents(
    split_docs=split_docs,
    metadata_keys=["source", "page"],
    min_length=5,
    use_basename=True,
)


  0%|          | 0/880 [00:00<?, ?it/s]

In [39]:
import json
   
# metadatas가 JSON 문자열이라고 가정
metadatas


KeyError: 'author'

In [45]:
# VectorStore 에 저장할 문서 확인
contents[:5]

['형법\n형법\n[시행 2024.2.9.][법률 제19582호, 2023.8.8., 일부개정]\n제1편 총칙\n제1장 형법의 적용범위\n제1조(범죄의 성립과 처벌) ① 범죄의 성립과 처벌은 행위 시의 법률에 따른다.\n② 범죄 후 법률이 변경되어 그 행위가 범죄를 구성하지 아니하게 되거나 형이 구법(舊法)보다 가벼워진 경\n우에는 신법(新法)에 따른다.\n③ 재판이 확정된 후 법률이 변경되어 그 행위가 범죄를 구성하지 아니하게 된 경우에는 형의 집행을 면제\n한다.\n[전문개정 2020.12.8.]',
 '한다.\n[전문개정 2020.12.8.]\n제2조(국내범) 본법은 대한민국영역내에서 죄를 범한 내국인과 외국인에게 적용한다.\n제3조(내국인의 국외범) 본법은 대한민국영역외에서 죄를 범한 내국인에게 적용한다.\n제4조(국외에 있는 내국선박등에서 외국인이 범한 죄) 본법은 대한민국영역외에 있는 대한민국의 선박 또는\n항공기내에서 죄를 범한 외국인에게 적용한다.\n제5조(외국인의 국외범) 본법은 대한민국영역외에서 다음에 기재한 죄를 범한 외국인에게 적용한다.\n1. 내란의 죄\n2. 외환의 죄\n3. 국기에 관한 죄\n4. 통화에 관한 죄',
 '1. 내란의 죄\n2. 외환의 죄\n3. 국기에 관한 죄\n4. 통화에 관한 죄\n5. 유가증권, 우표와 인지에 관한 죄\n6. 문서에 관한 죄중 제225조 내지 제230조\n7. 인장에 관한 죄중 제238조\n제6조(대한민국과 대한민국국민에 대한 국외범) 본법은 대한민국영역외에서 대한민국 또는 대한민국국민에\n대하여 전조에 기재한 이외의 죄를 범한 외국인에게 적용한다. 단 행위지의 법률에 의하여 범죄를 구성하지\n아니하거나 소추 또는 형의 집행을 면제할 경우에는 예외로 한다.',
 '아니하거나 소추 또는 형의 집행을 면제할 경우에는 예외로 한다.\n제7조(외국에서 집행된 형의 산입) 죄를 지어 외국에서 형의 전부 또는 일부가 집행된 사람에 대해서는 그\n집행된 형의 전부 또는 일부를 선고하는 형에 산입한다.\n[전문

In [42]:
# VectorStore 에 저장할 metadata 확인
metadatas.keys()

dict_keys(['source', 'page'])

In [43]:
# metadata 에서 source 를 확인합니다.
metadatas["source"][:5]

['Criminal Law Selected Provisions.pdf',
 'Criminal Law Selected Provisions.pdf',
 'Criminal Law Selected Provisions.pdf',
 'Criminal Law Selected Provisions.pdf',
 'Criminal Law Selected Provisions.pdf']

In [44]:
# 문서 개수 확인, 소스 개수 확인, 페이지 개수 확인
len(contents), len(metadatas["source"]), len(metadatas["page"])

(880, 880, 880)

In [16]:
os.environ["PINECONE_INDEX_NAME"]

'liberty-index'

In [46]:
import os
from langchain_teddynote.community.pinecone import create_index

# Pinecone 인덱스 생성
pc_index = create_index(
    api_key=os.environ["PINECONE_API_KEY"],
    index_name=os.environ["PINECONE_INDEX_NAME"],  # 인덱스 이름을 지정합니다.
    dimension=4096,  # Embedding 차원과 맞춥니다. (OpenAIEmbeddings: 1536, UpstageEmbeddings: 4096)
    metric="dotproduct",  # 유사도 측정 방법을 지정합니다. (dotproduct, euclidean, cosine)
)

[create_index]
{'dimension': 4096,
 'index_fullness': 0.0,
 'namespaces': {'liberty-namespace-01': {'vector_count': 0}},
 'total_vector_count': 0}


In [47]:
from langchain_teddynote.community.pinecone import (
    create_sparse_encoder,
    fit_sparse_encoder,
)

# 한글 불용어 사전 + Kiwi 형태소 분석기를 사용합니다.
sparse_encoder = create_sparse_encoder(stopwords(), mode="kiwi")

In [48]:
# Sparse Encoder 를 사용하여 contents 를 학습
saved_path = fit_sparse_encoder(
    sparse_encoder=sparse_encoder, contents=contents, save_path="./sparse_encoder.pkl"
)

  0%|          | 0/880 [00:00<?, ?it/s]

[fit_sparse_encoder]
Saved Sparse Encoder to: ./sparse_encoder.pkl


In [49]:
from langchain_teddynote.community.pinecone import load_sparse_encoder

# 추후에 학습된 sparse encoder 를 불러올 때 사용합니다.
sparse_encoder = load_sparse_encoder("./sparse_encoder.pkl")

[load_sparse_encoder]
Loaded Sparse Encoder from: ./sparse_encoder.pkl


In [50]:
from langchain_openai import OpenAIEmbeddings
from langchain_upstage import UpstageEmbeddings

openai_embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
upstage_embeddings = UpstageEmbeddings(model="solar-embedding-1-large-passage")

In [52]:
%%time
from langchain_teddynote.community.pinecone import upsert_documents
from langchain_teddynote.community.pinecone import upsert_documents_parallel
from langchain_upstage import UpstageEmbeddings

upsert_documents_parallel(
    index=pc_index,  # Pinecone 인덱스
    namespace="liberty-namespace-01",  # Pinecone namespace
    contents=contents,  # 이전에 전처리한 문서 내용
    metadatas=metadatas,  # 이전에 전처리한 문서 메타데이터
    sparse_encoder=sparse_encoder,  # Sparse encoder
    embedder=upstage_embeddings,
    batch_size=64,
    max_workers=30,
)

문서 Upsert 중:   0%|          | 0/14 [00:00<?, ?it/s]

총 880개의 Vector 가 Upsert 되었습니다.
{'dimension': 4096,
 'index_fullness': 0.0,
 'namespaces': {'liberty-namespace-01': {'vector_count': 1696}},
 'total_vector_count': 1696}
CPU times: user 13.2 s, sys: 437 ms, total: 13.6 s
Wall time: 20.1 s


In [53]:
# 인덱스 조회
pc_index.describe_index_stats()

{'dimension': 4096,
 'index_fullness': 0.0,
 'namespaces': {'liberty-namespace-01': {'vector_count': 1888}},
 'total_vector_count': 1888}

In [54]:
from langchain_teddynote.community.pinecone import init_pinecone_index

pinecone_params = init_pinecone_index(
    index_name=os.environ["PINECONE_INDEX_NAME"],  # Pinecone 인덱스 이름
    namespace="liberty-namespace-01",  # Pinecone Namespace
    api_key=os.environ["PINECONE_API_KEY"],  # Pinecone API Key
    sparse_encoder_path="./sparse_encoder.pkl",  # Sparse Encoder 저장경로(save_path)
    stopwords=stopwords(),  # 불용어 사전
    tokenizer="kiwi",
    embeddings=UpstageEmbeddings(
        model="solar-embedding-1-large-query"
    ),  # Dense Embedder
    top_k=5,  # Top-K 문서 반환 개수
    alpha=0.5,  # alpha=0.75로 설정한 경우, (0.75: Dense Embedding, 0.25: Sparse Embedding)
)

[init_pinecone_index]
{'dimension': 4096,
 'index_fullness': 0.0,
 'namespaces': {'liberty-namespace-01': {'vector_count': 1888}},
 'total_vector_count': 1888}


#### PineconeKiwiHybridRetriever

`PineconeKiwiHybridRetriever` 클래스는 Pinecone과 Kiwi를 결합한 하이브리드 검색기를 구현합니다.

**주요 속성**
* `embeddings`: 밀집 벡터 변환용 임베딩 모델
* `sparse_encoder`: 희소 벡터 변환용 인코더
* `index`: Pinecone 인덱스 객체
* `top_k`: 반환할 최대 문서 수
* `alpha`: 밀집 벡터와 희소 벡터의 가중치 조절 파라미터
* `namespace`: Pinecone 인덱스 내 네임스페이스

**특징**
* 밀집 벡터와 희소 벡터를 결합한 HybridSearch Retriever
* 가중치 조절을 통한 검색 전략 최적화 가능
* 다양한 동적 metadata 필터링 적용 가능(`search_kwargs` 사용: `filter`, `k`, `rerank`, `rerank_model`, `top_n` 등)

**사용 예시**
1. `init_pinecone_index` 함수로 필요한 구성 요소 초기화
2. 초기화된 구성 요소로 `PineconeKiwiHybridRetriever` 인스턴스 생성
3. 생성된 검색기를 사용하여 하이브리드 검색 수행

In [55]:
from langchain_teddynote.community.pinecone import PineconeKiwiHybridRetriever

# 검색기 생성
pinecone_retriever = PineconeKiwiHybridRetriever(**pinecone_params)

In [59]:
# 실행 결과
search_results = pinecone_retriever.invoke("미성년자 관련 조항에 대해서 알려줘",earch_kwargs={"k": 5})
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

2005.3.31.>
제911조(미성년자인 자의 법정대리인) 친권을 행사하는 부 또는 모는 미성년자인 자의 법정대리인이 된다.
제912조(친권 행사와 친권자 지정의 기준<개정 2011.5.19.>) ① 친권을 행사함에 있어서는 자의 복리를 우
선적으로 고려하여야 한다.
② 가정법원이 친권자를 지정함에 있어서는 자(子)의 복리를 우선적으로 고려하여야 한다. 이를 위하여 가
정법원은 관련 분야의 전문가나 사회복지기관으로부터 자문을 받을 수 있다. <신설 2011.5.19.>
[본조신설 2005.3.31.]
제2관 친권의 효력
{'page': 85.0, 'source': 'Minbub Selected Provisions.pdf', 'score': 0.30153847}


2005.3.31.>
제911조(미성년자인 자의 법정대리인) 친권을 행사하는 부 또는 모는 미성년자인 자의 법정대리인이 된다.
제912조(친권 행사와 친권자 지정의 기준<개정 2011.5.19.>) ① 친권을 행사함에 있어서는 자의 복리를 우
선적으로 고려하여야 한다.
② 가정법원이 친권자를 지정함에 있어서는 자(子)의 복리를 우선적으로 고려하여야 한다. 이를 위하여 가
정법원은 관련 분야의 전문가나 사회복지기관으로부터 자문을 받을 수 있다. <신설 2011.5.19.>
[본조신설 2005.3.31.]
제2관 친권의 효력
{'page': 85.0, 'source': 'Minbub Selected Provisions.pdf', 'score': 0.3015222}


아니하거나 소추 또는 형의 집행을 면제할 경우에는 예외로 한다.
제7조(외국에서 집행된 형의 산입) 죄를 지어 외국에서 형의 전부 또는 일부가 집행된 사람에 대해서는 그
집행된 형의 전부 또는 일부를 선고하는 형에 산입한다.
[전문개정 2016.12.20.]
제8조(총칙의 적용) 본법 총칙은 타법령에 정한 죄에 적용한다. 단 그 법령에 특별한 규정이 있는 때에는 예
외로 한다.
제2장 죄
제1절 죄의 성립과 형의 감면
제9조(형사미성년자)

In [61]:
# 실행 결과
search_results = pinecone_retriever.invoke(
    "주택담보대출", search_kwargs={"alpha": 1, "k": 1}
)
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

약이 있는 경우에 준용한다.
③ 전2항의 권리는 매수인이 그 사실을 안 날로부터 1년내에 행사하여야 한다.
제576조(저당권, 전세권의 행사와 매도인의 담보책임) ① 매매의 목적이 된 부동산에 설정된 저당권 또는 전
세권의 행사로 인하여 매수인이 그 소유권을 취득할 수 없거나 취득한 소유권을 잃은 때에는 매수인은 계약
을 해제할 수 있다.
② 전항의 경우에 매수인의 출재로 그 소유권을 보존한 때에는 매도인에 대하여 그 상환을 청구할 수 있다.
③ 전2항의 경우에 매수인이 손해를 받은 때에는 그 배상을 청구할 수 있다.
{'page': 51.0, 'source': 'Minbub Selected Provisions.pdf', 'score': 0.22686088}




In [62]:
# 실행 결과
search_results = pinecone_retriever.invoke(
    "앤스로픽의 claude 출시 관련 내용을 알려줘",
    search_kwargs={"filter": {"page": {"$lt": 5}}, "k": 2},
)
for result in search_results:
    print(result.page_content)
    print(result.metadata)
    print("\n====================\n")

민법
민법
[시행 2024.5.17.][법률 제19409호, 2023.5.16., 타법개정]
제1편 총칙
제1장 통칙
제1조(법원) 민사에 관하여 법률에 규정이 없으면 관습법에 의하고 관습법이 없으면 조리에 의한다.
제2조(신의성실) ① 권리의 행사와 의무의 이행은 신의에 좇아 성실히 하여야 한다.
② 권리는 남용하지 못한다.
제2장 인
제1절 능력
제3조(권리능력의 존속기간) 사람은 생존한 동안 권리와 의무의 주체가 된다.
제4조(성년) 사람은 19세로 성년에 이르게 된다.
[전문개정 2011.3.7.]
{'page': 0.0, 'source': 'Minbub Selected Provisions.pdf', 'score': 0.07375415}


민법
민법
[시행 2024.5.17.][법률 제19409호, 2023.5.16., 타법개정]
제1편 총칙
제1장 통칙
제1조(법원) 민사에 관하여 법률에 규정이 없으면 관습법에 의하고 관습법이 없으면 조리에 의한다.
제2조(신의성실) ① 권리의 행사와 의무의 이행은 신의에 좇아 성실히 하여야 한다.
② 권리는 남용하지 못한다.
제2장 인
제1절 능력
제3조(권리능력의 존속기간) 사람은 생존한 동안 권리와 의무의 주체가 된다.
제4조(성년) 사람은 19세로 성년에 이르게 된다.
[전문개정 2011.3.7.]
{'page': 0.0, 'source': 'Minbub Selected Provisions.pdf', 'score': 0.07373993}




In [None]:
# 임베딩 및 벡터스토어 설정
passage_embeddings = UpstageEmbeddings(model="solar-embedding-1-large-query")
text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=20)

DATA_DIR_PATH = "./data"
documents= []

# data 디렉토리 내의 모든 PDF 파일 처리
for filename in os.listdir(DATA_DIR_PATH):
    if filename.endswith(".pdf"):
        file_path = os.path.join(DATA_DIR_PATH, filename)
        print(f"처리 중인 파일: {filename}")
        
        # PDF 문서 로더 인스턴스 생성 및 문서 로딩
        loader = PDFPlumberLoader(file_path)
        docs = loader.load()
        
        # 문서를 청크로 분할하고 all_texts에 추가
        for doc in docs:
            documents.extend(text_splitter.split_text(doc.page_content))

for doc in documents:
    documents.extend(text_splitter.split_text(doc))
vectorstore = FAISS.from_texts(documents, passage_embeddings)

In [6]:
import os
import time
from langchain_upstage import UpstageEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_community.document_loaders import PDFPlumberLoader

# 시작 시간 기록
start_time = time.time()

# 임베딩 및 벡터스토어 설정
passage_embeddings = UpstageEmbeddings(model="solar-embedding-1-large-passage")
text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=20)

DATA_DIR_PATH = "./data"
documents = []

# 전체 PDF 파일 수 계산
total_files = sum(1 for filename in os.listdir(DATA_DIR_PATH) if filename.endswith(".pdf"))
processed_files = 0

print(f"총 {total_files}개의 PDF 파일을 처리합니다.")

# data 디렉토리 내의 모든 PDF 파일 처리
for filename in os.listdir(DATA_DIR_PATH):
    if filename.endswith(".pdf"):
        file_path = os.path.join(DATA_DIR_PATH, filename)
        processed_files += 1
        print(f"처리 중인 파일 ({processed_files}/{total_files}): {filename}")
        
        # PDF 문서 로더 인스턴스 생성 및 문서 로딩
        loader = PDFPlumberLoader(file_path)
        docs = loader.load()
        
        # 문서를 청크로 분할하고 documents에 추가
        for doc in docs:
            documents.extend(text_splitter.split_text(doc.page_content))

print(f"모든 PDF 파일 처리 완료. 총 {len(documents)}개의 텍스트 청크가 생성되었습니다.")

# 벡터 저장소 생성
print("벡터 저장소 생성 중...")
vectorstore = FAISS.from_texts(documents, passage_embeddings)
print("벡터 저장소 생성 완료.")

# 종료 시간 기록 및 총 소요 시간 계산
end_time = time.time()
total_time = end_time - start_time

print(f"\n작업 완료 항목:")
print(f"1. {total_files}개의 PDF 파일 처리")
print(f"2. {len(documents)}개의 텍스트 청크 생성")
print(f"3. FAISS 벡터 저장소 생성")
print(f"\n총 소요 시간: {total_time:.2f}초")

# 처리된 텍스트의 일부 내용 출력 (선택사항)
if documents:
    print("\n처리된 텍스트의 일부 내용 예시:")
    print(documents[0][:300])

총 2개의 PDF 파일을 처리합니다.
처리 중인 파일 (1/2): Minbub Selected Provisions.pdf
처리 중인 파일 (2/2): Criminal Law Selected Provisions.pdf
모든 PDF 파일 처리 완료. 총 3047개의 텍스트 청크가 생성되었습니다.
벡터 저장소 생성 중...
벡터 저장소 생성 완료.

작업 완료 항목:
1. 2개의 PDF 파일 처리
2. 3047개의 텍스트 청크 생성
3. FAISS 벡터 저장소 생성

총 소요 시간: 455.51초

처리된 텍스트의 일부 내용 예시:
민법
민법
[시행 2024.5.17.][법률 제19409호, 2023.5.16., 타법개정]
제1편 총칙
제1장 통칙


## Agent

In [70]:
# 상태 정의
class AgentState(TypedDict):
    messages: Annotated[Sequence[HumanMessage], operator.add]

### Functions

In [71]:
# 노드 함수들
def evaluate_question(state):
    start_time = time.time()
    messages = state['messages']
    question = messages[-1].content
    inputs = bert_tokenizer(question, return_tensors='pt')
    outputs = bert_model(**inputs)
    classification = torch.argmax(outputs.logits, dim=1).item()
    classification_map = {0: "일반 법률 질문", 1: "복잡한 법률 질문"}
    evaluation = classification_map.get(classification, "알 수 없음")
    end_time = time.time()
    print(f"평가 단계 실행 시간: {end_time - start_time:.2f}초")
    return {"messages": [HumanMessage(content=f"평가 결과: {evaluation}")]}

# 테스트 코드
state = {'messages': [HumanMessage(content='계약 위반 시 손해배상 청구는 어떻게 하나요?')]}
evaluate_question(state)

평가 단계 실행 시간: 2.04초


{'messages': [HumanMessage(content='평가 결과: 일반 법률 질문')]}

##### PineconeVectorStore는 의존성 문제로 인하여 PineconekiwiHybridRetriever로 해결

In [72]:
from langchain_teddynote.community.pinecone import PineconeKiwiHybridRetriever

# 검색기 생성
pinecone_retriever = PineconeKiwiHybridRetriever(**pinecone_params)
def retrieve_info(state):
    start_time = time.time()
    messages = state['messages']
    query = messages[-1].content + " " + messages[0].content
    # Pinecone 벡터스토어를 사용하여 유사한 문서 검색
    docs = pinecone_retriever.invoke(query, search_kwargs={"k": 3})
    retrieved_info = "\n".join([doc.page_content for doc in docs])
    
    end_time = time.time()
    print(f"검색 단계 실행 시간: {end_time - start_time:.2f}초")
    return {"messages": [HumanMessage(content=f"검색된 정보: {retrieved_info}")]}

# 테스트 코드
state = {'messages': [HumanMessage(content='계약 위반 시 손해배상 청구는 어떻게 하나요?'), HumanMessage(content='평가 결과: 일반 법률 질문')]}
retrieve_info(state)

검색 단계 실행 시간: 1.83초


{'messages': [HumanMessage(content='검색된 정보: 을 법원에 청구할 수 있다. <개정 2014.12.30.>\n③ 그 채무가 불작위를 목적으로 한 경우에 채무자가 이에 위반한 때에는 채무자의 비용으로써 그 위반한\n것을 제각하고 장래에 대한 적당한 처분을 법원에 청구할 수 있다.\n④ 전3항의 규정은 손해배상의 청구에 영향을 미치지 아니한다.\n제390조(채무부이행과 손해배상) 채무자가 채무의 내용에 좇은 이행을 하지 아니한 때에는채권자는 손해배상\n을 청구할 수 있다. 그러나 채무자의 고의나 과실없이 이행할 수 없게 된때에는 그러하지 아니하다.\n35 / 111 국회법률정보시스템\n을 법원에 청구할 수 있다. <개정 2014.12.30.>\n③ 그 채무가 불작위를 목적으로 한 경우에 채무자가 이에 위반한 때에는 채무자의 비용으로써 그 위반한\n것을 제각하고 장래에 대한 적당한 처분을 법원에 청구할 수 있다.\n④ 전3항의 규정은 손해배상의 청구에 영향을 미치지 아니한다.\n제390조(채무부이행과 손해배상) 채무자가 채무의 내용에 좇은 이행을 하지 아니한 때에는채권자는 손해배상\n을 청구할 수 있다. 그러나 채무자의 고의나 과실없이 이행할 수 없게 된때에는 그러하지 아니하다.\n35 / 111 국회법률정보시스템\n수령을 거절하고 이행에 갈음한 손해배상을 청구할 수 있다. <개정 2014.12.30.>\n제396조(과실상계) 채무부이행에 관하여 채권자에게 과실이 있는 때에는 법원은 손해배상의 책임 및 그 금액\n을 정함에 이를 참작하여야 한다.\n제397조(금전채무부이행에 대한 특칙) ① 금전채무부이행의 손해배상액은 법정이율에 의한다. 그러나 법령의\n제한에 위반하지 아니한 약정이율이 있으면 그 이율에 의한다.\n② 전항의 손해배상에 관하여는 채권자는 손해의 증명을 요하지 아니하고 채무자는 과실없음을 항변하지 못\n한다.')]}

In [73]:
def generate_response(state):
    start_time = time.time()
    messages = state['messages']
    evaluation = messages[1].content
    retrieved_info = messages[2].content
    user_input = messages[0].content
    
    prompt_template = PromptTemplate(
        input_variables=["evaluation", "retrieved_info", "user_input"],
        template="""
        당신은 전문 법률 AI 어시스턴트입니다.
        
        {evaluation}
        {retrieved_info}
        
        사용자 질문: {user_input}
        
        위의 평가 결과와 검색된 정보를 바탕으로 사용자에게 도움이 되는 법률 답변을 제공하세요.
        """
    )
    
    prompt = prompt_template.format(
        evaluation=evaluation,
        retrieved_info=retrieved_info,
        user_input=user_input
    )
    response = gpt_llm.invoke(prompt)
    end_time = time.time()
    print(f"생성 단계 실행 시간: {end_time - start_time:.2f}초")
    return {"messages": [HumanMessage(content=f"AI 응답: {response.content}")]}

# 테스트 코드
state = {'messages': [
    HumanMessage(content='계약 위반 시 손해배상 청구는 어떻게 하나요?'),
    HumanMessage(content='평가 결과: 일반 법률 질문'),
    HumanMessage(content='검색된 정보: 계약은 양 당사자 간의 합의에 의해 성립됩니다.')
]}
generate_response(state)

생성 단계 실행 시간: 4.80초


{'messages': [HumanMessage(content='AI 응답: 계약 위반 시 손해배상 청구는 다음과 같은 절차를 따릅니다:\n\n1. **계약 내용 확인**: 먼저, 계약서의 내용을 자세히 검토하여 어떤 조항이 위반되었는지 확인합니다. 계약서에는 위반 시의 손해배상에 대한 조항이 포함되어 있을 수 있습니다.\n\n2. **위반 사실 통지**: 계약 위반이 발생한 경우, 상대방에게 위반 사실을 통지하는 것이 중요합니다. 이때, 서면으로 통지하는 것이 좋으며, 위반 사실과 그로 인해 발생한 손해를 구체적으로 설명해야 합니다.\n\n3. **손해액 산정**: 손해배상을 청구하기 위해서는 실제로 발생한 손해를 입증해야 합니다. 손해액을 산정할 때는 직접적인 손해뿐만 아니라, 간접적인 손해도 포함될 수 있습니다.\n\n4. **협상 시도**: 상대방과의 협상을 통해 손해배상에 대한 합의를 시도할 수 있습니다. 이 과정에서 상대방이 손해배상을 인정하고 합의에 이르면, 별도의 소송 없이 문제를 해결할 수 있습니다.\n\n5. **소송 제기**: 만약 협상이 실패할 경우, 법원에 소송을 제기할 수 있습니다. 이때, 계약서, 통지서, 손해액 증명 자료 등을 준비하여 제출해야 합니다.\n\n6. **법원의 판단**: 법원은 제출된 증거를 바탕으로 계약 위반 여부와 손해배상 책임을 판단하게 됩니다. 법원의 판결에 따라 손해배상이 이루어질 수 있습니다.\n\n계약 위반에 대한 손해배상 청구는 복잡할 수 있으므로, 필요시 법률 전문가의 도움을 받는 것이 좋습니다.')]}

### Graph

In [74]:
# 그래프 생성
def create_graph():
    workflow = StateGraph(AgentState)
    
    workflow.add_node("평가", evaluate_question)
    workflow.add_node("검색", retrieve_info)
    workflow.add_node("생성", generate_response)
    
    workflow.set_entry_point("평가")
    workflow.add_edge("평가", "검색")
    workflow.add_edge("검색", "생성")
    workflow.add_edge("생성", END)
    
    return workflow.compile()

# 테스트 코드
create_graph()

CompiledStateGraph(nodes={'__start__': PregelNode(config={'tags': ['langsmith:hidden'], 'metadata': {}, 'configurable': {}}, channels=['__start__'], triggers=['__start__'], writers=[ChannelWrite<messages>(recurse=True, writes=[ChannelWriteEntry(channel='messages', value=<object object at 0x1752371d0>, skip_none=False, mapper=_get_state_key(recurse=False))], require_at_least_one_of=['messages']), ChannelWrite<start:평가>(recurse=True, writes=[ChannelWriteEntry(channel='start:평가', value='__start__', skip_none=False, mapper=None)], require_at_least_one_of=None)]), '평가': PregelNode(config={'tags': [], 'metadata': {}, 'configurable': {}}, channels={'messages': 'messages'}, triggers=['start:평가'], mapper=functools.partial(<function _coerce_state at 0x17720cf40>, <class '__main__.AgentState'>), writers=[ChannelWrite<평가,messages>(recurse=True, writes=[ChannelWriteEntry(channel='평가', value='평가', skip_none=False, mapper=None), ChannelWriteEntry(channel='messages', value=<object object at 0x1752371d

## Test

In [76]:
# 실행 함수
def run_pipeline(user_input):
    start_time = time.time()
    graph = create_graph()
    inputs = {"messages": [HumanMessage(content=user_input)]}
    
    evaluation_count = 0
    evaluation_result = None
    
    for output in graph.stream(inputs):
        for key, value in output.items():
            if key == "평가":
                evaluation_count += 1
                evaluation_result = value['messages'][-1].content
                print(f"평가 단계 실행 횟수: {evaluation_count}")
                print(f"평가 결과: {evaluation_result}")
            elif key == "생성":
                print(f"AI 응답: {value['messages'][-1].content}")
    
    end_time = time.time()
    print(f"전체 실행 시간: {end_time - start_time:.2f}초")
    print(f"총 평가 단계 실행 횟수: {evaluation_count}")

# 실행 예시
user_input = '계약 위반 시 손해배상 청구는 어떻게 하나요?'
run_pipeline(user_input)

평가 단계 실행 시간: 0.07초
평가 단계 실행 횟수: 1
평가 결과: 평가 결과: 일반 법률 질문
검색 단계 실행 시간: 1.60초
생성 단계 실행 시간: 8.91초
AI 응답: AI 응답: 계약 위반 시 손해배상을 청구하는 방법에 대해 설명드리겠습니다.

1. **채무불이행의 확인**: 먼저, 상대방이 계약의 내용을 이행하지 않았는지 확인해야 합니다. 계약서에 명시된 의무를 이행하지 않은 경우, 이는 채무불이행에 해당합니다.

2. **손해의 발생**: 채권자는 채무불이행으로 인해 발생한 손해를 입증해야 합니다. 손해는 직접적인 손실뿐만 아니라, 계약 이행이 이루어졌다면 얻었을 이익도 포함될 수 있습니다.

3. **손해배상 청구**: 채권자는 채무자가 계약을 위반한 경우, 손해배상을 청구할 수 있습니다. 이때, 채무자의 고의나 과실이 없었던 경우에는 손해배상을 청구할 수 없습니다(제390조).

4. **법원에 청구**: 손해배상을 청구하기 위해서는 법원에 소송을 제기해야 합니다. 이때, 손해의 증명과 함께 계약 위반 사실을 입증해야 합니다.

5. **과실상계**: 만약 채권자에게도 과실이 있는 경우, 법원은 손해배상의 책임 및 금액을 정할 때 이를 참작할 수 있습니다(제396조).

6. **금전채무의 경우**: 금전채무의 경우 손해배상액은 법정이율에 따라 계산되며, 채권자는 손해의 증명을 요구하지 않고, 채무자는 과실이 없음을 항변할 수 없습니다(제397조).

결론적으로, 계약 위반으로 인한 손해배상을 청구하려면 위의 절차를 따르며, 필요한 증거를 준비하는 것이 중요합니다. 법률 전문가와 상담하여 구체적인 상황에 맞는 조언을 받는 것도 좋은 방법입니다.
전체 실행 시간: 10.62초
총 평가 단계 실행 횟수: 1
