In [1]:
#1. 사용환경 준비
import os
from getpass import getpass

os.environ["OPENAI_API_KEY"] = getpass("OpenAI API key 입력: ") # API 키 입력

OpenAI API key 입력:  ········


In [2]:
#2. 모델 로드하기 
from langchain_openai import ChatOpenAI

# 모델 초기화
model = ChatOpenAI(model="gpt-4o-mini")

In [3]:
#3. 문서 로드하기
from langchain.document_loaders import CSVLoader

# csv 파일 로드.
loader = CSVLoader("Cultural_asset.csv",encoding='UTF8')
loader2 = CSVLoader("Travel_spot.csv",encoding='UTF8')

# 페이지 별 문서 로드
Treasures = loader.load()
Travel = loader2.load()
print(Travel[:1])

[Document(metadata={'source': 'Travel_spot.csv', 'row': 0}, page_content='title: 구인사(단양)\naddress: 충청북도 단양군 영춘면 구인사길 73\ntelNo: ')]


In [4]:
#4. 문서 청크로 나누기(CharacterTextSplitter)
from langchain.text_splitter import CharacterTextSplitter
from langchain.schema import Document



# 텍스트 청크 분할기 설정 (문단 기준 분할)
text_splitter = CharacterTextSplitter(
    separator="\n",
    chunk_overlap=10,
    length_function=len,
    is_separator_regex=False,
)

splits = text_splitter.split_documents(Treasures) # 문서를 청크로 분할
splits2 = text_splitter.split_documents(Travel)
print(splits2[1]) # 상위 1개만 출력

page_content='title: 원대리 자작나무 숲 (속삭이는 자작나무 숲)
address: 강원특별자치도 인제군 인제읍 자작나무숲길 760
telNo: 자작나무숲 안내소 033-463-0044' metadata={'source': 'Travel_spot.csv', 'row': 1}


In [5]:
#5 벡터 임베딩 생성
from langchain_openai import OpenAIEmbeddings

# OpenAI 임베딩 모델 초기화
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")


In [6]:
#6. 벡터 저장소 생성
import faiss
from langchain_community.vectorstores import FAISS

# 문서에서 벡터 저장소 생성
vectorstore = FAISS.from_documents(documents=splits, embedding=embeddings)

In [7]:
#(수정)Travel 데이터를 기반으로 벡터 저장소 생성
travel_vectorstore = FAISS.from_documents(documents=splits2, embedding=embeddings)

In [8]:
#7. FAISS를 Retriever로 변환
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 1})

In [9]:
#(수정)Travel 데이터를 위한 Retriever 생성
travel_retriever = travel_vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 2})

In [29]:
#8. 프롬프트 템플릿을 정의하라
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough

# 프롬프트 템플릿 정의
contextual_prompt = ChatPromptTemplate.from_messages([
    ("system", "Answer the question using only the following context. Do not include any external information. Respond in Korean only."),
    ("user", "Context: {context}\\n\\nQuestion: {question}")
])

In [34]:
# (수정) 띄어쓰기 문제 개선 코드 
import re

class ContextToPrompt:
    def __init__(self, prompt_template):
        self.prompt_template = prompt_template

    def normalize_spacing(self, text):
        # 모든 연속된 공백을 하나의 공백으로 줄임
        return re.sub(r'\s+', ' ', text).strip()

    def invoke(self, inputs):
        if isinstance(inputs, list):
            # 페이지 내용을 정리하여 하나의 텍스트로 연결, 띄어쓰기를 정규화
            context_text = "\n".join([self.normalize_spacing(doc.page_content.strip()) for doc in inputs])
        else:
            context_text = self.normalize_spacing(inputs.strip())

        # 프롬프트에 적용
        formatted_prompt = self.prompt_template.format_messages(
            context=context_text,
            question=inputs.get("question", "").strip() if isinstance(inputs, dict) else inputs.strip()
        )
        return formatted_prompt

In [33]:
!pip install fuzzywuzzy
!pip install python-Levenshtein

