In [None]:
import os
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings,OpenAI,ChatOpenAI
from langchain.vectorstores import FAISS
from langchain.chains import ConversationalRetrievalChain

# FAISS 저장 파일 경로
faiss_file_path = "./faiss_index"

# 폴더 경로 지정
folder_path = "./reports"

# 문서 분할 설정
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)

# 임베딩 모델 설정
embeddings = OpenAIEmbeddings()

# FAISS DB 로드 또는 생성
if os.path.exists(faiss_file_path):
    print("Loading existing FAISS index...")
    vector_store = FAISS.load_local(faiss_file_path, embeddings, allow_dangerous_deserialization=True)
else:
    print("FAISS index not found. Creating a new one...")
    # 전체 문서 저장소 초기화
    all_docs = []

    # 폴더 및 하위 폴더 내 PDF 파일 반복 처리
    for root, dirs, files in os.walk(folder_path):
        for file_name in files:
            if file_name.endswith(".pdf"):
                file_path = os.path.join(root, file_name)
                print(f"Processing file: {file_path}")

                # PDF 로더로 문서 읽기
                loader = PyPDFLoader(file_path)
                documents = loader.load()

                # 문서 분할 및 추가
                docs = text_splitter.split_documents(documents)
                all_docs.extend(docs)

    # 모든 문서를 벡터 저장소에 저장
    vector_store = FAISS.from_documents(all_docs, embeddings)
    vector_store.save_local(faiss_file_path)
    print(f"FAISS index saved at {faiss_file_path}")

# LLM 설정
llm = OpenAI(temperature=0)

# QA 체인 생성
qa_chain = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=vector_store.as_retriever(),
    return_source_documents=True,
)

# QA 체인을 테스트하는 코드 예시
query = "Provide a summary of the key points in the documents."
response = qa_chain({"question": query, "chat_history": []})

print("Response:", response["answer"])


Loading existing FAISS index...


  response = qa_chain({"question": query, "chat_history": []})


Response:  The documents discuss the introduction of the EU's Digital Product Passport (DPP) and its implications, as well as the main contents and implications of the EU's competitiveness report. They also touch on the international financial market, including interest rates, exchange rates, and stock prices. The main focus is on recent developments and regulations related to trade in North Korea, with a special emphasis on the opinions of the author, a researcher at the Korean Development Bank.


In [None]:
from langchain.prompts import PromptTemplate
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_openai import ChatOpenAI
from langchain.docstore.document import Document

# LLM 초기화
llm = ChatOpenAI(
    temperature=0,
    openai_api_key = api_key
    )

# 사용자 정의 프롬프트 템플릿
custom_prompt = PromptTemplate(
    input_variables=["context", "question", "history"],
    template=(
        "당신은 친절하고 전문적인 경제 전문가로서 사용자 질문에 답변하는 AI입니다. "
        "당신의 목표는 복잡한 경제 정보를 쉽게 설명하고, 상세하고 정확하며 실용적인 조언을 제공하는 것입니다.\n\n"
        "다음은 문서에서 추출한 관련 정보입니다:\n\n{context}\n\n"
        "이전에 나눈 대화는 다음과 같습니다:\n{history}\n\n"
        "위의 정보와 대화를 바탕으로, 아래 질문에 대해 경제 전문가로서 "
        "심층적이고 분석적인 답변을 작성해 주세요. "
        "가능한 경우, 구체적인 예시와 설명을 추가하고, 관련 배경 지식도 포함해 주세요.\n\n"
        "질문: {question}\n\n"
        "친절하고 분석적인 답변:"
    )
)

# QA 체인 생성
qa_chain = create_stuff_documents_chain(llm, custom_prompt)

# 대화 기록을 관리하는 클래스
class ConversationHistory:
    def __init__(self):
        self.history = []

    def add_entry(self, question, answer):
        self.history.append({"question": question, "answer": answer})

    def to_text(self):
        return "\n".join(
            [f"Q: {entry['question']}\nA: {entry['answer']}" for entry in self.history]
        )

# 히스토리 관리 객체 생성
history_manager = ConversationHistory()

# 사용자 질문 처리 함수
def process_query(query):
    # 유사 문서 검색
    try:
        retrieved_docs = vector_store.similarity_search(query, k=5)
    except Exception as e:
        print(f"Error during document retrieval: {e}")
        return "문서를 검색하는 동안 오류가 발생했습니다."

    # 검색된 문서를 Document 객체로 변환
    documents = [
        Document(
            page_content=doc.page_content if hasattr(doc, 'page_content') else str(doc),
            metadata=doc.metadata
        )
        for doc in retrieved_docs
    ]

    # 히스토리를 문자열로 생성
    history_text = history_manager.to_text()

    # 응답 생성
    try:
        response = qa_chain.invoke({
            "context": documents,
            "question": query,
            "history": history_text
        })
    except Exception as e:
        print(f"Error during response generation: {e}")
        response = "응답을 생성하는 동안 오류가 발생했습니다."

    # 히스토리에 추가
    history_manager.add_entry(query, response)

    return response

# 예제 실행
if __name__ == "__main__":
    print("경제 전문가 챗봇에 오신 것을 환영합니다!")
    while True:
        query = input("질문을 입력하세요 (종료하려면 'exit' 입력): ")
        if query.lower() == "exit":
            print("챗봇을 종료합니다. 감사합니다!")
            break

        response = process_query(query)
        print("\n[챗봇 답변]:\n", response)


ValidationError: 5 validation errors for ChatOpenAI
model_name
  Input should be a valid string [type=string_type, input_value=FieldInfo(default='gpt-3....as_priority=2, extra={}), input_type=FieldInfo]
    For further information visit https://errors.pydantic.dev/2.9/v/string_type
model_kwargs
  Input should be a valid dictionary [type=dict_type, input_value=FieldInfo(default=Pydanti...class 'dict'>, extra={}), input_type=FieldInfo]
    For further information visit https://errors.pydantic.dev/2.9/v/dict_type
openai_api_base
  Input should be a valid string [type=string_type, input_value=FieldInfo(alias='base_url...as_priority=2, extra={}), input_type=FieldInfo]
    For further information visit https://errors.pydantic.dev/2.9/v/string_type
openai_organization
  Input should be a valid string [type=string_type, input_value=FieldInfo(alias='organiza...as_priority=2, extra={}), input_type=FieldInfo]
    For further information visit https://errors.pydantic.dev/2.9/v/string_type
max_retries
  Input should be a valid integer [type=int_type, input_value=FieldInfo(default=2, extra={}), input_type=FieldInfo]
    For further information visit https://errors.pydantic.dev/2.9/v/int_type