# 수정 및 추가

## 1. txt파일로 프롬프트 적용
1. select_prompt 정의(items, get, open, read)
 - items: 키, 값을 튜플로 묶어 반환
 - get: choice(사용자 입력 값)을 키로 값(prompt)를 반환
 - open:파일 열어서 읽기 모드('r')
 - read: 파일 불러오기
2. langchain.prompts.chat 정의(ChatPromptTemplate, SystemMessagePromptTemplate, HumanMessagePromptTemplate )
 - ChatPromptTemplate: 다른 두 템플릿을 결합해서 대화형식 메시지로 구성
 - SystemMessagePromptTemplate: 모델의 역할(system_message) 지정
 - HumanMessagePromptTemplate: 사용자의 질문({user_input}) 지정
 
 
## 2. RAG체인 구성 변환

1) LLMChain 추가
 - 템플릿을 기반으로 여러 메시지를 조합하고 모델에 전달
 - contextual_prompt을 처리하고, 모델을 실행하는 방식으로 변경


2) ContextToText 클래스 수정
 - LLMChain에 맞게 RunnablePassthrough를 상속 받지않고, 단순 메서드 정의

3) 실행방식 변경(파이프라인=>get_contextual_response())
 - 사용자의 질문에 대한 컨텍스트를 가져오고, 이를 chat_prompt 템플릿에 맞게 포맷팅하여 모델에 전달
 - retriever.get_relevant_documents(query): 질문에 맞는 문서들을 검색
 - ContextToText 클래스에서 변환된 텍스트는 formatted_messages에 담겨 모델에 전달

## 3. 반복 질문 삭제
- while루프 제거

## 4. 답변 txt파일로 저장 코드 추가
- output_folder: r포맷팅으로 저장 경로 지정
- os.makedirs: 폴더안에 저장 지정
- timestamp: 현재 년,월,일,시,분,초를 txt파일 이름으로 지정
- open: 쓰기모드('w")를 지정

# 수정 본

In [3]:
import os
from getpass import getpass

# OpenAI API Key 설정
os.environ["OPENAI_API_KEY"] = getpass("OpenAI API key 입력: ")

# 모델 로드
from langchain_openai import ChatOpenAI

model = ChatOpenAI(model="gpt-4o-mini", temperature=0.3, max_tokens=1000)

# PDF 파일 로드
from langchain.document_loaders import PyPDFLoader

pdf_path = "초거대언어모델연구동향.pdf"

loader = PyPDFLoader(pdf_path)
docs = loader.load()

# 문서 청크 나누기
from langchain.text_splitter import RecursiveCharacterTextSplitter

recursive_text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=10,
    length_function=len,
    is_separator_regex=False,
)

splits = recursive_text_splitter.split_documents(docs)

# 벡터 임베딩 생성
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import FAISS
from langchain_community.docstore.in_memory import InMemoryDocstore
import faiss

embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")
vector_dim = len(embeddings.embed_query("example text"))
index = faiss.IndexFlatL2(vector_dim)

vector_store = FAISS(
    embedding_function=embeddings,
    index=index,
    docstore=InMemoryDocstore(),
    index_to_docstore_id={},
)

# 문서 추가
for split in splits:
    vector_store.add_texts([split.page_content], metadatas=[split.metadata])

retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 2})

# 프롬프트 파일 선택
def select_prompt():
    prompts = {
        "1": "prompt1.txt",
        "2": "prompt2.txt",
        "3": "prompt3.txt",
    }

    print("사용할 프롬프트를 선택하세요:")
    for key, value in prompts.items():
        print(f"{key}: {value}")

    choice = input("선택: ").strip()
    return prompts.get(choice, "prompt1.txt")  # 기본값으로 prompt1.txt 사용

prompt_file = select_prompt()

# 선택한 프롬프트 파일 읽기
with open(prompt_file, "r", encoding="utf-8") as file:
    system_message = file.read()

# ChatPromptTemplate 구성
from langchain.prompts.chat import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,
    HumanMessagePromptTemplate,
)

system_message_template = SystemMessagePromptTemplate.from_template(system_message)
human_message_template = HumanMessagePromptTemplate.from_template("{user_input}")

chat_prompt = ChatPromptTemplate.from_messages(
    [system_message_template, human_message_template]
)

# RAG 체인 클래스 및 디버그 기능 추가
from langchain_core.runnables import RunnablePassthrough
from langchain.chains import LLMChain
from datetime import datetime

class DebugPassThrough(RunnablePassthrough):
    def invoke(self, *args, **kwargs):
        output = super().invoke(*args, **kwargs)
        print("Debug Output:", output)
        return output

class ContextToText:
    def invoke(self, inputs, config=None, **kwargs):
        context_text = "\n".join([doc.page_content for doc in inputs["context"]])
        return {"context": context_text, "question": inputs["question"]}

contextual_prompt = LLMChain(
    prompt=chat_prompt,
    llm=model,
)

# 질문 응답 체인 구성
def get_contextual_response(query):
    # 리트리버에서 컨텍스트 가져오기
    context = retriever.get_relevant_documents(query)

    # 문서 내용을 텍스트로 변환
    context_text = "\n".join([doc.page_content for doc in context])

    # 최종 시스템 및 사용자 메시지 생성
    formatted_messages = chat_prompt.format_messages(
        context=context_text, user_input=query
    )

    # 모델 실행
    response = DebugPassThrough().invoke(model(formatted_messages))
    return response

# 결과 저장 경로
output_folder = r"C:\Users\USER\mission\mission\Results"
os.makedirs(output_folder, exist_ok=True)  # 폴더가 없으면 생성

# 질문 입력 및 처리
query = input("질문을 입력하세요: ")

# 모델로부터 답변 생성
response = get_contextual_response(query)

# 답변 출력
print("Final Response: ")
print(response.content)

# 결과 파일 저장
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")  # 현재 시각으로 파일명 생성
output_file = os.path.join(output_folder, f"response_{timestamp}.txt")

with open(output_file, "w", encoding="utf-8") as file:
    file.write(f"질문: {query}\n\n")
    file.write(f"답변:\n{response.content}\n")

print(f"답변이 다음 위치에 저장되었습니다: {output_file}")


OpenAI API key 입력: ········
질문을 입력하세요: 초거대 언어모델의 주요 연구동향을 설명해줘
Debug Output: 초거대 언어모델의 주요 연구동향을 설명해줘
Debug Output: {'context': [], 'question': '초거대 언어모델의 주요 연구동향을 설명해줘'}
Final Response: 
초거대 언어모델(very large language models, VLLMs)은 인공지능(AI) 분야에서 최근 몇 년간 큰 주목을 받고 있는 연구 주제입니다. 이러한 모델들은 방대한 양의 텍스트 데이터를 학습하여 자연어 처리(NLP) 작업을 수행하는 데 사용됩니다. 여기서는 초거대 언어모델의 주요 연구 동향을 설명하겠습니다.

1. **모델 크기와 성능의 관계**: 초거대 언어모델은 일반적으로 수십억 개의 매개변수를 가지고 있으며, 이는 모델의 성능을 크게 향상시킵니다. 연구자들은 모델의 크기를 늘리는 것이 성능 개선에 미치는 영향을 지속적으로 조사하고 있습니다. 예를 들어, OpenAI의 GPT-3와 같은 모델은 그 크기 덕분에 다양한 언어 작업에서 뛰어난 성능을 보여주었습니다.

2. **효율성 및 지속 가능성**: 모델의 크기가 커짐에 따라 학습과 추론에 필요한 계산 자원도 증가합니다. 이에 따라 연구자들은 더 적은 자원으로도 효과적으로 학습할 수 있는 방법을 모색하고 있습니다. 예를 들어, 지식 증류(knowledge distillation)와 같은 기술을 통해 작은 모델이 큰 모델의 성능을 모방할 수 있도록 하는 연구가 활발히 진행되고 있습니다.

3. **다양한 응용 분야**: 초거대 언어모델은 단순한 텍스트 생성뿐만 아니라, 번역, 요약, 질문 응답 등 다양한 NLP 작업에 활용되고 있습니다. 최근 연구에서는 이러한 모델들이 특정 도메인에 맞춰 조정(파인튜닝)될 수 있도록 하는 방법에 대한 관심도 높아지고 있습니다.

4. **윤리적 고려사항**: 초거대 언어모델의 사용이 증가함에 따라, 이들 모델이 생성하는 콘텐츠의 

KeyboardInterrupt: Interrupted by user