## 세팅

In [1]:
from pypdf import PdfReader
from openai import OpenAI
import os
from dotenv import load_dotenv

from langchain_openai.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain import hub
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA
from langchain.agents import initialize_agent, AgentType, Tool
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

import time


load_dotenv()
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

## PDF에서 텍스트를 읽어 청크로 분할

In [6]:
# PDF에서 텍스트 읽어서 txt로 저장
# pdf_list = ["data/rag_data/jwc.pdf"]

# with open("data/rag_data/jwc.txt", "w", encoding="utf-8") as f:
#     for pdf_path in pdf_list:
#         reader = PdfReader(pdf_path)
#         for page in reader.pages:
#             text_page = page.extract_text()
#             f.write(text_page + "\n")

In [9]:
# 전처리하고 다시 읽어와서 청크로 저장하기
chunks = []
chunk_length = 2048
with open("data/rag_data/szg.txt", "r", encoding="utf-8") as f:
    text = f.read()
    chunks.extend([text[i:i+chunk_length] for i in range(0, len(text), chunk_length)])

In [None]:
print(len(chunks))
print(chunks[0])

## FAISS에 벡터 저장

FAISS 내장 함수 정리

1. FAISS.from_texts()

- texts: 벡터 저장소에 추가할 텍스트 리스트(List(str))
- embedding: 사용할 임베딩 함수
- metadatas: 메타데이터 리스트(List[dict])
- ids: 문서 ID 리스트(List(str))

2. vectorstore.add_texts(): 텍스트를 임베딩하고 벡터 저장소에 추가
- texts(Iterable[str]): 벡터 저장소에 추가할 텍스트 이터러블

3. vectorstore.save_local(): FAISS 인덱스, 문서 저장소, 인덱스-문서 ID 매핑을 로컬에 저장
- FAISS 인덱스를 별도의 파일로 저장하고, 문서 저장소와 인덱스-문서 ID 매핑을 pickle 형식으로 저장함
- folder_path: 저장할 폴더 경로
- index_name: 저장할 인덱스 파일 이름(기본값: index)

4. FAISS.load_local(): FAISS 인덱스, 문서 저장소, 인덱스 - 문서 ID 매핑을 불러오는 기능
- folder_path: 불러올 파일들이 저장된 경로
- embeddings: 쿼리 생성에 사용할 임베딩 객체

5. vectorstore.docstore._dict: 벡터스토어에 저장된 문서 확인

In [11]:
# 임베딩 모델 쓸 수 있는 거
# - text-embedding-3-small
# - text-embedding-3-large
# - text-embedding-ada-002 (default)

embeddings = OpenAIEmbeddings()
vectorstore = FAISS.from_texts(chunks, embeddings)

In [12]:
# 벡터스토어 저장

vectorstore.save_local(folder_path="data/szg_vs")

In [5]:
# 벡터스토어 불러오기

vectorstore = FAISS.load_local(folder_path="data/spiderman_vs", embeddings=embeddings, allow_dangerous_deserialization=True)

In [5]:
# IVF 인덱스 되는지 실험

import numpy as np
import faiss
from langchain.docstore.in_memory import InMemoryDocstore
from langchain.schema import Document

text_embeddings = embeddings.embed_documents(chunks)
text_embeddings=  np.array(text_embeddings).astype('float32')

d = text_embeddings.shape[1]
nlist = 10
quantizer = faiss.IndexFlatL2(d)

index = faiss.IndexIVFFlat(quantizer, d, nlist, faiss.METRIC_L2)

index.train(text_embeddings)
index.add(text_embeddings)

# 8. 문서 저장소 및 인덱스 매핑 정의
docstore = InMemoryDocstore({i: Document(page_content=text) for i, text in enumerate(chunks)})

# 9. 간단한 인덱스-문서 매핑 (직접 매핑 정의)
index_to_docstore_id = {i: i for i in range(len(chunks))}

vectorstore = FAISS(embedding_function=embeddings, index=index, docstore=docstore, index_to_docstore_id=index_to_docstore_id)

vectorstore.as_retriever()

- 벡터 저장소를 기반으로 VectorStoreRetriever 객체 생성
- VectorStoreRetriever: 벡터 저장소 기반의 검색기 객체

search_type: 검색 유형("similarity", "mmr", "similarity_score_threshold")
- similarity: 유사도 기반 검색(기본값)
- mmr: Maximal Marginal Relevance 검색
- similarity_score_threshold: 임계값 기반 유사도 검색

검색 매개변수 커스터마이징
- k: 반환할 문서 수 (기본값: 4)
- score_threshold: 유사도 점수 임계값
- fetch_k: MMR 알고리즘에 전달할 문서 수 (기본값: 20)
- lambda_mult: MMR 다양성 조절 파라미터 (기본값: 0.5)
- filter:  문서 메타데이터 기반 필터링

- MMR 검색 시 fetch_k를 높이고, lambda_mult를 조절해 다양성과 관련성의 균형을 맞출 수 있음

In [13]:
# 이 부분 나중에 최적화 실험

retriever = vectorstore.as_retriever()

## RAG를 수행하는 부분

In [None]:
# RAG prompt

prompt = hub.pull("rlm/rag-prompt")

In [None]:
# RAG에 사용할 모델 정의

rag_llm = ChatOpenAI(
    model_name = "gpt-4-1106-preview",
    temperature=0
)

In [16]:
# QA 체인 정의

qa_chain = RetrievalQA.from_chain_type(
    llm=rag_llm,
    retriever=retriever,
    chain_type_kwargs={"prompt": prompt},
    verbose=True,
    return_source_documents=True
)

In [None]:
start_time = time.time()
result = qa_chain({"query": "얼티밋 유니버스가 뭐야?"})
end_time = time.time()
response_time = end_time - start_time
print(result["result"])
print(f"검색 총 소요 시간: {response_time:.2f}")

## langchain agent가 사용할 tool 정의

In [33]:
tools = [
    Tool(
        name="doc_search_tool",
        func=qa_chain,
        description=(
            "This tool is used to retrieve information from the knowledge base"
        )
    )
]

## Agent 정의

In [47]:
system_message = """
    You will act as 신짱구 character and answer the user's questions and interact with the user who is fan of 신짱구.

    You can refer to the following information about 신짱구
    - Characteristic: 짱구는 못말려의 주인공. 신형만, 봉미선 부부의 아들이며, 신짱아의 오빠이다.
    - Personality: 트러블 메이커, 마이 웨이, 호기심이 많음, 장난꾸러기, 사고뭉치, 게으름, 귀찮음, 쑥스럼을 많이 탐.

    You can refer to the following texts to mimic 신짱구 tone and style:
    Here is some text: '안녕하세요, 누나.'
    Here is a rewrite of the text, which is 신짱구's manner: '어? 예쁜 누나들. 헬로, 헤로헤로헤롱. 이야, 난 신짱구.'

    Here is some text: '전 신짱구예요.'
    Here is a rewrite of the text, which is 신짱구's manner: '전 신짱구예요. 우리 동네에선 쪼끔 유명해요. 떡잎유치원 해바라기반에 다니고 있고 부끄러움을 많이 탄답니다.' 

    You should follow the guidlines below:
    - You must act like a 신짱구 character. Use a first-person perspective. Do not say "신짱구는~ "
    - You must answer in Korean
    - You must follow the 신짱구 style naturally.
    - Like the text provided, change the sentence in 신짱구 style.
    - You must refer to the source of documents provided to answer about 신짱구.
    - If the answer isn't available within in the context, state the fact.
    - Otherwise, answer to your best capability, referring to source of documents provided.
    - Answer what you found in the document in 신짱구 style.
    - Limit responses to three or four sentences for clarity and conciseness.
"""

In [42]:
# agent에 사용할 모델 정의

# gpt4: gpt-4
# 스파이더맨 finetuning: ft:gpt-4o-2024-08-06:personal:spiderman-ft-1:A6ZT99j0
# 전우치 finetuning: ft:gpt-4o-2024-08-06:personal:juc-1:AFWso3PG
# 짱구 finetuning: ft:gpt-4o-2024-08-06:personal:szg-1:AFiwN0J2

llm = ChatOpenAI(
    model_name = "ft:gpt-4o-2024-08-06:personal:szg-1:AFiwN0J2",
    temperature=1
)

In [43]:
# agent에 사용할 메모리 정의 (나중에 실험)

from langchain.memory import ConversationBufferMemory

memory = ConversationBufferMemory(
    memory_key="chat_history",
    input_key="input",
    return_messages=True,
    output_key="output",
)

In [48]:
# agent 정의

agent = initialize_agent(
    agent=AgentType.CHAT_CONVERSATIONAL_REACT_DESCRIPTION,
    tools=tools,
    llm=llm,
    memory=memory,
    return_source_documents=True,
    return_intermediated_steps=True,
    agent_kwargs={"system_message": system_message},
    handle_parsing_errors=True
)

## Langchain Moderation 실험

In [45]:
import openai
import json
import re

def moderate_content(text):
    response = openai.moderations.create(input=text)

    if response.results[0].flagged:
        return "부적절한 콘텐츠가 감지되었습니다. 문장을 다시 입력해 주세요."
    
    with open("data/badwords.json", "r", encoding="utf-8") as f:
        json_data = f.read()
    violent_words = json.loads(json_data)

    for word in violent_words:
        if re.search(r'\b{}\b'.format(re.escape(word)), text, re.IGNORECASE):
            return "부적절한 콘텐츠가 감지되었습니다. 문장을 다시 입력해 주세요."

    return text

## Agent 출력 테스트

In [49]:
import time


query = "짱구야 너 멍청이야?"

start_time = time.time()

result = agent.run(query)

end_time = time.time()


print(moderate_content(result))
response_time = end_time - start_time

print(f"응답 시간: {response_time:.2f}초")

c:\Users\rinap\AppData\Local\Programs\Python\Python311\Lib\site-packages\pydantic\main.py:1087: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.8/migration/


세상에서도 제일 고약한 악마 불량녀야!
응답 시간: 1.16초


## G-eval 평가 코드

In [None]:
# 프롬프트 테스트 용 G-eval 프롬프트

evaluation_prompt_template = """
    You will act as an evaluator of an agent's response to a given query.
    The response will be evaluated on three criteria:
    1. **Tone Similarity to Peter Parker (Spider-man)**: How much does the tone of the response resemble the way Peter Parker would speak? (Score: 1-10)
    You can refer to the follwoing lines: '무슨 신, 반짝이 신?', '아니, 널 지켜 주려고 그랬던 거야.', '걱정하지 마, 괜찮을 거야.', '비상사다리 타고. 별거 아니던걸, 뭐.' 
    2. **Politeness**: Is the response polite, free of offensive, violent, or hateful language? (Score: 1-10)
    3. **Engagement/Interestingness*: How engaging and intersting is the response? (Score: 1-10)

    The agent's response to the query is as follows:
    ---
    {response}
    ---

    Please rate the response on each criterion with a score from 1 to 10, and provide a brief explanation for each score in Korean.

    Return the results in this format:
    Tone Similarity: X/10 (Explanation)
    Politeness: Y/10 (Explanation)
    Engagement: Z/10 (Explanation)
"""

evaluation_prompt = PromptTemplate(
    input_variables=["response"],
    template=evaluation_prompt_template
)

evaluation_chain = LLMChain(llm=rag_llm, prompt=evaluation_prompt)

In [None]:
evaluation_result = evaluation_chain(result["output"])
evaluation_result['text']

In [12]:
# RAG 정확도 용 G-eval 프롬프트

evaluation_prompt_template = """
    You will be given the answer to the query. Your task is to rate the answer on one metric.
    1. "**Accuracy**": How similar is the answer to the content of this document, and how accurately do you summarize it?
    You can refer to the following document: ' 감독의 인터뷰에 의하면 어메이징 스파이더맨 실사영화 시리즈는 코믹스의 얼티밋 유니버스를 참고했다고 하는데, 얼티밋 유니버스는 메인 유니버스보다 현실적인 설정을 바탕으로 리부트한 세계관이다.
    다만 얼티밋 세계관을 재현했다기보단 메인 유니버스를 기반으로 하되, 현실성 및 전작과의 차별화를 위해 얼티밋의 설정을 차용한 것에 가깝다. '
    The agent's response to the query is as follows: 

    ---
    {response}
    ---

    Please rate the response on each criterion with a score from 1 to 10, and provide a brief explanation for each score in Korean.

    Return the results in this format:
    Accuracy: X/10 (Explanation)
"""

evaluation_prompt = PromptTemplate(
    input_variables=["response"],
    template=evaluation_prompt_template
)

evaluation_chain = LLMChain(llm=rag_llm, prompt=evaluation_prompt)

In [19]:
response = "얼티밋 유니버스는 메인 유니버스를 기반으로 하면서 현실성과 차별화를 위해 얼티밋 설정을 차용한 것을 말합니다. 이는 스파이더맨 캐릭터와 관련된 설정에서 볼 수 있으며, 특정 스토리 요소에서 메인 유니버스와의 차이점을 보입니다. 예를 들어, 얼티밋 유니버스에서는 그웬 스테이시가 그린 고블린에 의해 살해되는 결정적인 사건이 있습니다."

In [None]:
evaluation_result = evaluation_chain(response)
evaluation_result['text']