# LLM ModelTest #1
##### *jhgan/ko-sroberta-multitask*

In [4]:
# API KEY를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv
import os

# API KEY 정보로드
load_dotenv()
GEMINI_API_KEY = os.getenv('API_KEY_GEMINI')

In [5]:
# LangSmith 추적을 설정합니다. https://smith.langchain.com
# !pip install langchain-teddynote
from langchain_teddynote import logging

# 프로젝트 이름을 입력합니다.
logging.langsmith("lgdx_team2")

LangSmith 추적을 시작합니다.
[프로젝트명]
lgdx_team2


In [6]:
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.document_loaders.csv_loader import CSVLoader

from langchain_community.vectorstores import Chroma

from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter

import pandas as pd

# 랭체인 환경 설정
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain.prompts import ChatPromptTemplate
from langchain_google_genai import ChatGoogleGenerativeAI

In [5]:
### 01. CSV 파일에서 문서 로드 ###
loader = CSVLoader('../data/movie_4000_preprocessed.csv', encoding='utf8')
docs = loader.load()
print(f"문서의 수: {len(docs)}")

### 02. pandas로 데이터프레임 칼럼명 가져오기
csv_path = '../data/movie_4000_preprocessed.csv'
df = pd.read_csv(csv_path, encoding='utf8')
colnames = df.columns

문서의 수: 3901


In [6]:
### 03. 메타데이터 추가 ###
docs = []
for _, row in df.iterrows():
  # 필요한 메타데이터 설정
  metadata = {
    'title': row['movie_title'],
    'genre': row['genre']
  }
  # 각 행의 데이터를 문서로 변환
  doc = Document(
    page_content=str(row.to_dict()),
    metadata=metadata
  )
  docs.append(doc)

print(f"문서의 수: {len(docs)}")
print('[메타데이터 예시]\n', docs[100].metadata)

문서의 수: 3901
[메타데이터 예시]
 {'title': '아름답다', 'genre': '드라마'}


In [7]:
### 04. 데이터 청크 나누기 ###
text_splitter = RecursiveCharacterTextSplitter(
  chunk_size=1200, chunk_overlap=0
)
splits = text_splitter.split_documents(docs)
print("split된 문서의 수:", len(splits))

split된 문서의 수: 3901


In [8]:
### 05. 임베딩 모델 생성
embeddings = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')

  embeddings = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')


In [None]:
### 06. 벡터스토어 생성 ###
DB_PATH = './movie_4000_vectorstore_1'

## Chroma
# vectorstore = Chroma.from_documents(
#   documents=splits,
#   embedding=embeddings,
#   persist_directory=DB_PATH,
# )
# print("벡터스토어 저장 완료!")

In [9]:
# Chroma 벡터스토어 로드
vectorstore = Chroma(persist_directory="./movie_4000_vectorstore_1", embedding_function=embeddings)

  vectorstore = Chroma(persist_directory="./movie_4000_vectorstore_1", embedding_function=embeddings)


<br><hr>

In [10]:
### 03. 랭체인 구성 ###
# 검색기 생성
retriever = vectorstore.as_retriever(
    search_type="mmr",   
    search_kwargs={"k": 20,              # 반환할 문서 수 (default: 4)
                   "fetch_k": 50,       # MMR 알고리즘에 전달할 문서 수
                   "lambda_mult": 0.5,    # 결과 다양성 조절 (default: 0.5),
                   }
)

# 프롬프트 템플릿 설정
template = """
You are a movie-recommendation chatbot.
You must only answer based on the given context.
Do not generate answers that are not directly supported by the context.

[Context]:
{retrieved_context}

[Question]:
{query}

[Answer]:
"""
prompt = ChatPromptTemplate.from_template(template)

# Google Gemini 모델 생성
def load_gemini(system_instruction):
    model = ChatGoogleGenerativeAI(
        model='gemini-1.5-flash',
        temperature=0.3,
        max_tokens=5000,
        system_instruction=system_instruction,
        api_key=GEMINI_API_KEY
    )
    print(">>>>>>> model loaded...")
    return model

system_instruction = """you are a movie-recommendation chatbot. you must answer based on given data."""
llm = load_gemini(system_instruction)

>>>>>>> model loaded...


In [11]:
# langchain 체인 구성
rag_chain = (
  {"query":RunnablePassthrough(),
    "retrieved_context": retriever,
  }
  # question(사용자의 질문) 기반으로 연관성이 높은 문서 retriever 수행 >> format_docs로 문서를 하나로 만듦
  | prompt               # 하나로 만든 문서를 prompt에 넘겨주고
  | llm                  # llm이 원하는 답변을 만듦
  | StrOutputParser()
)

In [16]:
### 04. 모델 테스트 ###
user_query='코미디면서 호러 장르의 영화를 추천해줘'
response = rag_chain.invoke(user_query)
print(response)

죄송합니다. 제공된 컨텍스트에는 코미디이면서 동시에 호러 장르인 영화는 없습니다.

