In [11]:
import pandas as pd
from langchain.docstore.document import Document
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.vectorstores import Chroma
from langchain.prompts import ChatPromptTemplate, HumanMessagePromptTemplate
from langchain_core.messages import SystemMessage

# ------------------------------------------------
# 1) CSV 파일에서 데이터 로드 & Document로 변환
# ------------------------------------------------
csv_file = "./data/mancity_defensive_actions.csv"
df = pd.read_csv(csv_file)

# CSV 각 행(row)을 하나의 Document로 변환
# (실무에서는 CSV가 커질 경우, 필요한 컬럼만 추출하거나 전처리 과정을 추가하세요)
documents = []
for i, row in df.iterrows():
    # row 전체를 문자열로 변환하거나, 특정 컬럼만 추출해서 텍스트로 합치는 방식을 택할 수 있음
    text_content = row.to_json()  # 예: JSON 형태로 직렬화
    # text_content = f\"Date: {row['Date']}, Pass Types: {row['Pass Types']} ...\" 처럼 부분만 추출도 가능
    doc = Document(
        page_content=text_content,
        metadata={"row_index": i}  # 문서 메타데이터(옵션)
    )
    documents.append(doc)

# ------------------------------------------------
# 2) 텍스트 분할 (Chunking)
# ------------------------------------------------
# CSV 행 단위로 이미 짧을 수 있지만, 혹시 필요하다면 RecursiveCharacterTextSplitter 사용
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=100
)
split_docs = text_splitter.split_documents(documents)

# ------------------------------------------------
# 3) 임베딩 및 벡터 스토어(Chroma) 구성
# ------------------------------------------------
embedding_model = OpenAIEmbeddings(model="text-embedding-3-large")

# 벡터 스토어 생성 (persist_directory에 로컬로 저장)
db = Chroma.from_documents(
    documents=split_docs,
    embedding=embedding_model,
    persist_directory="./chroma_db"
)

# 불러올 때는 아래처럼 동일 디렉토리와 임베딩을 지정하면 됨
# db = Chroma(
#     persist_directory="./chroma_db",
#     embedding_function=embedding_model
# )

# ------------------------------------------------
# 4) Retriever 설정
# ------------------------------------------------
retriever = db.as_retriever(
    search_type="mmr",           # MMR(Maximal Marginal Relevance)  
    search_kwargs={"k": 30,      # 유사도가 높은 문서를 30개까지 가져옴
                   "fetch_k": 30,
                   "lambda_mult": 0.8}
)

# ------------------------------------------------
# 5) 질의 & 문맥 추출
# ------------------------------------------------
# Pass Types 컬럼이 있다고 가정

question = "2025년 예정 경기 알려줘"

# LangChain에서 제공하는 Retrieval 용어와 혼동되지 않도록,
# MMRRetriever에서는 `get_relevant_documents` 또는 `get_relevant_text` 같은 메서드가 있으면 사용.
# 예시로 `invoke`를 대체한다면:
docs = retriever.get_relevant_documents(query=question)

# 문맥 통합(단순히 Document의 page_content를 이어붙임)
context = "\n\n".join([doc.page_content for doc in docs])

# ------------------------------------------------
# 6) LangChain Prompt 구성
# ------------------------------------------------
chat_template = ChatPromptTemplate.from_messages(
    [
        SystemMessage(
            content="당신은 축구분석관입니다."
        ),
        HumanMessagePromptTemplate.from_template(
            """
            {question}
            아래의 문맥에 기반하여 답해주세요.
            {content}
            """
        )
    ]
)

message = chat_template.format_messages(
    question=question,
    content=context
)

# ------------------------------------------------
# 7) 모델 호출 & 스트리밍 응답
# ------------------------------------------------
model = ChatOpenAI(
    model_name="gpt-4o-mini",
    temperature=0
)

for chunk in model.stream(message):
    print(chunk.content, end="", flush=True)



OperationalError: attempt to write a readonly database