In [None]:
import streamlit as st
import pandas as pd
from langchain.docstore.document import Document
from langchain_core.messages import SystemMessage
from langchain.prompts import ChatPromptTemplate, HumanMessagePromptTemplate
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.vectorstores import Chroma

# -------------------------------
# 1) Setup (임베딩 모델 & ChromaDB)
# -------------------------------
embedding_model = OpenAIEmbeddings(model="text-embedding-3-large")
db = Chroma(
    persist_directory="./chroma_db_9",
    embedding_function=embedding_model
)

# MMR Retriever
retriever = db.as_retriever(
    search_type="mmr",
    search_kwargs={
        "k": 30,
        "fetch_k": 30,
        "lambda_mult": 0.8
    }
)

# -------------------------------
# 2) 컬럼 범례 (System Prompt에 포함)
# -------------------------------
column_definitions = """
[범례, 용어 설명]

Date,경기 날짜
Round,"대회 단계 (예: 리그 경기, 컵 대회, 챔피언스리그 등)"
...
CrdR,레드카드 개수 (Red Cards)
2CrdY,두 번째 옐로카드로 인한 퇴장 (Second Yellow Cards)
Fls,반칙 개수 (Fouls Committed)
...
OG,자책골 개수 (Own Goals)
Recov,"볼 리커버리 횟수 (Recoveries, 수비 후 공을 되찾은 횟수)"
Aerial Duels,공중볼 경합 관련 지표
Won,공중볼 경합에서 승리한 횟수
Lost,공중볼 경합에서 패배한 횟수
Won%,공중볼 경합 승률 (%)
"""

system_template = f"""\
당신은 맨체스터 시티의 전술분석관입니다.
2024-2025 시즌 맨체스터 시티 경기 데이터를 바탕으로 감독님께 도움이 될 만한 정보를 제공합니다.
지금 날짜는 2025년 2월 21일입니다.

아래는 데이터 프레임의 컬럼(칼럼) 이름과 그 의미에 대한 범례(사전)입니다.
질의에 등장하는 칼럼 또는 축약어가 있다면 이 정보를 참고하여 해석하세요:

{column_definitions}
"""

# -------------------------------
# 3) Streamlit UI
# -------------------------------
st.title("Manchester City 데이터 분석 QA Demo")
st.write("ChromaDB + LangChain + Streamlit 예시")

# 사용자 질의 입력
user_question = st.text_input("질문 입력", value="Tell me the difference in performance Erling Haaland as a candidate")

# 버튼 클릭 시 질의 수행
if st.button("분석 요청"):
    if user_question.strip() == "":
        st.warning("질문을 입력해주세요.")
    else:
        # -------------------------------
        # 4) Retriever로 문맥 검색
        # -------------------------------
        docs = retriever.get_relevant_documents(query=user_question)
        context = "\n\n".join(doc.page_content for doc in docs)

        # -------------------------------
        # 5) 프롬프트 생성
        # -------------------------------
        human_template = """\
{question}
아래의 문맥에 기반하여 답해주세요.
{context}

답변 시, 가능한 경우 표로 정리하거나 숫자 정보를 요약하여 제시해주세요.
"""
        chat_template = ChatPromptTemplate.from_messages([
            SystemMessage(content=system_template),
            HumanMessagePromptTemplate.from_template(human_template)
        ])

        messages = chat_template.format_messages(
            question=user_question,
            context=context
        )

        # -------------------------------
        # 6) LLM 호출 (스트리밍 시도)
        # -------------------------------
        model = ChatOpenAI(
            model_name="gpt-4o-mini",  # 예시
            temperature=0,
            streaming=True
        )

        st.info("LLM에 질의 중... (스트리밍)")
        response_container = st.empty()  # 스트리밍 출력할 공간

        full_answer = ""
        for chunk in model.stream(messages):
            full_answer += chunk.content
            # 여기서는 매 토큰마다 전체 답변을 다시 그림
            # (가장 단순한 방법 / 실제로는 깜빡임이 있을 수 있음)
            response_container.write(full_answer)

        st.success("응답 완료")

        # 필요시 아래와 같이 '참고 문서 메타데이터'도 표시할 수 있음
        # for i, doc in enumerate(docs):
        #     st.write(f"문서 {i+1} 메타정보:", doc.metadata)
