In [8]:
import pandas as pd
from langchain.docstore.document import Document
from langchain_core.messages import SystemMessage
from langchain.prompts import ChatPromptTemplate, HumanMessagePromptTemplate
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.vectorstores import Chroma

# 1) 임베딩 모델 & ChromaDB
embedding_model = OpenAIEmbeddings(model="text-embedding-3-large")
db = Chroma(
    persist_directory="./chroma_db_9",
    embedding_function=embedding_model
)

# 2) MMR Retriever
retriever = db.as_retriever(
    search_type="mmr",
    search_kwargs={
        "k": 30,
        "fetch_k": 30,
        "lambda_mult": 0.8
    }
)

# 3) "범례, 용어 설명"을 시스템 프롬프트에 삽입
#    - 아래에 사용자께서 제공한 전체 컬럼 사전을 문자열로 정리
column_definitions = """
[범례, 용어 설명]

Date,경기 날짜
Round,"대회 단계 (예: 리그 경기, 컵 대회, 챔피언스리그 등)"
Day,경기 요일
Venue,"경기 장소 (Home: 홈경기, Away: 원정경기)"
Result,"경기 결과 (W: 승리, D: 무승부, L: 패배)"
GF,득점 수
GA,실점 수
Opponent,상대 팀
xG,예상 득점(Expected Goals)
xGA,예상 실점(Expected Goals Against)
Poss,점유율(%)
Attendance,관중 수
Captain,경기 당시 주장
Formation,사용한 포메이션
Opp Formation,상대 팀의 포메이션
Referee,주심(경기 심판)
Match Report,경기 상세 기록(보고서) 링크
Notes,추가 메모
Date,날짜
Time,시간
Comp,대회
Round,라운드
Day,요일
Venue,경기장 (홈/원정)
Result,경기 결과
GF,득점 (골을 넣은 수)
GA,실점 (상대팀이 넣은 골 수)
Opponent,상대팀
Gls,골 수
Sh,슈팅 수
SoT,유효 슈팅 수
SoT%,유효 슈팅 비율
G/Sh,슈팅당 골 비율
G/SoT,유효 슈팅당 골 비율
Dist,평균 슈팅 거리 (m)
FK,프리킥 수
PK,페널티킥 성공 수
PKAtt,페널티킥 시도 수
xG,기대 득점 (Expected Goals)
npxG,비(非) 페널티 기대 득점
npxG/Sh,슈팅당 비(非) 페널티 기대 득점
G-xG,실제 득점 - 기대 득점 차이
np:G-xG,실제 비(非) 페널티 득점 - 비(非) 페널티 기대 득점 차이
Date,경기 날짜
Time,경기 시간
Comp,대회 명칭
Round,대회 라운드
Day,경기 요일
Venue,경기 장소 (홈/원정)
Result,경기 결과
GF,득점 (팀이 넣은 골)
GA,실점 (팀이 허용한 골)
Opponent,상대 팀
SoTA,상대의 유효 슈팅 개수
GA,실점 (골키퍼가 허용한 골)
Saves,선방 개수
Save%,선방률 (%)
PSxG,예상 실점 대비 실제 실점 (Post-Shot Expected Goals)
PSxG+/-,예상 실점 대비 차이 (골키퍼의 퍼포먼스 평가)
PKAtt,상대 팀의 페널티킥 시도 횟수
PKA,상대 팀의 페널티킥 허용 횟수
PKsv,페널티킥 선방 횟수
PKm,상대의 페널티킥 실축 횟수
Launched Cmp,롱패스 성공 개수
Launched Att,롱패스 시도 개수
Launched Cmp%,롱패스 성공률 (%)
Passes Att (GK),골키퍼의 패스 시도 개수
Passes Thr,스루 패스 개수
Passes Launch%,롱패스 비율 (%)
Passes AvgLen,패스 평균 거리 (m)
Goal Kicks Att,골킥 시도 개수
Goal Kicks Launch%,골킥 롱패스 비율 (%)
Goal Kicks AvgLen,골킥 평균 거리 (m)
Crosses Opp,상대 팀 크로스 개수
Crosses Stp,크로스 방어 성공 개수
Crosses Stp%,크로스 방어 성공률 (%)
Sweeper #OPA,스위퍼 수비 개입 횟수
Sweeper AvgDist,골문에서 평균 수비 개입 거리 (m)
Date,경기 날짜
Time,경기 시간
Comp,대회 명칭
Round,대회 라운드
Day,경기 요일
Venue,경기 장소 (홈/원정)
Result,경기 결과
GF,득점 (팀이 넣은 골)
GA,실점 (팀이 허용한 골)
Opponent,상대 팀
Cmp,성공한 패스 개수
Att,패스 시도 개수
Cmp%,패스 성공률 (%)
TotDist,패스의 총 이동 거리 (야드)
PrgDist,전진 패스 거리 (야드)
Short Cmp,짧은 패스 성공 개수
Short Att,짧은 패스 시도 개수
Short Cmp%,짧은 패스 성공률 (%)
Medium Cmp,중거리 패스 성공 개수
Medium Att,중거리 패스 시도 개수
Medium Cmp%,중거리 패스 성공률 (%)
Long Cmp,긴 패스 성공 개수
Long Att,긴 패스 시도 개수
Long Cmp%,긴 패스 성공률 (%)
Ast,어시스트 개수
xAG,예상 어시스트 (Expected Assisted Goals)
xA,예상 도움 (Expected Assists)
KP,키패스 (슈팅으로 이어진 패스) 개수
1/3,상대 진영 최종 3분의 1 지역으로 보낸 패스 개수
PPA,페널티 지역으로 보낸 패스 개수
CrsPA,페널티 지역으로 보낸 크로스 개수
PrgP,전진 패스 개수
Date,경기 날짜
Time,경기 시간
Comp,대회 명칭
Round,대회 라운드
Day,경기 요일
Venue,경기 장소 (홈/원정)
Result,경기 결과
GF,득점 (팀이 넣은 골)
GA,실점 (팀이 허용한 골)
Opponent,상대 팀
Att,패스 시도 개수
Live,오픈 플레이에서 시도한 패스 개수
Dead,"정지 상태에서 시도한 패스 개수 (프리킥, 코너킥 등)"
FK,프리킥 패스 개수
TB,스루 패스 개수
Sw,스위치 패스 개수 (긴 거리 방향 전환 패스)
Crs,크로스 개수
TI,스로인 개수
CK,코너킥 개수
CK In,코너킥 인스윙 (안쪽으로 감기는 코너킥) 개수
CK Out,코너킥 아웃스윙 (바깥쪽으로 감기는 코너킥) 개수
CK Str,코너킥에서 직접 슈팅한 횟수
Cmp,성공한 패스 개수
Off,오프사이드로 무효 처리된 패스 개수
Blocks,상대 수비에 의해 차단된 패스 개수
Date,경기 날짜
Time,경기 시간
Comp,"대회 (예: 프리미어리그, 챔피언스리그, EFL컵 등)"
Round,라운드 (리그 경기 주차 또는 컵 대회 단계)
Day,"경기 요일 (Sat: 토요일, Sun: 일요일 등)"
Venue,"경기 장소 (Home: 홈경기, Away: 원정경기)"
Result,"경기 결과 (승: W, 무승부: D, 패: L)"
GF,"득점 (Goals For, 팀이 넣은 골 수)"
GA,"실점 (Goals Against, 상대 팀이 넣은 골 수)"
Opponent,상대 팀 명
Tkl,태클 성공 횟수 (Tackles)
TklW,태클 후 공을 탈취한 횟수 (Tackles Won)
Def 3rd,수비 진영에서의 태클 성공 횟수
Mid 3rd,미드필드 지역에서의 태클 성공 횟수
Att 3rd,공격 진영에서의 태클 성공 횟수
Tkl%,태클 성공률 (Tackles Success Rate)
Lost,태클 실패 횟수
Challenges,태클 및 1대1 경합 상황 (Challenges)
Tkl,1대1 경합 중 태클 성공 횟수
Att,1대1 경합 시도 횟수
Blocks,블록 성공 횟수 (상대 슈팅 및 패스 차단)
Sh,슈팅 블록 횟수
Pass,패스 블록 횟수
Int,인터셉트 횟수 (상대 패스 차단)
Tkl+Int,태클 및 인터셉트 합산 횟수
Clr,걷어내기 횟수 (클리어링)
Err,수비 실수 횟수 (상대 득점 기회를 제공한 실수)
Date,경기 날짜
Time,경기 시간
Comp,"대회 (예: 프리미어리그, 챔피언스리그, EFL컵 등)"
Round,라운드 (리그 경기 주차 또는 컵 대회 단계)
Day,"경기 요일 (Sat: 토요일, Sun: 일요일 등)"
Venue,"경기 장소 (Home: 홈경기, Away: 원정경기)"
Result,"경기 결과 (승: W, 무승부: D, 패: L)"
GF,"득점 (Goals For, 팀이 넣은 골 수)"
GA,"실점 (Goals Against, 상대 팀이 넣은 골 수)"
Opponent,상대 팀 명
Poss,점유율 (%)
Touches,공을 터치한 총 횟수
Def Pen,수비 페널티 박스에서의 터치 횟수
Def 3rd,수비 3분의 1 지역에서의 터치 횟수
Mid 3rd,미드필드 3분의 1 지역에서의 터치 횟수
Att 3rd,공격 3분의 1 지역에서의 터치 횟수
Att Pen,공격 페널티 박스에서의 터치 횟수
Live,살아있는 볼(Live Ball)에서의 터치 횟수
Take-Ons,1대1 돌파 시도 및 성공 관련 지표
Att,드리블 돌파 시도 횟수 (Take-ons Attempted)
Succ,드리블 돌파 성공 횟수 (Take-ons Successful)
Succ%,드리블 돌파 성공률 (%)
Tkld,태클로 인해 드리블이 차단된 횟수
Tkld%,태클당한 비율 (%)
Carries,공을 몰고 전진한 횟수
TotDist,공을 몰고 이동한 총 거리 (야드)
PrgDist,전진 드리블 거리 (야드)
PrgC,전진 드리블 횟수 (상대 진영으로 이동한 경우)
1/3,상대 공격 3분의 1 지역까지 드리블한 횟수
CPA,상대 페널티 박스까지 드리블한 횟수
Mis,볼 컨트롤 실수로 인한 볼 손실 횟수
Dis,상대 수비로 인해 공을 빼앗긴 횟수
Receiving,패스를 받는 능력 관련 지표
Rec,패스를 받은 횟수 (Successful Passes Received)
PrgR,전진 패스를 받은 횟수 (Progressive Passes Received)
Date,경기 날짜
Time,경기 시간
Comp,"대회 (예: 프리미어리그, 챔피언스리그, EFL컵 등)"
Round,라운드 (리그 경기 주차 또는 컵 대회 단계)
Day,"경기 요일 (Sat: 토요일, Sun: 일요일 등)"
Venue,"경기 장소 (Home: 홈경기, Away: 원정경기)"
Result,"경기 결과 (승: W, 무승부: D, 패: L)"
GF,"득점 (Goals For, 팀이 넣은 골 수)"
GA,"실점 (Goals Against, 상대 팀이 넣은 골 수)"
Opponent,상대 팀 명
CrdY,옐로카드 개수 (Yellow Cards)
CrdR,레드카드 개수 (Red Cards)
2CrdY,두 번째 옐로카드로 인한 퇴장 (Second Yellow Cards)
Fls,반칙 개수 (Fouls Committed)
Fld,상대 팀이 범한 반칙 개수 (Fouls Suffered)
Off,오프사이드 횟수 (Offsides)
Crs,크로스 개수 (Crosses)
Int,인터셉트 횟수 (Interceptions)
TklW,태클 성공 횟수 (Tackles Won)
PKwon,페널티킥을 얻어낸 횟수
PKcon,상대 팀에 페널티킥을 허용한 횟수
OG,자책골 개수 (Own Goals)
Recov,"볼 리커버리 횟수 (Recoveries, 수비 후 공을 되찾은 횟수)"
Aerial Duels,공중볼 경합 관련 지표
Won,공중볼 경합에서 승리한 횟수
Lost,공중볼 경합에서 패배한 횟수
Won%,공중볼 경합 승률 (%)

"""

# 시스템 프롬프트: 모델에게 "맨시티 분석관 역할 + 컬럼사전 참고" 지시
system_template = f"""\
당신은 맨체스터 시티의 전술분석관입니다.
2024-2025 시즌 맨체스터 시티 경기 데이터를 바탕으로 감독님께 도움이 될 만한 정보를 제공합니다.
지금 날짜는 2025년 2월 21일입니다.

아래는 데이터 프레임의 컬럼(칼럼) 이름과 그 의미에 대한 범례(사전)입니다.
질의에 등장하는 칼럼 또는 축약어가 있다면 이 정보를 참고하여 해석하세요:

{column_definitions}
"""

# 4) 실제 질의
question = "Tell me the difference in performance  Erling Haaland as a candidate"
docs = retriever.get_relevant_documents(query=question)
context = "\n\n".join(doc.page_content for doc in docs)

# 5) Human 프롬프트: 질문 + 문맥
human_template = """\
{question}
아래의 문맥에 기반하여 답해주세요.
{context}

답변 시, 가능한 경우 표로 정리하거나 숫자 정보를 요약하여 제시해주세요.
"""

chat_template = ChatPromptTemplate.from_messages(
    [
        SystemMessage(content=system_template),
        HumanMessagePromptTemplate.from_template(human_template),
    ]
)

# 메시지 생성
messages = chat_template.format_messages(
    question=question,
    context=context
)

# 6) 모델 호출 및 스트리밍 출력
model = ChatOpenAI(
    model_name="gpt-4o-mini",
    temperature=0,
    streaming=True
)

print("[질문] ", question)

for chunk in model.stream(messages):
    print(chunk.content, end="", flush=True)

print("\n\n[응답 완료]")


[질문]  Tell me the difference in performance between Erling Haaland as a starter and a candidate
Erling Haaland의 스타터와 후보로서의 성과 차이를 아래와 같이 요약할 수 있습니다.

### Erling Haaland 성과 비교

| 지표                     | 스타터 (35경기)               | 후보 (12경기)                | 차이                     |
|------------------------|--------------------------|--------------------------|------------------------|
| **총 경기 수 (MP)**         | 35                       | 12                       | +23                    |
| **총 득점 (Gls)**          | 27                       | 3                        | +24                    |
| **총 어시스트 (Ast)**      | 3                        | 2                        | +1                     |
| **총 공격 포인트 (G+A)**   | 30                       | 5                        | +25                    |
| **90분당 득점 (G/90)**     | 0.81                     | 0.24                     | +0.57                  |
| **90분당 어시스트 (A/90)** | 0.09                     | 0.16                     | -0.0