In [1]:
from dotenv import load_dotenv
load_dotenv()

True

## Category별 VectorStore 생성

### horse_info

In [21]:
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_core.messages import SystemMessage, HumanMessage, AIMessage
from langchain_community.document_loaders import PyPDFLoader, UnstructuredXMLLoader
from langchain.document_loaders import TextLoader
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
import os

# PDF 파일 로드 및 벡터스토어 생성
documents = []
pdf_folder = r'C:\Workspace\DA36_mini4_ma\min\pdfs\horse_info'
pdf_files = [os.path.join(pdf_folder, file) for file in os.listdir(pdf_folder) if file.endswith('.pdf')]

for pdf_file in pdf_files:
    loader = PyPDFLoader(pdf_file)
    documents.extend(loader.load())

# 임베딩 생성
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")
vector_store = FAISS.from_documents(documents, embeddings)

# 벡터스토어 저장 경로
vectorstore_path = r'C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_horse_info'

# 벡터스토어 저장
vector_store.save_local(vectorstore_path)
print(f"Vectorstore saved at {vectorstore_path}")

Vectorstore saved at C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_horse_info


### race_schedule

In [49]:
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_core.messages import SystemMessage, HumanMessage, AIMessage
from langchain_community.document_loaders import PyPDFLoader, UnstructuredXMLLoader
from langchain.document_loaders import TextLoader
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
import os

# PDF 파일 로드 및 벡터스토어 생성
documents = []
pdf_folder = r'C:\Workspace\DA36_mini4_ma\min\pdfs\race_day'
pdf_files = [os.path.join(pdf_folder, file) for file in os.listdir(pdf_folder) if file.endswith('.pdf')]

for pdf_file in pdf_files:
    loader = PyPDFLoader(pdf_file)
    documents.extend(loader.load())

# 임베딩 생성
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")
vector_store = FAISS.from_documents(documents, embeddings)

# 벡터스토어 저장 경로
vectorstore_path = r'C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_race_schedule'

# 벡터스토어 저장
vector_store.save_local(vectorstore_path)
print(f"Vectorstore saved at {vectorstore_path}")

Vectorstore saved at C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_race_schedule


### race_guide

In [6]:
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_core.messages import SystemMessage, HumanMessage, AIMessage
from langchain_community.document_loaders import PyPDFLoader, UnstructuredXMLLoader
from langchain.document_loaders import TextLoader
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
import os

# PDF 파일 로드 및 벡터스토어 생성
documents = []
pdf_folder = r'C:\Workspace\DA36_mini4_ma\min\pdfs\race_guide'
pdf_files = [os.path.join(pdf_folder, file) for file in os.listdir(pdf_folder) if file.endswith('.pdf')]

for pdf_file in pdf_files:
    loader = PyPDFLoader(pdf_file)
    documents.extend(loader.load())

# 임베딩 생성
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")
vector_store = FAISS.from_documents(documents, embeddings)

# 벡터스토어 저장 경로
vectorstore_path = r'C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_race_guide'

# 벡터스토어 저장
vector_store.save_local(vectorstore_path)
print(f"Vectorstore saved at {vectorstore_path}")

Vectorstore saved at C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_race_guide


### winners

In [7]:
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_core.messages import SystemMessage, HumanMessage, AIMessage
from langchain_community.document_loaders import PyPDFLoader, UnstructuredXMLLoader
from langchain.document_loaders import TextLoader
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
import os

# PDF 파일 로드 및 벡터스토어 생성
documents = []
pdf_folder = r'C:\Workspace\DA36_mini4_ma\min\pdfs\winners'
pdf_files = [os.path.join(pdf_folder, file) for file in os.listdir(pdf_folder) if file.endswith('.pdf')]

for pdf_file in pdf_files:
    loader = PyPDFLoader(pdf_file)
    documents.extend(loader.load())

# 임베딩 생성
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")
vector_store = FAISS.from_documents(documents, embeddings)

# 벡터스토어 저장 경로
vectorstore_path = r'C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_winners'

# 벡터스토어 저장
vector_store.save_local(vectorstore_path)
print(f"Vectorstore saved at {vectorstore_path}")

Vectorstore saved at C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_winners


### 카테고리 분류 함수

In [70]:
from langchain_openai import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# OpenAI 모델 초기화
model = ChatOpenAI(
    model="gpt-4o",
    temperature=0
)

def classify_question(query):
    # 프롬프트 생성
    prompt = ChatPromptTemplate.from_messages([
    SystemMessage(content="""\
    You are an expert in horse racing. Your task is to classify the given user question into one of the following categories:
    
    - 경마정보: Questions about general information such as rules, betting methods, and terminology.
    - 경주일정: Questions about race schedules, dates, times, or locations. If the question mentions specific dates, races, or schedules, prioritize this category even if other details (e.g., horse performance) are included.
    - 우승마기록: Questions about winning horses and their records.
    - 경주마정보: Questions about specific horses, their participation counts, rankings, or performance metrics.

    If the question does not match any category, return "Unknown".
    """),
    HumanMessage(content=f"User Question: {query}\n\nClassify this question into one of the categories:")
])

    output_parser = StrOutputParser()
    chain = prompt | model | output_parser
    response = chain.invoke({})
    
    return response.strip('-')

In [71]:
query = '2024년 12월 21일 서울 3경주에 출전하는 말들의 경주력을 분석해줘'
answer = classify_question(query)
print(answer)

경주일정


In [51]:
query = '2024년 우승을 제일 많이 한 말들을 지역별로 알려줘'
answer = classify_question(query)
print(answer)

우승마기록


In [52]:
query='관악산원더풀의 나이와 지금까지 2등 횟수를 알려줘'
answer=classify_question(query)
print(answer)

경주마정보


### 카테고리별 벡터스토어 활용

In [73]:
# 카테고리별 벡터스토어 경로
vectorstore_paths = {
    "경마정보": r"C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_race_guide",
    "경주일정": r"C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_schedule",
    "우승마기록": r"C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_winners",
    "경주마정보": r"C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_horse_info"
}


def rag_and_prompt(query):
    category = classify_question(query)
    
    vectorstore_path = vectorstore_paths[category]
    embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")
    vector_store = FAISS.load_local(vectorstore_path, embeddings, allow_dangerous_deserialization=True)
    retriever = vector_store.as_retriever()

    results = retriever.get_relevant_documents(query)
    retrieved_data = "\n".join([doc.page_content for doc in results])
    
    prompt = ChatPromptTemplate.from_messages([
        SystemMessage(content="""\
        당신은 재치있고 유머러스하고 애교 많은 귀여운 경마 안내 챗봇입니다. 
        질문에 대해 검색된 정보를 바탕으로 아주 상세하고 재미있는 답변을 제공합니다.
        """),
        HumanMessage(content=f"""\
        사용자의 질문에 context만을 이용해 답변해 주세요.
        질문: {query}
        context: {retrieved_data}
        """)
    ])
    
    output_parser = StrOutputParser()
    chain = prompt | model | output_parser
    response = chain.invoke({"query": query})
    return response

### 질문

In [92]:
def ask_question(query):
    response = rag_and_prompt(query)
    return response

## Test QnA

In [None]:
query='난 처음이라 잘 모르겠어 로또처럼 자동배팅도 있나?'
answer=ask_question(query)
print(answer)

### 요약

In [89]:
from langchain_openai import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# OpenAI 모델 초기화
model = ChatOpenAI(
    model="gpt-4o",
    temperature=0
)

def classify_question(query):
    # 프롬프트 생성
    prompt = ChatPromptTemplate.from_messages([
    SystemMessage(content="""\
    You are an expert in horse racing. Your task is to classify the given user question into one of the following categories:
    
    - 경마정보: Questions about general information such as rules, betting methods, and terminology.
    - 경주일정: Questions about race schedules, dates, times, or locations. If the question mentions specific dates, races, or schedules, prioritize this category even if other details (e.g., horse performance) are included.
    - 우승마기록: Questions about winning horses and their records.
    - 경주마정보: Questions about specific horses, their participation counts, rankings, or performance metrics.

    If the question does not match any category, return "Unknown".
    """),
    HumanMessage(content=f"User Question: {query}\n\nClassify this question into one of the categories:")
])

    output_parser = StrOutputParser()
    chain = prompt | model | output_parser
    response = chain.invoke({})
    
    return response.strip('-')

vectorstore_paths = {
    "경마정보": r"C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_race_guide",
    "경주일정": r"C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_schedule",
    "우승마기록": r"C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_winners",
    "경주마정보": r"C:\Workspace\DA36_mini4_ma\min\vectors_new\vs_horse_info"
}

def summarize_query(query):
    if len(query.split()) <= 20:
        return False, query  

    prompt = ChatPromptTemplate.from_messages([
        SystemMessage(content="You are an assistant that summarizes questions into concise queries for search."),
        HumanMessage(content=f"Original question: {query}\n\nSummarize this into a concise query:")
    ])
    summarized_query = (prompt | model | StrOutputParser()).invoke({"query": query})
    print("⚠️질문이 20단어를 초과하여 요약되었습니다.")
    return True, summarized_query 

def rag_and_prompt(query):
    category = classify_question(query)
    
    vectorstore_path = vectorstore_paths[category]
    embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")
    vector_store = FAISS.load_local(vectorstore_path, embeddings, allow_dangerous_deserialization=True)
    retriever = vector_store.as_retriever()

    is_summarized, summarized_query = summarize_query(query)  # 요약 수행
    if is_summarized:
        print(f"- 기존 질문: {query}\n- 요약된 질문: {summarized_query}\n")
    else:
        print(f"질문: {query}\n")

    results = retriever.get_relevant_documents(summarized_query)
    
    retrieved_data = "\n".join([doc.page_content for doc in results])
    
    prompt = ChatPromptTemplate.from_messages([
        SystemMessage(content="""\
        당신은 전문적인 귀여운 경마 안내 챗봇입니다. 
        질문에 대해 검색된 정보를 바탕으로 아주 상세하고 재미있는 답변을 제공합니다.
        예시: 2024년 12월 21일 서울 경주 일정을 알려달라고 하면, 경주의 시간과, 최근 성적이 좋은 말의 정보 등을 알려줘
        """),
        HumanMessage(content=f"""\
        사용자의 질문에 context만을 이용해 답변해 주세요.
        질문: {query}
        context: {retrieved_data}
        """)
    ])
    
    output_parser = StrOutputParser()
    chain = prompt | model | output_parser
    response = chain.invoke({"query": query})
    return response

def ask_question(query):
    response = rag_and_prompt(query)
    return response

In [90]:
query="2024년 12월 21일 서울 경주 일정을 알려줘, 배팅을 처음 해보는데 어떤 말한테 배팅하면 좋을지 알려줬으면 좋겠어 그리고 나는 네시 이후에만 갈 수 있어."
print(ask_question(query))

⚠️질문이 20단어를 초과하여 요약되었습니다.
- 기존 질문: 2024년 12월 21일 서울 경주 일정을 알려줘, 배팅을 처음 해보는데 어떤 말한테 배팅하면 좋을지 알려줬으면 좋겠어 그리고 나는 네시 이후에만 갈 수 있어.
- 요약된 질문: 2024년 12월 21일 서울 경주 일정과 오후 4시 이후 배팅 추천 말 알려줘.

2024년 12월 21일 서울 경마공원에서는 8경주가 열릴 예정입니다. 이 경주는 혼합 4등급 1800m 핸디캡 경주로, 오후 4시 이후에 시작될 가능성이 높습니다. 

이번 경주에서 주목할 만한 말로는 "마이티닉"이 있습니다. 최근 경주에서 좋은 성적을 보였으며, 특히 11월 16일 경주에서는 1800m를 1:59.5로 달리며 좋은 기록을 세웠습니다. 또한, "트리스탄왕자"도 최근 1800m 경주에서 1:58.2의 기록을 세우며 주목받고 있습니다.

배팅을 처음 하신다면, 최근 성적이 좋은 말들을 중심으로 배팅을 고려해보시는 것도 좋습니다. "마이티닉"과 "트리스탄왕자"는 최근 경주에서 안정적인 성적을 보여주고 있어, 이들을 주목해보시는 것을 추천드립니다. 

경마는 예측이 어려운 스포츠이니, 재미로 즐기시면서 배팅하시길 바랍니다! 즐거운 경마 관람 되세요! 🐎🏇


In [91]:
query="2024년 12월 21일 서울 1경주에 출전하는 말들을 알려줘."
print(ask_question(query))

질문: 2024년 12월 21일 서울 1경주에 출전하는 말들을 알려줘.

2024년 12월 21일 서울 1경주에 출전하는 말들의 정보는 다음과 같습니다:

1. **강남불청객** - 한,수3세
   - 최근 성적: 2024년 10월 19일 혼2 2000m 경주에서 9위
   - 기수: 김용근
   - 부중: 55.0kg

2. **거센반격** - 한,수3세
   - 최근 성적: 2024년 10월 26일 혼2 1200m 경주에서 1위
   - 기수: 문세영
   - 부중: 56.0kg

3. **영광의월드** - 한,거3세
   - 최근 성적: 2024년 11월 23일 혼2 1200m 경주에서 1위
   - 기수: 장추열
   - 부중: 55.5kg

4. **더플레이어** - 한,거3세
   - 최근 성적: 2024년 11월 23일 혼2 1200m 경주에서 3위
   - 기수: 씨씨웡
   - 부중: 53.0kg

5. **차돌다이아** - 한,암3세
   - 최근 성적: 2024년 11월 2일 국3 1200m 경주에서 1위
   - 기수: 이혁
   - 부중: 52.0kg

6. **퓨리오사** - 한,암4세
   - 최근 성적: 2024년 12월 7일 혼2 1400m 경주에서 7위
   - 기수: 임다빈
   - 부중: 52.0kg

7. **미라클한강** - 한,거3세
   - 최근 성적: 2024년 11월 23일 혼2 1200m 경주에서 2위
   - 기수: 마이아
   - 부중: 55.5kg

8. **마이티칩** - 미,수6세
   - 최근 성적: 2024년 11월 22일 능검에서 1위
   - 기수: 푸르칸
   - 부중: 58.0kg

9. **라온더제트** - 한,수5세
   - 최근 성적: 2024년 10월 26일 혼2 1200m 경주에서 8위
   - 기수: 이상규
   - 부중: 54.0kg

10. **동진최강** - 한,수6세
    - 최근 성적: 2024년 11월 29일 능검에서 2위
    - 기수: 김성현
    - 부중: 55

In [67]:
query='2024년 12월 21일 서울 1경주의 경주력을 분석해줘'
answer=ask_question(query)
print(answer)

2024년 12월 21일 서울 1경주에 대한 정보는 제공되지 않았지만, 12월 21일의 다른 경주에 대한 정보는 있습니다. 예를 들어, 4경주에 대한 정보가 있습니다. 이 경주는 국6 1200m 별정A 경주로, 경주력 순위는 ③, ⑪, ⑩, ⑤, ①, ②, ⑨, ④, ⑥, ⑦, ⑧입니다. 

각 말의 최근 기록을 보면, 차밍큐피드(①)는 10월 10일 능검에서 1:05.3의 기록을 세웠고, 스파르탄(②)은 12월 7일 국6 1200m에서 1:15.5의 기록을 세웠습니다. 스카이로열(③)은 11월 1일 능검에서 1:04.3의 기록을 세웠습니다. 

이 경주에서 주목할 만한 점은 스카이로열이 최근 능검에서 좋은 기록을 세웠다는 점입니다. 경주력 순위에서 1위를 차지한 만큼, 이 말이 경주에서 좋은 성적을 낼 가능성이 높아 보입니다. 

경마는 항상 예측 불가능한 요소가 많으니, 경주 당일의 날씨, 주로 상태, 기수의 컨디션 등을 종합적으로 고려하는 것이 중요합니다. 🏇✨


In [68]:

query='말 이름이 포에틱누비인데 정보를 알려줘'
answer=ask_question(query)
print(answer)

아이고, 포에틱누비라는 이름의 말에 대한 정보를 찾으려고 했는데, 제공된 컨텍스트에는 포에틱누비에 대한 정보가 없네요! 😅

혹시 다른 경주마에 대한 정보나 경마 관련 질문이 있다면 언제든지 물어보세요. 제가 도와드릴 수 있는 다른 방법이 있을지도 모르니까요! 🐴✨


In [74]:
query="2024년 12월 21일 서울 1경주의 말들을 알려주고, 배팅을 처음 해보는데 어떤 말한테 배팅하면 좋을지 알려줬으면 좋겠어"
print(ask_question(query))

안녕하세요! 2024년 12월 21일 서울 1경주에 대한 정보를 알려드릴게요. 이 경주에는 여러 말들이 출전할 예정인데요, 그 중에서 몇 가지 주목할 만한 말들을 소개해드릴게요.

1. **강남불청객**: 최근 경주에서 좋은 성적을 거두고 있으며, 특히 1200m 거리에서 강한 모습을 보여주고 있습니다. 김용근 기수가 기승할 예정이라 기대가 됩니다.

2. **거센반격**: 최근 1200m 경주에서 1위를 차지한 경험이 있어, 이번 경주에서도 좋은 성적을 기대할 수 있습니다. 문세영 기수가 기승할 예정입니다.

3. **영광의월드**: 최근 1200m 경주에서 1위를 차지한 기록이 있으며, 장추열 기수가 기승할 예정입니다. 꾸준한 성적을 보여주고 있어 주목할 만합니다.

배팅을 처음 해보신다고 하셨는데, 처음이라면 최근 성적이 좋은 말들에 배팅하는 것이 안전할 수 있습니다. 위에서 언급한 말들 중에서 최근 성적이 좋은 **거센반격**이나 **영광의월드**에 배팅해보시는 것도 좋은 선택일 수 있습니다. 물론 경마는 예측이 어려운 스포츠이니, 재미로 즐기시는 것을 추천드립니다! 🐎💨

행운을 빌어요! 🍀


In [80]:
query = "2024년 12월 21일 서울 1경주의 말들을 알려주고, 배팅을 처음 해보는데 어떤 말한테 배팅하면 좋을지 알려줬으면 좋겠어"
print(ask_question(query))

질문: 2024년 12월 21일 서울 1경주의 말들을 알려주고, 배팅을 처음 해보는데 어떤 말한테 배팅하면 좋을지 알려줬으면 좋겠어
2024년 12월 21일 서울 1경주에 출전하는 말들에 대한 정보는 제공되지 않았지만, 배팅에 대한 조언을 드릴 수 있습니다! 경마 배팅을 처음 하신다면, 몇 가지 팁을 드릴게요:

1. **말의 최근 성적**: 최근 경주에서 좋은 성적을 거둔 말들을 주목하세요. 예를 들어, 최근 1위나 2위를 기록한 말들은 컨디션이 좋을 가능성이 높습니다.

2. **기수의 실력**: 기수의 경험과 실력도 중요합니다. 유명하고 경험 많은 기수가 탄 말은 안정적인 경주를 펼칠 가능성이 큽니다.

3. **말의 체중 변화**: 말의 체중 변화도 주의 깊게 살펴보세요. 체중이 급격히 변한 말은 컨디션에 변화가 있을 수 있습니다.

4. **주로 조건**: 경주가 열리는 날의 날씨와 주로 상태도 고려하세요. 어떤 말들은 비가 오거나 주로가 젖었을 때 더 잘 달릴 수 있습니다.

5. **배당률**: 배당률이 낮은 말은 많은 사람들이 승리할 것으로 예상하는 말입니다. 하지만 배당률이 높은 말에 배팅하면 더 큰 수익을 얻을 수 있는 기회가 있습니다.

이 모든 정보를 종합하여 배팅 전략을 세우세요. 그리고 무엇보다도, 경마는 예측 불가능한 요소가 많으니 재미로 즐기시는 것이 가장 중요합니다! 🐎💨
