
# 中華隊成績查詢與分析工具
**Credit by Simon Liu**

此 Notebook 使用生成式 AI 和工具整合來查詢棒球選手的比賽成績並進行數據分析。


In [None]:
## 安裝必要的套件
# 安裝 LangChain 社群工具包和 Google Generative AI 模組。
# 安裝必要的套件
!pip install -q langchain_community langchain-google-genai

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/2.4 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━[0m [32m1.2/2.4 MB[0m [31m35.0 MB/s[0m eta [36m0:00:01[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m2.4/2.4 MB[0m [31m34.6 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.4/2.4 MB[0m [31m22.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m41.3/41.3 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m19.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.5/49.5 kB[0m [31m2.9 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
!wget https://huggingface.co/datasets/Simon-Liu/premier-12-chinese-taipei-performance-data/resolve/main/%E4%B8%AD%E8%8F%AF%E9%9A%8A_bat_data_with_chinese_names.csv
!wget https://huggingface.co/datasets/Simon-Liu/premier-12-chinese-taipei-performance-data/resolve/main/%E4%B8%AD%E8%8F%AF%E9%9A%8A_field_data_with_chinese_names.csv
!wget https://huggingface.co/datasets/Simon-Liu/premier-12-chinese-taipei-performance-data/resolve/main/%E4%B8%AD%E8%8F%AF%E9%9A%8A_pitch_data_with_chinese_names.csv

--2024-11-20 04:07:35--  https://huggingface.co/datasets/Simon-Liu/premier-12-chinese-taipei-performance-data/resolve/main/%E4%B8%AD%E8%8F%AF%E9%9A%8A_bat_data_with_chinese_names.csv
Resolving huggingface.co (huggingface.co)... 3.171.171.6, 3.171.171.104, 3.171.171.128, ...
Connecting to huggingface.co (huggingface.co)|3.171.171.6|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1325 (1.3K) [text/plain]
Saving to: ‘中華隊_bat_data_with_chinese_names.csv’


2024-11-20 04:07:35 (370 MB/s) - ‘中華隊_bat_data_with_chinese_names.csv’ saved [1325/1325]

--2024-11-20 04:07:35--  https://huggingface.co/datasets/Simon-Liu/premier-12-chinese-taipei-performance-data/resolve/main/%E4%B8%AD%E8%8F%AF%E9%9A%8A_field_data_with_chinese_names.csv
Resolving huggingface.co (huggingface.co)... 3.171.171.6, 3.171.171.104, 3.171.171.128, ...
Connecting to huggingface.co (huggingface.co)|3.171.171.6|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 948 [text/plain]
S

In [3]:
## 定義打擊成績查詢工具
# 使用 LangChain 的工具功能定義搜尋特定選手打擊數據的工具。
import pandas as pd
import json
from langchain_core.tools import tool

@tool
def search_bat_player_stats(player_name: str) -> str:
    """
    Search for player statistics by name in the CSV file.
    Returns raw data in JSON format.
    """
    try:
        # 讀取 CSV 文件
        file_path = "/content/中華隊_bat_data_with_chinese_names.csv"
        df = pd.read_csv(file_path)

        # 搜尋球員
        player_data = df[df['player_chinese'] == player_name]

        if player_data.empty:
            return json.dumps({"error": "Player not found."})

        # 將結果轉換為 JSON 格式
        result = player_data.to_dict(orient="records")
        return json.dumps(result, ensure_ascii=False)

    except Exception as e:
        return json.dumps({"error": str(e)})

In [4]:
## 測試打擊成績查詢工具
# 測試 `search_bat_player_stats` 工具，查詢張政禹的打擊數據。
%%time

search_bat_player_stats.invoke({"player_name": "張政禹"})

CPU times: user 16.4 ms, sys: 6.86 ms, total: 23.2 ms
Wall time: 30.9 ms


'[{"球員": "CHANG\\nCheng-Yu", "AB": 7, "R": 1, "H": 1, "2B": 0, "3B": 0, "HR": 0, "RBI": 1, "TB": 1, "AVG": 0.143, "SLG": 0.143, "OBP": 0.143, "OPS": 0.286, "BB": 0, "HBP": 0, "SO": 1, "GDP": 0, "SF": 0, "SH": 0, "SB": 1, "CS": 0, "player_chinese": "張政禹"}]'

In [None]:
## 設定 Google API
# 設定 Google API 金鑰，準備初始化 Google 生成式 AI 模型。
import os
from google.colab import userdata

os.environ['GOOGLE_API_KEY'] = userdata.get('GOOGLE_API_KEY')

In [None]:
## 初始化生成式 AI 模型
# 使用 Google Generative AI 的模型來處理查詢。
from langchain_google_genai import ChatGoogleGenerativeAI

# 初始化語言模型
llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash-8b",
    temperature=0,
)

In [None]:
## 綁定工具與語言模型
# 將 `search_bat_player_stats` 工具綁定到語言模型，方便整合操作。
llm_with_tools = llm.bind_tools([search_bat_player_stats])

In [None]:
## 測試語言模型與工具的整合
# 測試整合後的工具，詢問張政禹的比賽成績並檢視結果。
%%time

msg = llm_with_tools.invoke("張政禹選手的成績？")
msg.tool_calls

CPU times: user 19.2 ms, sys: 2.14 ms, total: 21.3 ms
Wall time: 1.04 s


[{'name': 'search_bat_player_stats',
  'args': {'player_name': '張政禹'},
  'id': 'c936f2f8-8edc-4cf3-b188-aa9e284705ad',
  'type': 'tool_call'}]

In [None]:
## 載入 Prompt 範例
# 從 LangChain Hub 載入範例 Prompt，準備用於查詢。
from langchain import hub

# Get the prompt to use - can be replaced with any prompt that includes variables "agent_scratchpad" and "input"!
prompt = hub.pull("hwchase17/openai-tools-agent")
prompt.pretty_print()




You are a helpful assistant


[33;1m[1;3m{chat_history}[0m


[33;1m[1;3m{input}[0m


[33;1m[1;3m{agent_scratchpad}[0m


In [None]:
## 定義自訂 Prompt 模板
# 定義用於生成式 AI 和工具的 Prompt，包含佔位符以便替換。
from langchain_core.prompts import ChatPromptTemplate

# 定義包含佔位符的字串模板
template = """
================================ System Message ================================

這是一個可以查詢 2024 12強棒球賽，中華隊投球、打擊、守備數據庫，
你是一個專業的數據查詢和分析助手。你可以使用工具來查詢數據並幫助用戶完成額外計算。

工具分成：
1. 打擊數據成績
2. 投球數據成績
3. 守備數據成績

當用戶詢問問題時：
- 首先使用工具查詢棒球員的相關數據。
- 然後完成所需的計算。
- 最後以自然語言回答用戶的問題。

現在準備好處理用戶的請求。

================================ Human Message =================================

{input}

============================= Messages Placeholder =============================

{agent_scratchpad}
"""

# 使用 from_template 方法將字串轉換為 ChatPromptTemplate
prompt = ChatPromptTemplate.from_template(template)
prompt.pretty_print()




這是一個可以查詢 2024 12強棒球賽，中華隊投球、打擊、守備數據庫，
你是一個專業的數據查詢和分析助手。你可以使用工具來查詢數據並幫助用戶完成額外計算。

工具分成：
1. 打擊數據成績
2. 投球數據成績
3. 守備數據成績

當用戶詢問問題時：
- 首先使用工具查詢棒球員的相關數據。
- 然後完成所需的計算。
- 最後以自然語言回答用戶的問題。

現在準備好處理用戶的請求。


[33;1m[1;3m{input}[0m


[33;1m[1;3m{agent_scratchpad}[0m



In [None]:
## 載入代理工具執行模組
# 載入 LangChain 的代理執行功能模組。
from langchain.agents import AgentExecutor, create_tool_calling_agent

In [None]:
## 定義守備成績查詢工具
# 定義搜尋守備成績數據的工具，擴展數據查詢能力。
import pandas as pd
import json
from langchain_core.tools import tool

@tool
def search_field_player_stats(player_name: str) -> str:
    """
    Search for player statistics by name in the CSV file.
    Returns raw data in JSON format.
    """
    try:
        # 讀取 CSV 文件
        file_path = "/content/中華隊_field_data_with_chinese_names.csv"
        df = pd.read_csv(file_path)

        # 搜尋球員
        player_data = df[df['player_chinese'] == player_name]

        if player_data.empty:
            return json.dumps({"error": "Player not found."})

        # 將結果轉換為 JSON 格式
        result = player_data.to_dict(orient="records")
        return json.dumps(result, ensure_ascii=False)

    except Exception as e:
        return json.dumps({"error": str(e)})

In [None]:
## 定義投球成績查詢工具
# 定義搜尋投球成績數據的工具，提供完整的投手數據支持。
import pandas as pd
import json
from langchain_core.tools import tool

@tool
def search_pitch_player_stats(player_name: str) -> str:
    """
    Search for player statistics by name in the CSV file.
    Returns raw data in JSON format.
    """
    try:
        # 讀取 CSV 文件
        file_path = "/content/中華隊_pitch_data_with_chinese_names.csv"
        df = pd.read_csv(file_path)

        # 搜尋球員
        player_data = df[df['player_chinese'] == player_name]

        if player_data.empty:
            return json.dumps({"error": "Player not found."})

        # 將結果轉換為 JSON 格式
        result = player_data.to_dict(orient="records")
        return json.dumps(result, ensure_ascii=False)

    except Exception as e:
        return json.dumps({"error": str(e)})

In [None]:
## 整合所有工具
# 將打擊、守備和投球數據查詢工具整合到工具清單中。
tools = [search_bat_player_stats, search_field_player_stats, search_pitch_player_stats]

In [None]:
## 創建工具代理
# 建立代理工具系統，將語言模型和工具清單整合以提供查詢能力。
# Construct the tool calling agent
agent = create_tool_calling_agent(llm, tools, prompt)

In [None]:
## 建立代理執行器
# 設定代理執行器，允許使用工具代理執行複雜查詢。
# Create an agent executor by passing in the agent and tools
agent_executor = AgentExecutor(
    agent=agent,
    tools=tools,
    verbose=True,
    return_intermediate_steps=True,
    max_iterations=5  # Example limit
)

In [None]:
## 測試代理執行器
# 使用代理執行器查詢王志煊的投球成績，並計算滾飛比。
%%time

result = agent_executor.invoke(
    {
        "input": "請問王志煊的投球成績，並幫我計算滾飛比？"
    }
)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `search_pitch_player_stats` with `{'player_name': '王志煊'}`


[0m[38;5;200m[1;3m[{"球員": "WANG\nChih-Hsuan", "W": 1, "L": 0, "ERA": 0.0, "APP": 2, "GS": 0, "SV": 0, "IP": 2.0, "H": 1, "R": 0, "ER": 0, "BB": 0, "SO": 2, "2B": 1, "HR": 0, "AB": 7, "BAVG": 0.143, "HB": 0, "SHA": 0, "SHA.1": 0, "GO": 1, "FO": 3, "WHIP": 0.5, "player_chinese": "王志煊"}][0m[32;1m[1;3m王志煊的投球成績如下：

W：1  L：0  ERA：0.0  APP：2  GS：0  SV：0  IP：2.0  H：1  R：0  ER：0  BB：0  SO：2  2B：1  HR：0  AB：7  BAVG：0.143  HB：0  SHA：0  SHA.1：0  GO：1  FO：3  WHIP：0.5

滾飛比 = (GO / FO) = 1 / 3 = 0.33

請注意，由於投球局數較少，滾飛比的計算結果可能不夠穩定。
[0m

[1m> Finished chain.[0m
CPU times: user 62.1 ms, sys: 3.17 ms, total: 65.3 ms
Wall time: 2.02 s


In [None]:
## 列印結果
# 輸出查詢結果到控制台。
print(result['output'])

王志煊的投球成績如下：

W：1  L：0  ERA：0.0  APP：2  GS：0  SV：0  IP：2.0  H：1  R：0  ER：0  BB：0  SO：2  2B：1  HR：0  AB：7  BAVG：0.143  HB：0  SHA：0  SHA.1：0  GO：1  FO：3  WHIP：0.5

滾飛比 = (GO / FO) = 1 / 3 = 0.33

請注意，由於投球局數較少，滾飛比的計算結果可能不夠穩定。



In [None]:
## 測試其他查詢
# 測試代理執行器查詢林安可的打擊狀況，檢視結果。
%%time

result = agent_executor.invoke(
    {
        "input": "請問林安可這次賽會的打擊狀況如何？"
    }
)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `search_bat_player_stats` with `{'player_name': '林安可'}`


[0m[36;1m[1;3m[{"球員": "LIN\nAn-Ko", "AB": 8, "R": 0, "H": 2, "2B": 1, "3B": 0, "HR": 0, "RBI": 0, "TB": 3, "AVG": 0.25, "SLG": 0.375, "OBP": 0.333, "OPS": 0.708, "BB": 0, "HBP": 1, "SO": 2, "GDP": 0, "SF": 0, "SH": 0, "SB": 0, "CS": 0, "player_chinese": "林安可"}][0m[32;1m[1;3m林安可這次賽會打擊成績為：打數 8，安打 2，二壘打 1，整體打擊率 0.25，長打率 0.375，上壘率 0.333，OPS 值 0.708。此外，他被擊中 1 次，三振 2 次。
[0m

[1m> Finished chain.[0m
CPU times: user 55.9 ms, sys: 4.41 ms, total: 60.3 ms
Wall time: 1.25 s


In [None]:
## 格式化並列印輸出
# 將輸出格式化後列印，提高結果的可讀性。
# 印出結果
print(result['output'].replace('。', '。\n'))

林安可這次賽會打擊成績為：打數 8，安打 2，二壘打 1，整體打擊率 0.25，長打率 0.375，上壘率 0.333，OPS 值 0.708。
此外，他被擊中 1 次，三振 2 次。


