# 模型下載

In [1]:
from nbclient.client import timestamp
from transformers import AutoProcessor, AutoModelForImageTextToText
import torch
import os

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
torch.cuda.get_device_name()

'NVIDIA GeForce RTX 4090'

In [3]:
#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

In [3]:
model_id = "CohereForAI/aya-vision-8b"

processor = AutoProcessor.from_pretrained(model_id,use_fast=True)
model = AutoModelForImageTextToText.from_pretrained(
    model_id, device_map="auto", torch_dtype=torch.float16
)

Some kwargs in processor config are unused and will not have any effect: vision_feature_select_strategy. 
Loading checkpoint shards: 100%|██████████| 4/4 [00:01<00:00,  2.40it/s]


In [4]:
os.environ['CUDA_LAUNCH_BLOCKING'] = '1'

In [27]:
torch.cuda.empty_cache()

In [5]:
model.cuda()

AyaVisionForConditionalGeneration(
  (vision_tower): SiglipVisionModel(
    (vision_model): SiglipVisionTransformer(
      (embeddings): SiglipVisionEmbeddings(
        (patch_embedding): Conv2d(3, 1152, kernel_size=(14, 14), stride=(14, 14), padding=valid)
        (position_embedding): Embedding(676, 1152)
      )
      (encoder): SiglipEncoder(
        (layers): ModuleList(
          (0-26): 27 x SiglipEncoderLayer(
            (self_attn): SiglipSdpaAttention(
              (k_proj): Linear(in_features=1152, out_features=1152, bias=True)
              (v_proj): Linear(in_features=1152, out_features=1152, bias=True)
              (q_proj): Linear(in_features=1152, out_features=1152, bias=True)
              (out_proj): Linear(in_features=1152, out_features=1152, bias=True)
            )
            (layer_norm1): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
            (mlp): SiglipMLP(
              (activation_fn): PytorchGELUTanh()
              (fc1): Linear(in_features

# 準備資料

In [6]:
import pandas as pd
from PIL import Image
import numpy as np
import torch
from torch.utils.data import Dataset, DataLoader

In [7]:
file_locate = "/tmp/pycharm_project_159/" #遠端環境

images = os.listdir(file_locate + "/dataset/擊球數據整理/images")
Inputs = pd.read_csv(file_locate + "/dataset/擊球數據整理/question_Input.csv")

init_prompt = open(file_locate + "/dataset/init_prompt.txt").read()
rule = pd.read_excel(file_locate + "/dataset/回饋規則.xlsx")

In [8]:
str(rule)

'                球路類型   結果                                                 原因  \\\n0            Pull左飛球   失誤                                   上桿(P2~3)時，角度過於陡峭   \n1            Pull左飛球   失誤                                             桿頭頂點過高   \n2            Pull左飛球   失誤                           下桿角度過於陡峭，左手腕過度外展，肩關節伸展抬起   \n3            Pull左飛球   失誤                                     桿面關閉，擊球點位於球的外側   \n4     Pull Hook左拉左曲球   失誤                                   上桿(P2~3)時，角度過於陡峭   \n5     Pull Hook左拉左曲球   失誤                                             桿頭頂點過高   \n6     Pull Hook左拉左曲球   失誤                          下桿角度過於陡峭，手腕過度彎曲，過度由內而外的路徑   \n7     Pull Hook左拉左曲球   失誤                         桿面關閉，擊球點位於球的外側，手腕繼續彎曲未保持向前   \n8   Pull Slice 左拉右曲球   失誤  通常是因為上桿時P2過於內側，手臂和身體過於靠近卡住之後，反而在下桿時由外側下桿、或是軸心偏...   \n9   Pull Slice 左拉右曲球   失誤                                           擺動路徑過於內向   \n10  Pull Slice 左拉右曲球   失誤                                           下桿時由外側下桿   \n11  Pull Slice 左拉右曲球   失誤 

In [8]:
import base64

def encode_base64(image):
    with open(image, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

In [9]:
class GolfDataset(Dataset):
    def __init__(self, Input):
        self.num = Input["num"]
        self.images = []
        self.questions = Input["Input"]
        self.ground_truth = Input["GroundTruth"]
    def __len__(self):
        return len(self.questions)
    def __getitem__(self, idx):
        num = self.num.iloc[idx]
        question = self.questions.iloc[idx]
        image = encode_base64(file_locate + "/dataset/擊球數據整理/images/"+"combined_" +str(self.num.iloc[idx]) + ".jpg")
        ground_truth = self.ground_truth.iloc[idx]
        return num,image,question,ground_truth

In [10]:
golf_dataset = GolfDataset(Inputs)
golf_dataloader = DataLoader(golf_dataset, shuffle=False)

In [11]:
result_df = pd.DataFrame()
rule = str(rule)
for num ,images , questions, ground_truth in golf_dataloader:
    images = str(images)
    messages = [
        {
            "role": "system",
            "content": [{"type": "text", "text": init_prompt+rule}],
        },
        {
          "role": "user",
          "content": [
                {"type": "image", "base64":images},
                {"type": "text", "text": questions},
            ],
        },
    ]
    inputs = processor.apply_chat_template(
        messages, padding="longest", add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt",pad_to_multiple_of=8,
    ).to(model.device)
    
    gen_tokens = model.generate(
        **inputs, 
        max_new_tokens=4096, #生成的token最大數量，忽略輸入提示詞中的token數
        do_sample=True, 
        temperature=0.1,
    )
    result_df = pd.concat([result_df, pd.DataFrame({"num":num, "answer":processor.tokenizer.decode(gen_tokens[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)})])
    
    print(processor.tokenizer.decode(gen_tokens[0][inputs.input_ids.shape[1]:], skip_special_tokens=True))
        

在我們全面的揮桿分析中，您的揮桿動作與教練最相似的地方在於上桿（P2~3）時，角度過於陡峭。請注意在這個階段，您的肩膀應該往右轉動，以確保上桿時保持適當的角度。此外，在下桿時，您的左手臂應該保持直並固定，同時肩膀自然旋轉。在擊球時，請確保左手腕保持固定，並注意擊球點的位置。這些調整將有助於您在揮桿過程中獲得更好的控制和準確性。
在我們全面的揮桿分析中，您的揮桿動作與教練的揮桿動作非常相似，這表示您的揮桿技術有良好的基礎。然而，我們注意到在擊球時，您的身體重心似乎稍微向前移動，這可能會導致揮桿路徑稍微偏離預期。建議您在擊球時，保持身體重心穩定，並確保身體重心不向前移動，以保持揮桿路徑的準確性。此外，您的揮桿路徑在擊球點時略微偏離預期，這可能導致球路出現偏差。建議您在擊球時，專注於保持桿面的正確位置，並確保身體重心穩定，以確保揮桿路徑的準確性。
根據您提供的資料，我們可以分析出以下關於推桿動作的關鍵資訊：

**球路類型：**推桿右拉右曲球
**原因：**在P2~3上桿階段，角度過於平緩，手腕過度內收，未保持適當角度。P4頂點轉換時，桿頭頂點過低，手腕過度彎曲。P5~6下桿角度過於平緩，手腕未回復成預備站姿的角度，手用力而非肩膀轉動。P7擊球時，桿面開放，擊球點位於球的內側，左手腕未固定。

**建議：**
1. **上桿階段：**確保肩膀和手腕保持適當角度，避免過度內收。
2. **轉換階段：**保持桿頭頂點適中，避免手腕過度彎曲。
3. **下桿階段：**手腕應恢復成預備站姿的角度，避免手用力過度。
4. **擊球階段：**確保桿面保持開放，擊球點位於球的外側，左手腕固定。

以上建議旨在幫助您修正推桿動作中的問題，以達到更準確和一致的擊球效果。
根據提供的資料，我們可以分析學員的揮桿動作並找出需要改進的地方。在這個例子中，學員的揮桿動作被歸類為「Pull Hook 左拉左曲球」。這表示學員在揮桿過程中出現了左拉左曲的情況，這通常是由上桿時過於內側的手臂和身體位置造成的。

在側面的姿勢分析中，我們可以看到在P2和P3的位置，學員的手臂和身體過於內側，這導致了揮桿軌跡的偏移。此外，在P4頂點轉換時，學員的身體重心太早向前移動，這也影響了揮桿的準確性。

建議：
1. 在上桿時，請保持肩膀和臀部向右旋轉，避免過度內側的手臂和身體位置。
2. 在P4頂點轉換時，請保持身

In [12]:
result_df

Unnamed: 0,num,answer
0,186382,在我們全面的揮桿分析中，您的揮桿動作與教練最相似的地方在於上桿（P2~3）時，角度過於陡峭。...
0,186387,在我們全面的揮桿分析中，您的揮桿動作與教練的揮桿動作非常相似，這表示您的揮桿技術有良好的基礎...
0,186410,根據您提供的資料，我們可以分析出以下關於推桿動作的關鍵資訊：\n\n**球路類型：**推桿右...
0,186416,根據提供的資料，我們可以分析學員的揮桿動作並找出需要改進的地方。在這個例子中，學員的揮桿動作...
0,198514,根據您提供的資料，我們可以分析出以下關於推桿（Push）動作的資訊：\n\n**球路類型：*...
0,199353,根據您提供的資料，我們可以分析出以下關於推桿動作的關鍵資訊：\n\n**球路類型：** 推桿...


In [23]:
import time

timeStamp = time.strftime('%Y_%m_%d_%H%M',time.localtime(time.time()))
result_df.to_csv(file_locate+"/experiment_result/"+timeStamp+"_test_AyaVision8b_output_result.csv", index=False, encoding="utf-8")