### JSON CONVERT

In [1]:
import pandas as pd
import json

# Load CSV
df = pd.read_csv("/data/502507_pre/502507_pre/week4/man_joined.csv")

# Columns to check
label_cols = [
    "กล่าวสวัสดี",
    "แนะนำชื่อและนามสกุล",
    "บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ",
    "บอกวัตถุประสงค์ของการเข้าพบครั้งนี้",
    "เน้นประโยชน์ว่าลูกค้าได้ประโยชน์อะไรจากการเข้าพบครั้งนี้",
    "บอกระยะเวลาที่ใช้ในการเข้าพบ"
]

# Initialize missing label columns with False
for col in label_cols:
    if col not in df.columns:
        df[col] = False
# หัวข้อ บอกวัตถุประสงค์ของการเข้าพบครั้งนี้ จะ TRUE เมื่อ มีวัตถุประสงค์ชัดเจน ต้องระบุ **หัวข้อหลักที่จับต้องได้** ที่จะคุย *ในวันนี้* อย่างชัดเจน เช่น สถานการณ์ลงทุน, 
# อัปเดตพอร์ต, ผลิตภัณฑ์ประกัน (ระบุประเภท), ทบทวนเป้าหมาย, เสนอแนวทางจัดการ ต้องระบุ **การกระทำที่ชัดเจน** ที่จะทำกับหัวข้อนั้นๆ (เช่น อัปเดต, ทบทวน, เสนอ).
# ตัวอย่าง `TRUE`:** "...มาพูดคุยเกี่ยวกับ **สถานการณ์ทางการลงทุน** และ **อัปเดตข้อมูลพอร์ต**..." หรือ "...มา **อัปเดตข้อมูลผลิตภัณฑ์ด้านการประกันวินาศภัย**..."
# FALSE ไม่มี หรือ วัตถุประสงค์ไม่ชัดเจน/กว้างไป) พูดถึง **ประโยชน์หรือหัวข้อแบบกว้างมากๆ** ไม่เจาะจง เช่น "เรื่องที่เป็นประโยชน์", "เพิ่มความมั่นคง", "ให้ข้อมูล", 
# "คุยหลายประเด็น", "วางแผนการเงิน" (ถ้าไม่มีรายละเอียดเพิ่ม). แม้จะพูดถึง 'ข้อมูล' แต่ **ไม่ระบุว่าเป็นข้อมูลเรื่องอะไร** (เช่น "ข้อมูลที่อัปเดต").
# ตัวอย่าง `FALSE`:** "...พูดคุยเรื่องที่เป็นประโยชน์บางอย่าง..." หรือ "...คุยเกี่ยวกับข้อมูลที่อัปเดต..."
# หัวข้อ แนะนำชื่อและนามสกุล ต้องเป็นการแนะนำจากพนักงานเท่านั้น และต้องบอกทั้งชื่อจริงและนามสกุล หากเป็นชื่อเล่น หรือแค่ชื่อจริงอย่างเดียวถือว่าไม่นับ
# Convert to JSONL


# กฏเพิ่มเติมพิเศษดังนี้ 
# หัวข้อ กล่าวสวัสดี ต้องเป็นแค่ คำว่า สวัสดีครับ สวัสดี สวัสดีค่ะ เท่านั้น
# หัวข้อ แนะนำชื่อและนามสกุล ต้องเป็นการแนะนำจากพนักงานเท่านั้น และต้องบอกทั้งชื่อจริงและนามสกุล หากเป็นชื่อเล่น หรือแค่ชื่อจริงอย่างเดียวถือว่า False
# หัวข้อ ระยะเวลา ต้องบอกเวลาที่ชัดเจนเท่านั้น เช่น 20นาที 1ชั่งโมง สิบนาที คือต้องมีตัวเลขหรือคำที่บอกถึงตัวเลข และตามด้วย นาที ชั่วโมง เท่านั้น 


with open("lastoneplzzztryRefinal.jsonl", "w", encoding="utf-8") as f:
    for _, row in df.iterrows():
        prompt = f"""### Instruction:
โปรดวิเคราะห์ประโยคต่อไปนี้ แล้วระบุว่าเข้าข้อใดบ้างจาก 6 หัวข้อ ได้แก่
กล่าวสวัสดี,
แนะนำชื่อและนามสกุล,
บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ,
บอกวัตถุประสงค์ของการเข้าพบครั้งนี้,
เน้นประโยชน์ว่าลูกค้าได้ประโยชน์อะไรจากการเข้าพบครั้งนี้,
บอกระยะเวลาที่ใช้ในการเข้าพบ,

โปรดตอบกลับเป็น JSON เท่านั้น โดยใช้ key ตามนี้:
"กล่าวสวัสดี",
"แนะนำชื่อและนามสกุล",
"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ",
"บอกวัตถุประสงค์ของการเข้าพบครั้งนี้",
"เน้นประโยชน์ว่าลูกค้าได้ประโยชน์อะไรจากการเข้าพบครั้งนี้",
"บอกระยะเวลาที่ใช้ในการเข้าพบ",

ตัวอย่าง:
{{
  "กล่าวสวัสดี": true,
  "แนะนำชื่อและนามสกุล": false,
  "บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ": false,
  "บอกวัตถุประสงค์ของการเข้าพบครั้งนี้": true,
  "เน้นประโยชน์ว่าลูกค้าได้ประโยชน์อะไรจากการเข้าพบครั้งนี้": false,
  "บอกระยะเวลาที่ใช้ในการเข้าพบ": false
}}

ประโยค: "{row['sentence']}"

### Response:
"""
        response = {col: bool(row[col]) for col in label_cols}
        data = {
            "prompt": prompt.strip(),
            "response": json.dumps(response, ensure_ascii=False)
        }
        f.write(json.dumps(data, ensure_ascii=False) + "\n")


In [None]:
# !git clone https://github.com/hiyouga/llama-factory.git
# %cd llama-factory
# !pip install -r requirements.txt

Cloning into 'llama-factory'...
remote: Enumerating objects: 23732, done.[K
remote: Counting objects: 100% (50/50), done.[K
remote: Compressing objects: 100% (33/33), done.[K
remote: Total 23732 (delta 28), reused 17 (delta 17), pack-reused 23682 (from 2)[K
Receiving objects: 100% (23732/23732), 48.60 MiB | 16.38 MiB/s, done.
Resolving deltas: 100% (17170/17170), done.
/data/ChunIjiREalserious/llama-factory
Collecting peft<=0.15.2,>=0.14.0 (from -r requirements.txt (line 4))
  Downloading peft-0.15.2-py3-none-any.whl.metadata (13 kB)
Collecting trl<=0.9.6,>=0.8.6 (from -r requirements.txt (line 5))
  Downloading trl-0.9.6-py3-none-any.whl.metadata (12 kB)
Collecting gradio<=5.31.0,>=4.38.0 (from -r requirements.txt (line 7))
  Downloading gradio-5.31.0-py3-none-any.whl.metadata (16 kB)
Collecting sse-starlette (from -r requirements.txt (line 15))
  Downloading sse_starlette-2.3.5-py3-none-any.whl.metadata (7.8 kB)
Collecting fire (from -r requirements.txt (line 17))
  Downloading f

### FINE TUNE

In [1]:
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
from datasets import load_dataset
import torch

model_path = "/data/data/typhoon2.1-gemma3-4b"
data_path = "/data/ChunIjiREalserious/lastoneplzzztryRefinal.jsonl"

tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16)

if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

dataset = load_dataset("json", data_files=data_path, split="train")

def format_prompt(example):
    prompt = example["prompt"]
    response = example["response"]
    return {
        "prompt": prompt,
        "response": response
    }

dataset = dataset.map(format_prompt)

# สร้าง labels ที่ mask ส่วน prompt
def tokenize(example):
    encoded = tokenizer(
        example["prompt"] + example["response"],
        max_length=1024,
        padding="max_length",
        truncation=True,
        return_tensors="pt"
    )
    
    # Get the length of the prompt tokens
    prompt_tokens = tokenizer(
        example["prompt"], 
        add_special_tokens=False
    )["input_ids"]
    prompt_length = len(prompt_tokens)
    
    labels = encoded["input_ids"][0].clone()
    labels[:prompt_length] = -100
    
    return {
        "input_ids": encoded["input_ids"][0].tolist(),
        "attention_mask": encoded["attention_mask"][0].tolist(),
        "labels": labels.tolist()
    }

tokenized_dataset = dataset.map(tokenize, batched=False)

# Training arguments
training_args = TrainingArguments(
    output_dir="/data/ChunIjiREalserious/Fine/typhoon-gemma-finetuned",
    per_device_train_batch_size=4,
    gradient_accumulation_steps=8,
    learning_rate=5e-5,
    num_train_epochs=10,
    bf16=True,  # ใช้ bfloat16 (ถ้าเครื่องรองรับ)
    logging_dir="./logs",
    logging_steps=10,
    save_strategy="epoch",
    gradient_checkpointing=True,
    optim="adamw_torch",
    warmup_ratio=0.1,
    weight_decay=0.01,
    max_grad_norm=1.0
)

# Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
)

trainer.train()


You have set `use_cache` to `False`, but cache_implementation is set to hybrid. cache_implementation will have no effect.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

It is strongly recommended to train Gemma3 models with the `eager` attention implementation instead of `sdpa`. Use `eager` with `AutoModelForCausalLM.from_pretrained('<path-to-checkpoint>', attn_implementation='eager')`.


Step,Training Loss
10,5.5611
20,0.5788
30,0.273
40,0.2007
50,0.1405
60,0.093
70,0.0729
80,0.0523
90,0.0423
100,0.033


TrainOutput(global_step=120, training_loss=0.5917133327573538, metrics={'train_runtime': 997.7629, 'train_samples_per_second': 4.019, 'train_steps_per_second': 0.12, 'total_flos': 7.641984262157107e+16, 'train_loss': 0.5917133327573538, 'epoch': 9.950495049504951})

### ของแทร้


In [16]:
from huggingface_hub import HfApi
api = HfApi()

api.upload_folder(
    folder_path="/data/ChunIjiREalserious/Fine/typhoon-gemma-finetuned/0.92 model",
    repo_id="NatthasitW/TyphoonChun",
    repo_type="model",
)

model-00001-of-00002.safetensors:   0%|          | 0.00/4.96G [00:00<?, ?B/s]

scheduler.pt:   0%|          | 0.00/1.06k [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/2.80G [00:00<?, ?B/s]

optimizer.pt:   0%|          | 0.00/15.5G [00:00<?, ?B/s]

rng_state.pth:   0%|          | 0.00/14.2k [00:00<?, ?B/s]

Upload 7 LFS files:   0%|          | 0/7 [00:00<?, ?it/s]

tokenizer.json:   0%|          | 0.00/33.4M [00:00<?, ?B/s]

training_args.bin:   0%|          | 0.00/5.30k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/NatthasitW/TyphoonChun/commit/b629093a5b66d0ee55e6b845e381b0201a7a4855', commit_message='Upload folder using huggingface_hub', commit_description='', oid='b629093a5b66d0ee55e6b845e381b0201a7a4855', pr_url=None, repo_url=RepoUrl('https://huggingface.co/NatthasitW/TyphoonChun', endpoint='https://huggingface.co', repo_type='model', repo_id='NatthasitW/TyphoonChun'), pr_revision=None, pr_num=None)

### Batch processing

In [6]:
from transformers import AutoTokenizer, AutoModelForCausalLM, StoppingCriteria, StoppingCriteriaList
import torch
import json
import pandas as pd
import re
from tqdm import tqdm

# === CONFIG ===
model_path = "/data/ChunIjiREalserious/Fine/typhoon-gemma-finetuned/NopromptReal"
device = "cuda" if torch.cuda.is_available() else "cpu"
BATCH_SIZE = 64 # 🚀 ปรับตาม VRAM ของ GPU ของคุณ! เริ่มจากขนาดเล็กและเพิ่มขึ้นหากไม่มี OOM

# === LOAD MODEL ===
print("กำลังโหลดโมเดล...")
tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=True)

# 🚀 ตั้งค่าโทเค็น padding หากยังไม่ได้ตั้งค่า และ padding side สำหรับ Causal LMs
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "left" # สำคัญสำหรับการสร้างแบบแบทช์ด้วย Causal LMs

model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16 if torch.cuda.is_available() and hasattr(torch.cuda, 'is_bf16_supported') and torch.cuda.is_bf16_supported() else torch.float32,
)
model.to(device)


model.eval()
print("โมเดลโหลดบน", device)

print(f"Tokenizer model_max_length: {tokenizer.model_max_length}")
if hasattr(model, 'config') and hasattr(model.config, 'max_position_embeddings'):
    print(f"Model config max_position_embeddings: {model.config.max_position_embeddings}")
else:
    print("Model config max_position_embeddings ไม่พบ.")

# === HELPER FUNCTION ===
def extract_json_from_text(text):
    """
    ดึง JSON object ออกจากข้อความที่กำหนด
    จัดการกับการลบ backticks ของโค้ด, การทำความสะอาดอักขระที่ไม่พึงประสงค์
    และแก้ไขเครื่องหมายจุลภาคที่ต่อท้ายก่อนวงเล็บปิด
    """
    match = re.search(r'(\{.*?\})(?=\s|$)', text, re.DOTALL)
    if match:
        json_str = match.group(1)
        # ลบ backticks ของโค้ด JSON (เช่น ```json)
        json_str = re.sub(r'^```json\s*', '', json_str, flags=re.IGNORECASE)
        json_str = re.sub(r'\s*```$', '', json_str)
        
        # ทำความสะอาดอักขระที่ไม่พึงประสงค์ เช่น '### ' จากคีย์
        json_str = re.sub(r'###\s*\"', '\"', json_str) # ลบ '### "' แต่คงเครื่องหมายคำพูดไว้

        # ลบเครื่องหมายจุลภาคที่ต่อท้ายที่ปรากฏก่อนวงเล็บปิด (} หรือ ])
        # นี่คือสาเหตุทั่วไปของข้อผิดพลาด JSONDecodeError
        json_str = re.sub(r',\s*([}\]])', r'\1', json_str)

        return json_str.strip()
    return None

# === BATCHED GENERATION FUNCTION ===
def generate_batched_responses(prompts, max_new_tokens=512):
    """
    สร้างการตอบสนองแบบแบทช์จากโมเดลสำหรับพรอมต์ที่กำหนด
    """
    input_texts = [f"### Instruction:\n{p}\n\n### Response:\n" for p in prompts]

    effective_model_max_len = None
    if hasattr(model, 'config') and hasattr(model.config, 'max_position_embeddings'):
        effective_model_max_len = model.config.max_position_embeddings
    elif tokenizer.model_max_length is not None and tokenizer.model_max_length < 100000:
        effective_model_max_len = tokenizer.model_max_length

    if effective_model_max_len is None:
        default_fallback_len = 2048
        print(f"⚠️ คำเตือน: ไม่สามารถระบุ model_max_length ที่เชื่อถือได้ กำลังใช้ค่าเริ่มต้น: {default_fallback_len}.")
        effective_model_max_len = default_fallback_len

    input_max_len = effective_model_max_len - max_new_tokens
    if input_max_len <= 0:
        print(f"🔥 คำเตือนที่สำคัญ: max_new_tokens ({max_new_tokens}) มีขนาดใหญ่เกินไปสำหรับ effective_model_max_len ({effective_model_max_len}).")
        input_max_len = effective_model_max_len // 4
        if input_max_len <= 0: input_max_len = 64 # ตรวจสอบให้แน่ใจว่ามีค่าต่ำสุด
        print(f"ปรับ input_max_len เป็น {input_max_len} คุณภาพของผลลัพธ์อาจได้รับผลกระทบ โปรดตรวจสอบ max_new_tokens.")


    inputs = tokenizer(
        input_texts,
        return_tensors="pt",
        padding=True, # 🚀 เปิดใช้งาน padding สำหรับ batching
        truncation=True,
        max_length=input_max_len
    ).to(model.device)

    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_new_tokens,
            # ลบ temperature และ top_p ออกเนื่องจาก do_sample=False
            do_sample=False, # 🚀 ตั้งค่าเป็น False สำหรับเอาต์พุต greedy แบบกำหนด, มักจะเร็วกว่าและดีกว่าสำหรับ JSON
            pad_token_id=tokenizer.pad_token_id, # ใช้โทเค็น pad ของ tokenizer
            eos_token_id=tokenizer.eos_token_id, # สำคัญสำหรับการหยุด
        )

    # ถอดรหัสเฉพาะส่วนที่สร้างขึ้น
    generated_tokens = outputs[:, inputs['input_ids'].shape[1]:]
    response_texts_full = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)

    processed_responses = []
    for res_full in response_texts_full:
        response_text = res_full.strip()

        for stop_str in STOP_STRINGS:
            if stop_str in response_text:
                response_text = response_text.split(stop_str)[0].strip()

        processed_responses.append(response_text)
    return processed_responses


def analyze_csv(csv_path, output_path):
    """
    วิเคราะห์ไฟล์ CSV โดยใช้โมเดลภาษาเพื่อแยกข้อมูลที่ระบุจากประโยค
    และบันทึกผลลัพธ์ลงในไฟล์ CSV ใหม่
    """
    expected_keys = [
        "กล่าวสวัสดี", "แนะนำชื่อและนามสกุล",
        "บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ",
        "บอกวัตถุประสงค์ของการเข้าพบ", "เน้นประโยชน์ที่ลูกค้าได้รับ",
        "บอกระยะเวลาที่ใช้ในการเข้าพบ"
    ]

    try:
        df = pd.read_csv(csv_path)
    except FileNotFoundError:
        print(f"❌ ข้อผิดพลาด: ไม่พบไฟล์ CSV อินพุตที่ {csv_path}")
        return
    except Exception as e:
        print(f"❌ ข้อผิดพลาดในการอ่านไฟล์ CSV {csv_path}: {e}")
        return

    all_results_data = []
    audio_data_for_output = []
    prompts_batch = []
    indices_batch = []
    sentences_batch_for_output = []

    has_audio_column = "audio" in df.columns
    has_sentence_column = "sentence" in df.columns

    print("กำลังเตรียมและประมวลผลแบทช์...")
    for idx, row in tqdm(df.iterrows(), total=len(df), desc="กำลังอ่านแถว"):
        sentence = row.get("sentence") if has_sentence_column else None
        audio_info = row.get("audio") if has_audio_column else None

        if pd.isna(sentence):
            current_result_data = {key: None for key in expected_keys}
            all_results_data.append({
                "original_index": idx,
                "audio": audio_info,
                "sentence": sentence,
                "analysis": current_result_data
            })
            continue
            #  "โปรดวิเคราะห์ประโยคภาษาไทยต่อไปนี้ แล้วตอบเป็น JSON object เท่านั้น โดยมีคีย์ต่อไปนี้ และมีค่าเป็น true หรือ false:\n"
            # "\"กล่าวสวัสดี\"\n"
            # "\"แนะนำชื่อและนามสกุล\" \n"
            # "\"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\"\n" 
            # "\"บอกวัตถุประสงค์ของการเข้าพบ\"\n"
            # "\"เน้นประโยชน์ที่ลูกค้าได้รับ\"\n"
            # "\"บอกระยะเวลาที่ใช้ในการเข้าพบ\"\n\n"
            
            # "ตัวอย่างเช่น ถ้าประโยคคือ \"สวัสดีครับ ผมชื่อสมชาย สันติ มีใบอนุญาตเลขที่ 123 วันนี้มาเสนอประกันชีวิตเพื่อคุณครับ ใช้เวลายี่สิบนาที\" คำตอบควรเป็น:\n"
            # "{\n"
            # "   \"กล่าวสวัสดี\": true,\n"
            # "   \"แนะนำชื่อและนามสกุล\": true,\n"
            # "   \"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\": true,\n"
            # "   \"บอกวัตถุประสงค์ของการเข้าพบ\": true,\n"
            # "   \"เน้นประโยชน์ที่ลูกค้าได้รับ\": false,\n"
            # "   \"บอกระยะเวลาที่ใช้ในการเข้าพบ\": true\n"
            # "}\n\n"
            # "โปรดวิเคราะห์ประโยคนี้:\n"

            # "ตัวอย่างการตอบกลับ ถ้าประโยคคือ \"สวัสดีครับ ผมชื่อสมชาย สันติ มีใบอนุญาตเลขที่ 123 วันนี้มาเสนอประกันชีวิตเพื่อคุณครับ ใช้เวลายี่สิบนาที\" คำตอบควรเป็น:\n"
            # "ตอบกลับมาแค่ตาที่บอกเท่านั้น ห้ามีคำอื่นแทรกเข้ามาเด็ดขาด"
            # "{\n"
            # "   \"กล่าวสวัสดี\": true,\n"
            # "   \"แนะนำชื่อและนามสกุล\": true,\n"
            # "   \"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\": true,\n"
            # "   \"บอกวัตถุประสงค์ของการเข้าพบ\": true,\n"
            # "   \"เน้นประโยชน์ที่ลูกค้าได้รับ\": false,\n"
            # "   \"บอกระยะเวลาที่ใช้ในการเข้าพบ\": true\n"
            # "}\n\n"

        prompt = (
            "โปรดวิเคราะห์ประโยคภาษาไทยต่อไปนี้ แล้วตอบเป็น JSON object เท่านั้น โดยมีคีย์ต่อไปนี้ และมีค่าเป็น true หรือ false:\n"
            "\"กล่าวสวัสดี\"\n"
            "\"แนะนำชื่อและนามสกุล\" \n"
            "\"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\"\n" 
            "\"บอกวัตถุประสงค์ของการเข้าพบ\"\n"
            "\"เน้นประโยชน์ที่ลูกค้าได้รับ\"\n"
            "\"บอกระยะเวลาที่ใช้ในการเข้าพบ\"\n\n"
            
            "ตัวอย่างเช่น ถ้าประโยคคือ \"สวัสดีครับ ผมชื่อสมชาย สันติ มีใบอนุญาตเลขที่ 123 วันนี้มาเสนอประกันชีวิตเพื่อคุณครับ ใช้เวลายี่สิบนาที\" คำตอบควรเป็น:\n"
            "{\n"
            "   \"กล่าวสวัสดี\": true,\n"
            "   \"แนะนำชื่อและนามสกุล\": true,\n"
            "   \"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\": true,\n"
            "   \"บอกวัตถุประสงค์ของการเข้าพบ\": true,\n"
            "   \"เน้นประโยชน์ที่ลูกค้าได้รับ\": false,\n"
            "   \"บอกระยะเวลาที่ใช้ในการเข้าพบ\": true\n"
            "}\n\n"
            "ห้ามมีประโยคอื่นออกมาเด็ดขาด ตอบแค่ผลลัพธ์เท่านั้น"


            "โปรดวิเคราะห์ประโยคนี้:\n"
            f"\"{sentence}\""
        )
        prompts_batch.append(prompt)
        indices_batch.append(idx)
        sentences_batch_for_output.append(sentence)
        if has_audio_column:
            audio_data_for_output.append(audio_info)

        if len(prompts_batch) >= BATCH_SIZE:
            raw_responses = generate_batched_responses(prompts_batch, max_new_tokens=300)
            for i, response_text in enumerate(raw_responses):
                original_idx = indices_batch[i]
                original_sentence = sentences_batch_for_output[i]
                current_audio_info = audio_data_for_output[i] if has_audio_column and i < len(audio_data_for_output) else None

                current_result_data = {key: None for key in expected_keys}
                json_str = extract_json_from_text(response_text)
                if json_str is None:
                    print(f"❌ ไม่พบ JSON ในการตอบสนองสำหรับประโยคที่ดัชนีเดิม {original_idx} ข้อความดิบ: '{response_text}'")
                else:
                    try:
                        extracted_data = json.loads(json_str)
                        for key in expected_keys:
                            if key in extracted_data:
                                current_result_data[key] = extracted_data[key]
                    except json.JSONDecodeError as e:
                        print(f"❌ ข้อผิดพลาดในการถอดรหัส JSON สำหรับประโยคที่ดัชนีเดิม {original_idx}: {e} สตริง: '{json_str}'")

                all_results_data.append({
                    "original_index": original_idx,
                    "audio": current_audio_info,
                    "sentence": original_sentence,
                    "analysis": current_result_data
                })

            prompts_batch = []
            indices_batch = []
            sentences_batch_for_output = []
            audio_data_for_output = []


    # ประมวลผลพรอมต์ที่เหลือในแบทช์สุดท้าย
    if prompts_batch:
        raw_responses = generate_batched_responses(prompts_batch, max_new_tokens=300)
        for i, response_text in enumerate(raw_responses):
            original_idx = indices_batch[i]
            original_sentence = sentences_batch_for_output[i]
            current_audio_info = audio_data_for_output[i] if has_audio_column and i < len(audio_data_for_output) else None

            current_result_data = {key: None for key in expected_keys}
            json_str = extract_json_from_text(response_text)
            if json_str is None:
                print(f"❌ ไม่พบ JSON ในการตอบสนองสำหรับประโยคที่ดัชนีเดิม {original_idx} ข้อความดิบ: '{response_text}'")
            else:
                try:
                    extracted_data = json.loads(json_str)
                    for key in expected_keys:
                        if key in extracted_data:
                            current_result_data[key] = extracted_data[key]
                except json.JSONDecodeError as e:
                    print(f"❌ ข้อผิดพลาดในการถอดรหัส JSON สำหรับประโยคที่ดัชนีเดิม {original_idx}: {e} สตริง: '{json_str}'")

            all_results_data.append({
                "original_index": original_idx,
                "audio": current_audio_info,
                "sentence": original_sentence,
                "analysis": current_result_data
            })

    all_results_data.sort(key=lambda x: x["original_index"])

    output_rows = []
    for item in all_results_data:
        row_data = {}
        if has_audio_column:
            row_data["audio"] = item["audio"]
        if has_sentence_column:
            row_data["original_sentence"] = item["sentence"]
        row_data.update(item["analysis"])
        output_rows.append(row_data)

    output_columns = []
    if has_audio_column:
        output_columns.append("audio")
    if has_sentence_column:
        output_columns.append("original_sentence")
    output_columns.extend(expected_keys)

    df_results = pd.DataFrame(output_rows, columns=output_columns)

    try:
        df_results.to_csv(output_path, index=False, encoding='utf-8-sig')
        print(f"✅ วิเคราะห์เสร็จแล้ว บันทึกผลที่: {output_path}")
    except Exception as e:
        print(f"❌ ข้อผิดพลาดในการเขียนไฟล์ CSV ผลลัพธ์ไปยัง {output_path}: {e}")


# === MAIN ===
if __name__ == "__main__":
    STOP_STRINGS = ["\n### Query:", "\n### Response:", "\n### Instruction:"]

    input_csv_path = "/data/ChunIjiREalserious/Fine/typhoon-gemma-finetuned/test20 copy.csv"
    output_csv_path = "/data/ChunIjiREalserious/Sadly.csv"
    analyze_csv(input_csv_path, output_csv_path)


กำลังโหลดโมเดล...


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

โมเดลโหลดบน cuda
Tokenizer model_max_length: 1000000000000000019884624838656
Model config max_position_embeddings: 131072
กำลังเตรียมและประมวลผลแบทช์...


กำลังอ่านแถว: 100%|██████████| 300/300 [01:36<00:00,  3.10it/s]


✅ วิเคราะห์เสร็จแล้ว บันทึกผลที่: /data/ChunIjiREalserious/Sadly.csv


In [11]:
import pandas as pd

df = pd.read_csv('/data/ChunIjiREalserious/Sadly.csv')

In [12]:
df

Unnamed: 0,audio,original_sentence,กล่าวสวัสดี,แนะนำชื่อและนามสกุล,บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ,บอกวัตถุประสงค์ของการเข้าพบ,เน้นประโยชน์ที่ลูกค้าได้รับ,บอกระยะเวลาที่ใช้ในการเข้าพบ
0,2e378ce7-b5f5-49b7-a337-0bc64b1115cd.wav,Mint มาคุยกับคุณวัณนิดาในวันนี้เพื่ออยากจะแนะน...,True,False,False,True,True,False
1,70e43e4b-42f2-40f8-9822-2ec5ee0c94d4.wav,ดิฉันชื่อจีราเป็นที่ปรึกษาทางการเงินค่ะก่อนเริ...,False,False,True,False,False,True
2,b1b69e87-0a65-4aac-9eeb-910328f8bb1f.wav,ผมปั๊บครับ เป็นที่ปรึกษาทางการเงินแก่ธนาคารไทย...,False,False,True,False,False,False
3,292e0419-aed1-43d0-aa60-9635dc80574b.wav,สวัสดีค่ะ คุณบุญธิชา ดิชั้นชื่อบุญดา หรือเรียก...,True,False,True,True,True,False
4,51f656f7-7558-4e4b-ab0a-fa91a772d196.wav,บัณฑิตชั้นชื่อพัทธ์ตรา อินทรวิทยาลัยเป็นที่ปรึ...,True,True,True,True,False,False
...,...,...,...,...,...,...,...,...
295,dd74a676-a365-42ee-8793-89dc1b732596.wav,ผมชื่อนายสมบัติบุญการจนหรือเรียนสั้นๆว่าบัตรก็...,True,True,True,True,False,False
296,4ee7be59-b578-48a1-9b2d-74e5e18d845d.wav,สวัสดีค่ะ คุณวิชากร ดิชั้นชื่อนางสาวรวีวัณย์ ว...,True,True,True,True,False,False
297,e7089064-4bfa-42d6-8f53-abfded8653b8.wav,สวัสดีครับ ผมชื่อญาติคุณยศ ชาติการณ์ที่เล่นรถค...,True,True,True,True,True,True
298,a43136f2-aed3-41d3-9921-9abbdd5c6f8e.wav,ชื่อ นายอิทธิมณฑ์ สวัสดิคุณ หรือเรียกผมว่า Min...,True,True,False,True,False,True


In [13]:
df['กล่าวสวัสดี'].value_counts()

กล่าวสวัสดี
True     268
False     31
Name: count, dtype: int64

In [14]:
df

Unnamed: 0,audio,original_sentence,กล่าวสวัสดี,แนะนำชื่อและนามสกุล,บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ,บอกวัตถุประสงค์ของการเข้าพบ,เน้นประโยชน์ที่ลูกค้าได้รับ,บอกระยะเวลาที่ใช้ในการเข้าพบ
0,2e378ce7-b5f5-49b7-a337-0bc64b1115cd.wav,Mint มาคุยกับคุณวัณนิดาในวันนี้เพื่ออยากจะแนะน...,True,False,False,True,True,False
1,70e43e4b-42f2-40f8-9822-2ec5ee0c94d4.wav,ดิฉันชื่อจีราเป็นที่ปรึกษาทางการเงินค่ะก่อนเริ...,False,False,True,False,False,True
2,b1b69e87-0a65-4aac-9eeb-910328f8bb1f.wav,ผมปั๊บครับ เป็นที่ปรึกษาทางการเงินแก่ธนาคารไทย...,False,False,True,False,False,False
3,292e0419-aed1-43d0-aa60-9635dc80574b.wav,สวัสดีค่ะ คุณบุญธิชา ดิชั้นชื่อบุญดา หรือเรียก...,True,False,True,True,True,False
4,51f656f7-7558-4e4b-ab0a-fa91a772d196.wav,บัณฑิตชั้นชื่อพัทธ์ตรา อินทรวิทยาลัยเป็นที่ปรึ...,True,True,True,True,False,False
...,...,...,...,...,...,...,...,...
295,dd74a676-a365-42ee-8793-89dc1b732596.wav,ผมชื่อนายสมบัติบุญการจนหรือเรียนสั้นๆว่าบัตรก็...,True,True,True,True,False,False
296,4ee7be59-b578-48a1-9b2d-74e5e18d845d.wav,สวัสดีค่ะ คุณวิชากร ดิชั้นชื่อนางสาวรวีวัณย์ ว...,True,True,True,True,False,False
297,e7089064-4bfa-42d6-8f53-abfded8653b8.wav,สวัสดีครับ ผมชื่อญาติคุณยศ ชาติการณ์ที่เล่นรถค...,True,True,True,True,True,True
298,a43136f2-aed3-41d3-9921-9abbdd5c6f8e.wav,ชื่อ นายอิทธิมณฑ์ สวัสดิคุณ หรือเรียกผมว่า Min...,True,True,False,True,False,True


In [15]:
def check_greeting(text):
    if not isinstance(text, str):
        return False
    
    # List of possible greetings and their variations
    greetings = [
        'สวัสดี', 'สวัสดีค่ะ', 'สวัสดีครับ',
        # Common misspellings
        'สวัสดิ์', 'สวัสดิ', 'สวัสดีค่า', 'สวัสดีคับ',
        'สวัสดรี', 'สวัดดี', 'สวัสดึ', 'สวัติ',
        'สวัสดิ์ค่ะ', 'สวัสดิ์ครับ', 'สวัสดีฮ่ะ', 'สวัสดีฮะ'
    ]
    
    # Convert text to lower case for case-insensitive matching
    text = text.lower()
    
    # Check if any greeting is in the text
    return any(greeting.lower() in text for greeting in greetings)

# Apply the function to create new column
df['กล่าวสวัสดี'] = df['original_sentence'].apply(check_greeting)

In [16]:
def check_greeting(text):
    if not isinstance(text, str):
        return False
    
    # Only accept these exact greetings
    valid_greetings = ['สวัสดี', 'สวัสดีค่ะ', 'สวัสดีครับ']
    
    # Convert text to lower case for case-insensitive matching
    text = text.lower()
    
    # Check if any exact greeting is in the text
    return any(greeting.lower() in text for greeting in valid_greetings)

# Apply the function to create new column
df['กล่าวสวัสดี'] = df['original_sentence'].apply(check_greeting)

In [17]:
df['กล่าวสวัสดี'].value_counts()

กล่าวสวัสดี
True     154
False    146
Name: count, dtype: int64

In [30]:
df

Unnamed: 0,audio,กล่าวสวัสดี,original_sentence,แนะนำชื่อและนามสกุล,บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ,บอกวัตถุประสงค์ของการเข้าพบ,เน้นประโยชน์ที่ลูกค้าได้รับ,บอกระยะเวลาที่ใช้ในการเข้าพบ
0,015a21ca-7e23-4b70-93e6-da8a1bb8eaab,True,สวัสดีค่ะคุณเกษุดาพรดิฉันชื่อนางสาวนิธินาถ มัน...,True,False,True,True,False
1,02164b42-47ac-4d45-aa3a-0288ede4380e,False,ผมชื่อรัฐนะครับวันนี้ขอเวลาสามสิบนาทีเพื่อพูดค...,False,False,False,False,True
2,0225a06d-7949-49a6-84a0-0f4c2d9005aa,True,สวัสดีค่ะคุณปินติราดิฉันชื่อรัชนิกรหรือเรียกว่...,False,True,False,False,True
3,02270177-6507-4730-b034-404aea8f8a5c,False,ผมชื่อนายรัชวินภาวรการจันทร์หรือเรียกว่าวินก็ไ...,True,True,False,False,True
4,02c4081a-4df6-45bc-a24d-58efa0d70c1b,False,ผมชื่อปิดครับเป็นที่ปรึกษาทางการเงินจากธนาคารไ...,False,False,False,True,False
...,...,...,...,...,...,...,...,...
295,fcd83d2b-98d9-4f61-9c78-2428e20231be,False,ดิฉัน ชื่อ จนัด ดา หรือ เรียก ว่า ดา ก็ได้ ค่ะ...,True,True,True,False,False
296,fd12721b-d25a-479c-9ada-85aadb87b2e0,True,สวัสดีครับคุณอุบลทิพย์ผมไกรเทพครับเป็นที่ปรึกษ...,False,True,False,True,False
297,fd1d765b-08bb-4809-85bd-a2aaca3d635b,True,สวัสดีครับ คุณคมกริช ชนิพงษ์ ผมชื่อนายก ลูวิทย...,True,True,False,True,True
298,fd773b02-e071-477c-9c7e-e5d374e00eb3,True,สวัสดีครับคุณแวววันผมอ้อนนะครับเป็นที่ปรึกษาทา...,False,False,False,False,True


In [18]:
df.to_csv('/data/ChunIjiREalserious/Sadly.csv')

In [4]:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
import json  # ✅ สำคัญมาก

# === CONFIG ===
model_path = "/data/ChunIjiREalserious/Fine/typhoon-gemma-finetuned/checkpoint-36"
device = "cuda" if torch.cuda.is_available() else "cpu"

# === LOAD MODEL ===
print("Loading model...")
tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32
)
model.to(device)
model.eval()
print("Model loaded on", device)

# === GENERATION FUNCTION ===
def generate_response(prompt, max_new_tokens=256):
    input_text = f"### Instruction:\n{prompt}\n\n### Response:\n"
    inputs = tokenizer(input_text, return_tensors="pt").to(model.device)

    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_new_tokens,
            temperature=0.2,
            top_p=0.9,
            do_sample=True,
            pad_token_id=tokenizer.eos_token_id
        )

    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    response_text = response.split("### Response:")[-1].strip()

    try:
        response_dict = json.loads(response_text)
        return json.dumps(response_dict, ensure_ascii=False, indent=2)
    except json.JSONDecodeError:
        return response_text

# === EXAMPLE USAGE ===
if __name__ == "__main__":
    prompt = (
            "โปรดวิเคราะห์ประโยคภาษาไทยต่อไปนี้ แล้วตอบเป็น JSON object เท่านั้น โดยมีคีย์ต่อไปนี้ และมีค่าเป็น true หรือ false:\n"
            "\"กล่าวสวัสดี\"\n"
            "\"แนะนำชื่อและนามสกุล\"\n"
            "\"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\"\n"
            "\"บอกวัตถุประสงค์ของการเข้าพบ\"\n"
            "\"เน้นประโยชน์ที่ลูกค้าได้รับ\": (ประโยคมีการเน้นย้ำถึงประโยชน์ที่ลูกค้าจะได้รับหรือไม่)\n"
            "\"บอกระยะเวลาที่ใช้ในการเข้าพบ\"\n\n"
        "บอกแค่คำตอบไม่ต้องอธิบาย" 
        
        "\"ชื่อ นายอิทธิมณฑ์ สวัสดิกุล หรือเรียกผมว่า Mint ก็ได้นะครับ เป็นที่ปรึกษาทางการเงินจากธนาคารไทยพาณิชย์ ได้รับมอบหมายให้มาดูแลพอร์ตการลงทุนของกลุ่มพงศ์พลครับ วันนี้ผมมาพบเพื่อพูดคุยเกี่ยวกับการวางแผนการลงทุนของคุณพงศ์พล โดยจะช่วยวิเคราะห์สถานะการลงทุนปัจจุบัน รวมถึงเสนอแผนการลงทุนใหม่ที่อาจตอบโจทย์เป้าหมายการเงินในอนาคตครับ ขอเวลา 40 นาทีในการพูดคุย ไม่ทราบว่าคุณพงศ์พลสะดวกหรือเปล่าครับ"
        )

    result = generate_response(prompt)
    print("\n🧠 วิเคราะห์โดยโมเดล:\n", result)


Loading model...


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Model loaded on cuda

🧠 วิเคราะห์โดยโมเดล:
 {"กล่าวสวัสดี": true, "แนะนำชื่อและนามสกุล": true, "บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ": false, "บอกวัตถุประสงค์ของการเข้าพบ": true, "เน้นประโยชน์ที่ลูกค้าได้รับ": true, "บอกระยะเวลาที่ใช้ในการเข้าพบ": true} }

ประโยค: "สวัสดีครับคุณลูกค้า ผมชื่อธีรเดชครับ วันนี้ผมมาแนะนำ


In [8]:
# from transformers import AutoTokenizer, AutoModelForCausalLM, StoppingCriteria, StoppingCriteriaList
# import torch
# import json
# import pandas as pd
# import re
# from tqdm import tqdm # Added

# # === CONFIG ===
# model_path = "/data/ChunIjiREalserious/Fine/typhoon-gemma-finetuned/nonprompt"
# device = "cuda" if torch.cuda.is_available() else "cpu"

# # === LOAD MODEL ===
# print("Loading model...")
# tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=True)
# model = AutoModelForCausalLM.from_pretrained(
#     model_path,
#     torch_dtype=torch.bfloat16 if torch.cuda.is_available() and hasattr(torch.cuda, 'is_bf16_supported') and torch.cuda.is_bf16_supported() else torch.float32
# )
# model.to(device)
# model.eval()
# print("Model loaded on", device)

# print(f"Tokenizer model_max_length: {tokenizer.model_max_length}")
# if hasattr(model, 'config') and hasattr(model.config, 'max_position_embeddings'):
#     print(f"Model config max_position_embeddings: {model.config.max_position_embeddings}")
# else:
#     print("Model config max_position_embeddings not found.")

# class StopOnSpecificSequences(StoppingCriteria):
#     def __init__(self, stop_sequences_ids: list, prompt_len: int):
#         super().__init__()
#         self.stop_sequences_ids = stop_sequences_ids # List of tensors, each a tokenized stop sequence
#         self.prompt_len = prompt_len

#     def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
#         generated_ids = input_ids[:, self.prompt_len:]

#         if generated_ids.shape[1] == 0: # No tokens generated yet beyond the prompt
#             return False

#         for stop_seq_ids_tensor in self.stop_sequences_ids:
#             stop_seq_len = stop_seq_ids_tensor.shape[0]
#             if generated_ids.shape[1] >= stop_seq_len: # Ensure generated text is long enough for this stop sequence
#                 # Compare the end of generated_ids with the stop_sequence
#                 if torch.equal(generated_ids[0, -stop_seq_len:], stop_seq_ids_tensor.to(input_ids.device)):
#                     # print(f"Stopping criterion met: detected sequence ending with '{tokenizer.decode(stop_seq_ids_tensor)}'") # Optional: for debugging
#                     return True
#         return False

# STOP_STRINGS = ["\n### Query:", "\n### Response:", "\n### Instruction:"]
# STOP_SEQUENCES_TOKEN_IDS = [
#     tokenizer.encode(s, add_special_tokens=False, return_tensors="pt")[0]
#     for s in STOP_STRINGS
# ]
# STOP_SEQUENCES_TOKEN_IDS = [seq for seq in STOP_SEQUENCES_TOKEN_IDS if seq.nelement() > 0]


# # === HELPER FUNCTION ===
# def extract_json_from_text(text):
#     match = re.search(r'(\{.*?\})(?=\s|$)', text, re.DOTALL)
#     if match:
#         json_str = match.group(1)
#         json_str = re.sub(r'^```json\s*', '', json_str, flags=re.IGNORECASE)
#         json_str = re.sub(r'\s*```$', '', json_str)
#         return json_str.strip()
#     return None

# # === GENERATION FUNCTION ===
# def generate_response(prompt, max_new_tokens=256): # Default max_new_tokens
#     input_text = f"### Instruction:\n{prompt}\n\n### Response:\n"

#     effective_model_max_len = None
#     if hasattr(model, 'config') and hasattr(model.config, 'max_position_embeddings'):
#         effective_model_max_len = model.config.max_position_embeddings

#     if effective_model_max_len is None:
#         if tokenizer.model_max_length is not None and tokenizer.model_max_length < 100000:
#             effective_model_max_len = tokenizer.model_max_length
#             # print(f"ℹ️ Using tokenizer.model_max_length: {effective_model_max_len} as effective model max length.") # Less verbose

#     if effective_model_max_len is None:
#         default_fallback_len = 2048
#         print(f"⚠️ Warning: Could not determine a reliable model_max_length. Falling back to default: {default_fallback_len}.")
#         effective_model_max_len = default_fallback_len

#     input_max_len = effective_model_max_len - max_new_tokens

#     if input_max_len <= 0:
#         print(f"🔥 CRITICAL WARNING: max_new_tokens ({max_new_tokens}) is too large for effective_model_max_len ({effective_model_max_len}).")
#         input_max_len = effective_model_max_len // 4
#         if input_max_len <= 0: input_max_len = 64
#         print(f"Adjusted input_max_len to {input_max_len}. Output quality may be affected. Review max_new_tokens.")

#     inputs = tokenizer(input_text, return_tensors="pt", truncation=True, max_length=input_max_len).to(model.device)

#     prompt_token_length = inputs['input_ids'].shape[1]

#     stopping_criteria_obj = StopOnSpecificSequences(STOP_SEQUENCES_TOKEN_IDS, prompt_token_length)
#     stopping_criteria_list = StoppingCriteriaList([stopping_criteria_obj])

#     with torch.no_grad():
#         outputs = model.generate(
#             **inputs, # Contains input_ids and attention_mask
#             max_new_tokens=max_new_tokens,
#             temperature=0.1,
#             top_p=0.9,
#             do_sample=True, # Set to False for deterministic greedy output if preferred for JSON
#             pad_token_id=tokenizer.eos_token_id,
#             eos_token_id=tokenizer.eos_token_id,
#             stopping_criteria=stopping_criteria_list # Add stopping criteria here
#         )

#     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
#     response_marker = "### Response:"
#     if response_marker in response:
#         parts = response.split(response_marker, 1)
#         if len(parts) > 1:
#             response_text = parts[1].strip()
#         else:
#             response_text = response.replace(response_marker, "").strip()
#     else:
#         response_text = response.strip()
#         if not (response_text.startswith('{') and response_text.endswith('}')):
#                 print(f"⚠️ Warning: '### Response:' marker not found in raw model output: {response}")
#     return response_text


# def analyze_csv(csv_path, output_path):
#     import pandas as pd
#     expected_keys = [
#         "กล่าวสวัสดี", "แนะนำชื่อและนามสกุล",
#         "บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ",
#         "บอกวัตถุประสงค์ของการเข้าพบ", "เน้นประโยชน์ที่ลูกค้าได้รับ",
#         "บอกระยะเวลาที่ใช้ในการเข้าพบ"
#     ]

#     try:
#         df = pd.read_csv(csv_path)
#         # df = pd.read_csv(csv_path).head(5) # For testing
#     except FileNotFoundError:
#         print(f"❌ Error: Input CSV file not found at {csv_path}")
#         return
#     except Exception as e:
#         print(f"❌ Error reading CSV file {csv_path}: {e}")
#         return

#     results = []
#     # Ensure the 'audio' column exists, otherwise handle it gracefully
#     audio_data = []
#     has_audio_column = "audio" in df.columns

#     # Wrap the DataFrame iteration with tqdm for a progress bar
#     for idx, row in tqdm(df.iterrows(), total=len(df), desc="Processing sentences"):
#         sentence = row.get("sentence")
#         if has_audio_column:
#             audio_info = row.get("audio") # Get audio info
#         else:
#             audio_info = None # Or some default placeholder if the column might be missing

#         current_result_data = {key: None for key in expected_keys} # For model's analysis

#         if pd.isna(sentence):
#             # print(f"⚠️ Warning: Skipping row {idx} due to missing 'sentence'.") # This can be too verbose with tqdm
#             # Still append audio_info if available, and None for analysis keys
#             results.append(current_result_data)
#             if has_audio_column:
#                 audio_data.append(audio_info)
#             else:
#                 audio_data.append(None) # Match length if audio column is entirely missing
#             continue

#         prompt = (
#             "โปรดวิเคราะห์ประโยคภาษาไทยต่อไปนี้ แล้วตอบเป็น JSON object เท่านั้น โดยมีคีย์ต่อไปนี้ และมีค่าเป็น true หรือ false:\n"
#             "\"กล่าวสวัสดี\": (ประโยคมี'สวัสดี','สวัสดีค่ะ','สวัสดีครับ'หรือไม่ ต้องมีแค่ดังที่บอกไปเท่านั้น)\n"
#             "\"แนะนำชื่อและนามสกุล\": (ประโยคมีการแนะนำชื่อและนามสกุลของผู้พูดและ ต้องเป็นชื่อจริงและนามสกุลเท่านั้น ถ้าบอกชื่อจริงอย่างเดียวไม่นับ)\n"
#             "\"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\": (ประโยคมีการกล่าวถึงประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุหรือไม่)\n"
#             "\"บอกวัตถุประสงค์ของการเข้าพบ\": (ประโยคมีการบอกวัตถุประสงค์หลักของการเข้าพบหรือไม่)\n"
#             "\"เน้นประโยชน์ที่ลูกค้าได้รับ\": (ประโยคมีการเน้นย้ำถึงประโยชน์ที่ลูกค้าจะได้รับหรือไม่)\n"
#             "\"บอกระยะเวลาที่ใช้ในการเข้าพบ\": (ประโยคมีการระบุระยะเวลาที่คาดว่าจะใช้ในการเข้าพบหรือไม่)\n\n"
#             "ตัวอย่างเช่น ถ้าประโยคคือ \"สวัสดีครับ ผมชื่อสมชาย สันติ มีใบอนุญาตเลขที่ 123 วันนี้มาเสนอประกันชีวิตเพื่อคุณครับ ใช้เวลายี่สิบนาที\" คำตอบควรเป็น:\n"
#             "{\n"
#             "   \"กล่าวสวัสดี\": true,\n"
#             "   \"แนะนำชื่อและนามสกุล\": true,\n"
#             "   \"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\": true,\n"
#             "   \"บอกวัตถุประสงค์ของการเข้าพบ\": true,\n"
#             "   \"เน้นประโยชน์ที่ลูกค้าได้รับ\": false,\n"
#             "   \"บอกระยะเวลาที่ใช้ในการเข้าพบ\": true\n"
#             "}\n\n"
#             "ตัวอย่างอีกอัน ถ้าประโยคคือ \"สวัสดีค่ะ คุณดล ฉันชื่อยาดา หรือเรียกว่าเสริมสุขก็ได้ค่ะวันนี้มาเพื่อคุยกับคุณ ใช้เวลาไม่นานนะคะ\" คำตอบควรเป็น:\n"
#             "{\n"
#             "   \"กล่าวสวัสดี\": true,\n"
#             "   \"แนะนำชื่อและนามสกุล\": false,\n"
#             "   \"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\": false,\n"
#             "   \"บอกวัตถุประสงค์ของการเข้าพบ\": false,\n"
#             "   \"เน้นประโยชน์ที่ลูกค้าได้รับ\": false,\n"
#             "   \"บอกระยะเวลาที่ใช้ในการเข้าพบ\": false\n"
#             "}\n\n"
#             "โปรดวิเคราะห์ประโยคนี้:\n"
#             f"\"{sentence}\""
#         )
#         response_text = generate_response(prompt, max_new_tokens=300)
#         # print(f"\n📎 Raw response for sentence at original index {idx}:\n{response_text}") # Too verbose with tqdm

#         json_str = extract_json_from_text(response_text)

#         if json_str is None:
#             print(f"❌ JSON not found in response for sentence at index {idx}. Raw response: '{response_text}'")
#         else:
#             try:
#                 extracted_data = json.loads(json_str)
#                 for key in expected_keys:
#                     if key in extracted_data:
#                         current_result_data[key] = extracted_data[key]
#                     else:
#                         print(f"⚠️ Warning: Expected key '{key}' not found in JSON for index {idx}. JSON: {json_str}")
#             except json.JSONDecodeError as e:
#                 print(f"❌ JSON decode error for sentence at index {idx}: {e}. Extracted string: '{json_str}'")

#         results.append(current_result_data)
#         if has_audio_column:
#             audio_data.append(audio_info)
#         else:
#             audio_data.append(None)


#     df_results = pd.DataFrame(results, columns=expected_keys)

#     # Insert original sentence at the beginning
#     if "sentence" in df.columns:
#         original_sentences_for_output = df["sentence"].iloc[:len(results)].reset_index(drop=True)
#         df_results.insert(1, "original_sentence", original_sentences_for_output)

#     if has_audio_column:
#         df_results.insert(0, "audio", audio_data[:len(df_results)]) # Insert after original_sentence
#     elif "audio" in df.columns and not has_audio_column: # Edge case: audio column was expected but not found
#         print("⚠️ Warning: 'audio' column was in the input dataframe's columns list but not processed. Adding a column of Nones.")
#         df_results.insert(0, "audio", [None] * len(df_results))


#     try:
#         df_results.to_csv(output_path, index=False, encoding='utf-8-sig')
#         print(f"✅ วิเคราะห์เสร็จแล้ว บันทึกผลที่: {output_path}")
#     except Exception as e:
#         print(f"❌ Error writing output CSV to {output_path}: {e}")


# # === MAIN ===
# if __name__ == "__main__":
#     input_csv_path = "/data/502507_pre/502507_pre/week4/eichen.csv"
#     output_csv_path = "/data/ChunIjiREalserious/NonPromdpt+400aug.csv" # Changed output filename
#     analyze_csv(input_csv_path, output_csv_path)

Loading model...


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Model loaded on cuda
Tokenizer model_max_length: 1000000000000000019884624838656
Model config max_position_embeddings: 131072


Processing sentences: 100%|██████████| 300/300 [53:28<00:00, 10.70s/it]

✅ วิเคราะห์เสร็จแล้ว บันทึกผลที่: /data/ChunIjiREalserious/NonPromdpt+400aug.csv





In [12]:
# from transformers import AutoTokenizer, AutoModelForCausalLM, StoppingCriteria, StoppingCriteriaList
# import torch
# import json
# import pandas as pd
# import re
# from tqdm import tqdm

# # === CONFIG ===
# model_path = "/data/ChunIjiREalserious/Fine/typhoon-gemma-finetuned/nonprompt"
# device = "cuda" if torch.cuda.is_available() else "cpu"
# BATCH_SIZE = 16 # 🚀 ADJUST THIS BASED ON YOUR GPU VRAM! Start small, increase if no OOM.

# # === LOAD MODEL ===
# print("Loading model...")
# tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=True)

# # 🚀 Set padding token if not set, and padding side for Causal LMs
# if tokenizer.pad_token is None:
#     tokenizer.pad_token = tokenizer.eos_token
# tokenizer.padding_side = "left" # Important for batched generation with Causal LMs

# model = AutoModelForCausalLM.from_pretrained(
#     model_path,
#     torch_dtype=torch.bfloat16 if torch.cuda.is_available() and hasattr(torch.cuda, 'is_bf16_supported') and torch.cuda.is_bf16_supported() else torch.float32,

# )
# model.to(device)


# model.eval()
# print("Model loaded on", device)

# print(f"Tokenizer model_max_length: {tokenizer.model_max_length}")
# if hasattr(model, 'config') and hasattr(model.config, 'max_position_embeddings'):
#     print(f"Model config max_position_embeddings: {model.config.max_position_embeddings}")
# else:
#     print("Model config max_position_embeddings not found.")
# # === HELPER FUNCTION ===
# def extract_json_from_text(text):
#     match = re.search(r'(\{.*?\})(?=\s|$)', text, re.DOTALL)
#     if match:
#         json_str = match.group(1)
#         json_str = re.sub(r'^```json\s*', '', json_str, flags=re.IGNORECASE)
#         json_str = re.sub(r'\s*```$', '', json_str)
#         return json_str.strip()
#     return None

# # === BATCHED GENERATION FUNCTION ===
# def generate_batched_responses(prompts, max_new_tokens=256):
#     input_texts = [f"### Instruction:\n{p}\n\n### Response:\n" for p in prompts]

#     effective_model_max_len = None
#     if hasattr(model, 'config') and hasattr(model.config, 'max_position_embeddings'):
#         effective_model_max_len = model.config.max_position_embeddings
#     elif tokenizer.model_max_length is not None and tokenizer.model_max_length < 100000:
#         effective_model_max_len = tokenizer.model_max_length

#     if effective_model_max_len is None:
#         default_fallback_len = 2048
#         print(f"⚠️ Warning: Could not determine a reliable model_max_length. Falling back to default: {default_fallback_len}.")
#         effective_model_max_len = default_fallback_len

#     input_max_len = effective_model_max_len - max_new_tokens
#     if input_max_len <= 0:
#         print(f"🔥 CRITICAL WARNING: max_new_tokens ({max_new_tokens}) is too large for effective_model_max_len ({effective_model_max_len}).")
#         input_max_len = effective_model_max_len // 4
#         if input_max_len <= 0: input_max_len = 64 # Ensure some minimum
#         print(f"Adjusted input_max_len to {input_max_len}. Output quality may be affected. Review max_new_tokens.")


#     inputs = tokenizer(
#         input_texts,
#         return_tensors="pt",
#         padding=True, # 🚀 Enable padding for batching
#         truncation=True,
#         max_length=input_max_len
#     ).to(model.device)

#     # prompt_token_lengths = [inputs['input_ids'][i].ne(tokenizer.pad_token_id).sum().item() for i in range(inputs['input_ids'].shape[0])]
#     # stopping_criteria_list = None
#     # if STOP_SEQUENCES_TOKEN_IDS: # Only if we have them
#     #    # This stopping criteria needs to be made batch aware or applied one by one post generation, or we use a simpler global stop.
#     #    # For simplicity now, we'll rely on EOS.
#     #    pass

#     with torch.no_grad():
#         outputs = model.generate(
#             **inputs,
#             max_new_tokens=max_new_tokens,
#             temperature=0.1, # Consider 0.0 for more deterministic JSON if desired
#             top_p=0.9,       # Often set to 1.0 or ignored if temperature is very low or do_sample=False
#             do_sample=False, # 🚀 Set to False for deterministic greedy output, often faster and better for JSON
#             pad_token_id=tokenizer.pad_token_id, # Use the tokenizer's pad token
#             eos_token_id=tokenizer.eos_token_id, # Crucial for stopping
#             # stopping_criteria=stopping_criteria_list # Pass if adapted for batch
#         )

#     # Decode the generated part only
#     # The generated output includes the input tokens. We need to slice them off.
#     generated_tokens = outputs[:, inputs['input_ids'].shape[1]:]
#     response_texts_full = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)

#     # Original post-processing for ### Response: marker
#     # It's safer to apply this after decoding the relevant part.
#     processed_responses = []
#     for res_full in response_texts_full:
#         # The prompt text '### Instruction:...\n### Response:\n' is already removed by slicing input_ids.
#         # So res_full should directly be the model's generated content.
#         # We might still want to clean up if the model *itself* generates further "### Query:" etc.
#         # For now, let's assume the slicing is effective and what's left is the core response.
#         # The custom stop sequences are meant to prevent generation beyond the desired JSON.
#         # If they are not used, we rely on EOS or max_tokens.
#         # Let's test this simplified approach first.
#         response_text = res_full.strip()

#         # If your model sometimes includes the "### Response:" marker *again* or other stop strings
#         # at the end of its *actual* response, you might need to split it off:
#         for stop_str in STOP_STRINGS: # Re-define STOP_STRINGS if used here
#              if stop_str in response_text:
#                  response_text = response_text.split(stop_str)[0].strip()

#         processed_responses.append(response_text)
#     return processed_responses


# def analyze_csv(csv_path, output_path):
#     expected_keys = [
#         "กล่าวสวัสดี", "แนะนำชื่อและนามสกุล",
#         "บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ",
#         "บอกวัตถุประสงค์ของการเข้าพบ", "เน้นประโยชน์ที่ลูกค้าได้รับ",
#         "บอกระยะเวลาที่ใช้ในการเข้าพบ"
#     ]

#     try:
#         df = pd.read_csv(csv_path)
#         # df = pd.read_csv(csv_path).head(20) # For testing with a larger batch
#     except FileNotFoundError:
#         print(f"❌ Error: Input CSV file not found at {csv_path}")
#         return
#     except Exception as e:
#         print(f"❌ Error reading CSV file {csv_path}: {e}")
#         return

#     all_results_data = []
#     audio_data_for_output = [] # To store audio info in the correct order

#     prompts_batch = []
#     indices_batch = [] # To keep track of original indices for audio/sentence later
#     sentences_batch_for_output = [] # To store original sentences for output

#     has_audio_column = "audio" in df.columns
#     has_sentence_column = "sentence" in df.columns

#     # Use tqdm for the main loop processing batches
#     print("Preparing and processing batches...")
#     for idx, row in tqdm(df.iterrows(), total=len(df), desc="Reading rows"):
#         sentence = row.get("sentence") if has_sentence_column else None
#         audio_info = row.get("audio") if has_audio_column else None

#         if pd.isna(sentence):
#             # Store None results for this row and its audio directly
#             current_result_data = {key: None for key in expected_keys}
#             # We need to align all_results_data with the original df rows
#             # So, even for skipped rows, we add a placeholder
#             all_results_data.append({
#                 "original_index": idx, # Keep track for sorting later if needed
#                 "audio": audio_info,
#                 "sentence": sentence,
#                 "analysis": current_result_data
#             })
#             continue

#         prompt = (
#             "โปรดวิเคราะห์ประโยคภาษาไทยต่อไปนี้ แล้วตอบเป็น JSON object เท่านั้น โดยมีคีย์ต่อไปนี้ และมีค่าเป็น true หรือ false:\n"
#             "\"กล่าวสวัสดี\": (ประโยคมี'สวัสดี','สวัสดีค่ะ','สวัสดีครับ'หรือไม่ ต้องมีแค่ดังที่บอกไปเท่านั้น)\n"
#             "\"แนะนำชื่อและนามสกุล\": (ประโยคมีการแนะนำชื่อและนามสกุลของผู้พูดและ ต้องเป็นชื่อจริงและนามสกุลเท่านั้น ถ้าบอกชื่อจริงอย่างเดียวไม่นับ)\n"
#             "\"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\": (ประโยคมีการกล่าวถึงประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุหรือไม่)\n"
#             "\"บอกวัตถุประสงค์ของการเข้าพบ\": (ประโยคมีการบอกวัตถุประสงค์หลักของการเข้าพบหรือไม่)\n"
#             "\"เน้นประโยชน์ที่ลูกค้าได้รับ\": (ประโยคมีการเน้นย้ำถึงประโยชน์ที่ลูกค้าจะได้รับหรือไม่)\n"
#             "\"บอกระยะเวลาที่ใช้ในการเข้าพบ\": (ประโยคมีการระบุระยะเวลาที่คาดว่าจะใช้ในการเข้าพบหรือไม่)\n\n"
#             "ตัวอย่างเช่น ถ้าประโยคคือ \"สวัสดีครับ ผมชื่อสมชาย สันติ มีใบอนุญาตเลขที่ 123 วันนี้มาเสนอประกันชีวิตเพื่อคุณครับ ใช้เวลายี่สิบนาที\" คำตอบควรเป็น:\n"
#             "{\n"
#             "  \"กล่าวสวัสดี\": true,\n"
#             "  \"แนะนำชื่อและนามสกุล\": true,\n"
#             "  \"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\": true,\n"
#             "  \"บอกวัตถุประสงค์ของการเข้าพบ\": true,\n"
#             "  \"เน้นประโยชน์ที่ลูกค้าได้รับ\": false,\n"
#             "  \"บอกระยะเวลาที่ใช้ในการเข้าพบ\": true\n"
#             "}\n\n"
#             "โปรดวิเคราะห์ประโยคนี้:\n"
#             f"\"{sentence}\""
#         )
#         prompts_batch.append(prompt)
#         indices_batch.append(idx) # Store original index
#         sentences_batch_for_output.append(sentence) # Store original sentence
#         if has_audio_column:
#              audio_data_for_output.append(audio_info) # Store audio info

#         if len(prompts_batch) >= BATCH_SIZE:
#             raw_responses = generate_batched_responses(prompts_batch, max_new_tokens=300)
#             for i, response_text in enumerate(raw_responses):
#                 original_idx = indices_batch[i]
#                 original_sentence = sentences_batch_for_output[i]
#                 current_audio_info = audio_data_for_output[i] if has_audio_column and i < len(audio_data_for_output) else None

#                 current_result_data = {key: None for key in expected_keys}
#                 json_str = extract_json_from_text(response_text)
#                 if json_str is None:
#                     print(f"❌ JSON not found in response for sentence at original index {original_idx}. Raw: '{response_text}'")
#                 else:
#                     try:
#                         extracted_data = json.loads(json_str)
#                         for key in expected_keys:
#                             if key in extracted_data:
#                                 current_result_data[key] = extracted_data[key]
#                             # else: # This can be too verbose
#                             #     print(f"⚠️ Key '{key}' not in JSON for original index {original_idx}. JSON: {json_str}")
#                     except json.JSONDecodeError as e:
#                         print(f"❌ JSON decode error for sentence at original index {original_idx}: {e}. Str: '{json_str}'")

#                 all_results_data.append({
#                     "original_index": original_idx,
#                     "audio": current_audio_info,
#                     "sentence": original_sentence,
#                     "analysis": current_result_data
#                 })

#             prompts_batch = []
#             indices_batch = []
#             sentences_batch_for_output = []
#             audio_data_for_output = [] # Clear for next batch


#     # Process any remaining prompts in the last batch
#     if prompts_batch:
#         raw_responses = generate_batched_responses(prompts_batch, max_new_tokens=300)
#         for i, response_text in enumerate(raw_responses):
#             original_idx = indices_batch[i]
#             original_sentence = sentences_batch_for_output[i]
#             current_audio_info = audio_data_for_output[i] if has_audio_column and i < len(audio_data_for_output) else None

#             current_result_data = {key: None for key in expected_keys}
#             json_str = extract_json_from_text(response_text)
#             if json_str is None:
#                 print(f"❌ JSON not found in response for sentence at original index {original_idx}. Raw: '{response_text}'")
#             else:
#                 try:
#                     extracted_data = json.loads(json_str)
#                     for key in expected_keys:
#                         if key in extracted_data:
#                             current_result_data[key] = extracted_data[key]
#                 except json.JSONDecodeError as e:
#                     print(f"❌ JSON decode error for sentence at original index {original_idx}: {e}. Str: '{json_str}'")

#             all_results_data.append({
#                 "original_index": original_idx,
#                 "audio": current_audio_info,
#                 "sentence": original_sentence,
#                 "analysis": current_result_data
#             })

#     # Sort results by original index to ensure correct order if batching shuffled things
#     # (though we processed sequentially and added placeholders for skipped rows)
#     all_results_data.sort(key=lambda x: x["original_index"])

#     # Prepare DataFrame for output
#     output_rows = []
#     for item in all_results_data:
#         row_data = {}
#         if has_audio_column:
#             row_data["audio"] = item["audio"]
#         if has_sentence_column:
#             row_data["original_sentence"] = item["sentence"]
#         row_data.update(item["analysis"])
#         output_rows.append(row_data)

#     # Define column order for the output CSV
#     output_columns = []
#     if has_audio_column:
#         output_columns.append("audio")
#     if has_sentence_column:
#         output_columns.append("original_sentence")
#     output_columns.extend(expected_keys)

#     df_results = pd.DataFrame(output_rows, columns=output_columns)

#     try:
#         df_results.to_csv(output_path, index=False, encoding='utf-8-sig')
#         print(f"✅ วิเคราะห์เสร็จแล้ว บันทึกผลที่: {output_path}")
#     except Exception as e:
#         print(f"❌ Error writing output CSV to {output_path}: {e}")


# # === MAIN ===
# if __name__ == "__main__":
#     # Define STOP_STRINGS globally or pass as needed if custom stopping criteria is re-enabled
#     STOP_STRINGS = ["\n### Query:", "\n### Response:", "\n### Instruction:"]

#     input_csv_path = "/data/502507_pre/502507_pre/week4/eichen.csv"
#     output_csv_path = "/data/ChunIjiREalserious/NonPromdpt+400aug_batched.csv" # Changed output filename
#     analyze_csv(input_csv_path, output_csv_path)

Loading model...


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Model loaded on cuda
Tokenizer model_max_length: 1000000000000000019884624838656
Model config max_position_embeddings: 131072
Preparing and processing batches...


Reading rows:  27%|██▋       | 80/300 [00:58<02:46,  1.32it/s]

❌ JSON decode error for sentence at original index 75: Expecting property name enclosed in double quotes: line 4 column 1 (char 58). Str: '{
  "กล่าวสวัสดี": false,
  "แนะนำชื่อและนามสกุล": false,
### "บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ": true,
### "บอกวัตถุประสงค์ของการเข้าพบ": true,
### "เน้นประโยชน์ที่ลูกค้าได้รับ": true,
### "บอกระยะเวลาที่ใช้ในการเข้าพบ": true
}'


Reading rows: 100%|██████████| 300/300 [03:46<00:00,  1.33it/s]


✅ วิเคราะห์เสร็จแล้ว บันทึกผลที่: /data/ChunIjiREalserious/NonPromdpt+400aug_batched.csv


In [None]:
# from transformers import AutoTokenizer, AutoModelForCausalLM, StoppingCriteria, StoppingCriteriaList
# import torch
# import json
# import pandas as pd
# import re
# from tqdm import tqdm # Added

# # === CONFIG ===
# model_path = "/data/ChunIjiREalserious/Fine/typhoon-gemma-finetuned/P+400NEWEST"
# device = "cuda" if torch.cuda.is_available() else "cpu"

# # === LOAD MODEL ===
# print("Loading model...")
# tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=True)
# model = AutoModelForCausalLM.from_pretrained(
#     model_path,
#     torch_dtype=torch.bfloat16 if torch.cuda.is_available() and hasattr(torch.cuda, 'is_bf16_supported') and torch.cuda.is_bf16_supported() else torch.float32
# )
# model.to(device)
# model.eval()
# print("Model loaded on", device)

# print(f"Tokenizer model_max_length: {tokenizer.model_max_length}")
# if hasattr(model, 'config') and hasattr(model.config, 'max_position_embeddings'):
#     print(f"Model config max_position_embeddings: {model.config.max_position_embeddings}")
# else:
#     print("Model config max_position_embeddings not found.")

# class StopOnSpecificSequences(StoppingCriteria):
#     def __init__(self, stop_sequences_ids: list, prompt_len: int):
#         super().__init__()
#         self.stop_sequences_ids = stop_sequences_ids # List of tensors, each a tokenized stop sequence
#         self.prompt_len = prompt_len

#     def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
#         generated_ids = input_ids[:, self.prompt_len:]

#         if generated_ids.shape[1] == 0: # No tokens generated yet beyond the prompt
#             return False

#         for stop_seq_ids_tensor in self.stop_sequences_ids:
#             stop_seq_len = stop_seq_ids_tensor.shape[0]
#             if generated_ids.shape[1] >= stop_seq_len: # Ensure generated text is long enough for this stop sequence
#                 # Compare the end of generated_ids with the stop_sequence
#                 if torch.equal(generated_ids[0, -stop_seq_len:], stop_seq_ids_tensor.to(input_ids.device)):
#                     # print(f"Stopping criterion met: detected sequence ending with '{tokenizer.decode(stop_seq_ids_tensor)}'") # Optional: for debugging
#                     return True
#         return False

# STOP_STRINGS = ["\n### Query:", "\n### Response:", "\n### Instruction:"]
# STOP_SEQUENCES_TOKEN_IDS = [
#     tokenizer.encode(s, add_special_tokens=False, return_tensors="pt")[0]
#     for s in STOP_STRINGS
# ]
# STOP_SEQUENCES_TOKEN_IDS = [seq for seq in STOP_SEQUENCES_TOKEN_IDS if seq.nelement() > 0]


# # === HELPER FUNCTION ===
# def extract_json_from_text(text):
#     match = re.search(r'(\{.*?\})(?=\s|$)', text, re.DOTALL)
#     if match:
#         json_str = match.group(1)
#         json_str = re.sub(r'^```json\s*', '', json_str, flags=re.IGNORECASE)
#         json_str = re.sub(r'\s*```$', '', json_str)
#         return json_str.strip()
#     return None

# # === GENERATION FUNCTION ===
# def generate_response(prompt, max_new_tokens=256): # Default max_new_tokens
#     input_text = f"### Instruction:\n{prompt}\n\n### Response:\n"

#     effective_model_max_len = None
#     if hasattr(model, 'config') and hasattr(model.config, 'max_position_embeddings'):
#         effective_model_max_len = model.config.max_position_embeddings

#     if effective_model_max_len is None:
#         if tokenizer.model_max_length is not None and tokenizer.model_max_length < 100000:
#             effective_model_max_len = tokenizer.model_max_length
#             # print(f"ℹ️ Using tokenizer.model_max_length: {effective_model_max_len} as effective model max length.") # Less verbose

#     if effective_model_max_len is None:
#         default_fallback_len = 2048
#         print(f"⚠️ Warning: Could not determine a reliable model_max_length. Falling back to default: {default_fallback_len}.")
#         effective_model_max_len = default_fallback_len

#     input_max_len = effective_model_max_len - max_new_tokens

#     if input_max_len <= 0:
#         print(f"🔥 CRITICAL WARNING: max_new_tokens ({max_new_tokens}) is too large for effective_model_max_len ({effective_model_max_len}).")
#         input_max_len = effective_model_max_len // 4
#         if input_max_len <= 0: input_max_len = 64
#         print(f"Adjusted input_max_len to {input_max_len}. Output quality may be affected. Review max_new_tokens.")

#     inputs = tokenizer(input_text, return_tensors="pt", truncation=True, max_length=input_max_len).to(model.device)

#     prompt_token_length = inputs['input_ids'].shape[1]

#     stopping_criteria_obj = StopOnSpecificSequences(STOP_SEQUENCES_TOKEN_IDS, prompt_token_length)
#     stopping_criteria_list = StoppingCriteriaList([stopping_criteria_obj])

#     with torch.no_grad():
#         outputs = model.generate(
#             **inputs, # Contains input_ids and attention_mask
#             max_new_tokens=max_new_tokens,
#             temperature=0.1,
#             top_p=0.9,
#             do_sample=True, # Set to False for deterministic greedy output if preferred for JSON
#             pad_token_id=tokenizer.eos_token_id,
#             eos_token_id=tokenizer.eos_token_id,
#             stopping_criteria=stopping_criteria_list # Add stopping criteria here
#         )

#     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
#     response_marker = "### Response:"
#     if response_marker in response:
#         parts = response.split(response_marker, 1)
#         if len(parts) > 1:
#             response_text = parts[1].strip()
#         else:
#             response_text = response.replace(response_marker, "").strip()
#     else:
#         response_text = response.strip()
#         if not (response_text.startswith('{') and response_text.endswith('}')):
#                 print(f"⚠️ Warning: '### Response:' marker not found in raw model output: {response}")
#     return response_text


# def analyze_csv(csv_path, output_path):
#     import pandas as pd
#     expected_keys = [
#         "กล่าวสวัสดี", "แนะนำชื่อและนามสกุล",
#         "บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ",
#         "บอกวัตถุประสงค์ของการเข้าพบ", "เน้นประโยชน์ที่ลูกค้าได้รับ",
#         "บอกระยะเวลาที่ใช้ในการเข้าพบ"
#     ]

#     try:
#         df = pd.read_csv(csv_path)
#         # df = pd.read_csv(csv_path).head(5) # For testing
#     except FileNotFoundError:
#         print(f"❌ Error: Input CSV file not found at {csv_path}")
#         return
#     except Exception as e:
#         print(f"❌ Error reading CSV file {csv_path}: {e}")
#         return

#     results = []
#     # Ensure the 'audio' column exists, otherwise handle it gracefully
#     audio_data = []
#     has_audio_column = "audio" in df.columns

#     # Wrap the DataFrame iteration with tqdm for a progress bar
#     for idx, row in tqdm(df.iterrows(), total=len(df), desc="Processing sentences"):
#         sentence = row.get("sentence")
#         if has_audio_column:
#             audio_info = row.get("audio") # Get audio info
#         else:
#             audio_info = None # Or some default placeholder if the column might be missing

#         current_result_data = {key: None for key in expected_keys} # For model's analysis

#         if pd.isna(sentence):
#             # print(f"⚠️ Warning: Skipping row {idx} due to missing 'sentence'.") # This can be too verbose with tqdm
#             # Still append audio_info if available, and None for analysis keys
#             results.append(current_result_data)
#             if has_audio_column:
#                 audio_data.append(audio_info)
#             else:
#                 audio_data.append(None) # Match length if audio column is entirely missing
#             continue

#         prompt = (
#             "โปรดวิเคราะห์ประโยคภาษาไทยต่อไปนี้ แล้วตอบเป็น JSON object เท่านั้น โดยมีคีย์ต่อไปนี้ และมีค่าเป็น true หรือ false:\n"
#             "\"กล่าวสวัสดี\": (ประโยคมี'สวัสดี','สวัสดีค่ะ','สวัสดีครับ'หรือไม่)\n"
#             "\"แนะนำชื่อและนามสกุล\": (ประโยคมีการแนะนำชื่อและนามสกุลของผู้พูดและ ต้องเป็นชื่อจริงและนามสกุลเท่านั้น ถ้าบอกชื่อจริงอย่างเดียวไม่นับ)\n"
#             "\"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\": (ประโยคมีการกล่าวถึงประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุหรือไม่)\n"
#             "\"บอกวัตถุประสงค์ของการเข้าพบ\": (ประโยคมีการบอกวัตถุประสงค์หลักของการเข้าพบหรือไม่)\n"
#             "\"เน้นประโยชน์ที่ลูกค้าได้รับ\": (ประโยคมีการเน้นย้ำถึงประโยชน์ที่ลูกค้าจะได้รับหรือไม่)\n"
#             "\"บอกระยะเวลาที่ใช้ในการเข้าพบ\": (ประโยคมีการระบุระยะเวลาที่คาดว่าจะใช้ในการเข้าพบหรือไม่)\n\n"
#             "ตัวอย่างเช่น ถ้าประโยคคือ \"สวัสดีครับ ผมชื่อสมชาย สันติ มีใบอนุญาตเลขที่ 123 วันนี้มาเสนอประกันชีวิตเพื่อคุณครับ ใช้เวลายี่สิบนาที\" คำตอบควรเป็น:\n"
#             "{\n"
#             "   \"กล่าวสวัสดี\": true,\n"
#             "   \"แนะนำชื่อและนามสกุล\": true,\n"
#             "   \"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\": true,\n"
#             "   \"บอกวัตถุประสงค์ของการเข้าพบ\": true,\n"
#             "   \"เน้นประโยชน์ที่ลูกค้าได้รับ\": false,\n"
#             "   \"บอกระยะเวลาที่ใช้ในการเข้าพบ\": true\n"
#             "}\n\n"
#             "ตัวอย่างอีกอัน ถ้าประโยคคือ \"สวัสดีค่ะ คุณดล ฉันชื่อยาดา หรือเรียกว่าเสริมสุขก็ได้ค่ะวันนี้มาเพื่อคุยกับคุณ ใช้เวลาไม่นานนะคะ\" คำตอบควรเป็น:\n"
#             "{\n"
#             "   \"กล่าวสวัสดี\": true,\n"
#             "   \"แนะนำชื่อและนามสกุล\": false,\n"
#             "   \"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\": false,\n"
#             "   \"บอกวัตถุประสงค์ของการเข้าพบ\": false,\n"
#             "   \"เน้นประโยชน์ที่ลูกค้าได้รับ\": false,\n"
#             "   \"บอกระยะเวลาที่ใช้ในการเข้าพบ\": false\n"
#             "}\n\n"
#             "โปรดวิเคราะห์ประโยคนี้:\n"
#             f"\"{sentence}\""
#         )
#         response_text = generate_response(prompt, max_new_tokens=300)
#         # print(f"\n📎 Raw response for sentence at original index {idx}:\n{response_text}") # Too verbose with tqdm

#         json_str = extract_json_from_text(response_text)

#         if json_str is None:
#             print(f"❌ JSON not found in response for sentence at index {idx}. Raw response: '{response_text}'")
#         else:
#             try:
#                 extracted_data = json.loads(json_str)
#                 for key in expected_keys:
#                     if key in extracted_data:
#                         current_result_data[key] = extracted_data[key]
#                     else:
#                         print(f"⚠️ Warning: Expected key '{key}' not found in JSON for index {idx}. JSON: {json_str}")
#             except json.JSONDecodeError as e:
#                 print(f"❌ JSON decode error for sentence at index {idx}: {e}. Extracted string: '{json_str}'")

#         results.append(current_result_data)
#         if has_audio_column:
#             audio_data.append(audio_info)
#         else:
#             audio_data.append(None)


#     df_results = pd.DataFrame(results, columns=expected_keys)

#     # Insert original sentence at the beginning
#     if "sentence" in df.columns:
#         original_sentences_for_output = df["sentence"].iloc[:len(results)].reset_index(drop=True)
#         df_results.insert(1, "original_sentence", original_sentences_for_output)

#     if has_audio_column:
#         df_results.insert(0, "audio", audio_data[:len(df_results)]) # Insert after original_sentence
#     elif "audio" in df.columns and not has_audio_column: # Edge case: audio column was expected but not found
#         print("⚠️ Warning: 'audio' column was in the input dataframe's columns list but not processed. Adding a column of Nones.")
#         df_results.insert(0, "audio", [None] * len(df_results))


#     try:
#         df_results.to_csv(output_path, index=False, encoding='utf-8-sig')
#         print(f"✅ วิเคราะห์เสร็จแล้ว บันทึกผลที่: {output_path}")
#     except Exception as e:
#         print(f"❌ Error writing output CSV to {output_path}: {e}")


# # === MAIN ===
# if __name__ == "__main__":
#     input_csv_path = "/data/502507_pre/502507_pre/week4/test_monsoon.csv"
#     output_csv_path = "/data/ChunIjiREalserious/BIGG+400augnewprompt.csv" # Changed output filename
#     analyze_csv(input_csv_path, output_csv_path)

Loading model...


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Model loaded on cuda
Tokenizer model_max_length: 1000000000000000019884624838656
Model config max_position_embeddings: 131072


Processing sentences: 100%|██████████| 300/300 [1:16:15<00:00, 15.25s/it]

✅ วิเคราะห์เสร็จแล้ว บันทึกผลที่: /data/ChunIjiREalserious/BIGG+400augnewprompt.csv





In [None]:
# from transformers import AutoTokenizer, AutoModelForCausalLM, StoppingCriteria, StoppingCriteriaList # Added
# import torch
# import json
# import pandas as pd
# import re

# # === CONFIG ===
# model_path = "/data/ChunIjiREalserious/Fine/typhoon-gemma-finetuned/checkpoint-120"
# device = "cuda" if torch.cuda.is_available() else "cpu"

# # === LOAD MODEL ===
# print("Loading model...")
# tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=True)
# model = AutoModelForCausalLM.from_pretrained(
#     model_path,
#     torch_dtype=torch.bfloat16 if torch.cuda.is_available() and hasattr(torch.cuda, 'is_bf16_supported') and torch.cuda.is_bf16_supported() else torch.float32
# )
# model.to(device)
# model.eval()
# print("Model loaded on", device)

# print(f"Tokenizer model_max_length: {tokenizer.model_max_length}")
# if hasattr(model, 'config') and hasattr(model.config, 'max_position_embeddings'):
#     print(f"Model config max_position_embeddings: {model.config.max_position_embeddings}")
# else:
#     print("Model config max_position_embeddings not found.")

# class StopOnSpecificSequences(StoppingCriteria):
#     def __init__(self, stop_sequences_ids: list, prompt_len: int):
#         super().__init__()
#         self.stop_sequences_ids = stop_sequences_ids # List of tensors, each a tokenized stop sequence
#         self.prompt_len = prompt_len

#     def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
#         generated_ids = input_ids[:, self.prompt_len:]

#         if generated_ids.shape[1] == 0: # No tokens generated yet beyond the prompt
#             return False

#         for stop_seq_ids_tensor in self.stop_sequences_ids:
#             stop_seq_len = stop_seq_ids_tensor.shape[0]
#             if generated_ids.shape[1] >= stop_seq_len: # Ensure generated text is long enough for this stop sequence
#                 # Compare the end of generated_ids with the stop_sequence
#                 if torch.equal(generated_ids[0, -stop_seq_len:], stop_seq_ids_tensor.to(input_ids.device)):
#                     # print(f"Stopping criterion met: detected sequence ending with '{tokenizer.decode(stop_seq_ids_tensor)}'") # Optional: for debugging
#                     return True
#         return False

# STOP_STRINGS = ["\n### Query:", "\n### Response:", "\n### Instruction:"]
# STOP_SEQUENCES_TOKEN_IDS = [
#     tokenizer.encode(s, add_special_tokens=False, return_tensors="pt")[0]
#     for s in STOP_STRINGS
# ]
# STOP_SEQUENCES_TOKEN_IDS = [seq for seq in STOP_SEQUENCES_TOKEN_IDS if seq.nelement() > 0]


# # === HELPER FUNCTION ===
# def extract_json_from_text(text):
#     match = re.search(r'(\{.*?\})(?=\s|$)', text, re.DOTALL)
#     if match:
#         json_str = match.group(1)
#         json_str = re.sub(r'^```json\s*', '', json_str, flags=re.IGNORECASE)
#         json_str = re.sub(r'\s*```$', '', json_str)
#         return json_str.strip()
#     return None

# # === GENERATION FUNCTION ===
# def generate_response(prompt, max_new_tokens=256): # Default max_new_tokens
#     input_text = f"### Instruction:\n{prompt}\n\n### Response:\n"

#     effective_model_max_len = None
#     if hasattr(model, 'config') and hasattr(model.config, 'max_position_embeddings'):
#         effective_model_max_len = model.config.max_position_embeddings

#     if effective_model_max_len is None:
#         if tokenizer.model_max_length is not None and tokenizer.model_max_length < 100000:
#             effective_model_max_len = tokenizer.model_max_length
#             # print(f"ℹ️ Using tokenizer.model_max_length: {effective_model_max_len} as effective model max length.") # Less verbose

#     if effective_model_max_len is None:
#         default_fallback_len = 2048
#         print(f"⚠️ Warning: Could not determine a reliable model_max_length. Falling back to default: {default_fallback_len}.")
#         effective_model_max_len = default_fallback_len

#     input_max_len = effective_model_max_len - max_new_tokens

#     if input_max_len <= 0:
#         print(f"🔥 CRITICAL WARNING: max_new_tokens ({max_new_tokens}) is too large for effective_model_max_len ({effective_model_max_len}).")
#         input_max_len = effective_model_max_len // 4
#         if input_max_len <= 0: input_max_len = 64
#         print(f"Adjusted input_max_len to {input_max_len}. Output quality may be affected. Review max_new_tokens.")

#     inputs = tokenizer(input_text, return_tensors="pt", truncation=True, max_length=input_max_len).to(model.device)

#     prompt_token_length = inputs['input_ids'].shape[1]

#     stopping_criteria_obj = StopOnSpecificSequences(STOP_SEQUENCES_TOKEN_IDS, prompt_token_length)
#     stopping_criteria_list = StoppingCriteriaList([stopping_criteria_obj])

#     with torch.no_grad():
#         outputs = model.generate(
#             **inputs, # Contains input_ids and attention_mask
#             max_new_tokens=max_new_tokens,
#             temperature=0.1,
#             top_p=0.9,
#             do_sample=True, # Set to False for deterministic greedy output if preferred for JSON
#             pad_token_id=tokenizer.eos_token_id,
#             eos_token_id=tokenizer.eos_token_id,
#             stopping_criteria=stopping_criteria_list # Add stopping criteria here
#         )

#     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
#     response_marker = "### Response:"
#     if response_marker in response:
#         parts = response.split(response_marker, 1)
#         if len(parts) > 1:
#             response_text = parts[1].strip()
#         else: 
#             response_text = response.replace(response_marker, "").strip()
#     else:
#         response_text = response.strip()
#         if not (response_text.startswith('{') and response_text.endswith('}')):
#                 print(f"⚠️ Warning: '### Response:' marker not found in raw model output: {response}")
#     return response_text


# def analyze_csv(csv_path, output_path):
#     import pandas as pd
#     expected_keys = [
#         "กล่าวสวัสดี", "แนะนำชื่อและนามสกุล",
#         "บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ",
#         "บอกวัตถุประสงค์ของการเข้าพบ", "เน้นประโยชน์ที่ลูกค้าได้รับ",
#         "บอกระยะเวลาที่ใช้ในการเข้าพบ"
#     ]

#     try:
#         df = pd.read_csv(csv_path)
#         # df = pd.read_csv(csv_path).head(5) # For testing
#     except FileNotFoundError:
#         print(f"❌ Error: Input CSV file not found at {csv_path}")
#         return
#     except Exception as e:
#         print(f"❌ Error reading CSV file {csv_path}: {e}")
#         return

#     results = []
#     # Ensure the 'audio' column exists, otherwise handle it gracefully
#     audio_data = []
#     has_audio_column = "audio" in df.columns

#     for idx, row in df.iterrows():
#         sentence = row.get("sentence")
#         if has_audio_column:
#             audio_info = row.get("audio") # Get audio info
#         else:
#             audio_info = None # Or some default placeholder if the column might be missing

#         current_result_data = {key: None for key in expected_keys} # For model's analysis

#         if pd.isna(sentence):
#             print(f"⚠️ Warning: Skipping row {idx} due to missing 'sentence'.")
#             # Still append audio_info if available, and None for analysis keys
#             results.append(current_result_data)
#             if has_audio_column:
#                 audio_data.append(audio_info)
#             else:
#                 audio_data.append(None) # Match length if audio column is entirely missing
#             continue

#         prompt = (
#             "โปรดวิเคราะห์ประโยคภาษาไทยต่อไปนี้ แล้วตอบเป็น JSON object เท่านั้น โดยมีคีย์ต่อไปนี้ และมีค่าเป็น true หรือ false:\n"
#             "\"กล่าวสวัสดี\": (ประโยคมี'สวัสดี','สวัสดีค่ะ','สวัสดีครับ'หรือไม่)\n"
#             "\"แนะนำชื่อและนามสกุล\": (ประโยคมีการแนะนำชื่อและนามสกุลของผู้พูดและ ต้องเป็นชื่อจริงและนามสกุลเท่านั้น ถ้าบอกชื่อจริงอย่างเดียวไม่นับ)\n"
#             "\"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\": (ประโยคมีการกล่าวถึงประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุหรือไม่)\n"
#             "\"บอกวัตถุประสงค์ของการเข้าพบ\": (ประโยคมีการบอกวัตถุประสงค์หลักของการเข้าพบหรือไม่)\n"
#             "\"เน้นประโยชน์ที่ลูกค้าได้รับ\": (ประโยคมีการเน้นย้ำถึงประโยชน์ที่ลูกค้าจะได้รับหรือไม่)\n"
#             "\"บอกระยะเวลาที่ใช้ในการเข้าพบ\": (ประโยคมีการระบุระยะเวลาที่คาดว่าจะใช้ในการเข้าพบหรือไม่)\n\n"
#             "ตัวอย่างเช่น ถ้าประโยคคือ \"สวัสดีครับ ผมชื่อสมชาย สันติ มีใบอนุญาตเลขที่ 123 วันนี้มาเสนอประกันชีวิตเพื่อคุณครับ ใช้เวลายี่สิบนาที\" คำตอบควรเป็น:\n"
#             "{\n"
#             "  \"กล่าวสวัสดี\": true,\n"
#             "  \"แนะนำชื่อและนามสกุล\": true,\n"
#             "  \"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\": true,\n"
#             "  \"บอกวัตถุประสงค์ของการเข้าพบ\": true,\n"
#             "  \"เน้นประโยชน์ที่ลูกค้าได้รับ\": false,\n"
#             "  \"บอกระยะเวลาที่ใช้ในการเข้าพบ\": true\n"
#             "}\n\n"
#             "ตัวอย่างอีกอัน ถ้าประโยคคือ \"สวัสดีค่ะ คุณดล ฉันชื่อยาดา หรือเรียกว่าเสริมสุขก็ได้ค่ะวันนี้มาเสนอประกันชีวิตเพื่อคุณค่ะ ใช้เวลาไม่นานนะคะ\" คำตอบควรเป็น:\n"
#             "{\n"
#             "  \"กล่าวสวัสดี\": true,\n"
#             "  \"แนะนำชื่อและนามสกุล\": false,\n"
#             "  \"บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ\": false,\n"
#             "  \"บอกวัตถุประสงค์ของการเข้าพบ\": true,\n"
#             "  \"เน้นประโยชน์ที่ลูกค้าได้รับ\": false,\n"
#             "  \"บอกระยะเวลาที่ใช้ในการเข้าพบ\": false\n"
#             "}\n\n"
#             "โปรดวิเคราะห์ประโยคนี้:\n"
#             f"\"{sentence}\""
#         )
#         response_text = generate_response(prompt, max_new_tokens=300)
#         print(f"\n📎 Raw response for sentence at original index {idx}:\n{response_text}")

#         json_str = extract_json_from_text(response_text)

#         if json_str is None:
#             print(f"❌ JSON not found in response for sentence at index {idx}. Raw response: '{response_text}'")
#         else:
#             try:
#                 extracted_data = json.loads(json_str)
#                 for key in expected_keys:
#                     if key in extracted_data:
#                         current_result_data[key] = extracted_data[key]
#                     else:
#                         print(f"⚠️ Warning: Expected key '{key}' not found in JSON for index {idx}. JSON: {json_str}")
#             except json.JSONDecodeError as e:
#                 print(f"❌ JSON decode error for sentence at index {idx}: {e}. Extracted string: '{json_str}'")

#         results.append(current_result_data)
#         if has_audio_column:
#             audio_data.append(audio_info)
#         else:
#             audio_data.append(None)


#     df_results = pd.DataFrame(results, columns=expected_keys)

#     # Insert original sentence at the beginning
#     if "sentence" in df.columns:
#         original_sentences_for_output = df["sentence"].iloc[:len(results)].reset_index(drop=True)
#         df_results.insert(1, "original_sentence", original_sentences_for_output)

#     if has_audio_column:
#         df_results.insert(0, "audio", audio_data[:len(df_results)]) # Insert after original_sentence
#     elif "audio" in df.columns and not has_audio_column: # Edge case: audio column was expected but not found
#         print("⚠️ Warning: 'audio' column was in the input dataframe's columns list but not processed. Adding a column of Nones.")
#         df_results.insert(0, "audio", [None] * len(df_results))


#     try:
#         df_results.to_csv(output_path, index=False, encoding='utf-8-sig')
#         print(f"✅ วิเคราะห์เสร็จแล้ว บันทึกผลที่: {output_path}")
#     except Exception as e:
#         print(f"❌ Error writing output CSV to {output_path}: {e}")


# # === MAIN ===
# if __name__ == "__main__":
#     input_csv_path = "/data/502507_pre/502507_pre/week4/test20.csv"
#     output_csv_path = "/data/ChunIjiREalserious/Fine/2222Finallyoutput_fixed_v4.csv" # Changed output filename
#     analyze_csv(input_csv_path, output_csv_path)

Loading model...


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Model loaded on cuda
Tokenizer model_max_length: 1000000000000000019884624838656
Model config max_position_embeddings: 131072

📎 Raw response for sentence at original index 0:
{
  "กล่าวสวัสดี": false,
  "แนะนำชื่อและนามสกุล": false,
  "บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ": false,
  "บอกวัตถุประสงค์ของการเข้าพบ": true,
  "เน้นประโยชน์ที่ลูกค้าได้รับ": true,
  "บอกระยะเวลาที่ใช้ในการเข้าพบ": false
}

### Response:{"กล่าวสวัสดี": false, "แนะนำชื่อและนามสกุล": false, "บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ": false, "บอกวัตถุประสงค์ของการเข้าพบ": true, "เน้นประโยชน์ที่ลูกค้าได้รับ": true, "บอกระยะเวลาที่ใช้ในการเข้าพบ": false}

### Response:{"กล่าวสวัสดี": false, "แนะนำชื่อและนามสกุล": false, "บอกประเภทใบอนุญาตและเลขที่ใบอนุญาตที่ยังไม่หมดอายุ": false, "บอกวัตถุประสงค์ของการเข้าพบ": true, "เน้นประโยชน์ที่ลูกค้าได้รับ": true, "บอกระยะเวลาที่ใช้ในการเข้าพบ": false}

### Response:{"กล่าวสวัสดี": false, "แนะนำชื่อและนามสกุล": false, "บอกประเภทใบอนุญาตและเลขที่ใบอนุญา