In [None]:
import os
import torch
import librosa
import jiwer
from transformers import WhisperProcessor, WhisperForConditionalGeneration

# Định nghĩa đường dẫn dữ liệu
AUDIO_FOLDER = "./test/data"
TRANSCRIPT_FILE = "./transcriptAll.txt"
RESULT_FILE = "./transcript_result.txt"
FINETUNED_MODEL_PATH = "./whisper_finetuned"

# Load processor và mô hình đã fine-tune
processor = WhisperProcessor.from_pretrained(FINETUNED_MODEL_PATH)
model = WhisperForConditionalGeneration.from_pretrained(FINETUNED_MODEL_PATH)
model.to("cuda" if torch.cuda.is_available() else "cpu")
model.eval()

# Đọc transcript chuẩn
ground_truths = {}
with open(TRANSCRIPT_FILE, "r", encoding="utf-8") as f:
    for line in f:
        parts = line.strip().split(" | ")
        if len(parts) == 2:
            filename, transcript = parts
            ground_truths[filename.lower()] = transcript.strip().lower()

# Sắp xếp file audio theo tên
audio_files = sorted([f for f in os.listdir(AUDIO_FOLDER) if f.endswith(".mp3")])

# Khởi tạo danh sách để tính WER
hypotheses = []
references = []
results = []

# Xử lý từng file âm thanh
for audio_file in audio_files:
    file_path = os.path.join(AUDIO_FOLDER, audio_file)
    
    # Load âm thanh
    audio, sr = librosa.load(file_path, sr=16000)
    input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features.to(model.device)

    # Dự đoán transcript
    with torch.no_grad():
        predicted_ids = model.generate(input_features)
    
    # Giải mã transcript và chuyển về lowercase
    predicted_text = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0].strip().lower()
    
    # Kiểm tra có ground truth không
    if audio_file.lower() in ground_truths:
        reference_text = ground_truths[audio_file.lower()]
        if reference_text and predicted_text:
            references.append(reference_text)
            hypotheses.append(predicted_text)
    else:
        print(f"⚠️ Warning: No reference transcript for {audio_file}")

    # Ghi kết quả vào danh sách
    results.append(f"{audio_file} | {predicted_text}")

# Ghi kết quả vào file transcript_result.txt
with open(RESULT_FILE, "w", encoding="utf-8") as f:
    f.write("\n".join(results))

# Tính toán WER nếu có dữ liệu hợp lệ
if references and hypotheses:
    print("🔹 Tính toán WER...")
    wer_score = jiwer.wer(references, hypotheses)
    print(f"🔥 Word Error Rate (WER): {wer_score:.2%}")
else:
    print("⚠️ Không có dữ liệu hợp lệ để tính WER.")
