ใช้โมเดล VIZINTZOR/F5-TTS-THAI

In [None]:
!pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
!pip install transformers pipeline f5-tts

In [None]:
# ================================
# Thai Text-to-Speech (F5-TTS-THAI)
# ================================

from f5_tts_th.tts import TTS
import soundfile as sf
from IPython.display import Audio, display

# ----------------
# 1. โหลดโมเดล TTS
# ----------------
print("Loading TTS model...")
tts = TTS()
print("Model loaded successfully!")

# ----------------------------------------
# 2. ตั้งค่าไฟล์เสียงอ้างอิง (Voice Clone)
# ----------------------------------------
REFERENCE_AUDIO = "/content/voice4.webm"
REFERENCE_TEXT = "เชื่อว่าหลายๆคนต้องเคยเจอ"

# ------------------------------------------------
# 3. ฟังก์ชันสร้างเสียงภาษาไทยจากข้อความ
# ------------------------------------------------
def generate_thai_voice(
    text_to_speak,
    output_filename="newvoice2.wav",
    sample_rate=24000  # vocoder = vocos-mel-24khz
):
    print(f"\nกำลังสร้างเสียงสำหรับประโยค:\n{text_to_speak}\n")

    try:
        # F5-TTS-THAI infer() คืนค่าเป็น wav อย่างเดียว
        wav = tts.infer(
            REFERENCE_AUDIO,
            REFERENCE_TEXT,
            text_to_speak
        )

        # บันทึกไฟล์เสียง
        sf.write(output_filename, wav, sample_rate)

        print(f"✅ สร้างไฟล์เสียงสำเร็จ: {output_filename}")
        return True

    except Exception as e:
        print(f"❌ เกิดข้อผิดพลาดในการสร้างเสียง: {e}")
        return False

# -----------------------------
# 4. ข้อความที่ต้องการให้พูด
# -----------------------------
my_text = (
    "อากาศสดชื่น ธรรมชาติอุดมสมบูรณ์ รุ่งรวยวัฒนธรรม ท่ามกลางโลกสมัยใหม่ที่พัฒนาอย่างรวดเร็ว"
)

# -----------------------------
# 5. สร้างเสียง + เล่นเสียง
# -----------------------------
if generate_thai_voice(my_text):
    display(Audio("newvoice2.wav"))


Loading TTS model...
Load TTS model :  /root/.cache/huggingface/hub/models--VIZINTZOR--F5-TTS-THAI/snapshots/af023c707f4208e5fc1fce59c1fd1501cfc3fc22/model_1000000.pt 

Load Vocoder : charactr/vocos-mel-24khz
Model loaded successfully!

กำลังสร้างเสียงสำหรับประโยค:
อากาศสดชื่น ธรรมชาติอุดมสมบูรณ์ รุ่งรวยวัฒนธรรม ท่ามกลางโลกสมัยใหม่ที่พัฒนาอย่างรวดเร็ว

Converting audio...
Using custom reference text...

ref_text   เชื่อว่าหลายๆคนต้องเคยเจอ. 
gen_text 0 อากาศสดชื่น ธรรมชาติอุดมสมบูรณ์ รุ่งรวยวัฒนธรรม ท่ามกลางโลกสมัยใหม่ที่พัฒนาอย่างรวดเร็ว


Generating audio in 1 batches...


100%|██████████| 1/1 [00:02<00:00,  2.42s/it]

✅ สร้างไฟล์เสียงสำเร็จ: newvoice2.wav





In [None]:
# ================================
# Thai Text-to-Speech (F5-TTS-THAI)
# ================================

from f5_tts_th.tts import TTS
import soundfile as sf
from IPython.display import Audio, display

# ----------------
# 1. โหลดโมเดล TTS
# ----------------
print("Loading TTS model...")
tts = TTS()
print("Model loaded successfully!")

# ----------------------------------------
# 2. ตั้งค่าไฟล์เสียงอ้างอิง (Voice Clone)
# ----------------------------------------
REFERENCE_AUDIO = "/content/voice4.webm"
REFERENCE_TEXT = "เชื่อว่าหลายๆคนต้องเคยเจอ"

# ------------------------------------------------
# 3. ฟังก์ชันสร้างเสียงภาษาไทยจากข้อความ
# ------------------------------------------------
def generate_thai_voice(
    text_to_speak,
    output_filename="newvoice3.wav",
    sample_rate=24000  # vocoder = vocos-mel-24khz
):
    print(f"\nกำลังสร้างเสียงสำหรับประโยค:\n{text_to_speak}\n")

    try:
        # F5-TTS-THAI infer() คืนค่าเป็น wav อย่างเดียว
        wav = tts.infer(
            REFERENCE_AUDIO,
            REFERENCE_TEXT,
            text_to_speak
        )

        # บันทึกไฟล์เสียง
        sf.write(output_filename, wav, sample_rate)

        print(f"✅ สร้างไฟล์เสียงสำเร็จ: {output_filename}")
        return True

    except Exception as e:
        print(f"❌ เกิดข้อผิดพลาดในการสร้างเสียง: {e}")
        return False

# -----------------------------
# 4. ข้อความที่ต้องการให้พูด
# -----------------------------
my_text = (
    "จากหญิงงามที่ถูกบังคับแต่งให้คนใกล้ตาย..."
    "สู่คู่ครองที่ร่วมใจกันเขียนประวัติศาสตร์หน้าใหม่"
    "เมื่อรูปโฉมงดงามของ ‘กู้เจี้ยนหลี’ กลับคืนมา"
    "แต่ภัยจากราชบัลลังก์ที่กำลังจะลุกเป็นไฟกลับคืบคลานเข้ามาใกล้"
    "ยามที่ทุกฝ่ายต่างชิงไหวชิงพริบเพื่อครองอำนาจสูงสุด"
    "จีอู๋จิ้ง... ท่านอาผู้โหดเหี้ยมกลับมีแผนการลับ..."
    "เขาจะใช้ฝีมือและเล่ห์กลทั้งหมดเพื่อให้ภรรยาที่รักได้สมหวัง"

สองสามีภรรยาผนึกกำลังเป็นหนึ่งเดียว ร่วมกันวางหมากให้จักรพรรดิองค์น้อยครองบัลลังก์
แลกกับชีวิตเรียบง่ายไร้พันธนาการที่รอคอยพวกเขาอยู่..."
)

# -----------------------------
# 5. สร้างเสียง + เล่นเสียง
# -----------------------------
if generate_thai_voice(my_text):
    display(Audio("newvoice3.wav"))


Loading TTS model...
Load TTS model :  /root/.cache/huggingface/hub/models--VIZINTZOR--F5-TTS-THAI/snapshots/af023c707f4208e5fc1fce59c1fd1501cfc3fc22/model_1000000.pt 

Load Vocoder : charactr/vocos-mel-24khz
Model loaded successfully!

กำลังสร้างเสียงสำหรับประโยค:
จากหญิงงามที่ถูกบังคับแต่งให้คนใกล้ตาย...
    สู่คู่ครองที่ร่วมใจกันเขียนประวัติศาสตร์หน้าใหม่...
    เมื่อรูปโฉมงดงามของ ‘กู้เจี้ยนหลี’ กลับคืนมา,
    แต่ภัยจากราชบัลลังก์ที่กำลังจะลุกเป็นไฟ...
    กลับคืบคลานเข้ามาใกล้...
    ยามที่ทุกฝ่ายต่างชิงไหวชิงพริบ,
    เพื่อครองอำนาจสูงสุด...
    จีอู๋จิ้ง...
    ท่านอาผู้โหดเหี้ยม,
    กลับมีแผนการลับ...
    เขาจะใช้ฝีมือและเล่ห์กลทั้งหมด,
    เพื่อให้ภรรยาที่รักได้สมหวัง...
    สองสามีภรรยาผนึกกำลังเป็นหนึ่งเดียว,
    ร่วมกันวางหมาก,
    ให้จักรพรรดิองค์น้อยครองบัลลังก์...
    แลกกับชีวิตเรียบง่าย,
    ไร้พันธนาการ,
    ที่รอคอยพวกเขาอยู่...

Converting audio...
Using custom reference text...

ref_text   เชื่อว่าหลายๆคนต้องเคยเจอ. 
gen_text 0 จากหญิงงามที่ถูกบังคับแต่งให้คนใกล้ต

100%|██████████| 5/5 [00:12<00:00,  2.55s/it]

✅ สร้างไฟล์เสียงสำเร็จ: newvoice3.wav



