In [2]:
import os
import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

print("Loading model...")
model = Qwen3TTSModel.from_pretrained(
    "./Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)
print("Model loaded.")

ref_audio = "./samples/ATR_b101_020.wav"
ref_text  = "さっき、海の中で出逢った時から、そんな気がしていました。やっぱりそうだったんですね。"

print("Creating prompt...")
prompt_items = model.create_voice_clone_prompt(
    ref_audio=ref_audio,
    ref_text=ref_text,
    x_vector_only_mode=False,
)
print("Prompt created.")

wavs, sr = model.generate_voice_clone(
    text="その時から十数年が経ってしまいましたが、夏の暑さ、蝉のうるさい鳴き声、そして川の水の清らかな冷たさはすべて私の心に残っています。",
    language="japanese",
    voice_clone_prompt=prompt_items,
)

print("Sample Rate:", sr, "Hz")
os.makedirs("dist", exist_ok=True)
sf.write("dist/ATR_0.wav", wavs[0], sr)

Loading model...
Model loaded.
Creating prompt...


Setting `pad_token_id` to `eos_token_id`:2150 for open-end generation.


Prompt created.
Sample Rate: 24000 Hz


In [3]:
wavs, sr = model.generate_voice_clone(
    text=[
        "あの頃、私はよく仲間達と一緒に遊びに出かけました。",
        "例えば、小川でカニを捕まえたり、田んぼのそばでザリガニを捉えたり、遠くまでアイスクリームを買いに走ったりしたのでした。"
    ],
    language="japanese",
    voice_clone_prompt=prompt_items,
)
sf.write("dist/ATR_1.wav", wavs[0], sr)
sf.write("dist/ATR_2.wav", wavs[1], sr)

Setting `pad_token_id` to `eos_token_id`:2150 for open-end generation.
