# D√©monstration avanc√©e Qwen3-TTS 1.7B
## Conception de voix, contr√¥le par instructions et clonage vocal

Ce notebook pr√©sente les fonctionnalit√©s avanc√©es des mod√®les Qwen3-TTS 1.7B.

**GPU requis** : Ex√©cution > Modifier le type d'ex√©cution > GPU (T4 ou sup√©rieur)

## 1 - Installation et configuration

In [None]:
!pip install -U qwen-tts soundfile -q
!pip install flash-attn --no-build-isolation -q

In [None]:
import torch
import soundfile as sf
import os
from IPython.display import Audio, display, Markdown
print(f"PyTorch : {torch.__version__}")
print(f"CUDA disponible : {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU : {torch.cuda.get_device_name(0)}")
os.makedirs("audio_outputs", exist_ok=True)
try:
    import flash_attn
    ATTN_IMPL = "flash_attention_2"
    print("Flash Attention 2 disponible")
except ImportError:
    ATTN_IMPL = "eager"
    print("Flash Attention non disponible")

In [None]:
def play_audio(wav, sr, filename=None, title=None):
    if filename:
        sf.write(f"audio_outputs/{filename}.wav", wav, sr)
    if title:
        display(Markdown(f"**{title}**"))
    display(Audio(wav, rate=sr))

## PARTIE 1 : Conception de voix (VoiceDesign)

In [None]:
from qwen_tts import Qwen3TTSModel
torch.cuda.empty_cache()
print("Chargement du mod√®le VoiceDesign...")
voice_design_model = Qwen3TTSModel.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign", device_map="cuda:0", dtype=torch.bfloat16, attn_implementation=ATTN_IMPL)
print("Mod√®le VoiceDesign charg√© !")

In [None]:
print("G√©n√©ration : Voix de fille anim√© mignonne")
wavs, sr = voice_design_model.generate_voice_design(
    text="Coucou tout le monde ! Je suis tellement contente de vous rencontrer aujourd'hui ! On va bien s'amuser ensemble !",
    language="French",
    instruct="Voix f√©minine jeune, environ 16 ans, tr√®s mignonne et √©nergique. Aigu√´ avec un ton vif et joyeux. Parle avec enthousiasme, comme un personnage d'anim√©. Petites exclamations adorables."
)
play_audio(wavs[0], sr, "vd_01_fille_anime_fr", "Voix de fille anim√© mignonne")

In [None]:
print("G√©n√©ration : Voix de narrateur de documentaire")
wavs, sr = voice_design_model.generate_voice_design(
    text="Dans les profondeurs de l'oc√©an, l√† o√π la lumi√®re du soleil ne p√©n√®tre jamais, se cache un monde peupl√© de cr√©atures extraordinaires.",
    language="French",
    instruct="Voix masculine grave, 50-60 ans, baryton profond. Style narrateur documentaire fran√ßais. Parle lentement avec gravit√© et autorit√©. Pauses naturelles pour cr√©er du suspense."
)
play_audio(wavs[0], sr, "vd_02_narrateur_fr", "Narrateur de documentaire")

In [None]:
print("G√©n√©ration : Voix d'adolescent nerveux")
wavs, sr = voice_design_model.generate_voice_design(
    text="Euh, s-salut... Je me demandais si peut-√™tre... tu vois... si t'es pas trop occup√©e... on pourrait r√©viser ensemble ?",
    language="French",
    instruct="Voix masculine jeune, 17 ans, t√©nor. Nerveux et timide, voix l√©g√®rement tremblante. H√©sitations et pauses, tr√©buchant sur les mots avec b√©gaiements occasionnels."
)
play_audio(wavs[0], sr, "vd_03_ado_nerveux_fr", "Adolescent nerveux")

In [None]:
print("G√©n√©ration : Voix de m√©chant myst√©rieux")
wavs, sr = voice_design_model.generate_voice_design(
    text="Tu pensais pouvoir t'√©chapper ? Comme c'est d√©licieusement na√Øf. Le jeu ne fait que commencer.",
    language="French",
    instruct="Voix masculine mena√ßante, √¢ge moyen, grave et soyeuse. Parle lentement avec sous-entendus sinistres. Confiant et moqueur."
)
play_audio(wavs[0], sr, "vd_04_mechant_fr", "M√©chant myst√©rieux")

In [None]:
test_line = "Je n'arrive pas √† croire que √ßa se passe vraiment en ce moment."
voice_designs = [
    ("Enfant excit√©e", "Fille de 8 ans, voix tr√®s aigu√´ et excit√©e. Parle vite avec enthousiasme."),
    ("Adulte √©puis√©e", "Femme de 35 ans, fatigu√©e et exasp√©r√©e. Soupire, parle lentement."),
    ("Ancien choqu√©", "Homme de 70 ans, voix rauque, choqu√© et incr√©dule."),
    ("Ado sarcastique", "Fille de 16 ans, sarcasme qui d√©gouline. Monotone.")
]
print(f"Texte : {test_line}")
for i, (name, instruct) in enumerate(voice_designs):
    print(f"{name}")
    wavs, sr = voice_design_model.generate_voice_design(text=test_line, language="French", instruct=instruct)
    play_audio(wavs[0], sr, f"vd_05_meme_texte_fr_{i+1}")

In [None]:
# Voix fran√ßaises personnalis√©es - Personnages typiques
print("üá´üá∑ VOIX FRAN√áAISES PERSONNALIS√âES\n")

voix_francaises = [
    ("Bonjour √† tous, bienvenue dans mon cours de philosophie. Aujourd'hui, nous allons explorer la pens√©e de Descartes.",
     "Professeur universitaire fran√ßais, 55 ans, voix pos√©e et cultiv√©e. Style Sorbonne, articulation pr√©cise.",
     "Professeur"),
    ("Bonjour ! Qu'est-ce que je vous sers aujourd'hui ? Les croissants sont tout frais, ils sortent du four !",
     "Boulang√®re parisienne, 45 ans, chaleureuse et dynamique. Accent francilien, accueillante.",
     "Boulang√®re"),
    ("Suivez-moi, je vais vous faire d√©couvrir les secrets de ce magnifique ch√¢teau de la Loire.",
     "Guide touristique passionn√©e, 35 ans, cultiv√©e et enthousiaste. Voix claire et engageante.",
     "Guide"),
    ("Mesdames et messieurs, votre attention s'il vous pla√Æt. Le train √† destination de Marseille va entrer en gare.",
     "Annonceur SNCF, voix masculine professionnelle, claire et neutre. Diction parfaite.",
     "Annonceur"),
]

for text, instruct, title in voix_francaises:
    print(f"--- {title} ---")
    wavs, sr = voice_design_model.generate_voice_design(text=text, language="French", instruct=instruct)
    play_audio(wavs[0], sr, f"vd_06_voix_fr_{title.lower()}")

## PARTIE 2 : Contr√¥le par instructions (CustomVoice)

In [None]:
torch.cuda.empty_cache()
print("Chargement du mod√®le CustomVoice 1.7B...")
custom_voice_model = Qwen3TTSModel.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice", device_map="cuda:0", dtype=torch.bfloat16, attn_implementation=ATTN_IMPL)
print("Mod√®le CustomVoice 1.7B charg√© !")
print(f"Locuteurs disponibles : {', '.join(custom_voice_model.get_supported_speakers())}")

In [None]:
emotion_text = "Je viens d'apprendre ce qui s'est pass√© hier."
speaker = "Serena"
emotions = [
    ("Joyeuse", "Ton tr√®s joyeux et excit√©"),
    ("Triste", "Triste et m√©lancolique, voix l√©g√®rement bris√©e"),
    ("En col√®re", "En col√®re et frustr√©e, parlant avec force"),
    ("Apeur√©e", "Effray√©e et anxieuse, voix tremblante"),
    ("Neutre", "")
]
print(f"Texte : {emotion_text}")
for emotion_name, instruct in emotions:
    print(f"{emotion_name}")
    wavs, sr = custom_voice_model.generate_custom_voice(text=emotion_text, language="French", speaker=speaker, instruct=instruct)
    play_audio(wavs[0], sr, f"cv_01_emotion_fr_{emotion_name.lower().replace(' ', '_')}")

In [None]:
style_text = "S'il vous pla√Æt, faites silence, le b√©b√© dort."
speaker = "Serena"
styles = [
    ("Chuchotement", "Chuchotant tr√®s doucement et silencieusement"),
    ("Fort", "Parlant fort et clairement, projetant la voix"),
    ("Rapide", "Parlant tr√®s vite, rythme press√©"),
    ("Lent", "Parlant tr√®s lentement et d√©lib√©r√©ment"),
    ("Dramatique", "Tr√®s dramatique et th√©√¢tral")
]
print(f"Texte : {style_text}")
for style_name, instruct in styles:
    print(f"{style_name}")
    wavs, sr = custom_voice_model.generate_custom_voice(text=style_text, language="French", speaker=speaker, instruct=instruct)
    play_audio(wavs[0], sr, f"cv_02_style_fr_{style_name.lower()}")

In [None]:
roleplay_scenarios = [
    ("Uncle_Fu", "Bienvenue √† ce match de championnat ! La tension ici est absolument √©lectrique !", "Commentateur sportif, tr√®s √©nergique et excit√©", "Commentateur"),
    ("Serena", "Notre chiffre d'affaires trimestriel a augment√© de quinze pour cent.", "Pr√©sentation professionnelle, confiante et claire", "Presentatrice"),
    ("Uncle_Fu", "Et alors le dragon s'est retourn√© vers notre groupe... lancez les d√©s !", "Ma√Ætre du donjon, myst√©rieux et dramatique", "Donjon"),
    ("Serena", "La recette du jour, c'est une d√©licieuse omelette au riz !", "Animatrice cuisine joyeuse et chaleureuse", "Cuisine")
]
print("SC√âNARIOS DE JEU DE R√îLE")
for speaker, text, instruct, title in roleplay_scenarios:
    print(f"{title} - {speaker}")
    wavs, sr = custom_voice_model.generate_custom_voice(text=text, language="French", speaker=speaker, instruct=instruct)
    play_audio(wavs[0], sr, f"cv_03_scenario_fr_{title.lower()}")

## PARTIE 3 : Clonage vocal (Base)

In [None]:
torch.cuda.empty_cache()
print("Chargement du mod√®le Base (clonage vocal)...")
clone_model = Qwen3TTSModel.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-Base", device_map="cuda:0", dtype=torch.bfloat16, attn_implementation=ATTN_IMPL)
print("Mod√®le Base charg√© !")

In [None]:
# IMPORTANT : Remplacez par votre propre fichier audio
ref_audio_url = "/content/votre_audio_reference.mp3"
ref_text = "Ceci est la transcription exacte de ce qui est dit dans votre audio de r√©f√©rence."
print(f"Audio de r√©f√©rence : {ref_audio_url}")
new_texts = [
    "Bonjour, ceci est un test de clonage vocal en fran√ßais.",
    "Le temps aujourd'hui est magnifique, il fait beau et chaud.",
    "Cette technologie de clonage vocal est vraiment impressionnante."
]
for i, text in enumerate(new_texts):
    print(f"G√©n√©ration : {text}")
    wavs, sr = clone_model.generate_voice_clone(text=text, language="French", ref_audio=ref_audio_url, ref_text=ref_text)
    play_audio(wavs[0], sr, f"clone_01_echantillon_fr_{i+1}")

## PARTIE 4 : Conception puis Clonage

In [None]:
torch.cuda.empty_cache()
print("Chargement du mod√®le VoiceDesign...")
design_model = Qwen3TTSModel.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign", device_map="cuda:0", dtype=torch.bfloat16, attn_implementation=ATTN_IMPL)
print("Mod√®le VoiceDesign charg√© !")

In [None]:
print("√âTAPE 1 : Concevoir la voix du personnage")
character_instruct = "Homme, √¢ge environ 70 ans, voix grave et rocailleuse avec sagesse. Parle lentement et pensivement. Chaleureux mais autoritaire."
reference_text = "Ah, jeune apprenti, tu cherches la connaissance des arts anciens. Tr√®s bien, je vais t'enseigner les secrets de la magie."
ref_wavs, sr = design_model.generate_voice_design(text=reference_text, language="French", instruct=character_instruct)
sf.write("audio_outputs/sorcier_reference.wav", ref_wavs[0], sr)
print("Audio de r√©f√©rence g√©n√©r√© !")
play_audio(ref_wavs[0], sr, title="Voix du vieux sorcier")

In [None]:
torch.cuda.empty_cache()
print("√âTAPE 2 : Cr√©er le clone vocal du sorcier")
clone_model = Qwen3TTSModel.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-Base", device_map="cuda:0", dtype=torch.bfloat16, attn_implementation=ATTN_IMPL)
sorcier_prompt = clone_model.create_voice_clone_prompt(ref_audio=(ref_wavs[0], sr), ref_text=reference_text)
print("Prompt vocal du sorcier cr√©√© avec succ√®s !")

In [None]:
print("√âTAPE 3 : G√©n√©rer les dialogues du sorcier")
dialogues_sorcier = [
    "Le chemin de la magie est long et p√©rilleux, mon enfant.",
    "En sept cents ans de vie, j'ai appris que la patience est la plus grande des vertus.",
    "M√©fie-toi de la for√™t sombre qui se trouve √† l'est du royaume.",
    "Tu as bien travaill√© aujourd'hui, jeune apprenti. Je suis fier de toi.",
    "Maintenant, commen√ßons ton entra√Ænement aux arts mystiques."
]
for i, replique in enumerate(dialogues_sorcier):
    print(f"R√©plique {i+1} : {replique}")
    wavs, sr = clone_model.generate_voice_clone(text=replique, language="French", voice_clone_prompt=sorcier_prompt)
    play_audio(wavs[0], sr, f"sorcier_replique_fr_{i+1}")

## T√©l√©chargement des fichiers

In [None]:
import shutil
from google.colab import files
shutil.make_archive("qwen3_tts_outputs_fr", "zip", "audio_outputs")
print("Fichiers compress√©s !")
for f in sorted(os.listdir("audio_outputs")):
    if f.endswith(".wav"):
        print(f"  {f}")
files.download("qwen3_tts_outputs_fr.zip")