<a href="https://colab.research.google.com/github/SaideLeon/AlyBlog/blob/main/Qwen3_TTS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ============================================
# Qwen3-TTS ‚Äî Clonagem de Voz com Interface em Portugu√™s
#
# Modelo: Qwen3-TTS-12Hz-1.7B-Base
# Fun√ß√£o: Voice Clone (Clonagem de Voz)
#
# Autor do tutorial base: 12.5 Tech
# Adapta√ß√£o PT + Voice Clone: ChatGPT
# ============================================
# Execute cada c√©lula sequencialmente

# ============================================
# C√âLULA 1: Instala√ß√£o das depend√™ncias
# ============================================
!pip install -q qwen-tts flash-attn --no-build-isolation gradio soundfile

# ============================================
# C√âLULA 2: Importa√ß√£o das bibliotecas
# ============================================
import torch
import soundfile as sf
import gradio as gr
from qwen_tts import Qwen3TTSModel

# ============================================
# C√âLULA 3: Carregamento do modelo de clonagem
# ============================================
print("Carregando modelo de clonagem de voz...")
model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)
print("Modelo carregado com sucesso!")

# ============================================
# C√âLULA 4: Fun√ß√£o de clonagem de voz
# ============================================
def clonar_voz(
    novo_texto,
    idioma,
    audio_referencia,
    texto_referencia
):
    """
    Clona a voz a partir de um √°udio de refer√™ncia
    """

    if not novo_texto.strip():
        # Returning None for audio output when there's an error in text input
        return None, "‚ùå Insira o texto que ser√° falado"

    if audio_referencia is None:
        # Returning None for audio output when there's an error in reference audio
        return None, "‚ùå Envie um √°udio de refer√™ncia"

    if not texto_referencia.strip():
        # Returning None for audio output when there's an error in reference text
        return None, "‚ùå Informe o texto falado no √°udio de refer√™ncia"

    try:
        # Gera√ß√£o da voz clonada
        wavs, sr = model.generate_voice_clone(
            text=novo_texto,
            language=idioma if idioma != "Auto" else "Auto",
            ref_audio=audio_referencia,
            ref_text=texto_referencia,
        )

        # Return audio data directly to Gradio
        return (wavs[0], sr), "‚úÖ Voz clonada com sucesso!"

    except Exception as e:
        # Returning None for audio output when an exception occurs
        return None, f"Erro: {str(e)}"

# ============================================
# C√âLULA 5: Interface Gradio (100% em portugu√™s)
# ============================================
with gr.Blocks(title="Clonagem de Voz ‚Äî Qwen3-TTS") as demo:
    gr.Markdown("# üéôÔ∏è Clonagem de Voz com IA (Qwen3-TTS)")
    gr.Markdown(
        "Clone uma voz real a partir de um √°udio curto e gere novas falas com alta fidelidade."
    )
    gr.Markdown(" sali√≥")

    with gr.Row():
        with gr.Column():
            # Texto que ser√° falado pela voz clonada
            novo_texto = gr.Textbox(
                label="üìù Texto a ser falado",
                placeholder="Digite aqui o novo texto que a voz clonada ir√° falar...",
                lines=4
            )

            # Idioma
            idioma = gr.Dropdown(
                choices=[
                    "Auto", "Chinese", "English", "Japanese", "Korean",
                    "German", "French", "Russian", "Portuguese", "Spanish", "Italian"
                ],
                value="Auto",
                label="üåç Idioma"
            )

            gr.Markdown("### üéß √Åudio de refer√™ncia (voz original)")

            # Upload do √°udio de refer√™ncia
            audio_referencia = gr.Audio(
                label="√Åudio de refer√™ncia",
                type="filepath"
            )

            # Texto falado no √°udio de refer√™ncia
            texto_referencia = gr.Textbox(
                label="üìÑ Texto falado no √°udio",
                placeholder="Digite exatamente o que √© falado no √°udio enviado",
                lines=3
            )

            # Bot√£o
            gerar_btn = gr.Button(
                "üé§ Clonar voz e gerar √°udio",
                variant="primary",
                size="lg"
            )

        with gr.Column():
            # Change type to numpy to accept (audio_array, sample_rate) tuple
            audio_saida = gr.Audio(
                label="üîä √Åudio gerado",
                type="numpy"
            )
            status = gr.Textbox(
                label="Status",
                lines=2
            )

            # A√ß√£o do bot√£o
            gerar_btn.click(
                fn=clonar_voz,
                inputs=[novo_texto, idioma, audio_referencia, texto_referencia],
                outputs=[audio_saida, status]
            )

# ============================================
# Inicializa√ß√£o da aplica√ß√£o
# ============================================
demo.launch(share=True, debug=True)

In [None]:
# Install SoX to handle audio processing dependencies
!apt-get update && apt-get install -y sox